yd1
当前位置: 钢企网 -> 要闻

让机器人玩猫捉老鼠,清华类脑芯片再登国际顶刊Science:160核、1

来源:IT之家   发布时间:2022-06-18 09:40    阅读量:8101   

东西6月17日报道本周四上午,国际顶级学术期刊《科学》公布了清华大学神经拟态芯片的最新研究成果。

2019年8月,史教授团队研发的全球首款异构融合类脑计算芯片天空运动登上国际顶级学术期刊《自然》封面,并展示了这款芯片如何驱动自动驾驶自行车实现自动控制平衡,识别语音命令,检测前方行人,自动避障。

这一成果被当时的《自然》主编Skipper博士誉为人工智能领域的重要里程碑,成为2019年科学界的研究热点之一。

这一次,在以前工作的基础上,该团队开发了一种28纳米神经模拟芯片,命名为TianjicX。

天机cX的峰值动态能效为3.2TOPS/W,片上存储带宽为5.12tb/s,单位面积计算能力高达0.2TOPS/mm2,支持计算资源的自适应分配和各任务执行时间的调度。

研究团队构建了搭载该芯片的多智能任务移动机器人天机猫,并将其设计成一只猫,参与猫捉老鼠的游戏。

实验结果表明,与NVIDIA Jetson TX2相比,在天机cX上运行多个网络的延迟大幅降低约98.74%,动态功耗降低50.66%。

笔者认为,天机cX为移动智能机器人计算硬件的研发开辟了一条新的路径,使其能够低延迟,低功耗地在本地执行密集复杂的任务,支持多种跨计算范式神经网络模型以多种协调方式在机器人中并行执行。

地址:doi:10.1126/sci robotics . abk 2948

1.设计移动智能机器人的硬件必须满足三个核心要求。

移动机器人的长远目标是在处理复杂未知环境时达到接近人类水平的智能。

最近几年来,伴随着人工智能的快速发展,各种神经网络算法被广泛应用于机器人中神经网络算法通常是计算密集型的为了在移动机器人上高效实现各种神经网络,创新计算机硬件和高效计算显得尤为必要

1.需要低延迟地支持多个神经模型的本地并发执行,这是提高实时处理能力的关键。

2.在处理动态场景时,必须灵活部署多个模型,以实现低延迟,高效率和高并发性之间的平衡。

3.为了在开放环境中实现高硬件利用率和适应性,必须支持异步执行和灵活交互。

可是,现有的计算硬件解决方案在满足这些要求时面临不同的困难由于底层架构或执行模型的固有瓶颈,现有的计算硬件无法在本地实现很多低延迟,高效率的密集型算法

通用处理器通常无法提供大规模并行计算,导致机器人系统执行神经网络时成本低,功耗高图形处理器具有很强的可编程性和高并行性,但频繁的片外内存访问和与CPU的交互导致其功耗高,利用率低

最近几年来,世界上出现了许多性能大大提高的AI计算硬件基于FPGA和特定应用设计的深度学习加速器可以通过定制的架构优化提供更高效的加速

这些加速器基于传统的冯诺依曼架构,但伴随着神经网络多样性和多任务性的显著增加,其硬件利用率和调度灵活性将面临巨大挑战,难以同时在机器人中实现许多不同的高性能算法。

相比之下,非冯诺依曼架构的神经拟态芯片是同时执行多个神经网络模型的更好选择。

目前,神经拟态芯片通常采用预先配置内核的方式,通过空间切片来流水线化神经网络每个内核在不同的执行周期重复执行预配置操作,导致资源分配不灵活,资源利用率不足

因此,清华大学的研究人员开发了一种神经模拟芯片TianjicX。

天基信芯片

芯片在任务执行和协作过程中具有时空灵活性,即硬件具有自适应分配任务的计算资源和执行时间的能力。

2.三个关键层次的拆卸:架构,芯片和机器人系统。

天机cX可以实现跨计算范式的神经网络模型的真正并发执行,包括神经网络,脉冲神经网络及其混合,应用于多智能任务机器人。

为多智能任务机器人设计计算硬件面临两个关键挑战:一是满足延迟并发的性能要求,尤其是不同神经网络实现的性能要求,第二,在支持任务间交互的同时,保持每个任务的独立执行不受干扰。

为了克服这些挑战,研究人员从架构,芯片和模型部署等不同层面进行了一系列设计。

面向多任务机器人的仿神经计算平台

多任务机器人神经拟态计算平台的关键设计包括三个层次:1)溪流执行模型,2)专用编译器的天机cX芯片,3)基于天机cX的机器人系统。

1.架构:设计溪流执行模型。

研究人员首先开发了Rivulet执行模型,通过可配置的原语序列和同步—异步混合执行机制来解决效率,灵活性和适应性之间的关键冲突,从而弥合机器人需求和具体硬件实现之间的差距。

Rivulet模型抽象了神经网络的基本执行活动,将神经网络和SNN统一为静态数据和动态数据,为资源分配和任务调度提供了一个具体的可操作和可描述的实体。

在此基础上,研究团队构建了时空切片相结合的资源模型来管理多个小流,并通过虚拟分组以同步—异步混合分组的方式设计了小流的实现,可以支持多个独立或交互的小流。

小溪执行模型的解释

该模型为天机芯片的架构奠定了基础。

2.芯片:28纳米工艺,160个FCore内核。

为了有效地实现流模型,计算硬件需要支持高效的多流执行,核心进程控制,虚拟分组以及流之间的通信,调制和相互调度。

在这方面,研究人员开发了一种基于28纳米互补金属氧化物半导体的神经模拟芯片TianjicX。

该芯片集成了160个可配置的跨计算范式核心,大规模并行计算单元和丰富的片上存储,采用非冯诺依曼高度并行多核分布式架构,满足Rivulet的运算要求。

天基信硬件架构

为了支持高效的跨范式计算和灵活的可编程性和调度能力,研究人员从生物神经元中汲取灵感,设计了具有统一功能核心的微架构在内核中,平衡计算和调度的专用控制器本地管理每个内核,从而提高通用性和效率

研究人员还设计了具有多精度计算的统一原语指令集,以支持人工神经网络,SNN和交叉建模的高可编程性和通用性,并进一步将原语划分到不同的硬件模块中,以确保硬件资源的最大共享。

此外,通过核心的事件驱动设计和多级分组,不同的神经网络可以根据环境的动态变化异步执行和全局交互研究团队还进一步开发了使用时空映射方法部署模型的编译器栈,充分利用了天机cX的灵活性,可以根据不同场景的实际需求灵活配置多个任务

编译器堆栈包含转换器,映射器和代码生成器。

3.机器人系统:可以实时完成很多智能任务。

天机cX芯片可以提高机器人在复杂动态环境下处理多用途,多智能任务的能力。

具体来说,灵活的资源分配可以提高硬件利用率,满足机器人不同的性能需求独立的执行上下文使机器人能够并发和异步地执行多个任务,支持任务间的交互,可以保证机器人多个模块的顺利协作

研究团队制作了一个配备了天机cX芯片和多模态传感器的移动机器人天机猫,并设计了一个天机猫扮演猫的猫鼠游戏。

通过实现不同的神经网络和SNN模型,机器人可以实时完成许多任务,如语音识别,声源定位,目标检测和识别,避障和决策。

03.详细解释一下芯片特性,还有《捉迷藏》中的能效超过英伟达TX2。

天机cX芯片采用UMC 28nm高性能紧凑型CMOS工艺,FBGA—225封装芯片的物理布局如下图所示

天机cX芯片的芯片布局,FCore核心区和FCore核心区划分

该芯片包括160 FCore和一个用于片间通信的高速串行化/去串行化接口该控制器仅占用FCore面积的1%左右,但它显著提高了任务执行和交互的灵活性和效率核心存储模块由五个静态随机存取存储器(SRAM)模块组成,总容量为144千字节通过高位宽并行读写访问接口,在400MHz时钟频率下,整个芯片的存储器访问带宽可以达到5.12tb/s

天基信芯片的主要特性和性能

研究人员通过实验评估了天机cX芯片的性能,主要关注功耗,延迟和吞吐量。

两种主流的神经网络模型MobileNet和ResNet50是通过不同的映射策略实现的下图是天机cX芯片的处理速度与功耗的关系

评估MobileNet和ResNet50的性能和功耗,演示GPU,CPU和神经网络加速器的性能。

为了进行对比,研究人员还绘制了不同类型的GPU,CPU和深度学习加速器的性能对比。

可以看出,天机cX以适中的功耗实现了对MobileNet的高速图像处理,可见其在边缘应用上的竞争力另外,天机cX可以低功耗处理ResNet50

实验结果显示了天机cX支持大规模人工神经网络,SNN和混合脉冲/非脉冲模型的潜力。

代表性SNN和混合动力车型的性能和功耗

通过优化映射策略,可以进一步提高TianjicX的性能研究结果表明,天机cX具有处理多尺度,跨范式的单个神经网络模型的能力,这是支持神经网络模型多任务处理的关键

为了展示天玑cX在多任务智能机器人应用方面的能力,天玑cat是一个移动机器人开发平台,它是在一辆经过改装的移动汽车的基础上构建的,配备了天玑cX芯片阵列和多模态传感器,如下图所示。

天机猫机器人,开发板,天机cX芯片阵列材料图

开发板由4个4×1阵列的天机cX芯片组成,可以根据需要控制一个或多个芯片值得注意的是,这些芯片可以单独激活接下来的实验中,只激活了一个天机cX芯片来实现各种神经网络,其他三个芯片都没有激活

研究人员进一步在复杂的动态环境中设计了一个具有挑战性的猫捉老鼠游戏。

天机猫机器人场景五种主要状态示意图

天机猫扮演一只猫,试图抓住一只随机奔跑的电子鼠各种障碍物随机动态放置在不同位置

这只机器猫需要通过视觉识别,声音追踪或两者结合的方式追踪鼠标,然后在不与障碍物发生碰撞的情况下向鼠标移动,最后追上它。

在这个过程中,使用了多种神经网络算法来实现实时场景中的语音识别,声源定位,目标检测,避障和决策所以这些神经网络算法的协同处理和并发处理是关键

在这项工作中,轻量级检测卷积神经网络用于端到端多目标检测,SNN作为声音处理神经网络的事件驱动开关,CNN—GRU(门控循环单元)混合网络用于估计声源位置,基于SNN的神经状态机(NSM)用于多网络调度和策略决策。

SN可以通过固有的神经元动力学记忆时间信息,并将信息编码成二进制脉冲序列其基于阈值的机制自然类似于决定是否激活声音定位网络的开关因此,研究者选择SNN模型作为本课题中的切换神经网络

SN和GRU使用相同的基于CNN的特征提取器进行语音预处理该算法以异步和并行的方式部署在单个天机cX芯片上根据不同网络对计算性能的要求,采用混合时空映射方法对天机cX芯片有限的硬件资源进行优化分配

多任务的资源占用:这些网络都映射在一个天机cX芯片上,实现灵活的资源共享。

整个系统占用128个FCore,这些FCore被分配给四个步骤组,以事件驱动的方式执行。

天机cX上外部事件驱动异步并行多任务执行图

特别是,由audio—CNN提取的特征被GRU和SNN共享因此,通过在空间和时间上对rivulet进行切片,两个网络可以重用同一个FCore集群与两个未优化的独立FCore集群相比,存储消耗降低了8.2%,但处理时间没有增加

由于即时原语机制,任务之间的协作和数据传输不需要由其他硬件来调度与NVIDIA Jetson TX2相比,天机cX上多个网络的计算响应延迟降低了约98.74%

相对于多个神经网络在GPU中的串行执行,整个机器人系统可以采用事件驱动的方式灵活运行,具有高度的并行性。

每个神经网络只在更新外部传感器的相应输入时执行,所以功耗低此外,多任务处理的特点是高效的异步并行执行和交互,对单个任务对其输入的响应影响可以忽略不计

各神经网络模型的延迟,功耗,功效如下图所示。

在同时处理五个神经网络时,这款catch me if you can在一个天机cX芯片中使用了128个核,总动态功耗约为0.6W与TX2相比,天机cX的动态功耗降低了50.66%。

这些结果表明,对于多任务智能机器人应用,天机cX能够以低延迟和高能效实现高实时性能。

04.结论:未来我们将探索神经拟态的硬件和机器人计算的更多可能性。

移动机器人的快速发展带来了根据其独特需求设计替代计算硬件的机会。

神经拟态体系结构不仅可以用于提高智能水平,还可以为替代计算体系结构设计方法提供思路,包括以分散方式进行资源分配,事件驱动的执行和调度,通过类似神经网络的活动进行近似计算,用特殊硬件体系结构实现通用系统等等。

与传统的神经拟态芯片相比,天机cX可以充分利用智能算法的数据局部性,提高内存利用率,支持多种数据移动模式,增强可编程性。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

k49