机器视觉新突破,神经网络让图像处理速度提升2万倍!
据外媒报道,维也纳大学的研究人员研发了一种兼顾神经网络功能的图像传感器,该传感器可以使图像分析速度相较传统方式提升近2万倍。
研究人员用每个像素代表一个神经元,用每个子像素代表一个突触,从而构成神经网络。目前这项技术主要应用于特定的科学应用程序中,对于像自动驾驶中的机器视觉这样的更复杂的任务,还需要做进一步研究。
一、去掉信号转化步骤,提升效率
机器视觉技术通常使用人工神经网络来分析图像。在人工神经网络中,被称为“神经元”的组件会接收数据并进行协作,以解决诸如识别图像之类的问题。
神经网络会反复调整其神经元之间的连接点或突触的强度,并查看所得的行为模式是否能更好地解决问题。经过一段时间调整,神经网络会找到最适合的模式和解决方案。然后,它会将找到的最佳方案设置为默认值,从而模仿人脑学习的过程。
机器视觉技术经常会遇到延迟问题,因为相机必须逐行扫描像素,然后将视频帧转换为数字信号,并将其传输到计算机中进行分析。
当下随着成像速率和像素数量的增长,带宽限制使得传感器难以将所有信息快速传输到计算机中,这对于无人驾驶、机器人或工业制造等延迟敏感型应用影响十分明显。
维也纳大学的电气工程师Lukas Mennel和他的同事们试图通过减少中间步骤来加快机器视觉,他们创建了一个图像传感器,该图像传感器本身就构成了可以同时获取和分析图像的人工神经网络。
二、由二极管组成的神经网络
该传感器由一个像素阵列组成,每个像素代表一个神经元。每个像素又由多个子像素组成,每个子像素代表一个突触。每个光电二极管都建立在二硒化钨层上,二硒化钨是一种对光具有可调节响应能力的二维半导体。
▲ 输入信息在视觉传感器内进行计算,实现智能,高效的预处理。
这种可调节的光响应能力让每个光电二极管以可编程的方式对光进行记忆和响应,从而可以分别调整每个二极管的灵敏度,改变光电二极管的光响应性会改变网络中的连接强度(突触重量)。
然后,科学家们基于这些光电二极管之间的链接创建了一个神经网络,通过对该网络进行训练,使其能够执行简单的计算任务。
研究人员将光电二极管排列成九个像素的正方形阵列,每个像素三个二极管。当图像投影到芯片上时,芯片会生成、读取各种二极管产生的电流。每个光电二极管都会产生与入射光强度成比例的输出电流,并且可以根据电流的基本规则进行计算。
▲部分训练数据集
使用神经网络的不同算法,该团队演示了两种神经形态功能。第一种是分类:它们的3×3像素阵列可以将图像分类为与三个简化字母相对应的三个类别之一,从而以纳秒为单位识别该字母。如果按比例增加阵列的大小,该神经网络还可以识别更复杂的图像。
▲识别“n”、“v”、“z”三个字母
第二个功能是自动编码:即使在存在信号噪声的情况下,该神经网络也可以通过学习图像的关键特征来生成处理后图像的简化表示。
▲对有噪声图像的简化表示
三、助力实时边缘计算发展
Mennel说:“我们的图像传感器在工作时不会消耗任何电能,被检测的光子本身就可以作为电流供能。”他着重提到,“传统的机器视觉技术通常能够每秒处理100帧图像,而一些更快的系统则可以每秒处理1000帧图像,但我们的系统每秒可以处理2000万帧图像。”
Mennel指出,系统运行的速度仅受电路中电子移动速度的限制。从原则上讲,这种策略的工作速度可以达到皮秒级,即数万亿分之一秒,或者比目前演示的速度快三到四个数量级。
此外,科学家们指出,原则上他们可以使用计算机模拟来训练神经网络,并借此将该神经网络传输到计算机设备上。
这样的传感器可以用来做什么?Mennel说:“目前,这项技术主要应用于特定的科学应用程序中。对于像自动驾驶中的机器视觉这样的更复杂的任务,还需要做进一步研究。”
用于自动驾驶车辆和机器人技术的神经网络需要能够捕获具有广阔视野的三维动态图像和视频。当前使用的图像捕获技术通常将3D现实世界转换为2D信息,从而丢失运动信息和深度。
Mennel团队的研究结果不仅可以用于视觉系统,它还可以扩展到听觉、触觉、热感或嗅觉等其他物理输入系统。此类智能系统的开发以及5G高速无线网络的到来,会让实时(低延迟)边缘计算成为可能。