本文来自微信公众号“半导体行业观察”,内容由半导体行业观察(ID:icbank)编译自allaboutcircuit,谢谢。
加州大学的研究人员在患者大脑的言语中心植入了253个电极,拦截信号,如果不是中风,这些信号可能会传送到她的嘴唇、舌头、下巴和喉部的肌肉。
人工智能(AI)不仅仅是生成式AI,例如ChatGPT。人工智能的另一面,解释性人工智能,解读我们周围的世界。加州大学(UC)旧金山分校和伯克利分校的研究人员正在开发一种系统,该系统使用解释性人工智能来为近20年来无法自己说话的人说话。
使用人工智能重建语音
加州大学项目正在与一位前数学老师Ann合作,她在2005年经历了脑干中风。这次中风使她陷入了一种称为闭锁综合症(LIS)的状态,尽管她的个性和性格使她的肌肉使用极其有限。认知能力完好无损。大多数肌肉控制指令起源于脑干,包括言语所需的指令。虽然安不能说话,但她的言语中枢仍然功能齐全。
UC系统从源头捕获语音信号。研究人员开发了一种传感器,该传感器具有由253个电极组成的超薄网络,植入Ann大脑的语言中枢表面。电极收集信号并将其发送到大型计算系统,该系统使用人工智能将信号转换为音素。然后,语音合成程序将这些音素转换为类似人类的声音,速度高达每分钟不到80个单词。
研究人员面临着将大脑信号解读为可用于语音合成的信息的严峻挑战。
传感器输入253个信号乘以给定时间间隔的采样率,得到一个三维矩阵。这个数据矩阵看起来一点也不像音频信号。相反,它代表了发出声音所需的所有肌肉。数以万计的信号被发送到脑干,进行翻译、解释,然后重新传输到全身的肌肉,但这个UC系统只捕获和解码了253个点。
为了解码这个矩阵,计算机对表示进行分段评估,就像计算机可能将照片解释为像素网格或矩阵一样。矩阵运算还使用了卷积,即两个近似匹配的函数的矩阵乘法。例如,如果您想查看单像素网格中的图像是否是汽车的一部分,矩阵乘法会将原始像素网格组合成带有过滤器网格的卷积,其中包含汽车的表示。结果将是估计匹配概率的网格值。多次运行卷积,您将获得更准确的概率。
再现Ann声音的计算机系统使用Speech Graphics开发的软件来显示一个化身,模拟与她的声音相关的面部动作。有了这个系统,安的家人自中风以来第一次可以与她轻松地交谈。通过从视频中提取安自己的语音音素,她中风时还是婴儿的女儿现在可以听到她母亲通过复制自己的声音进行交流。
IBM的模拟AI芯片向语音以外的应用致敬
如上所述的人工智能系统需要大量的计算能力和能量。这通常将应用限制于研究和资金充足的商业应用。研究人员必须设计出新方法,让像安这样的人能够将这样的系统带回家。IBM研究中心正致力于通过改进的模拟人工智能芯片来解决这个问题。
IBM研究团队最近采用了一种新方法,采用乘法累加(MAC)架构来进行模拟内存计算。该芯片具有3500万个相变非易失性存储器(NVM)器件以及模拟低功耗外围电路,封装在34个区块中。这些区块通过大规模并行区块间通信进行通信,并提供每瓦12.4万亿次操作(TOPS/W)的持续性能。该芯片在CFAR-10图像识别基准测试中的识别率为92.81%。
作为人工智能加速器,IBM芯片架构将使便携式、个人、实时人工智能成为现实。潜在的应用远远超出了语音本身。模拟人工智能处理器的持续发展可能会带来更高的性能、更低的成本和更低的功耗,可应用于许多领域。最终,信号可以在大脑的运动部分被接收,就像在这个UC原型中一样,并连接到任何预期的肌肉群或任何需要控制的设备。将来,相同的方法可以应用于轮式移动设备或外骨骼。