前沿 | 18年后再次说话!一位中风患者在实验性脑机接口的帮助下重新发声
首页
ꄲ
新闻
ꄲ
前沿 | 18年后再次说话!一位中风患者在实验性脑机接口的帮助下重新发声
3月31日,《Nature》发布新闻“脑植入物可瞬间将思想转化为言语”(Brain implant translates thoughts to speech in an instant),介绍了一项最新的语音脑机接口研究(A streaming brain-to-voice neuroprosthesisto restore naturalistic communication)——一种能够将神经信号转化为可听语音的脑内植入物,让一名因脑干中风而失去说话能力18年的瘫痪女子几乎能立即听到自己想说的话。研究人员用人工智能(AI)算法增强了这个被称为脑机接口(BCI)的设备,该算法在女子思考句子时对句子进行解码,然后用合成语音将其大声说出。脑机接口的改进正在使这项技术更接近自然对话的速度。
这些发现代表着向实用脑机接口迈出了一大步。之前的语音脑机接口像是微信聊天,“我写一句话,你写一句话,而你需要一些时间才能再次写下一句话……它不像正常对话那样流畅。”荷兰马斯特里赫特大学的计算神经科学家Christian Herff说道,能够实时传输语音的脑机接口是研究中的“下一个层次”,因为它们允许用户传达自然语音所特有的语气和强调。
神经系统损伤导致的言语交流丧失,严重影响着患者的生活质量,使他们陷入孤立和沮丧之中。此前的语音神经假体研究存在诸多难题,如合成可理解语音困难、训练模型缺乏目标信号、解码延迟长等,这些问题限制了瘫痪患者与他人的正常对话。
研究人员在患者的语音感觉运动皮层表面放置了带有CerePort接口的253通道ECoG 电极阵列,通过NeuroPlex E微型放大器和NeuroPort 神经信号记录系统(Blackrock Microsystems)采集神经电信号,以此记录患者在无声尝试说出包含1024个单词的完整句子时的神经活动。
一名UCSF临床研究协调员将一个神经数据端口连接到头部 @Noah Berger/UCSF, UC Berkeley via AP
为实现自然流畅的语音合成,研究团队运用深度学习递归神经网络换能器(RNN-T)模型,该模型可对神经活动进行实时处理,以80毫秒为增量实现快速解码,同步完成语音合成和文本解码。同时,通过HuBERT模型提取目标声学语音单元。研究人员通过对Ann的婚礼视频录音进行人工智能算法训练,使合成声音听起来像她受伤前的声音。
自然流无声语言神经假体概述 @nature neuroscience
在线测试时,系统解码速度大幅提升,对于不同测试集,解码速度可达每分钟90.9词(99%置信区间88.4 - 95.4),相较于以往方法有显著提高;语音合成延迟中位数为1.12秒(99%置信区间1.03-1.26),文本解码延迟中位数为1.01秒(99%置信区间0.90-1.13),从检测到患者尝试说话至解码输出的时间大幅缩短,这使得交流更加流畅自然。
此外,该神经假体在离线状态下同样表现出色。它具备隐式语音检测能力,能够连续数分钟进行语音解码,在处理4个时长约5.9分钟的神经活动块时,错误率虽高于在线,但仍显著优于随机水平。这意味着未来患者可在更自然的场景中使用该设备,无需受限于特定的实验任务。而且,研究人员发现,此模型不仅适用于当前患者的神经数据,还能成功推广到其他不同的无声语音接口,包括单单元记录和肌电图,展现出良好的通用性。
相较于2023年的一项研究《一种高性能的语音神经假体》(A high-performance speech neuroprosthesis)我们是能够看到这项技术的进步的。在那次研究中,科研人员以一名患有延髓型ALS(即渐冻症)的患者为研究对象。为精准记录神经活动,研究团队在患者的腹侧运动前皮层(6v区)和布罗卡区一部分(44区)植入了四个微电极阵列。通过这些高分辨率的记录设备,获取患者在尝试进行口面部运动、说出单音素或单词时的神经信号。
实时尝试语音的神经解码 @nature
为实现从神经信号到文字的高效转换,研究人员运用递归神经网络(RNN)解码器,并结合语言模型,对患者尝试说话时的神经活动进行实时解码。每天收集患者尝试说出260-480个句子的数据,并不断优化模型。
当时的实验结果是:在解码精度上,该语音脑机接口在50词词汇表的测试中,词错误率低至9.1% ;在125000词的大词汇表测试中,词错误率为23.8%;在解码速度方面,达到了每分钟62词,这是首次成功实现大词汇量解码的一项重要突破,也已开始接近自然对话的速度(每分钟160词);比目前这项研究的每分钟90词低了不少。
不过研究人员也指出,目前该技术距离广泛的临床应用仍有一定距离。例如,在线演示仅在一名患者身上进行,样本数量有限;语音合成的性能与文本解码方法相比,还有提升空间。
尽管如此,这项研究无疑是语音神经假体/语音脑机接口领域的重大突破。研究团队表示,未来将继续优化该技术,提高电极接口的时空分辨率,进一步提升系统性能,致力于开发出适用于日常使用的语音神经假体/脑机接口,帮助更多瘫痪患者重新融入社会,享受自然交流的美好。
https://doi.org/10.1038/d41586-025-01001-6
https://doi.org/10.1038/d41586-023-02682-7
https://doi.org/10.1038/s41593-025-01905-6
https://doi.org/10.1038/s41586-023-06377-x
https://www.nbcnews.com/science/science-news/stroke-survivor-speaks-help-experimental-brain-computer-implant-rcna198883