脑机接口(BCI)技术的发展对于丧失言语能力的严重运动瘫痪患者进行交流具有关键作用。其中备受瞩目的一种BCI控制策略涉及对神经数据进行语音解码。新近的研究显示,通过直接神经记录与先进的计算模型相结合,可以获得令人鼓舞的成果。对于确定哪些解码策略能够提供最佳且直接可行的效果,这一认识对于推动该领域的发展至关重要。
近日,荷兰的拉德布德大学和乌特勒支大学医学中心的研究团队取得了重要突破,他们能够将大脑信号转化为可听的语音。通过结合植入物和人工智能,他们成功解码了大脑信号,可以高达92%到100%的准确率预测人们的言语。相关研究成果已刊登在《神经工程学杂志》上。
研究的主要负责人、来自荷兰拉德布德大学栋德斯大脑、认知与行为研究所和乌得勒支大学医学中心的研究员朱莉娅-贝雷祖茨卡娅表示,这一研究显示了脑机接口领域的巨大潜力。他们利用了癫痫患者的大脑植入物,推测出人们所想要表达的内容。
贝雷祖茨卡娅说:“我们的终极目标是将这项技术应用于瘫痪患者以及无法交流的锁定状态患者。这些人失去了肌肉运动能力,因此也无法言语。通过脑机接口的发展,我们可以分析大脑活动,使他们得以重获语言能力。”
在新的研究中,科学家们要求一些暂时植入大脑电极的被试者大声朗读单词,并同时记录他们的大脑活动。
贝雷祖茨卡娅解释道:“这样,我们能够建立大脑活动和语音之间的直接联系。我们还运用先进的人工智能模型,将大脑活动直接转化为可听的语音。这意味着,我们不仅可以猜测人们在说什么,还能立即转化为可理解、可听懂的声音。此外,这些还原出的语音在语调和说话方式上甚至与原说话者相似。”
全球各地的科研人员正在探索如何通过大脑信号识别单词和句子。他们能够利用相对较小的数据集,还原出可理解的语音,这表明他们的模型能够从有限的数据中揭示大脑活动与语音之间复杂的映射关系。
更为重要的是,研究团队还对志愿者进行了听觉测试,评估了合成的词汇的可识别性。这些积极的测试结果表明,这项技术不仅能够准确识别单词,还能以逼真的方式呈现这些词汇,使其易于理解。
贝雷祖茨卡娅强调道:“目前仍然存在一些限制。”在这些实验中,研究人员要求参与者大声朗读12个特定单词,这些单词就是他们试图检测的内容。总体而言,预测单个单词并不像预测整个句子那样复杂。未来,借助于大型语言模型在人工智能领域的应用,可能会有助于这方面的发展。
她补充说:“我们的目标是仅凭大脑信号预测人们想要表达的完整句子和段落。实现这一目标需要更多的实验、更先进的植入设备、更大的数据集以及先进的人工智能模型。这一过程可能需要数年时间,但我们正在朝着正确的方向迈进。”
参考文献:Julia Berezutskaya et al, Direct speech reconstruction from sensorimotor brain activity with optimized deep learning models, Journal of Neural Engineering (2023). DOI: 10.1088/1741-2552/ace8be