AI怎么啥活都接,还帮忙开发“读心术”?

我喜欢骑行,骑车时经常会冒出一些灵感,或者忽然记起一件没做的事,或者想记录沿途风景所见所感,但腾不出手打字……

我想过骑行之前打开录音机,有什么想法就对着耳机说出来,然后再将录音转成文字,摘取有意思的部分整理到笔记本里。

但是,抛开路上有噪音和风声不说,把所有想法都说出来真的很社死诶,如果说旁边人的坏话被听到怎么办!还有,录着音就没法听音乐了,那骑车还有什么乐趣!(不是)

那么,有没有一种可能性……可以在脑海里默默“说话”,电子设备直接识别,转为文字呢?

还真的有。

脑机接口,宛如“读心术”的科技

要说最接近“读心术”的科技,可能就是脑机接口。

脑机接口(brain-computer interface,BCI)是指,通过一些装置,在脑和外界设备之间建立联系,将脑的指令传到电脑并进行解读;或者将电脑中的信息变成可以解读的信号传给人脑。

这类系统可以帮助感官或肢体运动能力受损的病人恢复相关功能。例如将摄像机拍到的画面转为脑电信号,帮助盲人产生视觉,或者读取瘫痪病人的脑电波,控制机械臂进行操作等。

瘫痪患者用脑机接口控制机械臂丨Johns Hopkins Medicine

我们做任何动作、发任何声音,都是由大脑控制的。大脑皮层的不同区域会控制不同肌肉的动作。想要行动时,大脑通过电压变化发出指令,这种电信号通过外周神经传到相应肌肉。电信号不同,肌肉产生的变化便不相同。

输出式脑机接口正是利用这些特征,读取大脑产生的种种电信号,对其进行解读,从而转化为语音、文字、机械臂动作等表现形式。而输入式脑机接口,则是对大脑特定部分进行电、磁等形式的刺激,例如将拍摄画面转化为电信号,刺激失明人士大脑相关区域,产生视觉。

脑机接口分为非侵入式/无创、半侵入式/微创和完全侵入式/有创三类。侵入越深,测量的信号就越准确、噪声越小。

  • 非侵入式/无创:基于脑波(EEG)、脑磁等信号的系统,由于传感器放在头皮上便可以采集信号,所以属于非侵入式。

  • 半侵入式/微创:基于皮层脑电(electrocorticography,ECoG)的接口需要将传感器插入头皮,在大脑皮层上采集信号,对使用者有轻微创伤。

  • 完全侵入式/有创:完全侵入式传感器在大脑皮层内采集信号,因此需要植入大脑皮层,创伤较大。例子有基于局部场电位(local field potential,LFP)的脑机接口。

需要注意的是,脑机接口用于“读心”的前提是,大脑相关功能区域没有受到损伤。例如脊柱受伤导致瘫痪的病人,大脑可以正常生成使手臂运动的命令,但因为信号传播会在脊柱中断,所以手臂无法响应命令。

如果是大脑损伤导致的障碍,脑机接口就不适合用于“读心”,但可以用于康复,比如通过向大脑提供输入和反馈,刺激大脑恢复一些神经功能。

想法转文字:如何更快更准更自然?

通过脑机接口“读心”的研究始于上世纪80年代,主要是为了帮助因中风、渐冻症等疾病或意外,丧失说话及打字能力,但大脑相关功能区完好的人群。

1988年,伊利诺伊大学厄巴纳-香槟分校的Donchin教授团队发表文章,分享了一种基于字母打字的脑机输入系统。

这个体系把26个英语字母和一些功能键(如空格、删除、输入完成、取消)排列成一个6×6的方阵。使用者将注意力放在想打出的字母上,电脑依次尝试某个行或列是否包含其想使用的字母。如果选择正确,使用者的头皮上会产生一个特定的脑电波EEG特征。这样一个一个字母输入,全部输入完成后再合成语音。

排列方阵示意|Khanna et al. 2011

但是这种情况下,仅仅打出五个字母的单词,想要达到80%准确率需要花20.7秒,达到95%准确率要花26.0秒。而正常英语对话每分钟大约说160词,相当于每秒说两个词以上。仅凭拼写合成对话,速度非常缓慢,实用性非常有限。

另一种比较成熟的体系是通过想象手、手臂、脚等身体部位的动作,指引光标向上下左右移动,确认输入字母。例如纽约州立大学的Wolpaw教授团队于2000年发表的文章,就分析了想象身体部位运动时的EEG,并指出这些特征可以用于脑机接口开发。

2021年,斯坦福大学Francis Willett等研究员发文报告,让瘫痪患者试图动手写字,通过脑机接口读取这些动作指令的不同特征,对应不同的字母。这个方法的转化速度能有每分钟90个字符,约合18个英语单词;准确率高达94.1%,如果加上自动纠错,甚至能达到99%。

“想象手写转文字”示意图丨Erika Woodrum/HHMI/Nature

然而,无论通过意识选择字母,还是用动作想象输入,这些方式都在模仿打字而不是说话,处理速度太慢、思维方式太不自然。

AI赋能一切,包括想法转文字

今年8月发表于《自然》杂志的两篇研究,则分别使用侵入式的微电极阵列(microelectrode array)和半侵入式的ECoG,实现了“想象说话”向文字的转化,且正确率达到四分之三左右

为了张口说出一个字,大脑要做出大量努力,发出无数指令,指挥嘴唇、舌头、喉咙、下颌进行复杂的协同工作,才能发出正确的声音。大脑就像交响乐队的指挥,指令畅通无阻,底下的乐队才能奏响动人的旋律。而许多疾病可能使人丧失清晰说话的能力。

斯坦福大学同样以Willett为首的团队,在一位渐冻人症患者Pat Bennett脑部植入了微电极阵列。这些电极埋在大脑皮层以下几毫米,能够精准测量脑电信号。接着,研究者让Bennett试着说各种字句,记录相应的脑电信号,然后用这些数据进行深度学习。

Pat Bennett在研究中|Steve Fisch

项目分析了两个数据集:一个小数据集只有50个单词,程序只训练这50个单词,测试时也只让程序在这个范围内辨认。训练后的程序正确率达到了91.9%。而大数据集包括12.5万个单词。经过训练,正确率也有76.2%。处理速度高达每分钟62个词,虽然还只是正常说话速度的1/3左右,但已经远胜于之前的研究。

另一篇文章由加州大学旧金山分校的团队发表。他们的受试者Ann在18年前患脑干中风后失语。他们在Ann的大脑皮层植入电极(ECoG),记录了她试着说249句话(共使用1024个词)时的皮层脑电信号,用来训练机器学习模型。这个算法的原理就像ChatGPT,会一边识别她的神经信号对应着什么声音,一边尝试预测后面紧跟的音节和单词。

结果是,正确率为74.5%,平均速度触及了每分钟78词。

Ann通过脑机接口“说话”,并用数字化身做出快乐、悲伤、惊讶等“表情”|NOAH BERGER

虽然后者使用的单词库小,数据集里只有1024个单词,所以靠“盲猜”正确率也能更高一些,但是ECoG侵入性低于微电极植入,因此也有很大价值。

虽然两篇文章都只使用了一名受试者,针对其脑电“定制”了机器学习模型,但它们证明了脑电转文字的概念是可行的,而且通过记录大脑表面一个非常小的区域的电活动,就足以解码语音信息

研究人员目前还在努力开发无线版本,如果能够不必被“电线”束缚,患者的生活质量必然还会有极大的提升。

而能够造福障碍者的科技,往往也会慢慢向外“溢出”,顺便改善了健康者的生活。

也许在不远的将来,我们戴上一个头戴耳机一样的设备,只需想象自己在说话,就可以输出文字了呢。


参考文献

[1] Kotler, S. (2022-09-01). Vision Quest. WIRED. https://www.wired.com/2002/09/vision/

[2] Hochberg, L. R., Serruya, M. D., Friehs, G. M., Mukand, J. A., Saleh, M., Caplan, A. H., Branner, A., Chen, D., Penn, R. D., & Donoghue, J. P. (2006). Neuronal ensemble control of prosthetic devices by a human with tetraplegia. Nature, 442(7099). https://doi.org/10.1038/nature04970

[3] 罗建功, 丁鹏, 龚安民, 田贵鑫, 徐浩天, 赵磊, & 伏云发. (2022). 脑机接口技术的应用、产业转化和商业价值. 生物医学工程学杂志, 39(2), 405–415. https://doi.org/10.7507/1001-5515.202108068

[4] Cervera, M., Soekadar, S., Ushiba, J., Millán, J., Liu, M., Birbaumer, N., & Garipelli, G. (2018). Brain‐computer interfaces for post‐stroke motor rehabilitation: a meta‐analysis. Annals of Clinical and Translational Neurology, 5, 651 – 663. https://doi.org/10.1002/acn3.544.

[5] Herff, C., & Schultz, T. (2016). Automatic Speech Recognition from Neural Signals: A Focused Review. Frontiers in Neuroscience, 10. https://www.frontiersin.org/articles/10.3389/fnins.2016.00429

[6] Farwell, L. A., & Donchin, E. (1988). Talking off the top of your head: Toward a mental prosthesis utilizing event-related brain potentials. Electroencephalography and Clinical Neurophysiology, 70(6), 510–523. https://doi.org/10.1016/0013-4694(88)90149-6

[7] Khanna, K., Verma, A., & Richard, B. (2011). “The locked-in syndrome”: Can it be unlocked? Hydrometallurgy, 2. https://doi.org/10.1016/j.jcgg.2011.08.001

[8] Naddaf, M. (2023). Brain-reading devices allow paralysed people to talk using their thoughts. Nature. https://doi.org/10.1038/d41586-023-02682-7

[9] McFarland, D. J., Miner, L. A., Vaughan, T. M., & Wolpaw, J. R. (2000). Mu and Beta Rhythm Topographies During Motor Imagery and Actual Movements. Brain Topography, 12(3), 177–186. https://doi.org/10.1023/A:1023437823106

[10] Willett, F. R., Avansino, D. T., Hochberg, L. R., Henderson, J. M., & Shenoy, K. V. (2021). High-performance brain-to-text communication via handwriting. Nature, 593(7858), Article 7858. https://doi.org/10.1038/s41586-021-03506-2

[11] Willett, F. R., Kunz, E. M., Fan, C., Avansino, D. T., Wilson, G. H., Choi, E. Y., Kamdar, F., Glasser, M. F., Hochberg, L. R., Druckmann, S., Shenoy, K. V., & Henderson, J. M. (2023). A high-performance speech neuroprosthesis. Nature, 620(7976), Article 7976. https://doi.org/10.1038/s41586-023-06377-x

[12] Metzger, S. L., Littlejohn, K. T., Silva, A. B., Moses, D. A., Seaton, M. P., Wang, R., Dougherty, M. E., Liu, J. R., Wu, P., Berger, M. A., Zhuravleva, I., Tu-Chan, A., Ganguly, K., Anumanchipalli, G. K., & Chang, E. F. (2023). A high-performance neuroprosthesis for speech decoding and avatar control. Nature, 620(7976), Article 7976. https://doi.org/10.1038/s41586-023-06443-4

本文来自微信公众号:果壳 (ID:Guokr42),作者:刘思琪,编辑:游识猷

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2023年10月25日
Next 2023年10月25日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日