大模型时代,孩子还需要读经典吗?

这也是为什么大模型不能只用那些经典资料、数据学习的原因. 原典、经典论文太少,根本不够大模型训练,至少几十亿个参数需要拟合,必须大量数据进行训练。互为引述参照的书籍、文章,对大模型来说,同样是高质量数据,它们总比那些生成的数据更靠谱吧。

2. 挖掘高维数据价值是人类认识世界的方向之一,但不是全部 

更多维的数据向量化特征表示必将有利于挖掘产生更多数据价值。

最近,在娃有空时,教他C++编程,好些我也忘了,都是问文心一言。前两天教一个编程题,求几个数中最小数,书上有两三种解法,让娃问问百度,给出一段代码.简单看了眼,惊讶于大模型给出的代码简洁而实用,只有C++经验丰富的老手才能写出那样语法,还契合了问题,没有书上的通用,却简明干净。强行和娃解释了下心中获得的美好,看着他茫然的眼睛,悻悻然。

消息称 OpenAI 正在筹建 OpenAI 学院,预计 2023 年底启动。一个是人人可访问的免费在线教学系统,老师、学生能更方便地利用ChatGPT5进行课程学习。以后人人都有一个全科老师,还真是幸事,特别对那些跨学课问题:

学生:百度,百度,给我一段代码找个合适算法处理下我的生物学实验数据吧

文心一言:刷的一段(以后大模型必然和运行环境整合一块,自动调试)

学生:这个算法只是拟合了下,找个有物理原理支持的模型再跑跑

文心一言:刷的一下又一段,还带模型解释‍‍

学生看不懂模型解释,又问道….‍‍‍‍‍

感慨之余,心中不仅也产生一个疑问:以后都是要和大模型一块学习,是面向问题学习。那些人类经典书籍,不涉及任何实际问题,可能只能给出些启发的书籍,包括讨论哲学、抽象方法论、感想的书籍还需要读吗?笔者是偏好看看那些书籍,特别是有些领域大牛写的,往往他们本身具备良好的人文、哲学素养,当人类长久的思考结合到具体领域,读起来更让人愉悦。

人学习需要书籍、资料,大模型也是如此,讨论这个问题之前,我们先来看看大语言模型学习用了哪些数据。

一、大语言模型的训练数据

大语言模型的训练数据大致分为两类:

1. 预训练数据

大量文本,用于进行无监督预训练,学习通用表征. AI研究机构Allen Institute for AI发布了一个名为Dolma的开源语料库,含了来自网络内容、学术出版物、代码、书籍和维基百科材料的3万亿token。 包括Wikipedia、CommonCrawl等开源的语料库,以及社交媒体数据、对话数据集。

大体上可以认为人类一切干净文本都可以用于训练。对于特定领域,如法律:相关书籍、论文、法规、案件、庭审等等;金融领域:相关书籍、论文、研报、公告、财报、新闻等等;其他学科也是如此。大抵可以认为,对于预训练:专业、干净的领域相关文本数据,越多越好。

2. 有监督微调数据

有监督微调数据,以适应任务和用户偏好。有监督微调(Supervised fine-tuning)数据准备也是通常我们应用大模型主要的工作。强化学习训练的数据通常也和指令微调数据类似,而且通常应用阶段也不需要进行,也归于这类。

典型的如Alpaca-52k(alpaca_data.json)数据集。Alpaca-52k是一个开源数据集,用来微调LLaMA模型以得到Alpaca-7B模型的数据集,包含了52000条指令数据。其数据格式分为两类:instruction/output和instruction/input/output。input是任务的可选上下文或输入。例如,当指令为“总结以下文章”时,输入为文章。行业、领域有监督微调数据也是如此。自然科学、社会科学还有一定标准,人文科学很可能主观偏好就放进去了。这也是为啥我国需要大模型监管,持证上岗。

3. 大模型有监督微调训练也是需要少量高质量数据就够了

Mata公司的研究人员发现,只使用1000个高质量的样本数据进行微调,在没有任何强化学习或人类偏好建模情况下。65B的LLaMA模型表现出非常优异的性能。这对我们做大模型应用的人当然是福音,在领域中不缺少高质量数据。论文认为模型的知识和能力几乎完全是在预训练期间学习的,而有监督微调(SFT)则教会它在与用户互动时应该使用哪种子分布的格式,少量高质量数据就能达到预期效果。这看起来和人类少量数据就能学习有些相似。

二、对比大语言模型,人类的学习过程

1. 经典是人类高质量数据

自然科学、社会科学领域,人类学习需要的高质量可以认为是机器的标准一致。我们重点讨论下人文科学。

陈寅恪被誉为三百年学问第一人,一人担任了清华大学历史、中文、哲学三系教授,精通二十多门外语。上课号称“前人讲过的,我不讲;近日讲过的,我不讲;外国人讲过的,我不讲;我自己过去讲过的,我不讲。”他对读书的建议是读原典,“中国真正的原籍经典(原典)也只不过一百多部,其余的书都是在这些书的基础上互为引述参照而已。” 2023年诺贝尔生理学或医学奖得主卡塔林·考里科在访谈中也说:我的爱好之一是阅读经典的科学论文。当我意识到RNA中的尿苷会引爆免疫细胞,导致炎症和干扰素的产生时,我想知道以前是否有人注意到这一点。果不其然,在1963年的一篇论文中发现,从哺乳动物细胞中分离的核糖核酸不会诱导干扰素的产生。

2. 熏陶是人类的训练过程

说到人类经典书籍,木心先生的《文学回忆录》,是给他的学生陈丹青们讲课的笔录.从古希腊、新旧约,到中国诗经、魏晋文学,再到中世纪欧洲文学,一直讲到二十世纪文学和各种流派。将他自身对文学、艺术、哲学等领域的见解和偏好都融入了讲课。可以想见,这样五年的熏陶,对他的学生们人生、艺术生涯将多么的有益。

科学、工程领域也是如此,在阅读经典、研究、解决问题过程中。被老师熏陶,学习领域方向和价值选择。

三、高质量数据学习: 人类 VS 大语言模型

通常,大部分研究领域,只有阅读领域经典,在实践中训练才能掌握解决领域问题的方法.投资这样需要智慧的领域不算。即使文学这样领域,读的多当然有价值,但也不是全部,钱钟书先生就以博学见长,号称古今中外的原典都已掌握。有“从兔毛中见乾坤”的智慧。但有时“白茫茫一片真干净”这样的简洁、直指人心的风格更打动人,这必然是小样本学习的结果。

笔者断言:因为大语言模型是大量数据训练的结果,所以永远无法成为领域具备直觉的专家。光靠它不可能有创新的发现与新观点。

当今天Chatgpt已进入科学与艺术等人类社会方方面面时,笔者却要强调大模型永远只是二流助手。

——ChatGPT写不出《罗刹海市》

1. 为什么大模型不能和人类一样只用那些经典资料、数据学习?

ChatGPT等大语言模型简化并统一的问题形式,当输入特定问题作为提示(Prompt),模型尝试匹配已提供的上下文,根据已学习的人类知识去做文本补全。ChatGPT也是人工智能生成内容模型(AIGC,AI Generated Content),需要通过序列对抗网络(SeqGAN)生产大量样本数据进而进一步优化模型。当最终模型在输入输出形式上和生成的问题保持一致,这样理解和生成任务在表现形式就实现了完全的统一,更有利于生成内容模型数据生产与优化。

这也是为什么大模型不能只用那些经典资料、数据学习的原因. 原典、经典论文太少,根本不够大模型训练,至少几十亿个参数需要拟合,必须大量数据进行训练。互为引述参照的书籍、文章,对大模型来说,同样是高质量数据,它们总比那些生成的数据更靠谱吧。

2. 挖掘高维数据价值是人类认识世界的方向之一,但不是全部 

更多维的数据向量化特征表示必将有利于挖掘产生更多数据价值。既然语言可以向量化,那有什么不能向量化的。向量化也是机器学习算法发挥作用的前提条件之一,利用机器学习挖掘数据中的信息。而利用机器挖掘数据中我们所不能理解的高维信息还将进一步加速。

3. 大模型才是世界模型(World Model)的方向

最近,图灵奖获奖者,深度学习创始人之一LeCun在公开演讲中,再次批评了GPT大模型,他认为根据概率生成自回归的大模型,根本无法破除幻觉难题。甚至直接发出断言:大语言模型活不过5年。

他的愿景是,创造出一个机器,让它能够学习世界如何运作的内部模型,即世界模型,这样它就可以更快速地学习,为完成复杂任务做出计划,并且随时应对不熟悉的新情况。

LeCun作为Meta首席人工智能科学家,近期还指导发布了一个“类人”的人工智能模型 I-JEPA,号称在同样数据、同样训练资源请看下,可以比现有模型更准确地分析和完成缺失的图像。不明觉厉,但笔者有个不讲武德的个人看法:比效果,为啥要在同样数据、同样训练资源下比?

LeCun希望设计出一种学习算法,捕捉关于世界的常识背景知识,然后将其编码为算法,这是强人工智能方案,在学术上优于ChatGPT的弱人工智能方案。用算法对世界建模显然自大了。就如投资领域,希望对各行各业产业链建模,捕捉相互之间影响一样.基于朴素的常识,飞机不必学鸟的飞行原理,笔者个人认为:大模型才是世界模型的方向。

五、结论:人不必学机器,正如机器不必学人      

大语言模型所展示出的令人印象深刻的能力之一,是通过提供上下文中的示例并要求模型生成响应来跟随所提供的最终输入,从而进行小样本学习。模型的知识和能力几乎完全是在预训练期间大量样本学习,这和人类善于少量高质量数据学习本质不同。

前些日,美国食品和药物管理局批准马斯克的Neuralink公司就脑机接口项目展开人体临床试验。

人的大脑不会因为ChatGPT的发明就自动进化,除非接入脑机接口。所以,对人类的孩子来说,读经典的学习方式依然存在。

本文来自微信公众号:FIN AI 探索(ID:fin_ai_research),作者:袁峻峰

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年11月12日
下一篇 2023年11月13日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日