先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
LLMs (Large Language Models,大型语言模型) 是机器学习中的典型范例,属于监督学习的一种。监督学习在几乎所有具有大量数据的场景中都表现得非常灵活。例如,在图像识别中,监督学习模型可以识别物体(提供一组图像和每个图像的正确标签,如“猫”、“狗”等);在电子邮件分类中,可以将电子邮件分类为垃圾邮件(提供已标记为垃圾邮件/非垃圾邮件的电子邮件数据集);在预测句子中的下一个单词方面也能取得成功。LLMs基于transformer体系结构,通过数据训练和预测,可以根据单词之间的关联预测下一个单词,或者根据情境提供完整的文本。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
ChatGPT作为LLMs的一个子集,是由OpenAI开发的一种基于GPT(Generative Pre-trained Transformer)系列模型的语言模型,主要用于自然语言处理任务。自发布以来,ChatGPT在许多领域取得了巨大成功,例如在SAT考试上击败大多数人,在律师资格考试中取得了接近90%的高分,在国际象棋方面表现出色,它几乎可以通过放射学执业资格考试,甚至有人认为它发展出了心智理论。你能读懂以下图片句子内容么?
针对上图内容,ChatGPT给出了以下解释
ChatGPT展示了令人印象深刻的能力,但它也存在一些“智能”缺陷。
逆转诅咒:A是B, B不是A
ChatGPT在理解关系的方向性上存在一些限制。它在处理相反的问题时表现较差,例如,假设我告诉你,Olaf Scholz是德国的第九任总理,你能告诉我德国的第九任总理是谁吗?对你来说这可能易如反掌,但是对于LLMs来说不是这样。这是因为ChatGPT并没有真正的“记忆”或“数据库”,它只能在给定上下文的情况下预测一个词。这种限制可能导致在某些情境下的准确性降低。
为了证实这一点,研究人员创建了一个数据集,其中包含"<描述>是<名字>"结构的虚构事实,例如 "第一个登上火星的人是泰勒-奥克里奇"。然后在这个数据集上训练 LLM,并对描述进行查询:"谁是第一个登上火星的人",GPT-3 的准确率达到 96%。但当被问及名字"谁是泰勒-奥克里奇 "时,GPT 得分为 0%。这乍看起来令人惊讶,但却与我们对监督学习的了解相吻合:GPT 无法将这些事实编码到记忆中,而是仅能在给定一系列词的情况下预测一个词,导致方向性记忆的不足。
推理还是背诵?通过反事实任务探索语言模型的能力和局限性
2023年7月的一篇文章旨在深入挖掘记忆和智能之间的区别。它由几个小型实验组成,都采用了反事实任务。研究表明,在处理不同进制的算术问题或编程语言中的变体时,ChatGPT的准确性下降。这暗示ChatGPT可能更倾向于背诵特定情境下的例子,而不是真正理解抽象概念和推理能力。具体而言,当要求ChatGPT在使用不同进制(如基数9,而非常用十进制)进行算术运算时,其准确率下降了 23%。同样,在处理基于1(python使用0为起始编号)的Python编程语言变体时,ChatGPT的得分率减少42%。这表明ChatGPT未能充分学习抽象的算术技能,而是受到其所见过的类似例子的限制。以下是ChatGPT在其它领域反事实任务的表现,可见表现并不出色。
心智理论(Theory of mind, ToM)
心智理论是一种理解他人的信念和愿望可能与自己不同的能力,这种能力在儿童成长的最初几年是不存在的。测试心智理论的一种方法是向儿童展示一个标有 "巧克力 "的盒子,实际上里面装的是铅笔。然后,我们向孩子展示盒子里的铅笔,并问他们 "你的朋友杰里米会认为盒子里装的是什么?如果孩子尚未发展出心智理论,他们就会回答 "铅笔"--因为他们无法将自己对内容的了解与其他人可能的想法区分开来。
这种能力对于理解一个人的动机至关重要,因此在通用人工智能的发展中也是非常重要的。假设你拥有一个多功能机器人,你给它指令“打扫房间”。在清理过程中,机器人将不得不在决定清理或移动什么时做出许多决定:“那张褶皱的纸片重要吗?我应该扔掉吗?我应该先问一下吗?”一般来说,智能代理需要了解用户的动机和用户知识的局限性,才能填补复杂请求的执行细节。
因此,当研究学者Michal Kosinski声称心智理论可能在LLMs中自发出现时,在AI领域引起了很大波澜。Michal Kosinski使用了一个文本版本的铅笔/巧克力测试来测试GPT-4,并发现它的表现水平相当于一个七岁的孩子。这乍一看可能令人印象深刻,但请记住“IN73LL1G3NC3”这个例子:GPT的训练数据很可能包含这些测试问题的示例。因此,与在类似问题上没有任何培训的儿童进行公平比较是不公平的。如果我们想测试GPT的心智理论能力 — 我们必须创建一个确保不在其训练数据中的新测试。
FANToM: 对机器心智理论进行应力测试的基准
Kim等人10月份介绍了一个名为FANToM的新心智理论基准,旨在对机器的心智理论进行应力测试。该基准包括多个参与者的对话,其中一些参与者在某段时间内“离开房间”,而其他参与者继续他们的对话。随后,LLM被问及关于谁知道什么的几个问题,例如: “Kailey是否知道Linda的狗的品种?谁知道它是什么品种?David会认为它是什么品种?”。只有当LLM对同一信息的所有问题都回答正确时,才被认为回答正确。这并不是个简单任务,即使是人类也只有87.5%的得分。但GPT-4的得分仅为4.1%或12.3%,这取决于GPT的版本;这几乎与GPT发展出人类水平的心智理论的说法不一致。
对SAT分数的关注是因为它们与在大学中的表现相关。儿童在心智理论考试中的表现与其它有价值的行为相关联。虽然这些测试与行为之间的相关性已在人类身上得到证明,但我们没有理由认为它们也适用于LLMs。实际上,尽管GPT在SAT考试中取得了出色的成绩,但在数学、化学和物理等开放式大学水平考试中,GPT的平均得分率仅为28%。在没有其他证据的情况下,通过考试只能证明有能力正确回答考试问题。然而,对于心智理论而言,几乎没有相关性可言:无论LLMs是否通过心智理论测试,它们无法观察面部表情,观看电影,甚至无法从一次互动到下一次记住一个人及其动机。由于我们真正感兴趣的心智理论行为对LLMs不可见,因此认为LLMs发展了心智理论的观点不仅是错误的,而且可能是毫无意义的(或者至少需要对该术语进行新的定义和理解)。
总结
尽管ChatGPT在诸多方面表现出优异成绩,但目前看来,在辨识对象作为更大类别或规则的一部分的抽象能力、记忆并回忆世界模型中的实体和实体之间的关系的能力、利用世界模型对新的实体行为得出结论的推理判断能力等方面还远远不够。
Reference:
https://towardsdatascience.com/is-chatgpt-intelligent-a-scientific-review-0362eadb25f9
https://arxiv.org/abs/2309.12288
https://arxiv.org/abs/2307.02477
https://www.gsb.stanford.edu/faculty-research/working-papers/theory-mind-may-have-spontaneously-emerged-large-language-models
https://arxiv.org/abs/2310.15421