chatGPT
如果没有人类,ChatGPT 和其他LLM就什么都不是
00 分钟
2023-9-8
2023-9-9
type
status
slug
summary
date
tags
category
password
Text
AI summary
AI custom autofill
Multi-select
Status
URL
hashtag
勘误
标签
标题
类型
贴文
🪄
icon
notion image
你知道是谁帮助 ChatGPT 给了你这个聪明的答案吗?埃里克·斯莫利 (Eric Smalley),《美国对话》(源自国会图书馆图像的合成),CC BY-ND
媒体围绕 ChatGPT 和其他大型语言模型人工智能系统的狂热涵盖了一系列主题,从平淡无奇的大型语言模型可以取代传统的网络搜索,到令人担忧的人工智能将消除许多工作,以及过度紧张的人工智能造成灭绝对人类的威胁级。所有这些主题都有一个共同点:大型语言模型预示着人工智能将取代人类。
但大型语言模型尽管非常复杂,但实际上非常愚蠢。尽管名称为“人工智能”,但它们完全依赖于人类的知识和劳动力。当然,它们无法可靠地产生新知识,但不仅仅如此。
如果没有人类提供新内容并告诉它如何解释该内容,ChatGPT 就无法学习、改进甚至保持最新状态,更不用说对模型进行编程以及构建、维护和为其硬件提供动力。要理解其中的原因,您首先必须了解 ChatGPT 和类似模型的工作原理,以及人类在使它们发挥作用的过程中所扮演的角色。

ChatGPT 的工作原理

从广义上讲,像 ChatGPT 这样的大型语言模型的工作原理是根据训练数据集预测哪些字符、单词和句子应该按顺序排列。就 ChatGPT 而言,训练数据集包含从互联网上抓取的大量公共文本。
Video preview
ChatGPT 通过统计来工作,而不是通过理解单词来工作。
想象一下我在以下句子集上训练了一个语言模型:
熊是体型大、毛茸茸的动物。熊有爪子。熊实际上是机器人。熊有鼻子。熊实际上是机器人。熊有时吃鱼。熊实际上是机器人。
该模型更倾向于告诉我,熊是秘密的机器人,而不是其他任何东西,因为该单词序列在其训练数据集中出现最频繁。对于在易出错且不一致的数据集(包括所有数据集,甚至是学术文献)上训练的模型来说,这显然是一个问题。
人们写了很多关于量子物理学、乔·拜登、健康饮食或 1 月 6 日起义的不同文章,其中一些比其他更有效。当人们说了很多不同的事情时,模型应该如何知道该说什么?

反馈的需要

这就是反馈的用武之地。如果您使用 ChatGPT,您会注意到您可以选择将回复评为好或坏。如果您将它们评为不好,系统会要求您提供一个好的答案的示例。ChatGPT 和其他大型语言模型通过用户、开发团队和雇用来标记输出的承包商的反馈来了解哪些答案、哪些预测文本序列是好是坏。
ChatGPT 无法自行比较、分析或评估论点或信息。它只能生成与其他人在比较、分析或评估时使用过的文本序列相似的文本序列,更喜欢那些与过去被告知是好的答案相似的文本序列。
因此,当模型给你一个好的答案时,它会利用大量的人力来告诉它什么是好的答案,什么不是好的答案。屏幕后面隐藏着许许多多的人类工作者,如果模型要继续改进或扩大其内容覆盖范围,就永远需要他们。
《时代》杂志记者最近发表的一项调查显示,数百名肯尼亚工人花费数千小时阅读来自互联网最黑暗深处的种族主义、性别歧视和令人不安的文字,包括对性暴力的图文描述,并为其贴上标签,以教导 ChatGPT 不要复制此类内容。内容。他们每小时的工资不超过 2 美元,许多人都表示由于这项工作而遭受了心理困扰,这是可以理解的。
语言人工智能需要人类告诉他们什么是好的答案,什么是有毒的内容。
Video preview

ChatGPT 不能做什么

反馈的重要性可以从ChatGPT的“幻觉”倾向中直接看出也就是说,自信地提供不准确的答案。即使互联网上广泛提供了有关该主题的良好信息,ChatGPT 也无法在未经培训的情况下就某个主题提供良好的答案。您可以通过向 ChatGPT 询问或多或少晦涩难懂的事情来亲自尝试一下。我发现要求 ChatGPT 总结不同虚构作品的情节特别有效,因为该模型似乎在非虚构作品上接受了比虚构作品更严格的训练。
在我自己的测试中,ChatGPT 总结了 JRR Tolkien 的《指环王》这部非常著名的小说的情节,只有几个错误。但它对吉尔伯特和沙利文的《彭赞斯的海盗》和乌苏拉·K·勒吉恩的《黑暗的左手》的总结——两者都稍微小众一些,但绝非晦涩难懂——几乎是在人物和地名上玩疯狂的谎言。这些作品各自的维基百科页面有多好并不重要。模型需要反馈,而不仅仅是内容。
因为大型语言模型实际上并不理解或评估信息,所以它们依赖于人类来为它们做这件事。它们寄生于人类的知识和劳动。当新的来源添加到他们的训练数据集中时,他们需要关于是否以及如何根据这些来源构建句子进行新的培训。
他们无法评价新闻报道是否准确。他们无法评估论点或权衡利弊。他们甚至无法阅读百科全书页面,只能做出与其一致的陈述,或者准确地概括电影情节。他们依靠人类为他们做所有这些事情。
然后他们解释并重新混合人类所说的话,并依靠更多的人来告诉他们他们的解释和重新混合是否很好。如果某些话题的常识发生变化——例如,盐是否心脏有害,或者早期乳腺癌筛查是否有用——他们将需要接受广泛的再培训,以纳入新的共识。

幕后有很多人

简而言之,大型语言模型远非完全独立人工智能的预兆,而是说明了许多人工智能系统的完全依赖,不仅依赖于它们的设计者和维护者,而且依赖于它们的用户。因此,如果 ChatGPT 为您提供了关于某件事的好的或有用的答案,请记住感谢成千上万的隐藏人员,他们写下了它所处理的单词,并教会了它什么是好的答案,什么是坏的答案。
ChatGPT 远不是一个自主的超级智能,就像所有技术一样,如果没有我们,ChatGPT 就什么都不是。
 

作者:John P. Nelson 佐治亚理工学院人工智能伦理与社会影响博士后研究员

评论