FTC对OpenAI爬虫的调查:AI公司如何平衡技术创新和社会责任
00 分钟
2023-8-24
2023-8-26
type
status
slug
summary
date
tags
category
password
Text
AI summary
AI custom autofill
Multi-select
Status
URL
hashtag
勘误
标签
标题
类型
贴文
🪄
icon
 
notion image
 
随着人工智能采用率的急剧上升,数据专业人员考虑数据源变得越来越重要。虽然第一波高绩效LLM是使用常见但有争议的数据抓取策略进行培训的,但这种可疑的做法最近成为人们关注的焦点,引发了诉讼和数据所有权问题。本文提供了对此背后的法律概念以及监管机构如何解决此问题的深入理解(剧透:不太有效)。
致数据科学编辑的注意事项:虽然我们允许独立作者根据我们的规则和指南发表文章,但我们并不认可每位作者的贡献。在没有寻求专业建议的情况下,您不应依赖作者的作品。有关详细信息,请参阅我们的读者条款。
上周,Open AI(ChatGPT 的制造商)正式发布了他们的网络爬虫——这是一款从互联网上所有网站抓取内容的软件,然后将其用于人工智能模型训练。爬虫程序的存在并不令人惊讶,当今存在多种合法的网络爬虫程序,其中包括对整个互联网进行索引的 Google 爬虫程序。然而,这是 OpenAI 第一次明确宣布其存在,并为网站提供了选择不被抓取的机制。
请注意,爬虫默认情况下是选择加入的,即您需要显式更改网站上的一段代码,以要求爬虫不要抓取您的数据。选择加入/退出默认设置具有粘性,并且通常决定大多数行为是什么,因为大多数人不会付出努力来更改默认设置。这也是苹果iOS14隐私变化对数字广告行业产生重大影响的原因。
notion image
OpenAI 网络爬虫(来源:OpenAI
那么,为什么还要提供选择退出呢?这可能是 OpenAI 针对最近针对该公司指控内容所有者版权受到侵犯的诉讼而采取的先发制人的举措(如果您想了解更多,请参阅有关数据抓取的更深入的文章)。ChatGPT 的竞争对手 Google Bard 面临着类似的挑战,但 Google 尚未宣布等效的解决方案 - 他们确实提出了关于如何升级robots.txt以解决此问题的评论请求(用一些简洁的 PR 笔法编写)。
在本文中,我们将深入探讨:
  • OpenAI 爬虫对内容所有者的影响
  • FTC 目前对 OpenAI 的调查
  • 我们当今运营的法律环境
  • 为什么 FTC 追查 OpenAI 的做法是(又一个)失误

OpenAI 爬虫对内容所有者的影响

虽然该公告为广告商提供了阻止 OpenAI 爬虫抓取其数据的选项,但有几件事不太好:
  1. 默认情况下它是选择加入的,这意味着 OpenAI 可以继续抓取,直到网站明确告诉他们不要这样做
  1. 当内容所有者的数据在未经同意的情况下被抓取用于模型训练时,对于内容所有者的权利,目前还没有明确的法律裁决
    1. 对于任何被迫默认选择加入的人来说,基本上都是这种情况)
如今,有两个法律结构决定语言模型是否可以在未经同意的情况下获取所有这些数据——版权和合理使用。
版权(美国版权法第 102 条)为特定类型的内容提供保护,但也有例外情况/例外:
根据本标题,版权保护存在于固定在任何有形表达媒介中的作者原创作品中,无论是现在已知的还是后来开发的,从中可以直接或借助媒介来感知、复制或以其他方式传播这些作品。机器或设备。署名作品包括以下类别: (一)文学作品;(2) 音乐作品,包括任何伴奏歌词;(3) 戏剧作品,包括任何伴奏音乐;(四)哑剧、舞蹈作品;(五)绘画、图形、雕塑作品;(六)电影及其他视听作品;(七)录音;(八)建筑作品。
(b) 在任何情况下,对原创作品的版权保护均不延伸至任何想法、程序、过程、系统、操作方法、概念、原理或发现,无论其描述、解释、说明的形式如何,或体现在这样的工作中
例如,版权保护大多数原创作品(例如,如果您撰写了有关某个主题的原创博客文章或书籍),但不保护广泛的想法(例如,您不能声称自己是第一个撰写有关人工智能如何影响数据权利的人,因此这个想法属于你)。
版权保护的另一个例外/例外是合理使用(美国版权法第 107 条):
合理使用受版权保护的作品,包括通过复制副本或录音制品或该节指定的任何其他方式,用于批评、评论、新闻报道、教学(包括供课堂使用的多份副本)、学术、或研究,不侵犯版权。
在确定在任何特定情况下对作品的使用是否属于合理使用时,要考虑的因素应包括 (1) 使用的目的和性质,包括这种使用是否具有商业性质或用于非营利教育目的; (二)受版权保护的作品的性质;(3) 与整个受版权保护的作品相关的使用部分的数量和实质性;(4) 使用对受版权保护的作品的潜在市场或价值的影响。
例如,如果您从研究论文中选取内容并对其进行评论,那没关系,并且您没有侵犯内容所有者的版权。当我链接此页面的另一篇文章并添加该文章的引用文本时,情况也是如此。
这两个概念的创建都是为了保护内容所有者的权利,同时也允许信息自由流动,特别是在教育、研究和批评的背景下。
我不是法律专家,但根据我对上述语言的研究/理解,人工智能模型抓取训练内容变得模糊
  • 人工智能公司通常从内容所有者的网站上抓取全文(受版权保护),训练模型学习“想法”/“概念”/“原理”(不受版权保护),然后模型最终吐出不同的文字。在这种情况下,内容所有者是否受到版权保护?
  • 由于经过训练的语言模型现在最终用于商业目的(例如,ChatGPT plus 是付费产品),这是否侵犯了内容所有者的版权(因为合理使用例外不再适用)?
目前还没有法院对此做出裁决,因此很难预测结果如何。我的非律师观点是,第二个可能更容易落地:OpenAI 抓取数据并用它来创建商业产品,因此他们在合理使用下没有获得例外。我想第一个(模型是根据“想法”还是原始文本进行训练)是任何人的猜测。请注意,这两个项目符号都需要对内容所有者有利才能获胜,即,只有上述两个例外(“想法”例外或合理使用例外)不适用于 OpenAI 时,内容所有者才会获胜。
我之所以提出这种细微差别,是因为在人工智能风险范围内(并非详尽无遗)——从内容所有者的权利,到扩大欺诈,到工作自动化,到通用人工智能/人类的毁灭——近期最紧迫的问题是内容所有者的风险。一系列的诉讼和对内容平台的影响(例如StackOverflow 的故事)就证明了这一点。
虽然像联邦贸易委员会这样的监管机构可以思考真正的长期问题,并提出假设/创造性的方法来解决这些风险,但他们真正的短期潜力在于能够解决将在 5-10 年内影响我们的风险地平线。比如侵犯版权。这让我们了解了联邦贸易委员会正在采取的措施。

FTC 目前对 OpenAI 的调查

7 月中旬,FTC 宣布正在调查 OpenAI。有趣(又令人沮丧)的是FTC 调查它们的原因ChatGPT 的制造商正在接受调查,以评估该公司是否因将个人声誉和数据置于危险之中而违反了任何消费者保护没有道理吗?你不是一个人。让我们进一步介绍一下这是如何发生的。
FTC在人工智能监管问题上最直言不讳的立场于 4 月份发表:“书面法律中没有人工智能豁免,FTC 将大力执法,打击不公平或欺骗性做法或不公平竞争方法”。随后出现了一些与诽谤相关的问题:电台主持人马克·沃尔特斯 (Mark Walters ) 在 ChatGPT 指控他欺骗非营利组织后起诉 OpenAI ,一名法学教授被 ChatGPT 错误地指控性骚扰
这两种情况对相关人员来说都很糟糕,我对此表示同情。然而,众所周知的事实是,语言模型(如 GPT)和基于它们构建的产品(如 ChatGPT)会“产生幻觉”,并且常常是不正确的。FTC 调查前提的前半部分是——ChatGPT 产生幻觉,从而造成声誉损害。
在一场激烈的国会听证会上,一位代表(理所当然地)询问联邦贸易委员会为什么他们要追究诽谤和诽谤的责任,而诽谤和诽谤通常是由州法律处理的。FTC 主席 Lina Khan 给出了一个令人费解的论点
Khan 回应说,诽谤和诽谤不是 FTC 执法的重点,但根据 FTC 法案,在人工智能培训中滥用人们的私人信息可能是欺诈或欺骗的一种形式。“我们关注的是,‘是否有人受到严重伤害?’ 受伤可能是各种各样的事情,”汗说。
完整的论点是,FTC 表示ChatGPT 的幻觉产生了不正确的信息(包括诽谤),这可能是一种消费者欺骗形式此外,敏感的用户私人信息可能已被使用/泄露(基于OpenAI 快速修复的一个错误)。
作为调查的一部分,FTC 要求 openAI 提供一长串的信息——从有关他们的模型如何训练的详细信息,到他们使用的数据源,到他们如何向客户定位他们的产品,到模型发布的情况。由于已发现风险而被暂停。
问题是——特别是考虑到当前的法律环境,联邦贸易委员会监管这家可以说是最大的人工智能公司之一的最佳方法是什么呢?

我们当今运营的法律环境

要批评 FTC 与 OpenAI 的策略,了解我们当今运作的法律环境很有用。我们不会讨论太多细节,但让我们以反垄断的历史为例简单介绍一下:
  • 1900 年代,大型企业集团(“信托”)出现,公私权力的平衡转移到这些公司身上
  • 作为回应,1890 年的《谢尔曼法案》获得通过,以加强对私人权力的检查并保护竞争;该法律用于提起诉讼并打破从事反竞争行为(掠夺性定价、卡特尔交易、分销垄断)的“信托”
  • 20 世纪 60 年代左右,法官根据法律精神而不是法律条文进行判决,因此遭到强烈反对;例如,解释谢尔曼法以确定一组公司是否“不合理地限制贸易”涉及主观性,法官被指控从事司法能动主义
  • 为了引入客观性,芝加哥学派首创了消费者福利标准——“法院应该完全以消费者福利为指导”(例如,垄断公然提高价格是错误的,但对于其他活动,举证责任在于监管机构消费者伤害)
  • 这仍然是今天的标准,也是联邦贸易委员会和司法部很难打击大型科技公司的原因之一——例如,联邦贸易委员会不能提出谷歌正在提高价格的论点,因为他们的大多数产品都是免费的,即使谷歌从事其他反竞争行为
由此得出的结论是——我们今天继续在这样的环境中运作,在这种情况下,案件很大程度上是根据“法律条文”而不是“法律精神”进行诉讼的。这与当今美国最高法院的组成一起,导致了对该法律的相当保守的解释。
对于联邦贸易委员会来说,这意味着要接受现实并找到赢得案件的方法联邦贸易委员会和司法部的运作模式(理所当然)是追查少数大案并制定严厉的执法措施,以便长尾公司在违法之前三思而后行。为了实现这一目标,联邦贸易委员会需要在一些问题上取得重大胜利,并且需要在当前法律环境的限制下制定制胜策略

为什么 FTC 追查 OpenAI 的做法是(又一个)失误

联邦贸易委员会在针对大型科技公司方面遭遇了一系列损失,我认为这些损失都可以归因于“我们讨厌一切大型科技公司”这一失败的打击这些公司的策略,而不是用手术刀。
例如,FTC 采用强力方法阻止了 69B 美元的 Microsoft-Activision 收购并失败了(我想说非常糟糕)。联邦贸易委员会认为,微软收购动视暴雪将扼杀游戏市场的竞争。法官写了一份相当直白的裁决,驳回了联邦贸易委员会的所有论点,以下是法官的评论之一
没有任何内部文件、电子邮件或聊天内容与微软声明的不让《使命召唤》成为 Xbox 游戏机独占的意图相矛盾。尽管 FTC 行政程序中完成了广泛的调查,包括制作了近 100 万份文件和 30 份证词,但 FTC 尚未发现任何一份文件与微软公开承诺在 PlayStation(和 Nintendo Switch 上提供《使命召唤》)相矛盾。 )。
另一个强力案例是 FTC 试图阻止 Meta 收购 VR 公司 Within,但他们失败了他们为什么要追求这个?他们想试水一下,看看是否有兴趣在特定市场规模扩大之前阻止收购,考虑到当前的法律环境,这一计划被否决也就不足为奇了。
FTC 对 OpenAI 的调查存在类似的问题:
  1. 他们所追求的(在我看来)是一个相当微不足道的问题,也是语言模型的一个已知限制——幻觉;相反,他们应该关注 5 到 10 年内重要的实际人工智能问题,例如版权
  1. 尽管在当前的法律环境中多种“创造性”的法律方法被抛弃,但他们正在尝试另一种创造性的论点:幻觉→诽谤→消费者欺骗
对他们行为的慷慨解释是,他们想为他们的“人工智能不能免除现有法律”的立场树立先例,而这种徒劳的追逐让他们从 OpenAI 获得了大量的自我报告数据(FTC 发出了 20 页的询问)。
然而,考虑到他们反复追求暴力/任何大型科技公司都没有竞争力的方法+将这些方法与创造性论点相结合的记录,这些论点在法庭上一再被驳回,我相信联邦贸易委员会在本案中并没有赢得怀疑。

结论

我绝对认为 OpenAI 应该受到监管。不是因为他们的LLM产生了幻觉(他们当然有幻觉),而是因为他们未经许可公然使用创作者的内容。不是因为它将改变过去,而是因为它将帮助创作者建立一个健康的未来,让他们的内容所有权受到保护(法院是否认为现状构成版权侵权,还有待观察)。
如果联邦贸易委员会继续重蹈覆辙,采取“锤子而不是手术刀”的做法,这种情况就不会发生。用手术刀手段对付大型科技公司有成功的先例,其中最著名的是英国竞争和市场管理局。他们针对谷歌赢得的两起大案都集中在特定的反竞争机制上:阻止谷歌在 AdTech 堆栈中向自己的产品提供优惠待遇,以及允许其他支付提供商进行应用内支付。
如果联邦贸易委员会继续走目前的道路,他们的连续亏损将鼓励科技公司继续为所欲为,因为他们知道他们可以在法庭上获胜。现在是联邦贸易委员会反思其失败、汲取其他监管机构成功经验并纠正方针的时候了。
 


评论