财新传媒 财新传媒

阅读:0
听报道

文|胡泳

北京大学新闻与传播学院教授

▁▂▃▄01▄▃▂▁ 

2023人工智能大年

一个发人深省的尾声

2023年12月27日,《纽约时报》起诉OpenAI和微软,指控它们未经许可使用该报数百万篇受版权保护的文章,帮助训练聊天机器人为读者提供信息并与该报展开竞争。

起诉书有明确的材料证明《纽约时报》的文章与ChatGPT的输出之间的实质性相似

以往的类似案例表明,需要证明人工智能输出结果与原始版权材料之间存在实质性相似。 

《纽约时报》的起诉强调了OpenAI和微软的人工智能产品复制其大量内容的情况,超出了典型的搜索结果片段,有可能构成版权侵权。

诉讼的重点是内容的精准复制,这比仅仅指控人工智能的输出本身就是侵权作品更为有力。

《纽约时报》对OpenAI和微软的诉讼提供了,ChatGPT生成与该报文章类似文本的例子

▲来源:《纽约时报》 

《纽约时报》指责说,“被告试图在《纽约时报》的大规模新闻业投资上搭便车”,在未经许可或付费的情况下利用这些投资来构建替代产品。

诉讼称OpenAI和微软将报纸的文章编码到它们的语言模型的内存中,以便ChatGPT和Bing Chat(现在称为Copilot)可以访问和重复这些信息——在一些例子中,聊天机器人向用户提供了《纽约时报》文章的近乎逐字摘录,并且没有适当的引用。而这些文章需要付费订阅才能阅读。

根据诉讼,《纽约时报》是Common Crawl中用于训练GPT的最大的单一专有数据集。

Common Crawl是一个非营利性组织,负责抓取网络内容并免费向公众提供其档案和数据集,其中包括自2011年以来收集的数千万亿字节的数据。Common Crawl数据集占GPT训练组合的60%,堪称“互联网的副本”。

在其中,www.nytimes.com域名是“最具代表性的专有来源”,总体上亦排名第三,仅次于维基百科和美国专利文献数据库。

在网上常见的垃圾内容海洋中,来自信誉良好的出版商的文章作为训练数据正开始具备新的意义,因为它们比通常在网上找到的其他内容更有可能写得出色且准确。

诉讼称,尽管OpenAI和微软“广泛地从许多来源进行了复制”,但在构建其大模型时,它们对《纽约时报》的内容给予了特殊的强调,显示出对这些作品价值的认可。

GPT-3中权重最高的数据集Common Crawl 是一个“互联网副本”。域名www.nytimes.com是代表性最高的专有来源,在所有资源中排名第三,仅次于维基百科和美国专利文件数据库

侵犯版权的结果是对报纸的多个收入来源造成了不利影响。

《纽约时报》总共拥有超过1000万订阅者,并计划在2027年底前达到1500万,但该报表示,科技公司的“非法行为威胁将读者(包括现有和潜在的订阅用户)从《时报》转移走,从而减少了订阅、广告、许可和联盟营收,而正是这些资金支持《时报》维持其目前的开创性新闻水平。”

一个例证是,必应搜索引擎使用ChatGPT生成的结果来自《纽约时报》拥有的内容,但却缺乏适当的归属或推荐链接。

诉讼中没有提出确切的赔偿要求,但起诉状称,被告应承担与“非法复制和使用《纽约时报》独一无二的宝贵作品”相关的“数十亿美元的法定和实际损失”。

诉讼还要求这两家公司销毁任何使用《纽约时报》版权材料的聊天机器人模型和训练数据。

 

《纽约时报》是美国第一家起诉流行人工智能平台的大型媒体机构。这起诉讼标志着2023年的一个发人深省的尾声,这一年人工智能行业不受限制、几乎没有监管地向前冲刺。

无论《纽约时报》诉OpenAI和微软一案的结果如何,大型语言模型免费使用新闻档案培训的时代似乎即将结束。

由于诉讼强调,《纽约时报》是用于训练人工智能系统的专有数据的重要来源,比其他出版商更重要,这一独特的地位可能会加强《时报》发起的诉讼,为该领域未来的法律挑战树立标杆。

随着新闻档案对科技公司变得越来越有价值,这起诉讼很可能是多起诉讼中的第一起。此案将为人工智能公司如何使用受版权保护的材料开创先例。

在人工智能反应越来越普遍的时代,高质量、可信赖的人工智能培训资源越来越重要。《纽约时报》对OpenAI的诉讼可能会阻碍人工智能2024年的雄心壮志。 

许多科技业人士曾希望2024年人工智能系统能够得到更广泛的应用。但版权诉讼可能会减慢一切,因为法律风险构成人工智能公司计划如何以及何时发布新模型的一个更大因素。

训练数据会成为人工智能领域的一个致命弱点吗?

▲ 图源Pexels

▁▂▃▄02▄▃▂▁

谈判破裂

《纽约时报》有备而来 

在过去的一年里,媒体机构一直在研究生成式人工智能的蓬勃发展对新闻业内容和财务的影响。 

新闻出版商对人工智能公司的态度多种多样:

彭博社拥有庞大的使用人工智能的数据终端业务,该公司正专注于发展自己的人工智能。 

《华尔街日报》、新闻集团和 Gannett 希望将他们的故事授权给人工智能开发人员,而BBC、路透社和CNN等媒体已开始阻止人工智能公司访问其内容。 

美联社在2023年7月份与OpenAI达成了一项许可协议,拥有PoliticoBusiness Insider的德国出版商Axel Springer在12月也达成了同样的协议。这些协议的条款均未披露。 

不过在10月,OpenAI的一位发言人表示,该公司的做法并不违反版权法,其正在谈判的交易仅仅是为了访问其无法在线获取的内容,或是要在ChatGPT中显示链接或文章的完整部分。

与此同时,美国法院或联邦贸易委员会仍然有可能命令人工智能公司删除它们已经从网络上抓取的训练数据。毕竟,联邦贸易委员会在夏天确实对OpenAI的训练数据获取实践展开了调查。

2023年7月,美国联邦贸易委员会(FTC)开始调查OpenAI通过数据收集和发布虚假信息可能对消费者造成的伤害。FTC 希望了解 OpenAI收集和保护数据以及审核信息的详情

在这起诉讼之前,《纽约时报》与OpenAI进行了长达数月的谈判,但未能达成一项付费许可协议。

《纽约时报》称,它于4月开始谈判时,“提出知识产权方面的问题,并探讨友好解决的可能性,同时提出商业条款和技术保护措施,以实现被告和《纽约时报》之间互惠互利的价值交换”,然而“这些努力并未带来解决方案”。

我的猜测是,OpenAI的报价与《纽约时报》的预期相差过大。

不过,新闻机构现在如此计较OpenAI的部分原因是,过往的互联网历史发展表明,如果它们不小心,就会丢弃内容王国的钥匙。

十多年前,新闻出版商将大部分传统广告业务输给了谷歌和Facebook等科技新贵,新闻出版商与科技公司的关系一直不稳定。

《纽约时报》是少数从网络新闻中建立起成功商业模式的媒体之一,但也有多家机构因读者向互联网迁移而步履维艰。

以大型语言模型为代表的新一代人工智能技术之所以被称为生成式人工智能,是因为它们可以通过学习大型数据集来创建文本、图像和其他内容,由此对新闻行业进一步形成重击。

在这种新形势下,转型中的新闻机构将更难找到自己的立足点。因此,《纽约时报》和其他媒体完全有理由追究大科技公司对此应负的责任。

目前,投资者对OpenAI的估值已超过800亿美元。微软已向OpenAI投入130亿美元,而微软自身的价值高达2.89万亿美元,超过苹果公司,刚刚晋升全球市值最高的公司,原因恰恰在于其在人工智能领域的成功。

与此同时,分析师预计,奥克斯-苏兹伯格(Ochs-Sulzberger)家族控制的纽约时报公司2023年的收入将与前一年持平。 

对非新闻业务的涉足,如对游戏Wordle的收购,尚未带来有意义的增长。而随着社交媒体公司(如TikTok)不断发展壮大并抢占眼球份额,广告业务也受到了威胁。

此外,曾帮助推动新读者的公司,如埃隆·马斯克(Elon Musk)的X公司,也在重新测试他们与新闻机构的关系。

由于《纽约时报》2023年的收入预计只有24亿美元,每一点收入都很重要。

《纽约时报》明白,它必须用自己的估值与OpenAI已同其他数据提供商签署的协议相比较。

如果《纽约时报》在法庭上证明了自己的估值,OpenAI(以及其他所有基础模型提供商)将会承担更高的数据合同费率。

对于基础模型提供商使用的数据产品而言,利润分享或版税是最合理的定价模式。它根据基础模型提供商的盈利方式对数据进行估值。

在数字模式中,公司对应用程序接口的访问(订阅)收费,或以一次性收费销售数据集下载。

因而,《纽约时报》数据集等数据产品的定价策略十分关键 

我之所以如此强调定价,是因为所有采用统一定价的公司将来都会后悔当初这样做。它们没有意识到自己的数据到底有多值钱,也没有意识到它们的货币化窗口有多小。

数据是一种新的资产类别,企业必须为数据产品定价,以反映新的货币化模式。

一个数据集可用于训练多个基础模型,这些模型可多次货币化。使用数字定价模式出售数据访问权会积淀大量资金。利润分享或特许权使用费可为数据集所有者提供经常性收入,这与基础模型提供者获得报酬的方式一致。

这里发生的是数据价值的根本性调整:

以前,人们的想法是,通过向所有人开放数据,赢得广告投放,以从数据中获取价值。

现在的新想法是,锁定自己的数据,因为当数据集所有者将其用作人工智能的输入时,可以提取更多的价值。 

所以,《纽约时报》代表着最新的反对人工智能的数据叛乱

人们重新认识到,网络信息——故事、艺术品、新闻报道、留言板帖子和照片/视频——可能具有巨大的未开发价值。

叛乱的宗旨是“不让机器收割”,而叛乱大军包括作家、演员、画家等创意人士,还有社交媒体及新闻机构。

所有人都对人工智能公司未经同意就刮取网络内容感到愤怒,抗议形式各不相同。

顶级作家联合起诉 OpenAI“大规模侵犯”小说版权,包括乔治·马丁与乔纳森·弗兰岑

作家和艺术家们正在锁定他们的文件以保护自己的作品,或者抵制某些发布人工智能生成内容的网站。而Twitter、Reddit等公司则希望对访问它们的数据收费。

针对人工智能公司的诉讼不断增多,艺术家指控它们未经同意就对自己的创意作品进行系统训练;盖蒂图片档案馆(Getty photo archive)起诉Stability AI,指控其在未经许可或无补偿的情况下复制了1200万张图像以训练其AI模型。

现在轮到《纽约时报》出手,找了顶级律师事务所苏斯曼·戈弗雷(Susman Godfrey),它拥有对抗大科技公司的上佳记录。

显然,这并不是为了快速抢钱,而是一次战略性的法律挑战。

《纽约时报》在纽约南区法院对OpenAI和微软提起诉讼。它经过了深思熟虑,首先要求陪审团审判。

《纽约时报》认为,在版税问题上,陪审团比法官更有可能站在自己一边。法官更理性,会根据先例行事。陪审团的不可预测性要大得多,当他们看到一个大企业占他人便宜的案件时,判决的赔偿往往会更高。

要求陪审团审判增加了潜在结果的不确定性,更有可能开创一个新的先例。 

此诉讼案还有一点很有意思,指控人工智能将“幻觉”或虚构事实归因于《纽约时报》,为案件增添了另一个维度。

《纽约时报》称,

来自OpenAI和微软聊天机器人的错误信息,以“人工智能幻觉”的形式出现,但却将这些信息归于报纸。 

例如,针对要求撰写一篇关于各大报纸报道橙汁与非霍奇金淋巴瘤有关的信息性文章的提示,GPT模型完全捏造了一件事:它称《纽约时报》于2020年1月10日发表了一篇题为《研究发现橙汁与非霍奇金淋巴瘤之间可能存在联系》的文章,尽管这样的文章从未在报纸上出现过。 

诉状继续说:

“这些‘幻觉'在用户获取信息的来源上进行误导,使他们错误地认为所提供的信息已经过《纽约时报》的审核和发布。用户向搜索引擎询问《纽约时报》就某一主题撰写了什么内容时,得到的不应该是报纸文章的未经授权的副本或不准确的伪造品,而应该是文章本身的链接。”

这样的虚假信息指控带给人们一个巧妙的转折,将大家所害怕的东西——幻觉——搬了出来,使《纽约时报》成为第一家强调“幻觉”可能对其品牌造成损害的出版商。此前,OpenAI及其主要竞争对手谷歌都承认它们的聊天机器人容易产生幻觉。

如果你花足够多的时间使用聊天机器人和内容生成器,用不了多久,你就会得到一些不相关、无意义的输出,有时甚至是完全错误的输出。这些情况被称为人工智能幻觉,是每个使用人工智能生成器获取信息和完成工作(并想要准确完成工作)的组织和个人都会遇到的问题

版权专家、康奈尔大学数字和信息法教授詹姆斯·格里梅尔曼(James Grimmelmann)评论说,《纽约时报》的起诉“非常专业”。“这绝对是迄今为止在生成式人工智能领域所见过的最彻底、最谨慎的诉讼。”

《纽约时报》的律师们有版权注册记录,有报纸上的作品被被告复制并出现在正在使用的模型中的明确枚举,有详细、广泛的证据证明人工智能模型是根据《纽约时报》的文章进行训练的。

而且,《纽约时报》也讲了一个足够合理的基本故事,说明对它的经济损害以及对新闻市场的影响。 

▲ 图源Pexels

▁▂▃▄03▄▃▂▁

新闻基础设施摇摇欲坠

新闻商业模式岌岌可危

这个故事的概貌是这样的:

《纽约时报》以侵犯版权为由起诉OpenAI和微软,这使得一家领先的媒体机构与一项变革性新技术的传播者对簿公堂。

象征意义上讲,这起案件意味着一场模式之间的冲突:劳动密集型的人类新闻采集与人工智能按键式信息生产 

在法律上,此案却代表着不同的东西:已有法律和新兴技术之间的经典差距。

版权法是一套可追溯到印刷术的规则,其设计初衷并不是为了涵盖像ChatGPT这样的大型语言模型。美国法院必须有意识地对其进行改变,甚至可以预计,最高法院的裁决基本上是不可避免的。

一些出版商将在一段时间内与人工智能平台达成和解——甚至《纽约时报》案也不排除和解的可能性——但只要有足够多的出版商不选择和解,这个新颖而关键的版权法问题迟早需要得到解决

在过去的十年里,新闻出版商一直在游说国会寻求保护,以免大科技公司利用其内容开展社交媒体和搜索引擎业务。

人工智能的出现引发了新一轮的游说努力,新闻高管们认为科技公司无权根据现行版权法中的合理使用来抓取其内容。

由此,美国国会也极有可能干预,如果法院不能正确处理的话。这是因为,新闻基础设施本来就已摇摇欲坠,如果技术的变革彻底将其摧毁,民主将成为输家。

《纽约时报》深明这种利害关系。

在与OpenAI的谈判中,它希望“确保”其内容的使用“获得公平价值”,“促进健康的新闻生态系统的持续发展,并以负责任的方式帮助开发生成式人工智能技术,从而造福社会,为知情的公众提供支持”。

谈判破裂后的起诉书这样写道:

“如果《纽约时报》和其他新闻机构不能制作和保护其独立的新闻报道,就会出现计算机或人工智能都无法填补的真空。”

 后果是,“新闻报道将减少,社会将付出巨大代价”。

《纽约时报》特别谴责人工智能公司在大规模新闻业投资方面免费搭便车的做法。

诉讼引用了OpenAI的GPT-4输出《纽约时报》大篇幅新闻文章的例子,包括一项针对纽约市出租车行业的获奖调查,历时18个月才告完成。

诉状称:

“《纽约时报》的新闻报道是数千名记者的心血,他们每年的工作成本高达数亿美元。”

被告通过未经许可或无偿使用《纽约时报》的新闻作品,有效地避免了该报为创作这些作品所投入的数十亿美元,因而都属于“不当受益于”报纸在新闻业的投资。

这背后的一个深远忧虑是,聊天机器人和其他人工智能工具的兴起将进一步侵蚀陷入困境的新闻业的收入,甚至使整个新闻业变得过时。

例如,搜索引擎Bing使用ChatGPT来支持其搜索。如果一个人向Bing提问,搜索引擎可以根据《纽约时报》的报道立即生成一个长而详细的答案,从而消除了此人访问《纽约时报》网站的需要,由此夺走了报纸的收入。

一般而言,出版商对新闻的直接流量感到最舒服,但像ChatGPT这样的大型语言模型可能根本不会将用户带到新闻网站。

方兴未艾的AIGC有可能削弱广告在内容经济中的地位,如果像必应这样的人工智能工具从网络上搜刮信息,而不需要用户点击转到信息源,那么它就取消了让许多网站维持下去的收入来源。

▁▂▃▄04▄▃▂▁

《纽约时报》诉案的关键

法律问题是合理使用原则

科技公司的抗辩会是,它们对新闻公司数据的使用属于美国版权法下的“合理使用”。 

“合理使用”是一种允许在未经许可或付费的情况下有限使用受版权保护的材料的原则,特别是为了批评、评论、新闻报道、教学、学术或研究等目的。

版权案件中的被告需要证明它们对内容进行了实质性改造,并且没有作为原作者作品的替代品在同一市场进行竞争。

然而,就《纽约时报》一案而言,与之前案件中的被告相比,OpenAI和微软成功建立合理使用抗辩的可能性似乎较低。

现行美国版权法第107条规定,法院在评估合理使用抗辩时至少要考虑四个因素:

使用的目的和性质,包括这种使用是否具有商业性质或是为了非营利的教育目的;

版权作品的性质;

与受版权保护的作品整体相比,使用部分的数量和实质性;

以及这种使用对版权作品的潜在市场或价值的影响。

在考虑合理使用测试的四个因素时,我们会发现:教育性和非营利性用途更有可能被认定为合理使用。

与技术写作或新闻相比,创意作品受到的版权保护更多。被复制作品的数量很重要,被复制材料与原始版权材料之间是否存在实质性相似也很重要。 

最后,也许对《纽约时报》的诉讼来说最重要的是,法院还要考虑复制是否会损害被复制作品的当前或未来市场。

由以上规定来看,对原作进行“创新”使用、添加新元素且不替代原作用途的情形,更有可能被视作合理使用。而我们看到,OpenAI和微软的做法在这些方面都不大站得住脚。

首先,讨论使用的目的和性质时,被告的目的也反映了《纽约时报》的目的:向读者提供新闻信息。

这种情形缺乏合理使用论证通常所需的“变革性”(transformative)元素——即添加新的东西,或以显著的方式改变原始作品(通常是为了不同的目的)。

OpenAI和微软可能会辩称,训练它们的人工智能产品可被视为具有变革性,因为人工智能以不同于新闻报道或评论的最初目的的方式使用报纸内容。

但恰如《纽约时报》所指出的:

“无偿使用《纽约时报》的内容来创造替代《纽约时报》的产品,抢走《纽约时报》的受众,这毫无‘变革性’可言。”

此外,考虑到人工智能软件是为了盈利而出售的,其使用的商业性质是显而易见的。

其次,预计被告会辩称,人工智能将输入作品视为事实数据,新闻由事实组成,因此应该比创意材料得到更宽容的对待。

但考虑到《纽约时报》在呈现事实材料时所做的作者和编辑选择,无论人工智能如何处理,底层作品仍然具有本质上的创造性。

第三个因素对OpenAI和微软来说是一个挑战,因为它们很难断言仅使用了《纽约时报》作品的一小部分,特别是当该报的投诉强调出现了大量逐字使用的情况时。任何逐字输出的证据也会损害OpenAI和微软的“变革性”论点。

谈到第四个因素——对版权作品市场的影响时,《纽约时报》强烈认为OpenAI和微软对其内容的使用可能对内容的价值产生重大负面影响。

由于《纽约时报》的大部分报道都需要付费,因此读者无需支付《纽约时报》订阅费即可通过OpenAI访问相同的内容,这一事实影响了受版权保护作品的价值,它将为被告的合理使用辩护带来额外的障碍。

同时,与作家、艺术家等类似情况的原告相比,《纽约时报》提出了更强烈的反对合理使用的主张,因为不太可能有人会要求人工智能应用程序生成小说的完整副本。

科技公司的大型语言模型建立在从互联网各个角落搜罗的内容和数据的基础上,它们经常辩称,如果某些内容是公开的,那么用来训练模型就是合理的。

但基于这些模型的商业性,内容的创建者大多不同意这一观点。

据彭博社报道,OpenAI目前正在洽谈以1000亿美元的估值进行融资,高于其目前860亿美元的估值。

订阅ChatGPT Plus可以让用户使用功能更强大的聊天机器人,每月收费20美元。该公司还向企业客户出售服务。

The Information报道,OpenAI最近的年化收入突破了16亿美元,主要来自这些订阅服务。 

2024年1月11日,OpenAI商业化扩张之路再进一步,正式上线了基于其大模型GPT-4等搭建的定制应用程序商店——GPT Store。

与此同时,微软对Office软件中的生成式AI功能收取每月30美元的费用,而订阅《纽约时报》的费用为每月25美元。

利益迥异的双方看待大模型的视角完全不同。格里梅尔曼指出:

“人工智能公司在一个心理空间中工作,它们认为将万事万物放入技术搅拌机中没有什么不可以。媒体公司从未完全接受这一点。它们一直认为,如果你正在使用我们的作品展开培训或者做一些能产生价值的事情,我们就应该有权获得其中的一部分。”

生成式人工智能可能是迫使这个问题得到法律解决的技术,《纽约时报》诉讼案的关键法律问题是合理使用原则。

OpenAI和微软将很难反驳合理使用测试的最后一点,即它们的产品依赖于《纽约时报》这样的新闻采集企业,必定会对这些企业的利益造成损害。

ChatGPT和其他大语言模型无法到外面的世界去收集和审核新的事实。在可预见的未来,它们只能从已经发布的信息中“学习”。

换个角度看,OpenAI和微软需要《纽约时报》和其他新闻机构的存在,才能提供可靠的新闻作为其服务的一部分。因此,从理性和经济的角度来看,它们应该有义务为所使用的信息付费。

更重要的是,为了让人们知道新闻是可以信赖的,需要新闻来自社会可以信任的机构——有着良好记录和声誉的机构,依靠商业利益来维护它们的存在与发展。否则,我们就不会有新闻。

我们将拥有一个与现实脱节的自我迭代的回音室,以及多个无法保证其准确性的大模型。这就是维护新闻自由的基本公共利益与合理使用问题的关系所在。

《纽约时报》对OpenAI/微软的诉讼案和其他案例表明,法院目前正试图解决人工智能技术对版权、隐私和数据使用法律的复杂影响,法律格局也在不断变化之中。

每个案例都将有助于界定将在线内容用于人工智能训练目的的界限和可接受的做法。而观察“合理使用”等论点是否足以顶住来自多方的压力,将是一件非常有趣的事情。

同样有趣的是,如果OpenAI和其他科技公司的行为被认为是有问题的,那么在可能的赔偿和/或销毁整个模型和训练集方面,什么样的处罚才是合适的。

这场诉讼凸显了促进人工智能创新与保护版权之间错综复杂的平衡。

随着人工智能技术越来越多地展现出生成类人内容的能力,一个具有挑战性的问题也随之凸显:

在不违反版权法的情况下,现有内容在多大程度上可用于人工智能开发。 

无论结果如何,这场诉讼都可能对人工智能行业产生持久影响,影响人工智能公司、内容创作者和法律专家如何驾驭人工智能技术与版权法之间复杂的相互作用。

它还将人工智能开发中的伦理考量的重要性推到了风口浪尖,强调了在各个领域负责任地合法使用人工智能技术的必要性。
 

话题:



0

推荐

胡泳

胡泳

696篇文章 15小时前更新

北京大学新闻与传播学院教授,博士。中国传播学会常务理事,中国网络传播学会常务理事,中国信息经济学会常务理事。国内最早从事互联网和新媒体研究的人士之一,有多种著作及译作,是推动中国互联网早期发展的最有影响的启蒙者之一。欢迎关注胡泳的微信公号:beingdigital,讨论数字化时代的生活设计。

文章