胡泳｜超越ChatGPT：大型语言模型的力量与人类交流的困境（上）-胡泳的财新博客-财新网

摘要

以GPT3/4为代表的大型语言模型被业界宣传为“基础性的”，是人工智能领域科学进步的主要转折点。这类叙述忽略了大规模的人工智能模型主要由大科技公司控制，因为它们需要巨大的计算和数据资源，并且还引发了围绕错误信息和歧视、隐私和安全漏洞以及负面环境影响等多方面的担忧。同时，无论大型语言模型及其训练数据集变得多么庞大，它们永远无法像人类一样学习和理解我们的语言。在此情况下，本文预测了大型语言模型的四大发展趋势，并指出，为了充分了解其范围和力量，探索大型语言模型如何影响社会的不同方面非常重要。特别是，大型语言模型将带来人类交流的困境，我们需要传播理论和基于伦理的传播实践的更新，来确定下一代传播研究的面貌。

【关键词】ChatGPT 大型语言模型人工智能传播学

引言

通过交流，我们创造并改变了我们生活的世界——其中既包括我们的价值观，也包括我们的工具。大型语言模型是强大的工具，可以帮助我们自动化和简化复杂的任务，并有可能彻底改变我们与技术交互的方式。然而，它们并非没有限制和风险。

交流离不开语言。与其他人工智能应用相比，语言是一个更加棘手的问题，它的风险也更高。自然语言处理（NLP, natural language processing）与一些互联网巨头的核心业务密切相关，例如谷歌的搜索与Meta的社交媒体参与。作为一个社会，我们也许从未如此意识到语言造成伤害和贬低的危险，也从未如此意识到我们的语言中微妙的、结构性的、往往是无意的将人予以他者化的形式。

ChatGPT 正在被过亿用户使用，其中许多人没有接受过任何关于如何合伦理地使用这样的系统、或如何确保系统不会造成伤害的教育。除了区分人类和机器的困难，我们也需要更多的研究来帮助我们了解人工智能将会怎样影响我们与其他人的互动。

这一切将带来一个全新的交流环境。在一个日益由可以模仿人类自然语言能力的人工智能工具主导的世界中，真实和信任意味着什么？偏见和错误信息又将导致什么？很多问题超越了技术范围。传播学者需要成为有关人工智能技术发展的对话的中心。

大型语言模型成新宠

由于ChatGPT爆火的缘故，大型语言模型（LLM，large language model）集万千宠爱于一身。但它们是什么呢？简单地说，LLMs是一种计算机系统，被设计用来学习文本语料库的统计属性，以生成模仿原始文本的风格和内容的新文本。换言之，LLMs能够生成现实而较为准确的新文本，看起来像是由一个真实的人撰写。

LLMs的核心基于一种强大的机器学习技术，即深度学习。深度学习是人工智能的一个子集，能够自动学习数据中的复杂模式。深度学习算法的灵感来自于大脑从经验中学习的能力，它们通常使用神经网络来实现——计算系统的结构与大脑非常相似。事实上，如果不使用先进的水印策略，就不可能准确区分由人类头脑所写的文本和由高度可并行的人工神经网络所产生的文本，后者的神经连接数要少得多。

传统机器学习算法和深度学习算法之间的一个关键区别是，深度学习算法可以扩展到更大的数据集，它们可以从非结构化或未标记的数据中学习。这使得它们非常适合于自然语言处理等任务，这也是LLMs的用途。大型语言模型现在被认为是人工智能的前沿，因其有可能执行需要创造力、推理和理解自然语言的任务。

大型语言模型于2017年在谷歌大脑（Google Brain）开始使用，研究人员推出了transformer（转换器）架构，它是自然语言处理中使用的一个基于深度学习模型的神经网络，训练可以实现并行化，这为训练真正的大模型首次提供了机会。此后，大型语言和文本-图像模型在领先的技术公司中激增，包括谷歌（BERT、GLaM、LaMDA、Chinchilla、PaLM）、Facebook/Meta（OPT-175B、Galactica、BlenderBot、LLaMA）、英伟达和微软（Megatron-Turing），当然还有OpenAI，微软是主要的投资者（GPT-3/4用于文本，DALL-E2用于图像，Whisper用于语音）。在线社区，如Midjourney，以及Hugging Face等开源供应商，也创造了生成模型。

▲ Midjourney官网页面

新的玩家还在不断进场。2023年3月，彭博社推出BloombergGPT（Bloomberg Professional Services, 2023），系根据专有来源的金融数据训练的LLM，“在金融任务上比现有的模型有明显的优势，而不影响一般LLM的基准性能”（Wu, 2023）。4月，资助开发“稳定扩散”（Stable Diffusion）等开源生成式人工智能模型的Stability AI宣布推出StableLM语言模型套件。在为多个领域（包括图像、音频、视频、3D和生物学）开发模型之后，这是该开发商首次跳入目前由技术大腕主导的语言模型游戏（Dey, 2023）。同在4月，亚马逊在AWS中推出Bedrock服务,在一个平台上提供多种生成式人工智能模型。例如，Stability AI的Stable Diffusion图像生成器，可以将文本变成图像；AI21实验室的Jurassic-2模型是一个多语言LLM，可以生成德语、西班牙语、法语、葡萄牙语、荷兰语和意大利语文本；Anthropic的Claude是一个ChatGPT的对手，可以自动化工作流程，回答问题，并与用户进行交流。与微软和Alphabet相比，亚马逊可能看起来姗姗来迟，但它的打法相当精明。通过Bedrock，亚马逊不只是提供对上述第三方平台的访问，也提供对其专有的大型语言模型Titan的访问，这可能使亚马逊变成那些希望使用LLMs并根据其需求构建应用程序的企业的首选平台（Chauhan，2023）。

时至今日，除了苹果之外，美国每家主要科技公司都宣布了自己的LLM。中国的科技公司当然亦不甘落后：2023年3月，百度推出文心一言并在官宣后为新浪财经、澎湃新闻、爱奇艺、美的集团、东风日产等一系列企业提供接入服务；2022年，阿里达摩院发布通义大模型，并在2023年4月正式推出通义千问；再加上2022年腾讯对外披露的混元大模型和2021年华为发布的盘古大模型等等，不一而足，人称“万模大战”。在TB级文本数据上训练的大型语言模型成为高科技行业最热门的一角。

LLMs对大型科技公司很重要，因为它们可以实现新的产品和服务，从而吸引更多的用户，产生更多的收入，并创造更多的价值。例如，LLMs可用于改进搜索引擎、社交网络、云计算、数字助理、电子商务、游戏、教育、医疗保健等。此外，科技公司可以用LLMs来改进企业的现有产品线。例如，无论是语音数字助理还是为营销人员自动投放广告，谷歌都将人工智能作为未来的突破性技术，使下一代服务和设备更加智能、功能更强。

生成式模型的重要价值之一是它们与生产力应用程序的整合。例如，微软在企业Office套件市场中有明显的优势，正在将生成式模型整合到Word、Outlook和Teams等应用程序中。中国科技巨头阿里巴巴在生成式人工智能方面的最新努力，在某种程度上让人联想到微软，即通过让人们用自然语言来描述他们想要建立的东西，令使用各种应用程序变得更容易。阿里巴巴宣布，通义千问将被整合到公司的各项业务中，以改善用户体验，客户和开发人员可以通过利用该模型创建定制的人工智能功能。

同时，人工智能初创企业经常以超过10亿美元的估值筹集资金。例如，6月13日，英国人工智能初创公司Synthesia表示，它从风险投资公司Accel和Nvidia旗下NVentures牵头的一轮融资中筹集了约9000万美元，估值为10亿美元。该公司的技术帮助包括亚马逊在内的5万多家企业创建用于教学和企业视频的定制AI化身。这表明，大量企业希望将传统视频制作转变为数字工作流程（Reuters, 2023）。Synthesia只是一个人工智能初创企业快速获得独角兽地位的例子。在利率上升和高通胀导致的更广泛的融资放缓中，人工智能初创企业已经成为2023年投资的一个亮点。

人工智能为什么非得是大模型？

就这样，大型通用人工智能模型被业界宣传为“基础性的”，是该领域科学进步的主要转折点。这类叙述分散了“规模病症”的注意力，这些病症每天都变得更加根深蒂固：大规模的人工智能模型主要由大科技公司控制，因为它们需要巨大的计算和数据资源，并且还引发了围绕歧视、隐私和安全漏洞以及负面环境影响等多方面的担忧。

例如，GPT-3最初是在45TB的数据上训练的，并采用了1750亿个参数来进行预测；GPT-3的一次训练就花费了1200万美元（Davenport, Mittal, 2022）。另据报道，OpenAI使用1万个英伟达GPU训练ChatGPT（Goldman, 2023），而ChatGPT每天给OpenAI带来70万美元的成本（Gardizy, Ma, 2023）。而最新的GPT-4的训练耗资超过1亿美元（Knight，2023）。大多数公司没有数据中心能力或云计算预算来从头开始训练这类模型，许多现成的、预训练的人工智能模型，作为云人工智能服务的一部分提供，而此市场本已集中在大科技公司手中，如AWS（亚马逊）、GCP（谷歌云平台）和Azure（微软）。这些云供应商每年总共花费超过1000亿美元的资本支出，确保拥有最全面、最可靠和最具成本竞争力的平台。特别是在生成式人工智能方面，它们也受益于供应限制，因为它们可以优先获得稀缺的硬件（如Nvidia A100和H100 GPU）（Bornstein, Appenzeller, and Casado，2023）。

▲ 全球前三大云服务器厂商亚马逊网络服务（AWS）、微软Azure、谷歌云平台（GCP）

大科技公司可能会保持先发优势，因为它们有时间和市场经验来磨练基础语言模型，并发展宝贵的内部专业知识。因此，较小的企业或初创公司可能难以成功进入这一领域，从而使得LLM的巨大处理能力集中在少数几家大科技公司手中。

2021年，埃米莉·本德（Emily M. Bender）博士、蒂姆尼特·盖布鲁（Timnit Gebru）博士、安吉丽娜·麦克米兰-梅杰（Angelina McMillan-Major）和玛格丽特·米切尔（Margaret Mitchell）博士在一篇题为《论随机鹦鹉的危险》的论文中对LLM的潜在成本和危害提出警告（Bender et al, 2021），这篇论文导致谷歌将盖布鲁和米切尔从人工智能伦理团队的共同领导位置上赶走（Metz, Wakabayashi, 2020; Metz, 2021）。该论文在确定困扰LLM的规模病症方面有先见之明。当公众讨论被围绕着ChatGPT和其他LLMs的令人窒息的炒作所吞噬，这项研究提出了清醒的警告：我们需要讨论社会是否应该建立这类技术，而不是如何建立，更不是不加批判地将其作为进步的同义词而加以全盘接受。本德等人问道：“越来越大的语言模型是不可避免的还是必须的？这一研究方向有什么成本，我们在追求它之前应该考虑什么？”

择其要者，大型语言模型可见的成本就有：

环境和财务成本

LLMs的训练需要大量的能源，并产生大量的二氧化碳排放。在GPU上训练一个BERT基础模型所需的能量与一次横跨美国的飞行一样多（Bender et al, 2021）。大多数云计算供应商的能源不是来自可再生能源，而且世界上许多能源也不是碳中和的。此外，哪怕是可再生能源，对环境来说仍然是昂贵的。数据中心为了满足越来越多的计算需求，占用了绿色能源的其他潜在用途，为此，迫切需要节能型的模型架构和训练模式。

环境问题与种族问题的交汇，意味着被边缘化的人和来自多数世界/全球南方的人更有可能体验到能源消耗和二氧化碳排放增加所带来的伤害，尽管他们也是最不可能体验到这种模型的好处的一群。碳足迹将取决于能源的使用和正在使用的能源的碳强度。不仅仅是LLMs有很大的能源影响，而且其中的碳影响将首先为那些没有从这项技术中受益的人带来成本。所以，当我们做成本效益分析时，重要的是要考虑到谁在得到好处，谁在支付成本，因为两者不是同一批人。

此外，进入和训练这些模型的成本很高，这意味着只有一小部分全球精英能够发展并受益于LLMs。由于其复杂的性质，它们的建立和维护可能是困难和昂贵的。它们还需要大量的训练数据，而这些数据可能很难获得，处理起来也非常昂贵。由此，大规模算力会将LLMs限制于只有资源最丰富的公司和研究者才能使用，而把小型开发商排除在外。所以，环境和财务成本应该成为自然语言处理研究中的首要考虑因素。

不负责任的训练数据

使用大量未经整理的训练数据集有可能创造出巩固主导性、霸权性观点的语言模型。这些训练数据集的庞大规模并不能保证多样性，因为它们往往是从网站上刮取来的，而这些网站由于互联网接入不足、代表性不足、过滤或骚扰等问题而排除了边缘化人群的声音。这些数据集有“价值锁定”的风险，或将有害的偏见编码到难以彻底审计的语言模型中。

如果模型是在过滤有限的大量互联网数据上训练出来的，它们就会吸收事实和错误信息、有偏见的内容和公平的内容、有害的材料和无害的材料。如果没有办法在回答提示之前评估这些标准，LLMs就有可能陷入复制、放大和传播有问题的内容和错误信息的危险。

“随机鹦鹉”的诞生

本德等人进一步警告说，对语言模型的追求可能是一个误导性的研究方向。她们观察到，语言模型就好比“随机鹦鹉”（stochastic parrot），“根据关于如何组合的概率信息，胡乱地将它在庞大的训练数据中观察到的语言形式序列[缝合]在一起，但没有任何对意义的参考”（Weil，2023）。也就是说，大型语言模型善于生成令人信服的语言，但实际上并不理解它所处理的语言的含义。

“随机鹦鹉”的比喻突出了两个重要的局限性：第一，学习机器所作的预测基本上是在重复数据的内容，加上一些由模型的限制造成的噪音（或随机性）。第二，机器学习算法并不了解它所学习的问题。它无法得知自己什么时候在重复一些不正确的、脱离上下文的或社会不适的东西。由于这些局限性，学习机器可能会产生“危险的错误”（Lindholm et al, 2022）。

ChatGPT的不可靠性会给任何使用它来生成相应文本的机构带来相当大的法律、财务和声誉风险。正如沃伦·巴菲特（Warren Buffett）所说：“建立声誉需要20年，而毁掉声誉需要5分钟。”如果LLM用于重要任务，它可能会创建一种新的职业（LLM事实检查员）和一种新的保险范围（为了弥补LLM错误）。

进一步地，“随机鹦鹉”的问题可以被看作是人工智能和机器学习的一个更普遍的挑战：如何确保模型是真正的学习和推理，而不是仅仅去记忆数据当中的模式？随着模型的规模和复杂性不断增长，以及它们越来越多地被用于医疗保健、金融和运输等高风险的应用中，这一挑战显得尤为突出。

由此观之，随机鹦鹉是一个可能出现在语言模型中的问题，当模型过于依赖复制语言模式而并不真正理解其含义时，该问题就会出现。如果不加以控制，随机鹦鹉会对人工智能的发展和部署，以及依赖这些技术完成重要任务的用户产生严重后果。这凸显了通过仔细的模型设计、评估和持续监测来解决此一问题的重要性。

▲ Yann LeCun戏称：将大模型称为「随机鹦鹉」是在侮辱鹦鹉。

最终，我们需要问自己，为什么要把人工智能的未来全部押注在大型语言模型一条路上？纽约大学教授兼Meta首席AI科学家杨乐昆（Yann LeCun）就认为LLM是“一条下坡路”，远离了通往更强大的AI的道路（The Economist, 2023）。“大型语言模型能有多聪明，能有多准确，都是有限度的，因为它们没有现实世界的经验，而这确实是语言的基本现实。”他指出，人类所学的大部分内容都与语言无关。“我们学习如何投掷篮球，让它穿过篮圈”，深度学习的另一位先驱者杰弗里·辛顿（Geoffrey Hinton）说。“我们根本不使用语言来学习。我们从试验和错误中学习。”（Smith, 2023）

就算语言是发展人工智能的重要途径，事情也很明显：无论LLMs及其训练数据集变得多么庞大，它们也永远无法像我们一样学习和理解我们的语言。吊诡的是，语言模型的限制导致了一种研究趋势，即专注于研究这类模型的知识和行为。换言之，人类正在学习LLMs的语言，并寻找更好地与它们沟通的方法。

这是因为，语言模型是神经网络，根据从网络收集的数据进行训练。经过训练后，模型可以接收提示并预测其后的单词。神经网络越大，模型的学习能力就越强。数据集越大，模型接触不同单词序列的机会就越大，生成文本时就越准确。

可问题是，人类语言不仅仅是文本。事实上，语言是一种将信息从一个大脑传输到另一个大脑的压缩方式。我们的谈话经常忽略共享知识，例如视觉和听觉信息、世界的物理体验、过去的谈话、我们对人和物体行为的理解、社会结构和规范等等。

正如杨乐昆和纽约大学计算机科学系博士后雅各布·布朗宁（Jacob Browning）在最近的一篇文章中所写到的，“仅靠语言训练的系统永远不会接近人类智力，即使从现在开始训练直到宇宙热寂”。虽然两位科学家也指出，如果我们停留在表面上，语言模型“无疑会接近[人类智能]。而且，在许多情况下，表面就足够了”，但是我们绝不应该把LLMs拥有的浅层理解与人类从观察世界景象、探索世界、在世界中进行实验以及与不同文化和其他人互动中获得的深层理解相混淆（Browning, LeCun, 2022）。

所以，假如我们用“语言的统计模型”而不是“大型语言模型”来描述这种人工智能技术，是否会带来更清楚的认知？这样会使我们认识到，统计推理肯定不是人类合作、创造、协调和竞争的全部故事。

所有人类的知识最终都能被抓进机器的说法是没有意义的。我们只能把可以用比特串表示的知识放入机器。像体育、音乐、木匠大师或创意写作这样的表演技能是无法精确描述和记录的知识的主要例子；技能的描述并不就赋予表演的能力。即使它们可以被代表，表演技能的形式也是无法被记录的——它包括表演者的想法和思考，他们的神经元记忆状态，以及他们的神经肌肉化学模式。所有这些没有记录的和无法记录的信息的数量远远超出了可能存储在机器数据库中的范围。与人类的能力相比，大型语言模型所能执行的任何功能都是很小的。

我们是否已经被大型语言模型迷住了，以至于没有看到我们利用语言所做的其他事情？我们建立关系。我们互相关照。我们认识并驾驭我们的情绪。我们建立并行使权力。我们做出承诺，并贯彻执行。我们创建组织和社会。我们创造传统和历史。我们为行动负责。我们打造信任。我们培养智慧。我们爱。我们想象以前从未想象过的东西。所有这些都不是统计学上的。大型语言模型的能力与人类的能力之间存在着巨大的鸿沟。

大型语言模型的四大发展趋势

像LLMs这样的大规模人工智能模型在过去一段时间里中受到了最多的炒作，也带来了最大的恐惧。围绕这些系统的兴奋和焦虑都有助于强化如下概念，即这些模型是“基础性的”，尽管它们无法对人类提示作出有意义的回应的例子数不胜数。值得注意的是，这些模型之所以作为“基础性”的技术被引入，其实意在将它们等同于无可置疑的科学进步，成为“通用人工智能”（这是另一个模糊的术语，让人联想起科幻小说中关于取代或超越人类智能的概念）道路上的踏脚石，从而使其广泛采用成为必然。

▲ OpenAI首席执行官山姆·阿尔特曼（Sam Altman）

在最近的一次采访中，OpenAI首席执行官山姆·阿尔特曼（Sam Altman）说：“我认为我们正处于巨大模型时代的终结，我们将以其他方式让模型变得更好。”（Miller, 2023）言下之意是，未来的进展不会来自于将模型做得更大。

而这些“其他方式”是什么？一个可能的途径是在更多的高质量数据上对模型进行微调，创造更好的训练技术。人工管策的数据集可能是非常有价值的，但创建成本高，速度慢。根据大型语言模型的现状，笔者认为，有四大发展趋势值得高度关注：

第一，我们需要致力于教会语言模型表达不确定性。

在大多数情况下，人类知道自身的局限性（即使他们不直接承认）。他们可以表达不确定和怀疑，并让对话者知道他们对自己所传授的知识有多自信。而与此相对照，语言模型总是对任何提示都给出现成的答案，即使它们的输出是毫无意义的。神经网络通常提供某个预测正确概率的数值。然而就语言模型而言，这些概率分数并不代表模型对提示响应的可靠性的信心。

OpenAI和牛津大学的研究人员发表的一篇论文表明，可以通过教LLMs“用语言表达它们的不确定性”来弥补这一缺点。可对 LLMs进行微调，以使用自然语言表达认知上的不确定性，研究者将之描述为“语言化概率”（verbalized probability），即用语言表达出来的概率。这是一个重要的发展方向，尤其是在用户希望将语言模型的输出转化为某个动作的应用程序中。研究人员建议，表达不确定性可以令语言模型诚实。“如果一个诚实的模型出现一个误导或恶意的内部状态，那么它可以将这种状态传达给可采取相应行动的人类。”（Lin et al, 2022）

第二，与其致力于模型之大，不如专攻特定模型。

鉴于LLMs不理解它们所处理的语言，也不理解所收到的提示和自己的回应，所以补救办法一是靠规模的力量，即训练数据和模型参数的巨大规模，二是靠专业的力量，即在为特定行业或领域（如医疗保健和医学）定制开发更专门的模型的情况下，有针对性地管策训练数据，这将有助于解决LLMs在涉及特定问题时的某些局限性。

想象一下，像ChatGPT这样的LLM已经在最好的医学文献上接受了训练，但训练数据当中也有讨论健康问题的Reddit线程。人工智能有时可以通过检索和参考高质量的信息来回应，但其他时候它通过使用完全不可靠的Reddit信息来回应。事实上，假如医学文献中没有这些信息（例如一种非常罕见的疾病），它更有可能编造这些信息（此即人工智能行业常说的幻觉）。比尔·盖茨（Bill Gates）曾预想过，ChatGPT或类似的大型语言模型有一天可以为没有机会看医生的人提供医疗建议（Trang, 2023），然而你如何能相信一个容易产生幻觉的机器的建议？

所以我们需要通过使用较小和较高质量的数据集为特定的知识领域进行训练。例如，拥有数十亿参数的大型临床语言模型可以利用电子健康记录中的非结构化文本帮助提取医学概念和回答医学问题，预测疾病或再入院风险，并总结临床文本。而一个专门为法律行业设计的模型可以接受法律术语和行话的训练，使其更好地处理法律文件。

像BloombergGPT这样的例子表明，扎根于特定领域的企业能够使用免费提供的、现成的人工智能方法，处理大量的专有数据。与OpenAI的GPT3/4这样的“基础性”模型不同，彭博社的模型是为特定任务而设计的。它在公司多年来收集的大量金融文本上专门训练，为的是创建一个对金钱和商业能够产生特别流利的认知的模型。在用于创建彭博社模型的数据中，约有一半来自网络上的非金融来源，包括GitHub、YouTube字幕和维基百科。但彭博社还为自己的模型添加了1000多亿单词，来自一个名为FinPile的专有数据集，其中包括该公司在过去20年中积累的金融数据，内含证券文件、企业新闻发布、彭博社新闻报道、其他出版物的报道以及专注于金融网页的网络爬行等。事实证明，添加特定的培训材料可以提高金融任务的准确性和性能。彭博社正计划将其GPT整合到通过公司终端产品访问的功能和服务中，尽管彭博社还未有计划推出ChatGPT式聊天机器人（Leswing, 2023）。

第三，高质量的数据将成为LLM称霸的新战场。

限制LLM持续改进的最重要限制是可用的训练数据量。《经济学人》报道说，2022年10月发表的一篇论文得出的结论是，“高质量语言数据的存量将很快耗尽，可能就在2026年之前”（The Economist, 2023）。肯定有更多可用的文本，但它们被一小块一小块地锁定在公司数据库或个人设备上，无法以Common Crawl允许的规模和低成本加以访问。这种数据稀缺对LLM的进一步发展提出了挑战。

2023年4月18日，Reddit宣布，它将开始对其API的访问收费（Isaac, 2023）。这一决定是在Twitter对其API实施类似限制之后作出的（Mehta, 2023）。近年来，Reddit的系列聊天成为谷歌、OpenAI和微软等公司的免费教具。这些公司使用Reddit的对话来帮助开发巨型人工智能系统。然而现在，Reddit联合创始人兼首席执行官史蒂夫·赫夫曼（Steve Huffman）称：“我们不需要把所有这些价值免费提供给世界上最大的一些公司。”

随即，程序员问答网站Stack Overflow也宣布将开始对其 API收费。首席执行官普拉桑斯·钱德拉塞卡尔（Prashanth Chandrasekar）表示：“我们非常支持 Reddit 的做法。”“为LLM提供动力的社区平台绝对应该因其贡献而得到补偿，这样像我们这样的公司就可以重新注资到社区，让其继续蓬勃发展。”（Dave, 2023）

Reddit和Stack Overflow等平台为微调LLM提供了快速访问具体主题和问题的宝贵数据。而这些平台的所有者正意识到它们所掌握的数据的价值。数据市场日益激烈的竞争可能推动行业走向更少的共享和更多的货币化。不幸的是，激进的货币化将进一步增强能够负担API成本的大型科技公司的能力。另一方面，小型实验室和资金紧张的初创公司将不得不处理手头可用的低质量数据。

第四，开源模型可以成为大科技公司封闭服务的替代品。

最先进的LLM需要巨大的计算预算和深厚的机器学习专业知识，所以很少有机构能够从头开始训练它们。然而，那些拥有资源和专业知识的机构越来越多地不开放模型（无论是数据、源代码或深度学习的秘方——模型权重）供公众监督，而是依靠API分发。

这就是开源人工智能可以介入的地方，它使获得LLM的机会民主化。各种社区平台正在努力创建开源的模型，以替代大科技公司提供的封闭的专有服务。这些努力是为了防止少数富有的公司在快速增长的生成式人工智能市场上拥有过多的权力。

例如，我们开始看到Anthropic、Cohere和Character.ai等公司建立的LLMs更接近OpenAI的性能水平，它们在类似的数据集上训练，并采用类似的模型架构。“稳定扩散”的例子表明，如果开源模型的性能和社区支持达到了足够的水平，那些封闭的大型模型未必能与其竞争。

“稳定扩散”只需较少的计算能力就可以工作。与在OpenAI强大的服务器上运行的DALL-E 2不同，稳定扩散可以在良好的个人电脑上运行。创造力的爆发和新应用程序的快速发展在很大程度上是由于“稳定扩散”既是开源的——程序员可以自由地改变它，在它的基础上发展，并从中赚钱——又足够轻巧，人们可以在家中运行。

▲ DALL-E 3与Stable Diffusion 2.1的AI图片质量对比（图源：PC Guide）

谷歌的一位高级软件工程师认为，不管是OpenAI还是谷歌，在人工智能竞赛当中都没有胜算，构成威胁的“第三派”将是开源社区。开源技术开发者没有所有权，他们将自己的作品发布给任何人，让他们根据自己的需要使用、改进或改编。开源的历史例子包括Linux操作系统和LibreOffice，这是微软Office的替代品。

这位谷歌工程师说，开源人工智能开发者“已经在抢占先机”，他举出的例子包括Meta公司开发的大型开源语言模型LLaMA。2月底发布的LLaMA因其优于GPT-3等模型的性能而立即受到欢迎，尽管其参数只有650亿（Meta AI, 2023）。7 月 18 日，LlaMa2发布，包含了 70 亿、130 亿和 700 亿参数的模型。它对于人工智能应用，就像安卓操作系统之于手机APP开发一样，目的就是让应用层开发者可以直接以最低成本获得大模型的基础设施使用。有了这样的模型，从事人工智能模型的门槛已经“从某一个主要研究机构的总产出降至一个人、一个晚上和一台强大的笔记本电脑”。一个LLM现在可以在几个小时内以100美元的价格进行微调。凭借其快速移动、协作和低成本的模式，开源模型有一些谷歌或Openai无法复制的显著优势（Milmo, 2023）。而当免费的或低价的、不受限制的替代品在质量上与封闭的大型模式不相上下时，人们不会为一个设限的人工智能模型付费。

当然，像任何事情一样，这同时具有积极和消极的影响。从正面看，它使少数公司垄断控制人工智能的可能性大大降低，也将使获得人工智能的成本大大降低，加速整个领域的创新，并使研究人员更容易分析人工智能系统的行为（因其对专有模型的访问是有限的），提高透明度和安全性。但是，更容易获得人工智能，也意味着不良行为者将可以出于自身的邪恶目的而对系统进行微调，例如生产虚假信息。这将使人工智能更难于监管，因为精灵已经出了瓶子。

（原载《新闻记者》2023年第8期，注释从略，未完待续）

话题：