胡泳|AI视频的兴起：Sora类生成式平台的可能性与风险-胡泳的财新博客-财新网

续前文

作为新型的文本转视频系统，Sora为视频业带来全新冲击，可能为新的视频内容平台提供动力，而把我们带入一个人工合成内容、人类生成内容以及两者混合的世界。在此过程中，视频作为媒介的意义不可避免地会发生变化，而这一切都离不开技术的不确定性和伦理风险。生成式人工智能创新需要采取平衡的方法，考虑技术、社会和伦理维度，从而才能确保AI视频技术为社会做出积极贡献。

本篇章节预告：

AI视频进入主流数字内容生产的技术和法律障碍

视频文化奇点的到来

AI视频将给我们带来怎样的视频未来

AI视频进入主流数字内容生产的技术和法律障碍

尽管生成式人工智能驱动的视频如此强大，将这项技术部署到主流数字内容生产中，还是存在许多重大障碍。

技术的可用性是实现新平台的关键。从技术上来看，一些尚未解决的棘手问题包括：

控制——用户能控制场景中发生的事情以及“镜头”如何移动吗？例如，如果你提示“男人向前走”，他的运动是否如描述的那样？许多产品都在添加功能，允许对镜头进行缩放或平移，甚至添加特效。当我们在虚幻引擎（Unreal Engine）等3D软件中创建环境时，我们可以很好地控制场景的创意元素（虚幻引擎是一种3D图形创建工具，以增强视觉效果而闻名）。生成式人工智能尚不具备此类控制功能。

这是一个潜在的模型质量问题（即模型是否理解并根据用户的提示执行），尽管一些公司正在尝试为用户提供更多的预生成控制权。Runway的运动画笔就是一个很好的例子，因为它允许突出显示图像的特定区域并确定它们的移动方式。

连续性——以前，使用生成式人工智能进行视频创作时，面临着在不同场景之间保持一致性和可重复性的难题。这是因为在单独生成每个场景或帧时，需要完全理解之前的上下文和细节，并将其适当地延续到下一个场景中。虽然目前连续性确实有所改进，但尚未得到保证，且远未达到维护任何更长格式内容所需的水平。人工智能仍然会对现实世界的物理约束感到困惑，导致物体表现奇怪，让人们认识到它们是合成的。

几乎与Sora同步发行的谷歌Gemini Pro 1.5大模型就挑战了Sora视频的连续性。Sora生成的视频在Gemini 1.5 Pro上运行时，Gemini对视频中的不一致之处提出了批评，认为“这不是真实的场景”：“该视频拍摄的是日本一条白雪皑皑的街道，樱花盛开。存在一些不一致的地方，表明该视频可能是人工智能生成的。”

如果能实现连贯一致的视频，所有东西都基本保持在应该在的位置，这就是所谓的“物体持久性”（object permanence）。人工智能专家加里·马库斯（Gary Marcus）钦佩Sora的快速视频合成，但嘲讽最新人工智能中的物体持久性完全失败，而这是人类婴儿在生命的第一年就掌握的东西，他因此认为有关Sora如何模拟世界的说法混乱不堪。

长度——你能制作超过几秒或十几秒的剪辑吗？这与时间一致性密切相关。许多公司限制用户可以生成的视频的长度，因为他们无法确保几秒钟之后的任何一致性。观看长篇AI视频就会发现，它由一堆短片组成，并且需要数十个提示。

Sora可以生成长达60秒的视频，OpenAI表示用户可以通过要求该工具按顺序创建额外的剪辑来扩展某一个视频。OpenAI团队没有展示并且可能在相当长一段时间内不会发布的Sora的一个功能是从单个图像或一系列帧生成视频的能力。这将是提高讲故事能力的另一种非常酷的方式：你可以准确地描画出你的想法，然后将其变为现实。从目前的演示情形来看，Sora可以显示对剪辑和节奏的理解，似乎具有初步的导演能力。

然而，要等到文本转视频威胁实际的电影制作，将需要很长一段时间，甚至可能永远都不会出现这种情况。你无法通过拼接120个1分钟时长的Sora剪辑来制作一部连贯的电影，因为模型不会以完全相同的方式响应提示。

幻觉——幻觉是人工智能程序作出的意想不到的错误反应，出现幻觉的原因尚不完全清楚，可能是由于数据稀少、信息空白、基础不足、模式泛化和分类错误等造成的。在大型语言模型中，人工智能可能编造学术引文，对用户要求它分析的数据撒谎，或者编造训练数据中没有的事实。Sora尚未进行公开测试，但即使是已经发布的部分视频，也出现了困扰 ChatGPT 和其他大型语言模型的幻觉，即输出明显偏离逻辑或预期模式。从漂浮的椅子到消失得无影无踪的角色，从四条腿的蚂蚁再到七乘七的国际象棋棋盘，观察到的物理错误凸显了在人工智能生成的内容与各类实体细微、可预测的真实世界行为之间架起桥梁所遭遇的困难。

幻觉构成了生成式人工智能挥之不去的症状。这些系统非常擅长寻找可用于生成文本、图像和视频的统计模式，但它们极为不擅长识别输出中的问题，因为它们对现实世界一无所知。它们不知道自己输入和输出的数据的含义，因此无法评估是否只是在喷出无用的、巧合的统计模式。

美联社的一篇报道强调，这一问题可能并不像许多科技企业创始人和人工智能支持者声称的那样容易解决。幻觉可能会在未来的迭代中减少，但它们无法永久修复，所以总是存在失败的风险。总体而言，存在增强模型真实性的积极趋势，但持续进步需要采取混合技术（结合检索、知识基础和反馈等互补方法）、因果关系建模、在线知识整合、形式验证等新方向。

世界模型——与文本和图像不同，视频内容要复杂得多。视频通常涉及精密的细节，如面部表情、自然语言和上下文。目前的人工智能模型很难准确捕捉真实世界场景和情感的复杂性。

尽管OpenAI在Sora的局限性方面做出了让步，但公司博客表示该模型“不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中如何存在……作为理解和模拟真实世界的模型的基础，我们认为Sora的这一能力将是实现通用人工智能（AGI）的重要里程碑”。

问题在于，要实现通用人工智能，意味着构建出具有至少与人类水平相当的对现实世界的理解能力的机器。这需要对物理定律在现实世界中的运作方式有所了解，除此之外，还需要弄清楚人在其中如何行动。因此，OpenAI项目中的隐含赌注似乎是，有朝一日，如果有足够的计算能力，能够预测像素在屏幕上如何移动的机器也将了解它们所描绘的物理对象在现实生活中的行为方式。换句话说，这是对机器学习范式的推断最终能够让我们获得超级智能机器的一种赌注。

世界模型代表了一种人工智能的愿景：它不是通过蛮力或死记硬背来了解我们的世界，而是像人类一样通过形成抽象的表征来了解它。“世界模型是人工智能代理和决策的核心概念。这是我们对世界在加以干预（或缺乏干预）的情况下如何运作的心理模拟。”

想象一下，如果我们能够在一个世界模型中反复进行实验，找到最佳解决方案，包括对“假设”情景进行反事实推理，现实世界中的人为错误将被消除，从而节省大量的金钱和时间。我们将不再投错票，爱上错误的人，搞砸职业规划，那么生活本身会变成什么样？只有到达这一刻，才是人工智能掌握世界模型并实现通用性的时刻。

世界模型之所以是通往AGI道路上绕不过去的障碍，是因为目前的大型语言模型依赖于大量训练数据来推断统计相关性，缺乏主动推导新因果场景的能力。它们只能依据所见过的数据进行推理。因此，如果语言模型要转变并建立一个可用于理解周围环境的世界模型，因果推理（尤其是反事实推理）是一个基本要素。实现这一点将打开下一步的自我怀疑和自我探索，真正与人类相似。

正因如此，当 Sora以“世界模拟器”的面目出现时，它招致了很多人工智能科学家的炮轰——OpenAI是否有点大言不惭了？Meta的人工智能研究负责人杨乐昆（Yann LeCun）就坦率指出，生成式模型是建立世界模型的死胡同。他认为，通过生成像素来模拟世界的动作既浪费又注定会失败，因为对于高维连续感官输入，预测的不确定性太难于处理。Meta开发了自己的人工智能模型V-JEPA，该模型基于非生成方法，可以预测和解释复杂的交互，以将对象和交互的动态传递给人工智能。

虽然V-JEPA的潜力在Meta的报告中得到了体现，但我们还没有看到它的结果，因此很难判断哪一条通往世界模型的道路是正确的。然而，Meta的V-JEPA模型以开源促进AI领域的发展让人有似曾相识的感觉，恰如移动行业中开放的 Android与封闭的iOS之争。许多人认为 OpenAI 背叛了造福全人类的初衷，成为当今最不开源的AI公司之一。这也揭示了科技巨头对未来的愿景：是依靠规模和海量数据训练闭门开发，还是通过共享促进创新？

除了技术障碍，还有法律障碍。最核心的问题是，高质量的训练数据从哪里来？训练视频模型比其他内容模态更难，很大程度上是因为没有那么多高质量的、有标签的训练数据供这些模型学习。

语言模型通常在Common Crawl等公共数据集上进行训练，而图像模型则在 LAION和ImageNet等标记数据集（将文本与图像配对）上进行训练。视频数据更难获得。虽然 YouTube 和 TikTok 等平台上不乏可公开访问的视频，但这些视频没有标签，而且可能不够多样化。视频数据的“圣杯”可能来自影视工作室或制作公司，它们拥有从多个角度拍摄的长视频，并附有脚本和指导。然而，它们是否愿意授权这些数据进行训练还有待确定。高质量的视频数据可能构成视频模型发展的一个瓶颈。

我们知道，与大型语言模型类似，OpenAI注入Sora的计算能力越强，其输出的质量就越高。然而Sora的训练数据是从哪里来的呢？公司含糊其辞。发言人只是说该模型是根据“经许可的和可公开获取的内容”进行训练的；当被问及潜在危害时，发言人表示公司仍在努力解决“错误信息、仇恨内容和偏见”。所有这些，就像当初ChatGPT问世一样，引发了人们对深度造假、版权侵权、艺术家生计、隐藏偏见等方面极其熟悉但严重的担忧。

OpenAI表示，“我们从大型语言模型中汲取灵感，通过在互联网规模数据上进行训练来获得通用能力”。所谓“汲取灵感”是对Sora训练数据来源的唯一回避性提及。在论文中，OpenAI进一步指出，“训练文本转视频生成系统需要大量的视频和相应的文字说明”。大量视觉数据的唯一来源可以在互联网上找到，这也暗示了Sora的来源。

在视频游戏方面，一些人推测Sora接受了视频游戏引擎的训练，特别是Epic Games的虚幻引擎5（UE5）。虽然Sora几乎肯定不会使用视频游戏引擎来打造令人着迷的感觉，但视频游戏世界可能被用来帮助训练Sora的底层模型。某些 Sora演示看起来确实与现有的视频游戏世界非常相似。Jim Fan就认为，Sora有可能接受了一个数据集的训练，该数据集包含来自最新版本的虚幻引擎的大量“合成”数据。OpenAI还与一些公司达成了协议，这些公司可以提供大量数据用于训练，比如图片库公司Shutterstock。

虚幻引擎5游戏画面

此前，OpenAI因使用《纽约时报》文章训练GPT-2和GPT-3未付费而面临诉讼。到目前为止，从整个互联网上搜索训练数据的理由是，这些数据都是公开的。然而“可公开获取”并不总是等同于“公域”。是否有艺术家、摄影师、表演者和电影制片人的作品被用于训练Sora? 他们是否允许其创意作品以这种方式被使用？看起来新的Sora和旧时的GPT在做同样的事情，只不过此次是专门针对视频。

另一个巨大的阴影是，人工智能是否创造了有偏见的世界。人类发明了计算机，并设计和训练了使计算技术发挥作用的系统。当这些系统被创建时，人类创建者的偏见就会反映在其中。而与人类偏见一样，人工智能偏见一旦转化为决策或行动，就会变成歧视，导致对历史上或当下面临压迫的群体产生不成比例的影响。对于视频模型来说，有偏见的训练数据会导致刻板陈见的延续，并在生成的内容中造成不公平的代表性。同时，问题也不仅仅出在训练数据上。开发模型的公司选择如何使用数据，并决定是否采取某些措施来减轻偏见，也几乎同等重要。

和幻觉类似，人工智能偏见可能很难克服。它渗透到训练数据和算法中，以多种不同的方式为人工智能模型提供支持。目前，由于我们不知道Sora接受了哪些数据的训练，并且该工具尚无法供公众测试，因此很难详细说明其创建的视频中可能如何反映偏见。但OpenAI首席执行官山姆·阿尔特曼（Sam Altman）对此十分乐观，他相信人工智能最终会学会摆脱偏见。“我们将进入这样一个世界：这些模型可以成为减少社会偏见的力量，而不是加剧社会偏见。”

然而，一些人工智能伦理学家表示，这正是人们恰恰不应该相信人工智能公司会做的事情。在人工智能偏见方面拥有深厚专业知识的计算机科学家蒂姆尼特·格布鲁（Timnit Gebru）认为，那些推动人工智能越来越多融入生活的公司已经证明，它们的系统或其背后的人，都无法做到对伤害和偏见予以自我调节。

2024年2月，美国社交网站Reddit在上市之前签署了一项协议，允许一家人工智能公司使用其内容训练模型。因此，该网站用户发布到Reddit上的所有内容都将用于训练人工智能。这一事例显示，完全可能在毫无意识的情况下，用户就已经成为人工智能模型中的一部分了。

除非有外部压力要求采取不同的措施，否则人工智能公司不会开展自我监管。对用户来说，如何能够允许这些公司在未经许可或同意的情况下使用所有的内容进行训练？谁创造了人工智能系统？它们身上存在哪些偏见？那些势将极大影响社会的技术是否应该更加透明？这些是每个用户现在都应该追问的问题。

不管Sora有多么神奇，公司外部几乎没有人试用过它——这始终是一个警示信号。OpenAI发布的技术报告包含简短、通用的描述，但技术细节很少。公司外部的人员没有能力研究或测试 Sora，了解它是如何构建的，与以前的产品进行比较也是不可能的。从某种意义上说，OpenAI大可改名CloseAI，尽管其产品的功能强大到足以颠覆我们对世界的看法，但从来没有人告知我们，其产品的内部运作方式是怎样的。

当OpenAI发布ChatGPT时，数十年来以共享研究社区为导向的人工智能构建方式彻底消失，取而代之的是秘密开发、快速商业化、股东要求、企业游说，以及对市场主导地位和万亿美元估值的追求。这就打破了追求利润与科学发现之间的共生关系，人工智能的发展越来越多地为利润动机所压倒。在这一点上，Sora与ChatGPT一脉相承。

视频文化奇点的到来

在此情况下，我们不由得担心Sora构建中的安全和伦理考量。Sora能够制作令人赞叹的视频，但这也让我们离真实本身的终结又近了一步——在一个后真相时代，我们在手机和电脑上看到的一切视频都可能变得不可信。

我们将进入一个人工合成内容、人类生成内容以及两者混合的世界。如今，大多数新媒介制品都是“天生数字化的”，这意味着它们仅以存储在计算机系统上的数位的形式存在。世界每天都会产生无数拍字节（petabyte）的此类内容。如果采用适当的技术，新颖的数字文件可以被伪造而不留下任何痕迹。得益于新的人工智能工具，难以察觉地合成各种形式的数字媒介将易如反掌。

一个持久的问题是深度伪造。我们越来越多地看到深度伪造媒体威胁到个人和组织的隐私、安全和声誉，无论是在公共领域还是私人领域——例如泰勒·斯威夫特（Taylor Swift）的虚假裸照，深度伪造的Zoom视频诈骗员工数千万美元。乔·拜登（Joe Biden）总统在他2024年的国情咨文中敦促美国国会通过立法来监管人工智能，包括禁止“AI语音模仿等”。他警告，如果对深度伪造不加限制，这项技术将为美国人带来不容忽视的风险。

他的声明出现在近期发生的一场伪造的机器人电话活动之后，该活动针对数千名新罕布什尔州初选选民，模仿了总统的声音，当局将其描述为一次利用人工智能的选举干预企图。在一个分裂的选举年，大量由技术驱动的虚假信息有可能干扰被广泛宣称的“美国首次人工智能选举”。以佛罗里达州保守派白人广播节目主持人马克·凯伊（Mark Kaye）为例。他制作了人工智能生成的唐纳德·特朗普（Donald Trump）被一群崇拜的黑人选民包围的图像，并在 Facebook上与超过100万粉丝分享，作为这位前总统受到所有人欢迎的证据。

我们如何区分真实与欺骗之间的界线？谁负责划定这条界线，他们是否掌控了局面？Sora可能成为恶意行为者方便而先进的工具，被用来制造更具破坏性的内容，对AI视频的这种担忧完全是合理的。与生成式人工智能中的其他技术一样，没有理由相信文本转视频不会继续快速改进。想象一下，这项技术如果与人工智能驱动的声音克隆相结合，是否会在构建那些人们从未做过的事情的深度伪造方面开辟出一条全新的道路？

很快，你在网上看到的每一个逼真的视频在各个方面都可能是百分之百的虚假。此外，你看到的每一个历史视频也可能是假的。借用技术奇点的说法，我把在媒介上的真实与虚构变得无法区分的时刻称为“文化奇点”。OpenAI的行动极大地带领我们逼近这一奇点。作为一个社会，我们该如何面对这种挑战？

一项新的研究表明，由GPT-3（甚至不是为当前一代AI工具提供支持的最新GPT模型）创建的AI生成宣传内容（AI-generated propaganda）可以与人类撰写的内容一样具有说服力，并且制作起来要轻松得多。将其应用到视频中，即使无法做到忠实复制物理学，像Sora这样的工具现在也可以通过多种方式来误导和伤害人们。合成视频的两个可见的主要用途是：（1）通过广告向人们出售更多东西；（2）制作非自愿/误导性的内容来操纵或骚扰在网上活动的人们。

目前，制作伪造视频涉及使用人工智能的修改版与真实素材的组合。文本转视频的生成式平台消除了用户对原始素材的需求，加速和扩大了潜在的滥用。OpenAI首席技术官米拉·穆拉蒂（Mira Murati）承认，公司对在2024年11月之前向公众开放Sora存有疑虑，因为届时美国的整个众议院、三分之一的参议院席位和白宫都将面临至关重要的选举。在这方面，Sora的专有技术是否会被滥用是一个关键性的考虑因素，“我们需要先解决错误信息和有害偏见问题，然后才能自信地对其加以广泛的部署”，穆拉蒂说。

同时，在被问及Sora上的裸露内容时，穆拉蒂表示不确定视频生成中是否允许这样做，但补充说艺术家可能会在创意场景中使用裸体。OpenAI“正在与来自不同领域的艺术家和创作者合作，以确定到底什么是有用的，以及Sora应该具有何种程度的灵活性”。

如斯威夫特的例子所显示的，色情是深度伪造将大行其道的另一个领域。网络安全公司DeepTrace在2019年的一项研究中发现，96%的在线深度伪造视频属于未经同意的色情内容。这些短片是在没有征得出现脸部的名人或出现身体的表演者同意的情况下制作的。当人工智能在绝大多数场景下被用来制作深度伪造色情内容时，这就不再是一个小众问题。深度伪造的色情图像和视频在厌恶女性的极端社区内传播，哪怕不是真实的，仍然足以对现实中的女性造成无法弥补的伤害，促进了对女性的骚扰，在从就业能力到人际关系的广阔层面上影响她们的生活。

所以，像Sora这样的工具可能会成为深度伪造的政治宣传和色情等有害内容的“放大因素”，特别是那些可能只是随意在社交媒体上浏览视频的普通用户，会在不加仔细分析的情况下接受所看到的一切。对于毫无防备的用户来说，由AI生成的视频将会非常具有欺骗性。

Sora与现有社交媒体的缺陷的结合也会造成致命问题。正如我们一次又一次所看到，假新闻、错误信息和有害材料在社交媒体上往往会像野火一样蔓延。社交媒体算法旨在尽可能快地传播人们认为有吸引力的内容，而不管这些内容的真假。社交媒体本来已经是一个危险的地方，如果Sora被用来在其上恶意创建和传播具有煽动性和危险性的内容，社交媒体只会变得更糟。仍以斯威夫特为例，有关她的人工智能生成的色情图像在X上迅速传播，在平台删除之前获得了4700万次浏览。而且，等到删除的时候，这些图像已经传遍了其他数千个论坛和网站。

Sora的视频在描述有大量动作的复杂场景时仍然会出现一些奇怪的故障，这表明用它来制作深度伪造视频的话，目前还是可以被检测出来的。然而从长远来看，必将出现鱼目混珠的局面。随着Sora在2024年用人工智能生成的视频让世界几乎不再可能区分人工智能和现实，可以说，信息时代已经结束，而虚假信息时代正式开始了。

到2030年，大多数人都将知道，使用免费的人工智能工具可以伪造任何视频、任何声音或任何陈述。他们每天都会在网上生成难以数计的虚构制作，而且其数量在未来的更多年里只会激增。

我们生活在这样一个时代，人类知识的总和几乎完全可以从我们口袋里的小装置中获取，但人工智能却有可能毒害这口井。这并不是什么新鲜事——Sora不是互联网面临的第一个事实威胁，也不会是最后一个，但它很可能是迄今为止最具破坏性的。由于人工智能模型的军备竞赛正在以惊人的速度传播感染，要清除我们的传播媒介已经受到的污染将是困难的，也许是不可能的。

从媒介素养的角度来看，这将使得验证任何用户生成的内容变得极为复杂，因为现在用户可以生成他们想要的任何内容。由于我们现在生活的整个世界都是后真相的，所以很多人致力于在故事中编造虚假的叙述。图像比文本更难，因为用户必须具备Photoshop或类似软件的应用知识，它存在进入障碍。而视频是一个更高量级的难点。制作虚假视频需要花费大量时间、专业知识和金钱。但有了Sora及类似应用，现在只需输入提示并获取即可。

Sora生成的视频图像

想象一下这将如何改变新闻业。Sora使各路议程设定者能够生成比过去多得多的内容。我们将会看到人工智能生成的营销者和影响者内容的爆炸式增长，这可能有效排挤合法的新闻和媒体。可叹的是，媒体对这样的可怕未来不仅浑然不觉反而拼命欢呼每一波新的人工智能技术浪潮的到来。

新技术总是具有天然的眼球吸引力，各种大小媒体的流量追逐并不新鲜。然而，在随波逐流当中，鲜有人分析人工智能报道的框架。有谁在认真对这些技术的工作原理进行澄清吗？存在令人信服的对一些真正离谱的炒作的有力回应吗？很少见到功力深湛的记者拿出时间和资源来撰写有伦理框架、非科幻小说式的人工智能报道。

结果是什么呢？公众得到的是科幻版的人工智能故事，最终被排除在围绕伦理、使用和未来工作的重要讨论之外。所有这一切都在加剧对人工智能理解的好莱坞化。

AI视频将给我们带来怎样的视频未来

Sora为视频业带来的全新冲击是，作为新型的文本转视频系统，它并不进行拍摄或录制，而是直接呈现想法。它可以根据用户的提示制作出详细、有创意且逼真的一分钟长视频，在保持高视觉质量的同时忠实再现用户指令。对于使用者来说，它仿佛将梦想变为现实。

从广义上讲，可以说 Sora 对于视频的作用就像 ChatGPT 对于写作的作用一样。Sora不仅通过操纵像素、也通过构想在时间中展开的三维场景来完成工作。我们自己的大脑可能也会做类似的事情；当我们在脑海中想象场景和事件时，我们想象的不仅是它们的外观，还有它们的本质。

这个系统认为人工智能的源材料不仅是图片或者视频，而且还有想法，甚至不完全是创意人士的想法，还包括任何一个普通人的想法。目前，视频内容的制作要么是通过拍摄真实世界，要么是通过使用特效，而这两种方法都可能既昂贵又耗时。

整整数代人成长于相信逼真的视频必须由摄像机拍摄。当视频被伪造时（比如说，为了好莱坞电影的特效），不仅成本奇高，而结果也可能参差不齐。这给了人们一种感觉，即我们远程观看的内容可能是真实的，或者至少代表某种潜在的真相。但像Sora这样的技术将这种媒介参考框架彻底打破。不仅如此，如果所谓的世界模型果真能够实现，生成式视频平台将提供超越智能手机、电视和电脑显示器等传统界面的更加身临其境的体验。而这种用户体验还将能够让人工智能更全面地了解人类行为和环境。

Sora及其后续产品生成的“合成视频”将如何在我们的社会中得到使用？假设诉讼不能阻止这些系统摄取受版权保护的材料，著名艺术家发明的视觉风格将在提示中被调用，并因过度使用而变得令人厌烦。如今制作成本昂贵且耗时的镜头可能会变得便宜且即时可用。今天很难想象的新颖创意企业将会涌现出来——这些企业所提供的娱乐、教育和消遣方式，也许和以前完全不一样。

另一方面，心怀恶意的人会利用视频生成器制造深度伪造品，传播虚假信息或用作人际武器。视频作为媒介的意义不可避免地会发生变化。也许我们会开始怀疑所有视频都是合成的，并不再信任它们。而有时我们又可能会选择不去区分合成视频与不真实的视频。AI视频是不是也会试图保持真实呢？就像我们会争论运用了搬演手段的纪录片是否真实一样，它在媒介的真实上展示了复杂的可能。

比如，对特定事件的视频报道，开始我们依赖于传统的电视台，后来我们引入了随处可见的手机摄影，但在今后，如果我们想了解特定现场的事件状况，我们是否可以依靠合成镜头？它可能基于大量数据，因而也就显示了足够的真实。当 OpenAI的研究人员要求Sora制作“蓝色时刻圣托里尼岛的鸟瞰图，展示带有蓝色圆顶的白色基克拉迪建筑的绝美”时，它生成的镜头与游客用无人机拍摄的镜头基本上并无二致。那为什么还要启动无人机呢？人工智能“了解”圣托里尼岛的概念，就和我们人类一样。

Sora生成的圣托里尼

另一方面，眼见不为实并不始于Sora，但这种现象将因为Sora而加剧。自从摄影问世以来，照片就一直经历各种伪造和篡改。乔治·奥威尔（George Orwell）在他的小说《一九八四》（1949）中强调了极权主义和媒体操纵之间的联系，其中一个党国使用“装备精良的工作室来伪造照片”。1989年，柏林墙倒塌三个月后，Photoshop正式发布。使用这种技术，照片完全可以说谎，而且说谎的精确度极具欺骗性。突然之间，任何人都可以随意扭曲现实，侵蚀我们认为理所当然的真相基础。

而现在，在历史上第一次，Sora对视频做了同样的事情。奥威尔曾担心国家垄断表达手段，但数码相机、移动设备、计算机编辑和互联网的兴起让表达成为人人之事。老大哥将不再控制媒体，但这并不能消除人们的焦虑。从某种角度来看，情况变得更糟：现在任何人都可以篡改证据。

当我们开始使用文本传视频模型创建教育视频时，如果其中存在微妙但关键的错误，会发生什么呢？马库斯在X上讽刺四条腿的AI蚂蚁视频说：“真令人惊叹！可是，嗯，蚂蚁有六条腿。我们即将让整整一代孩子接受虚假视频的教育。”这不过只是假蚂蚁而已；而当恶意行为者创建的深度伪造视频在风格、场景和角色上都没有限制，得以生成看似真实的“假人”时，又会发生什么呢？

著名哲学家丹尼尔·丹尼特（Daniel C. Dennett）忧心忡忡地写道：“创造虚假的数字人物可能会毁掉我们的文明。……虚假人物会分散我们的注意力，混淆我们的视听，利用我们最难以抗拒的恐惧和焦虑，将我们引入诱惑之中，然后我们会默许自己被征服。虚假人物将说服我们采取某些政策和信念，使我们更容易受到操纵。或者，我们会干脆关掉我们的注意力，成为被动和无知的棋子。”

值得强调的是，深度伪造视频最严重的危害可能作用于少数群体和边缘群体，加深已有的有关这些群体的无知且不公的社会实践。比如，如果我们将色情作品视为一种宣传，维护和维持了一种男权主义社会秩序的话，我们就能看到深度伪造色情视频的威胁并不在于它们会说服任何观众相信这类视频是目标女性的真实描绘——我们可以利用背景知识推断出斯威夫特并没有主演色情电影——而在于它们有效传播性别歧视的能力。已经出现的虚拟影响者和图像生成系统证明，用于生成逼真图像和视频的软件对于商品化和非人化少数群体和边缘群体具有极大的潜力。

我们如此关心深度伪造视频，是因为它可能对人类信任造成巨大的损害。深度伪造不是因为Sora才出现，之前社会上就存在对这种技术的广泛焦虑。各种倡议被一一提出，以限制恶意深度伪造的影响，包括实行人工和软件检测方法、为可信内容添加标签、用区块链创建通用时间戳等。这些声音帮助形成了警觉的公众。

然而公众意识也创造了一种环境，使政客们可以将合法证据故意贬为伪造。据报道，特朗普企图声称臭名昭著的《走进好莱坞》（Access Hollywood）录像带是假的；一位美国共和党候选人宣扬一种阴谋论，认为警察谋杀乔治·弗洛伊德（George Floyd）的视频系深度伪造。法学教授罗伯特·切斯尼（Robert Chesney）和丹妮尔·西特伦（Danielle Citron）将此称为“说谎者红利”（liar’s dividend）：对合成媒介的认识会滋生对所有媒介的怀疑，这有利于那些通过叫嚣“假新闻”来驳斥指控或贬低对手的说谎者。这些谎言随后成为震耳欲聋的噪音的一部分，导致了人们对几乎一切事物的信任或多或少地开始瓦解。

有很多观察者认为我们进入了一个新的认知时代，这个时代的特征可以用信息末日（infopocalypse）、现实冷漠（reality apathy）、甚至现实本身的崩溃等来描绘。正如凯文·凯利（Kevin Kelly）在他的文章《信任的翻转》中所写的那样，应对这样的现实，我们必须“先核实，后信任”。生成式人工智能只是将信任归到其应有的位置，而这取决于我们个人正确归属信任的能力：“现在，当我们看到一张照片，我们假设它是假的，除非有证据证明它是真的。当我们看到视频，我们假设它已经被修改、经生成或加以特效处理了，除非另有声明。”

有一种说法是，人工智能是历史上首个以“日”为单位更新的技术，我们常常对人工智能日新月异的进步表示惊讶。但是，当人工智能模型做出一些意想不到的事情或有害的事情，并且技术热潮逐渐消退时，我们就不得不面对一种真正的、日益增长的担忧，即我们将如何在这个新的人工智能世界中工作、生活和娱乐。

如今，人工智能界的许多人士都急于探索新能力，以至于忘记了自己的伦理义务。对于像 Sora这样的人工智能创新来说，要想获得公众的信任，就必须开发“可解释的人工智能”（XAI）功能，帮助用户了解AI决策的方式和原因。这种透明度令用户能够信任和验证人工智能的行为，从而培育一种问责的文化。同时，我们还应为人类监督人工智能决策建立明确的指导方针和协议。人工智能创新需要采取平衡的方法，考虑技术、社会和伦理维度，从而才能确保AI视频技术为社会做出积极贡献。

注释从略，原载《传媒观察》2024年第4期。

话题：