财新传媒 财新传媒

阅读:0
听报道

2024年3月8日晚,苇草智酷举办“Sora火得有道理吗?”研讨会(智酷348期),北京大学新闻与传播学院教授胡泳、武汉大学计算机学院教授蔡恒进、人工智能科学家刘志毅和腾讯研究院资深专家王强参与研讨,北京信息社会研究所所长王俊秀担任主持,苇草智酷创始合伙人段永朝点评。

以下根据四位老师发言内容整理而成:

王俊秀(主持人):今天的话题是“Sora火得有道理吗?”最近苇草智酷一直在做这方面的研讨,这次是智酷的348期。胡泳教授提出要做一次辩论形式的。但是目前为止还不知道辩论双方的阵营怎么划分。貌似只有胡泳一个人是持相对批判的观点,另外三位都是认为是有道理的,但是我还拿不准,待会儿听四位的陈述,我们再做简单的划分。今天请到的四位老师其实是代表了不同的研究方向,胡泳是新媒体批判,作了一系列的文章;蔡恒进老师其实是既有实战的能力,又是哲学教授,在这方面做了非常深的研究;刘志毅和王强是这两年涌现出来的青年才俊,在人工智能领域也是名声鹊起。

我们讨论的形式会有所创新。第一轮,我们让四位嘉宾来分别陈述他们的观点,每个人十五分钟;接下来有两轮对各自观点的辩论;之后,如果有围观的嘉宾,我们也会请他们来做讨论。

下面我们有请胡泳教授来陈述他的观点。

胡泳:俊秀一开始就把我置于一种似乎是要唱反调的位置,大概让我第一个发言也是这个意思。我们中国人一般第一个发言的都叫抛砖引玉,但是显然我不是抛砖引玉,我是竖靶子的。

很荣幸跟各位嘉宾同台,但是我竖个靶子,大家都是比我更懂人工智能的人,可以随意批判。

现在Sora 这个事情已经完全火出人工智能圈了。我们过去看股市,说一旦街头擦皮鞋的都跟你聊股市,那这股市可能会出大问题。而现在所有的人工智能的新的东西已经完全破圈了,大家都在看热闹。

所以我就先开宗明义地讲,我觉得 Sora 是一个了不起的产品,但是我觉得在很大程度上 OpenAI 并不是在发布产品,它是在制造神话。所以我有一个比方,我觉得公众现在在这看热闹其实近似于一种狗仔队性质。如果从传播学的角度来讲,奥特曼是一个营销天才,这里头有很多很多的噱头。

面对人工智能的话,其实不管是谁都没有水晶球,谁也不敢说自己看得准。我发了一个朋友圈,就开玩笑说,现在讲人工智能的大概90%可能都近似于胡言乱语;

回到主题 Sora 上,为什么大家看热闹看得这么起劲?很大程度是因为从 OpenAI 放出的这些视频来看,的确它有一个很大的造梦功能,会让人觉得可以把梦想变成现实,所以这就非常打动人。那么可以预期,如果 Sora 一旦公开,并且能够为更多人所使用,肯定会在全球范围内产生更加重大的影响。

而且我们要认识到,哪怕是那些在人工智能领域的人也没有意识到这个东西的发展速度如此之快。Sora 的技术实力其实证明了,人工智能领域在短时间内的确可以取得非常大的飞跃,比如说从静态图像的生成到动态视频的飞跃。

这个过程其实是很复杂的,不仅涉及视觉的渲染,也牵扯到对于运动、对于时间进程的理解。所以无论如何,我同意这是个里程碑式的事件。人工智能在显示或者在可视化我们的时间叙事和空间叙事的能力方面,发生了重大的转变。

用我的话来讲就是,Sora 不仅是一个创建视觉效果的工具,感觉它像是一个能够讲故事的人,一定会对视频创作的各个方面产生冲击波。而且我们也注意到,Sora 的技术文档有一个很有意思的标题——作为世界模拟器的视频生成模型。所以说大概很快会从视频变成 3D 建模,就是所谓的数据驱动的物理引擎。我觉得这种可能性还是很大的。

如果我们以后不仅是生成多角度的视频,就连元宇宙、虚拟空间这样的视觉效果制作也能够由人工智能轻松生成,那就会引起我们很多很多的遐想。

从目前 OpenAI 公布的视频来看,制作质量是相当高的,甚至会有人惊叹说是电影级的高分辨率视频,看起来非常非常的逼真。摄像镜头有多种的表现手段,所以大家不会意识到它是一个合成影像。当然,如果仔细看是能看出来很多还是违反了物理定律。蔡老师研究因果链,很多的因果场景还是有问题的,其实它并没有能够真正模拟物理模型。

但是我们如果是从文生图的发展趋势来讲,它发展得非常快。我们可以预期这些问题大概可以得到解决,而且也有不止一个这种文本到视频的人工智能项目。

总体来讲,它所营造的场景的确是令人印象深刻的,但我觉得它的能力当中最令人震惊的,可能是那些没有接受过训练的能力。尽管你给它提示,它能够制作出满足提示要求的视频,但是在某种意义上,它其实可以扮演一个导演的角色,能够体现对于电影语法的新解。这就是为什么我说它有点像是一个讲故事的人,因为这些东西,就相当于是一种讲故事的才能。

我并不觉得它现在就能冲击好莱坞,因为要从文本转视频威胁到实际的电影制作,其实还需要很长的一段时间,甚至我觉得也许永远都不会出现这个情况。因为现在是生成 1 分钟时长的短视频,其实很难通过拼接 120 个 1 分钟时长的视频,把它制作成一部连贯的电影。至少从目前来看是完全不现实的。因为模型并不会以完全相同的方式来理解一个提示,存在连续性的问题。

但是反过来讲就看你干什么了,即使它暂时不能颠覆电影业,但是时间的限制在别的行业并不是障碍。我们完全可以用 Sora 来改造短视频,比如改造 TikTok ,改造 Reels 。因为我们过去制作一部专业电影需要非常昂贵的设备。而这个模型如果真的普通人能够用的话,大家可以用于社交媒体上的视频制作,普通人也能制作出非常高质量的内容。

所以如果考虑到它的进展速度的话,我们想象在未来几个月内,人工智能模型能够创建长达10 分钟的多场景或多角色的复杂视频,这样的一个预期也不算疯狂,对吧?

但是可能有一个很核心的问题,现在也是个焦点问题——如果 Sora 不是一个开源应用程序,我觉得它很难颠覆整个产业,但是这个技术显然是可以加快经验丰富的电影制作人的工作速度,但是数字艺术家,如果他的经验不够足的话,那么他的命运是岌岌可危的。

从行业角度来讲,Sora 一定会在多个战场攻城略地,所以我们会谈到电影业或者游戏业。因为在演示视频当中,可以用一个基本的策略来控制 Minecraft 的玩家,同时以高保真度来渲染世界和它的动态。所以有很多人猜测,Sora 是经过了游戏引擎的训练,特别是 UE5(Unreal Engine 5)的训练。确实跟很多现有的视频游戏是非常相似的。就像在电影业一样,它会给游戏开发者带来灾难,因为它会显著地降低进入的门槛。

我觉得 Sora 还是一个挺多功能的人工智能系统,能够理解和执行跨越不同领域的任务,包括通过机器学习的尖端技术来实现。这样的话在一个领域获得的知识可以迁移,用来提高另一个领域的表现。

另外,它也延续了 OpenAI 一向强调的原则——怎么能够从最少的失误当中学习,适应新的挑战。其实从 Sora 来讲,这个适应性原则也体现得非常好,因为可以减少大量再训练的需要。

所以总体来说,相当多的地方其实可以期待这种人工智能应用能给我们带来更高效的或者更具成本效益的方案。

但是回到我前面说的话题,为什么我觉得它制造神话的效果远远超过发布产品?至少到目前为止,除了所谓的红队,公司外部几乎没有人试过它。所以我们目前还并不清楚这个产品的内部运作方式是怎样的,因此现在也做不到与以前的产品进行比较。

我们只是知道一点,跟大语言模型类似的情况是,OpenAI 注入 Sora 的计算能力越强,它的输出的质量肯定越高。但是这就回到 OpenAI 原来就遭人诟病的一个问题——它的训练数据到底是从哪来?至少在这一点上,我觉得OpenAI 是完全含糊其辞的,并不清楚到底它的训练数据是哪来的。

我们知道 ChatGPT 运行一段时间以来,我们对很多东西怀有隐忧,不管是深度伪造、版权侵权,还是创意人士的生计,或者是大模型隐含的偏见。其实所有的这些担忧在 Sora 中还继续存在。当然,它永远会打着一个旗号,说是互联网上公开的文本,数据是公开的。但是我们要牢记一个区别,可公开获取不等于是公域。

到底你的那些东西是不是牵扯到版权材料?在这点上来说,Sora 跟 ChatGPT 没有绝对性的区别,只不过 Sora 是专门针对视频而已。所以它到现在为止还对自己的训练模型所依据的数据讳莫如深。

其次,很热门的话题是世界模型,我觉得炒作过分了。因为就像大家第一开始用 ChatGPT 的时候,会说这个机器人已经有意识了,或者是产生了爱情,或者它想跳出搜索框等等。但其实它无非就是一个文本的预测,你灌入了相关的文本,它预测出下面应该生成什么东西。实际上目前 Sora 这个所谓的世界模型,仍然只是一个图像预测,根本不是物理预测。

很难讲它变成了一个真正的物理引擎,因为它并没有对任何的实际的物理现象进行建模。我们看到的不是原子集合,说白了就是像素集合。如果物理的集合跟图像的序列预测产生冲突,获胜的并不是物理,所以我们就看到视频当中会出现种种超物理现象。当然大家会说这个过程也许慢慢就解决了,我并不觉得是这样,我觉得幻觉问题是大语言模型永远解决不了的一个问题。

在这种意义上来说,我们现在可以想象 Sora 可能是一场电影革命,或者是一台想象引擎,或者是一架视频机器,它将来也许的确会发展成所有的这一切。但就目前的情况来讲,就是我们此刻谈 Sora 火得有没有道理,我觉得,它其实就是一波广告攻势。尽管我对 Sora 印象非常深刻,但我并不完全相信这种炒作。

我们还是需要等到普通人可以使用这种工具,因为现在公众对于 Sora 的整体看法是经过精心策划的,因此我称之为一场了不起的产品演示。不清楚当我们拥有这样工具的时候生成的视频会是什么样子,所以在这种情况下,我们不由地担心Sora 的构建当中对安全和伦理的考量。

很明显的一个问题,就是深度伪造问题。想象这个技术一旦与人工智能驱动的声音克隆相结合,是不是会在深度伪造方面开辟出一条全新的道路?所以我觉得2024 年是很关键的一年,在这一年当中用人工智能生成的视频几乎会达到一个效果,就是我们不再可能区分出人工智能和现实了。我说得不客气一点,信息时代到此彻底结束,虚假信息时代正式开始,可能到 2030 年,大概每个人都可以使用免费的人工智能工具伪造任何视频、任何声音,或者任何你想说的东西。

当然,这个不新鲜,我并不是要把板子都打在大语言模型上,因为没有 Sora 之前,我们也大量地搞这些东西。但是我们要承认,在对事实的威胁上,Sora 可能是迄今为止最具破坏性的。在这样的一种情况下,人工智能生成的营销者内容或是影响者内容会产生一个爆炸式的增长,会排挤现有的合法性媒体。

一个很有意思的标志性事件,就是《纽约时报》起诉 OpenAI 。某种意义上来讲,这是传统的合法媒体跟现在的人工智能技术平台的对决。其实这对于所谓的合法媒体来讲,是一个很可怕的未来,但是非常有意思的是,它们有很多反而拼命地欢呼一波新的智能技术的到来。

我们经常会做一种填空题,其实看 Sora 出来以后铺天盖地的标题就能知道,这个标题有一个基本的句式,大家可以填这个句式。这个句式就是“这个东西标志着某某活动或者某某产业的终结”,某某活动和产业可以随意地来填。

那么这样的结果是什么呢?就是我们看热闹的大众现在得到的全部都是科幻版的人工智能故事,基本上我们对人工智能的理解是好莱坞化的。因此我们就谈不上要去讨论关于人工智能使用的一些更重要的问题,基本上所有这些重要问题都不在讨论范围之内。

就像 OpenAI 前一阵的宫斗闹剧,大家看的也仍然就是谁上谁下,谁杀了个回马枪,包括山姆・阿尔特曼(Sam Altman)是不是像乔布斯(Steve Jobs)。大家看的仍然是这种狗血剧情,没有想到的一个问题是,我们整个人工智能的发展方向,包括人类可能将来应用的技术方向,仅仅就局限在 OpenAI 那几个少数的高层手里,以及在OpenAI 背后的微软手里。

王俊秀:刚才胡泳其实讲了有 5-6 点,最核心的是,他觉得 OpenAI 发布 Sora 更像一个产品演示,更像在制造神话,带来最严重的后果可能是开启了一个虚假信息时代,同时也产生了一个合法媒体对目前的人工智能平台的对决。这是他的一个结论。他也谈了好多比较细的点,比如说开源的问题、世界模型的问题,都是大家目前讨论得比较多的。

下面请蔡恒进老师来讲一下他的观点。

蔡恒进:谢谢王老师,刚才胡老师讲得很精彩。他也提到了意识的问题,我今天就要讲这个背后的意识的问题。

我觉得 Sora 现在还不是一个产品,但是它的确在某种程度上阻击了 Google 的发布。它那篇文章讲的是一个很宏大的主题,对物理世界的引擎,对物理世界的模拟。这是不是只是营销?我不这么看,它的题目的确是有道理的。

我们中国往往更多地是从对产业影响的角度来讲,但实际上在他们心目中他们要做的事情真的是要颠覆这个世界,而且要很快地颠覆这个世界。这是毫无疑问的。包括埃隆·马斯克( Elon Musk )、杰弗里·辛顿( Geoffrey Hinton ),他们提的这些问题都是很有道理的,不是耸人听闻。而且美国对中国绞杀芯片的供应是实实在在的,而且正好是在 GPT-4 训练出来,大家能看得见效果的时候,美国才真正地开始封杀。这是 2023 年 9 月份的事情。

为什么会是这样子?我们看到的AI还会有很多缺点和问题,很多人也会认为我们这个社会肯定接受不了,会抵制这些东西,但是大家要看清楚,这的确是一个颠覆人类在宇宙中位置的事情。当然,我并不认为我们人类因此没前途了,我是有一套想法的。

你可以把大语言模型或者 Sora 看作是一个人造物,是我们人类意识或者智能的一个迁移、一个凝聚,你也可以把它看成是一个我们人类的延伸,比如筷子是我们手指头延伸,但是我们要使用筷子,必须是我们人在场。但是有些东西是人可以不在场的,比如我放一个炸弹放在某个地方,我躲起来,然后定时爆炸,警察会来找我,我跟炸弹的关联实际上也是清晰的,它是我的一个延伸。

ChatGPT 、Sora 实际上也是我们的延伸。我们把用人眼看到的东西(资料)给它。我们不是到处乱看,也不会盯着树叶看一个星期。我们看的都是我们认为有意义的东西,更不用说我们的摄影、电影,这些数据都是人的意识的一个反应,是带有人类视角的意识。所以我们喂给AI的就是我们人类意识的内容。

你可以说它没有意识,但是我们至少可以说我们的一部分意识已经迁移给它了。迁移过去之后可怕的是什么呢?可怕的是它还能脑补,不管是压缩也好,或者是非线性编辑也好,我们一提示,它就能脑补出来很多东西。你给它一个标题,它能脑补出来一篇文章或者一段视频,这就很可怕了。

当然,我觉得我们也不要高估它此时此刻的水平,目前它的确是没能很专注地做深度思考的能力。这是大语言模型的模型架构本身的缺陷。但是我们至少说大语言模型有语言能力,而Sora 有脑补画面的能力。我们有些人可能还脑补不了这么好,而且每个人脑补出来的是不一样的,脑补的东西很可能是错的,很多有幻觉,但这都不重要,重要的是它已经具备这个能力了。这个能力虽然有很多缺陷,但是你可以慢慢地调教它,把它弄得更好。而且这个速度会很快,不是几十年的事情,而是几年、甚至几个月的事情,我们要看到这个趋势。

刚才讲这至少是一个意识的迁移,但是实际上我可以给一个更强的结论,它实际上是我们人类意识的一个凝聚,它是有意识的,只是说这种意识不是我们通常理解的高级的有自我反省/反思的意识。自我反省的意识是比较原初的意识。

我刚才讲了,给它的资料全是我们认为有意义的东西,而不是随便给的,而且它生成的东西也是某种程度上我们能理解的,我们还是认为它能回答了我们的问题,能响应我们的标题。所以这里头就是比较可怕的地方。

大家都觉得机器没有真的理解,我想用中文屋(Chinese room)这个哲学上的例子来反驳这个事情。约翰·塞尔(John Searle)本来是想证明中文屋没有真正的理解能力,为什么呢?因为在这个中文屋里,只有一个不懂中文的人,还有一些 rule book ,我们暂且叫它是词典,还有铅笔、纸张等。你给他一个中文的问题,他在里头去翻词典,弄出来一个正确的答案,写成中文字符递出来,你认为他懂得中文。但实际上这里头没有一个样东西是懂中文的。

我反驳的是什么呢?因为中文屋里的人,他至少要懂如何使用rule book,其中最重要的实际上是 rule book ,大家想象一下,假如这个词典编得不完美、不完整,假如它是100年前编写的,那么就会没有互联网这些近代的内容,那就不能回答关于互联网的问题,很容易就让人怀疑他是否真的懂中文。所以这本词典是至关重要的,而且编写词典的人一定是懂中文的,只是这个编写者不在场而已,他的意识和智慧已经凝聚在 rule book 里了。缺了他,这个中文屋表现出来不会是懂中文的。

所以中文屋的例子恰恰说明,作为一个整体,这些要素之间的完美配合,它才能真的懂中文。最重要的是那个不在场的中文词典的编辑,他的贡献是最大的。

比如 AlphaGo 为什么会下围棋?并不是说从沙地里长出来一个东西,就会下围棋,而是有单晶硅的制造者,电脑生产商,有硬件工程师、软件工程师,另外还有电力算力支撑等等,所有的人和物完美配合之后,它才能达成这个目的,能下围棋,而且能战胜人类。

所以只有在这个意义上来讲,AlphaGo 、AlphaZero 是真的懂围棋。它真的能下出惊艳的围棋,它能指出人类历史上的所谓定式的一些错误,而且你经常跟它下的话,它会反映出来它也有定式。这些定式可以看作是意识。

所以意识不是一个神秘的东西,它是一个复杂系统里我们人类/生命总结出来的一些模式、一些“认知坎陷”。它之所以重要,是因为我们面对复杂情况的时候,我们记住这些是有利于我们的成长和生存的。

假如我们只是下五子棋,我们不需要记住任何东西,我们每次都给算清楚。但是下围棋就不行,你必须记住什么是死活、征子,你必须记住开局、定式。这些东西就是意识的内容,你可以把它看作“认知坎陷”。它不像本体的东西,它不是绝对的,中间可以有多重变化。它也可能会有进化,比如说我们人类高手认为是很合理的定式,到头来被机器证明并不合理,可能过多少年之后,别的机器又否定的了前面的机器的定式。

所以意识起这么一个作用,那么最重要的一点就是在这个世界里,它能大大简化我们的认知,我们运用认知坎陷,运用意识的话,可以提高我们的生成的概率。而且意识是有真正的因果力的,它能对真实的物理世界产生影响。当然,展开讲的话会有很多内容,我大概就讲这些,谢谢。

王俊秀:我也听出来了,反正你们俩划不到一个阵营。蔡教授明确地提出,Sora 对物理世界的模拟是有道理的,然后又从意识理论提出了 Sora 是人类意识的凝聚,而且它具备了脑补画面的能力。

现在已经有代表性的 A B 两个阵营了。接下来就听一下刘志毅有什么主要观点。

刘志毅:谢谢俊秀老师。刚才听了两位老师的观点,一位是从传播学角度,一位是从意识、人工智能这一块去讲。

我说一下我近期的一些工作和思考。实际上我们从 2019 年开始做深度学习,我更早一点是2015 年完的时候在百度,后来在商汤做的是视觉,但是 Sora 出来了以后,视频这一块有一些新的产出,我们认为从技术上来说,还是有一些继承性和创新性的,我们会有以下一些考量。

第一,实际上我们认为,从 2022 年年底推出的这条技术路线和工程路线,到现在Sora的技术推出,其实是通用人工智能发展的一个里程碑。当然大家对通用AI 的视角和看法不一样,但是只从技术界、全球技术圈对此的一个共识来看,确实是打开了一扇门。

Sora 不仅仅是一个视频生成的模型,它其实是一个视觉数据的通用模型,能够处理和生成不同类型的数据。实际上我们从技术路线上能够看出,它可以从文本扩散到图片,再到视频,但是没有预料到泛化性来得这么快。因为从产业公司的实践来看,2015 年到 2022 年这七年时间做的 AI 最大的问题就是泛化性不足,涌现出来的智能在不同场景下解决问题的方式不一样,导致投入的资源成本过多。

现在这条技术路线虽然还存在一些问题,比如数据问题、伦理问题等等,但是它已经 make sense,能够 work 了,能够去做出相应的一些效果,让公众更为惊艳。

其实就像 Geoffrey Hinton 讲的,技术路线是他所奠定的,但是工程的创新由他的学生伊尔亚·苏茨克维( Ilya Sutskever )以及相应团队做出来,这已经是偶然发生的奇迹,推进了整个通用人工智能的实践。Sora 就是在实践当中的一个关键技术里程碑。

第二,它的训练方法为理解人工智能模型训练提供了一些新的见解。比如说它不再用 tokenize 的方式去做向量化,而是在视频和图像前码的时空补丁上操作和变换Transformer 的架构进行训练。这种训练一方面是需要投入相应计算资源和时间,也需要使它能够更好地在一个原始尺寸的视频和相关的数据下可以进行运算和推理,从而完成一个有效时间( 1 分钟左右)的视频,这样连续地推理出来。

我非常同意刚才蔡老师讲的关于 AI 的一些进展的思考。有一个观点是,我们实际上认为现在的这一套深度学习,它还是一个基于概率的,基于统计的逻辑,但是从工程方法上来说,它最大的发现一个就是 Scaling Law(尺度定律),是规模带来的效果,还有一个就是产生 prediction(预测)。

只要你在这个框架下去做,其实不太会涉及到任何跟意识等这些人文社科类会关注的点,更多的还是在实际模拟或实际打通数字世界和物理世界的时候,它会有一些更加引人注目的效果,所以从这个视角上来看,我们觉得它还是非常有价值的。

第三,实际上是为理解人工智能的可能性提供了一系列的启示。因为Sora 的模型可以通过其他的输入进行提示,比如说用现有的图像或者视频进行提示,可以对这个图像和视频进行前后侧的补充,来更好地完成编辑任务。那么这就表明,实际上 Sora 的功能和技术上的成熟程度会比我们想象的要更好一些,比预估上更早地就表现出了现在的这个阶段。

因为在 2022 年出现工程技术方向之前,其实很多 AI 公司无法在商业化上得到提升,而且它的技术潜力或者说技术红利也被很多投资者认为没有那么有前景了。但是这个技术路线图提出以后,国内外的AI 的机构投资,或者技术圈,包括这个领域最顶尖的一些学者,都开始投入 AI 的创新浪潮。

一方面可能是媒体关注会比较多,另外一方面它也到了这么一个节点,就是很多 Scaling Law 的红利没有被完全吃下来,而且它已经有更好的一个效果,它解决了很多之前比较难的问题,比如说在一个比较长的时间窗口内去保持生成的一致性。这是很关键的一点。至少之前在国内没有技术团队能够对它进行成熟的应用。

那么对于全球的 AI 产业来说,其实会有一些新的叙事,首先是短期的应用价值,比如说在生产环节提升效率,内容生成有很多延展;其次就是跟其他模型的结合。我们还是认为它是一个对世界建模的方式,因为有了知识和内容,对现有的文本就有很好的补充。所以在这个基础上,不管是我们后续做 agent 代理,还是跟物理世界连接方面,都会有一些新的机会。

最后还有一个思考,Sora 的模型本身是有局限性的,因为它现有的技术还不成熟。它部分开放以后,被媒体去测试,或者被像杨立昆( Yann LeCun )这样的学者说出它跟理想中的世界模型的之间的一些差距或者差异。这是很显然的,它有一些不成熟的地方。

我们认为一个技术总是有它不成熟的地方,很难有完美无缺的技术。但是只要它在创新能力上有很大的突破,并且后续能够以比较低的成本去实现以往的技术方式无法解决的一系列实践问题,那么我们认为这个技术就是可行的。不管是在产业逻辑还是技术逻辑上,都会有比较好的前景。

对我们研究本身或产业落地来说,除了资本和创新的一些回报以外,其实最大的启发还是在于,Sora 模型让我们看到了重新理解计算本质的一种可能性。因为计算不仅仅是对数据的处理和操作,更重要的是我通过计算能够对现实世界进行理解和模拟。Sora 其实是通过对视频和图像的重新理解和模拟展现了一个新的理解世界的方式。尽管它还不够完整、完美。

另外一点就是,比如说我们国内很多做文本推理或者相应的技术创新的团队,实际上我们跟他们讨论时,他们有一个新的看法,我觉得是很重要的。做大语言模型怎么样把它的应用逻辑从简单的文本生成、图像生成或多模态生成这条路线上,有更高升维的关于智能本质的理解?我觉得就是跟计算有关。

如果我们把 tokenize 的向量空间无限扩大,它其实可以当做一个新的计算拟合的方式。计算机在传统的技术架构下,我可以通过 Transformer + tokenize 的方式,更多地把这些数据、数字化的内容进行拟合、交叉和映射,从而推理出相应的更好地符合客观物理世界的一系列数字化内容。那么它就变成一个关于计算本身的新范式。重新理解计算,有一个更好的涌现出智能的计算逻辑,那么对我们后续实现至少是应用层面的通用型 AI 会有更多的启发。

因为 OpenAI 还没有把相应的技术细节说得很清楚,但我们可以看到,它采纳同样的技术路线和工程实践,在不同的模态上取得了相应的成功,而且每每在关键的时间点上把一些爆炸性的产品向公众展示。就像胡老师所说的,确实是有营销的成分,但更重要一点是这些相对成熟的产品的展示和技术的展示,给了我们研究者相应的些许信心去做相关的工作。包括我们之前尝试的一些技术路线可能在相应的资源支持不够的情况下,有这样的内容出来就可以使我们的相应实验有更多的资源投入,能够去完成一些AI 产品。

我非常同意 Sora 的技术文件里讲的话,扩展视频生成模型是构建物理世界通用模拟器的一个有前途的或者至少是有效的路径,因为其他的路径至少在工程上现在还没有成功。我们认为它展现出来的技术特点已经证明它在实践上是可以被认可和成功的,当然,不同的学者有不同的看法,待会我们再讨论。

总之,我们对这个技术还是喜闻乐见的,而且它也没有带来大家觉得的中美的 AI 恐慌或者gap,因为这些大家都是殊途同归,只不过说可能在一定阶段内,大家拿出来的东西的品质和成果有差异而已。

王俊秀:看来对 Sora 的评价越来越高了。刘志毅一开始就讲它是通用人工智能发展的一个里程碑。他讲到了泛化性和生成在一定时间内内容的一致性,对此作了肯定。又讲到了 Sora 其实是对于重新理解计算本质提供了一种可能性,而且他最后的一个整体判断,从技术路线说, Sora 是通向世界模型的一个有效路径。

下面有请王强陈述他的观点。

王强:谢谢王老师。我的感觉也是相对比较乐观的。大家过年也是非常的热闹,一直在关注人工智能的进展。其实我们看整个的大的周期确实是进入到一个新的叫 GenAI (生成式人工智能)的周期。

近两年每一个 Gen AI 产品发布的时间节点, ChatGPT 是 2022 年 11 月 30 日;GPT - 4 是 2023 年 3 月 14 日;2 月 15 日其实发了三个很重要的产品,Sora 、Gemini 1.5,其实 Meta 也发了一个,后面我会讲;Claude 3是3月4日,大家这两天也都在热烈地讨论。
大家都笑称“人间一天,大模型一年”,可能历史上首次以“天”为单位更新技术。我觉得对于整个技术迭代和变迁来说,这是蛮有标志性意义的事情。

引发大家热议的另一个原因也是因为一直会有热点出来,而且对这方面的认知,我个人感觉是一直在学习,又一直在迭代。你今天觉得懂了,但是可能明天你好像又有点犹豫了,其实一直是在这样的一个过程中迭代和更新。

大模型这部分我引用了一个朋友的说法,叫“大模型三部曲”,我觉得蛮有道理的。文字,更擅长与“理性的人”打交道,刺激思考;声音,包括现在的播客等等,大模型有很多合成声音的,其实是可以深入“感性的人”的灵魂,能够产生依赖感和亲切感;视觉,就到了咱们讨论的 Sora ,视觉的冲击是非常大的,直接作用于多巴胺通路,刺激动物本能,让人成瘾。他说从走脑、走心到现在到走肾了。
美国顶级风投公司A16z整理了 2023 年整个的视频产品的进程,可以看出其实各家都在紧锣密鼓地不断地迭代自己的产品。可以说 2023 年是视频大爆发之年。从几秒的动画,再到文生 3D 的,再到像 Sora 这样 60 秒的。

整个进展表明了现在技术进入到了一个非常加速进步的时期,包括像 Stable Diffusion 的开源,包括扩散模型的技术的不断成熟,其实目前来看在文生图、文生视频等领域,这个技术的成熟度还是蛮高的。

从 Transformer 、 ChatGPT 到 Sora ,都在以不同的方式压缩世界的知识,比如说文字生成是以token ,当然分词可能有各种方式,大家都是用不同的token 来表示,最后来做训练;我们的文生视频可能这次用的是 patches (视觉补丁)的方式。其实都是把整个世界的知识做了压缩,然后很好地去表达,大概是这样一种思想。

出现 Sara 其实是必然的。我问了行业里面很多这方面的专家,大家都觉得肯定是会做出来,但是时间远远超出了大家的预期,大概比大家预测的早了一年左右。

最早从 2014 年做GAN(生成对抗网络),网上出现了很多生成的现实并不存在的人,当时大家也是讨论很热烈;到了 2020 年的扩散模型( Diffusion Model ),其实 2020 年就已经提出来把 Transformer 用在这个领域了,当时就提出了 patches 这样的一些思想。

再往后很重要的就是潜扩散模型( Latent Diffusion Model ),它是把维度做降维,比如说我们用活着的生物和非生物来分辨小狗和汽车等等。因为维度太多的话计算量就太复杂了,所以用降维的方式,比如说用是不是活着或者是不是能飞这种很简单的矩阵去做区分,把它做降维和压缩。这样可以大幅地降低数据的维度和复杂度。这是一个蛮重要的技术。

然后是大家非常熟悉的稳定扩散模型( Stable Diffusion ),再到现在的 Sora,它把整个 Transformer 和 diffusion 结合起来了。

这几年大家其实也在做结合的事情,但是之前用的是卷积的模型,比如 U-Net 等这样的一些模型跟diffusion 做融合。这次是用 Transformer 直接来做, Transformer 在跨模态上的表现也很好,所以这也是一个必然的过程。

这几年其实从 Runway 到 Pika ,大家也看到很多的模型,它们生成的视频时长其实相对是比较短的,几秒或者十几秒。而 Sora 能够生成 60 秒,这确实是一个非常革命性的进展。以前可能需要我生成很多张,然后我再去找它们之间的关系,做拼接。Sora 是一次性生成,所以它本身生成的图片之间自然就带有联系,所以它的一致性会更好。所以说这方面的技术确实是往前推进了一大步。

刚才几位老师也谈到了OpenAI 自己讲的“世界模拟器”的愿景,我觉得还是蛮激动人心的。当时我看 Sora 的网站的时候,我把那几十个视频都看了,给我印象最深的就是咬汉堡的视频,汉堡上的咬痕;还有斑点狗的这个视频,原来基本上很难做到人走过之后狗还在这个位置,而且还能够出来。这种因果关系和空间关系的处理真的是蛮让人惊艳的。

当然,这里面还有很多的不足,大家看得也很多了,而且还有一个很大的问题其实没有提,现在只是一个demo,也有人在讨论,成本到底是多少,因为如果未来推理的话,其实我们知道视频要耗费更多的计算资源。这块没有公布,大家都在猜,可能大家说得比较多的大概是比如一个视频要 20 分钟才能生成,大概是90 美元的推理成本。

同时,我们看同一天发布的 Gemini 1.5 ,大家也用它来做测试,用来发现 Sora 视频里面的一些问题。Gemini 1.5 也是很优秀的一个模型,但是风头被盖住了,而且 Gemini 1.5 现在是 100 万 token ,可以推理一小时的视频,这其实是非常厉害的一个模型,大家也可以去更多关注它。

我的观点跟刘老师的观点比较类似,我觉得 Sora 其实是 OpenAI 迈向 AGI 的一个阶段性成果。比如说我们人去看很多东西,基本上可以有三步,首先看到,然后你去识别,你知道它能干啥,你理解了,最后你可能要去理解背后的机理。这其实难度就更大了。

但是我们大部分的任务,你只需要看到这个是啥,知道它能干啥,其实你不用特别去理解它背后的机理,有些机理是靠专业人士、专家去理解的。所以 Sora 有机会能够完成人类社会里面的很多不需要特别严格的物理规律的场景,我觉得这个是蛮有潜力的。

当然,杨立昆提出来不同看法,其实我感觉现在有通向AGI的两种路径,Sora是一种方式,它从视觉的角度来走,杨立昆讲的是另外一种路径,是世界模型。

大家比较忽略的就是Meta在OpenAI发布Sora当天发布的视频“世界模型”,叫V-JEPA,它在 200 万个视频的数据集上做了训练。他自己是觉得蛮好的,这个是他重要的一步。

这块其实就涉及到Scaling Law。大家看这棵树,其实是谷歌发现的,最后它可能没有特别坚持下去。前几年其实大家就发了论文,在视频上其实不断地做 scale up,可能会有比较好的表现。但是很多人都没有像 OpenAI 这么坚定地去投入这么大量的计算资源去做这个事儿。

在视频领域的 Scaling Law 可能还没有摸到天花板,我们看到像OpenAI 其实是一直在往上走,我觉得确实走这样一个路径是需要一些这样有着激情和坚定信仰的人去不断地打开这个天花板。比如说像Scaling Law,它是写在 OpenAI 的信仰里面的,如果你对 Scaling Law 有怀疑的话,那你继续 scale it up,继续去把它做大,可能会有不同的效果。

短期来说,它其实会对内容生产有非常大的影响,包括像电视台,很多做短视频的,其实都非常关注。尽管它还没有让大家能使用,但其实大家已经看到它未来的前景,包括像好莱坞等等,大家已经都在关注它了。同时它也会降低成本,泰勒·派瑞 (Tyler Perry)还取消了自己的一个8亿美元的扩建计划,他觉得有这样的一个东西可能未来他做电影也够了。这是短期内的一些影响。

现在网上其实也出现了很多这样的短片,说是 Sora 做的,其实都是假的,可能短期内还难以满足电影工业级的要求。因为电影里面其实还是有非常多的细节,但是对于短视频等领域,以及一些简单广告领域,它已经够用了。

未来如果能做这样的生成的话,比如说我们现在看到的广告,每个人看到的都一样,那未来可能会千人千面甚至是一品千面,等等这样的方式。也就是说,当你来了之后,它可以及时地生成一个适合你画像的广告,这其实都是现在广告行业大家去探索的一些新的方向。

最后,我们看到整个从工具演变的过程,其实 Sora 还是一种工具,我们从最早的这种计算、交互方式,不断在变,但其实核心人的需求、人的价值其实没有变。我也很认同一句话,设备其实是人类延伸的器官,服务可能是人类延伸的意识,虽然这些技术在变,那更多不变的是人。

这是我的一些初步的思考,我就简单讲这些,我们后面再继续再交流。

王俊秀:王强进一步讲了 Sora 是迈向 AGI 的一个阶段成果,而且他提到了一个关于世界知识的压缩概念,而且讲了很多技术演进的路线。

第一轮结束,现在形成一个阵营,1: 3,很不匹配, 有点欺负胡泳。所以我觉得接下来的第二轮应该给胡泳 10 分钟,其他三位 5 分钟。胡泳先对他们三人的观点做一个批判吧。

胡泳:俊秀是属于挑事的,主持人反正是为了流量起见,就是要挑事啊。

然后我想说两点体会。第一点,其实不管是 Gemini 还是刚才王强讲到的 V-JEPA 很明显的就是,围绕人工智能已经展开了军备竞赛。这就会让我们想起人类历史上曾经有过的核竞赛,最后大家其实就是争先恐后地发展更多的核弹头,更有打击力的核力量,然后你肯定就把其他东西抛诸脑后了。

军备竞赛的意思就是说,我不上,你上,最后我完蛋了,对吧?其实我们人类是有前车之鉴的,就是核竞赛最后的结果是什么样子?现在的人工智能又到哪一步?至少是说 OpenAI 已经成功地把所有人都调动起来了,现在你不管怎么样,首先,它具有先发优势,因为都是它先搞的;第二,它具有飞轮效应,它势头重,所以会越转越快。其实我们承认它能搞出这些东西来,背后全是钱,没有钱你能干什么呢?所以有微软的钱。

那么这时候阿尔特曼想保持原来的初心,或者是自己要用人工智能造福人类,我觉得这些基本上可能在钱的面前都可以往后放了。这是第一点,我觉得这个军备竞赛有问题。

第二,我一开始就讲到,我们任何一场关于人工智能的讨论,一定会讨论到通用人工智能,也一定会讨论到意识。某种意义上来讲,我觉得一旦进入这两个领域就很难讨论了,非常难以讨论,所以我们不妨回到一个很原始的地方,就是这个东西全部跟图灵有关,我们讨论一下图灵测试。

刚才蔡老师举中文屋的例子,中文屋其实无非就是外面的人读到屋内人的翻译,然后他们会觉得屋里这个人很聪明。但是其实这个屋子里的人只是在模仿智能行为,并不代表他拥有智能的品质。

不管是任何模仿游戏还是图灵测试,都肯定不是评估 AI 系统的最有效的方法,反而它可能里头还有道德问题。因为会创造机器来鼓励欺骗,鼓励人们把欲望、信仰、意图都归因到意识上。因此,可能要回到图灵测试来讨论问题。

我其实非常不同意王强的一个说法,王强最后的结论就是说“工具变,人不变”。我觉得错了。我觉得在这个过程当中人已经发生了很大的变化。所谓的“工具变,人不变”只是一种美好的幻想。

因为我们讲到,首先,图灵测试就是鼓励欺骗,然后我们发现“模仿”这个词(因为图灵的说法叫模仿游戏),其实要求计算机要像人一样,甚至连人也看不出来它是计算机,那它的确可以会骗过人,但这是不是构建真正智能机器的正确方法?我觉得可能要画一个很大的问号。因为你会发现,人有很大的一个特点,我们自己也都这样,我们在座的每一位都这样:我们并不善于区分什么是真实的,或者是我们想要的真实是什么。我们想要的真实和这个真实的东西,两者是不一样的,所以我们最后就一定会被这一系列的把戏迷得神魂颠倒。最有名的例子就是谷歌的工程师布莱克·莱莫因(Blake Lemoine),他就说他认为那个机器是有意识的,他甚至要为那个机器争取它的权益。

我们对图灵致以崇高的敬意,但是图灵在 1950 年设想出模仿游戏的时候,是作为一种对计算机行为的测试,他其实完全没有想到未来的人类在干什么,对不对?最早他提出计算机的时候,他甚至还会倒过来想,他说那个机器有点像人类计算者,因此它是个好机器。你会发现那时候他做的对比是“机器像人”,他完全没有想到未来的人类,我们现在的每一位都在内,我们一天中的大部分时间都紧盯着屏幕,我们本来就更加生活在机器的世界,而不是人类的世界。我把这个东西叫做人工智能的哥白尼式转变,就是你已经从地心说变成日心说了,现在已经不是人类世界,而是机器世界了。所以我们说,你现在为什么盯着屏幕呢?因为现代软件最大的成就是用非常简单的任务占用你的时间,对不对?不管你是发帖、评论、点赞,还是快照,所以如果我们所有的这些活动都围绕着计算机的互动,那么我们谁能说屏幕另一侧的机器不是在匹配我们人类的点击呢?

我们以前对于这个东西的想象是这样子的,当我们想象机器智能的时候,我们想象的全都是,机器进入我们的世界,成为一个类人之物,然后它成功地驾驭情感、驾驭欲望,就像科幻电影描写的那样。但是现实生活发生的情况不是这样的,现实生活时我们本来也已经把越来越多的时间花在屏幕上,我们会制作永无休止的视频,会长达数小时玩同样的游戏。现在可能多了一个新鲜事,同聊天机器人聊天,用聊天机器人生成各种各样的东西。

所以谷歌那名工程师莱莫因到底花了多少小时、多少天、多少周或者多少月,跟他心爱的那个模型交谈,他才会觉得对方是活过来的?所以其实你现在深陷在虚拟现实当中无法自拔。在你无法自拔的同时,机器现在通过尝试与你竞争来完善自己的程序。这不是科幻电影。用个很简单的话来讲就是,人类在上瘾,但机器在上进。

所以图灵从来没有预想到说,我们已经沉浸在成功的机器世界当中,沉浸到图灵根本没有想象过的程度。这时候我们就会发现,所谓的图灵测试根本不是对机器的测试,而是对人的测试。换言之,是对人到底能接受什么的一个有效的测试。这时候你可以反向地思考图灵测试,原本图灵测试是为了通过测试计算机,计算机可能会变得更聪明、更像人,但是我们完全可以用这个东西来测试人类,就是人类现在变得更笨,并且更像计算机。所以见到那些智能你就惊讶得不得了,你就欢呼说那些智能做的事我们人类都干不了,比我们人类高太多了。所以从最初的设想角度来讲,这是一个逆转。

这个逆转的意思就是我们现在并不把机器放在房间里进行测试,我们其实是让我们自己来服从所有机器的游戏规则,然后你可以美其名曰说是人机合作。那么在这个人机合作的过程当中,你干嘛呢?机器获得所有人类关于如何说话的数据,拿到数据以后再反过来让你接受你作为人到底应该如何说话,它来指导你。所以我们可以彻底扭转图灵的问题。

我们反过来问,计算机环境中,我们真的表现出了人类的特征吗?也许我们现在所干的这些东西,是我们希望干的事情,但它真的是我们人类的追求吗?还是说其实它只不过是机器比我们人类执行得远远更好的一种追求?只不过机器在这个地方使用的是一个虚构的身份。

用我的话来讲,在最后的科技发展的前沿,我们其实在干什么?我们在等待机器来下达判决——这个人是不是足够智能。人是不是智能,是由机器来判断的,人自己决定不了自己是不是智能了。这时候我们就回到图灵,图灵很有先见之明,在 BBC 上有图灵在 1951 年受采访的音频,他说,如果机器能思考,它的思考就比我们更聪明,那么我们最后会到哪里呢?这里的我们当然就是人类了。

所以我觉得王强的那个说法其实就低估了这个东西,人不仅在变,而且可能会变得比以前更没有智能。

王俊秀:其实胡泳应该好好地写篇文章,他讲到的“人工智能的哥白尼革命”是一个很大的命题,而且他由此推断出,我们以前理解的图灵测试需要反向思考,从机器的角度来判断这个人是不是足够的聪明和智能。以前我们还真是没有这么想这个问题。

蔡恒进:在这一点上我倒是很同意胡老师的讲法。我们实际上是面临这么一个困境,假如按照现在的奥特曼 OpenAI 这个方式发展的话,很多人也会这么担心。但是我们可能有另外一条路,现在的 scaling 是把所有的数据扔进去,然后加大算力,这个架构实际上有缺陷的。但是我们人类智能发展本身不是这样子的,而是一点一点地叠加上去的。所以意识本身就变得很重要,认知坎陷变得很重要。

在我们进化过程中,我们人类发展出伦理的、道德的、宗教的、审美的等等内容出来,是非常独特的。当然,它包含在我们语言的数据里头,机器可能也能学到,但是假如说只是看视频它是学不到的,这是我们人非常独特的地方。

的确,机器在处理跟客观事件相关的这些问题的时候,它对人有碾压的优势,而且这个优势会很快到来。我的判断是不到十年,也可能不到五年,很快会到来。但是它的缺陷就是,它实际上没有长远的目标。我们拥有长远目标,是我们生命亿万年进化出来的东西,这个东西的价值是永远都在的。即使机器加速,但它还是不能重复我们生命进化进程里的所有细节,这些重要的点。所以我讲认知坎陷非常重要就在于此。

机器现在也有很多特征,或者是token,或者是 patches ,这些时空碎片。但是它的特征太多了,它的可迁移性是很差的,所以它没有可解释性。但是我们人类的认知坎陷实际上是不一样的,我们看一个动物,首先要看它的嘴、鼻子、眼睛这些坎陷性的东西,虽然它的形态差别很多,但是我们是以很强的注意力去把它区分出来,所以我们不需要很多的计算,会很快就能认出来,这是目前机器还没完全做到的。

按照现在这种架构的话是不太容易做到的,虽然这个架构本身未来也会优化,也会向这个方向走,但是不知道会走多长时间,而且要花费大量的能量。所以马斯克讲,我们马上就会面临的不是芯片的短缺,而是能源的短缺。因为你需要大量的算力,需要耗费很多能源,所以我们的确是需要关注这个很基础的问题。我呼吁要研究意识,特别是人的意识,还有机器的意识。

所以我们各个层面的认知可能没有完全跟上,我们实际上不太知道面临的危险。现在通过美国卡中国的芯片、OpenAI 发布 ChatGPT 、 Sora 这些东西,可能让很多人开始有一些紧迫感了,但是这个紧迫感可能还不够。我们面临的很重大的危机,是深层的意义上的危机,不是产业上的。所以我想呼吁大家,在这里多关注一些意识问题。在这一点上我倒是跟胡老师有共鸣。我就讲这些,谢谢。

主持人(王俊秀):谈到意识问题,是蔡老师的拿手本领,而且他讲的认知坎陷其实是他独有的名词,大家可以在网上先搜一下。

刘志毅:我对意识的研究不多,所以我还是围绕 Sora 和我们所做的工程实践来说。刚才我提到的观点,那个技术论文里面提到的 Sora 是扩展视频生成模型来构建物理世界通用模拟器的一个有前途的或者说有效的路径。那么现在的AI 技术,不讨论太长远的,其实就存在两个观点,其中一个就是LeCun 提的,他认为这种生成像素或者说模拟生成的方式对世界进行建模是一种资源浪费,而且会失败。他认为生成其实更适合文本,因为文本是离散的,具有有限数量的符号就可以处理相应的一个 prediction 的问题。但是如果处理图像或视频这样的一种连续感官输入的预测,这个不确定性就很棘手。

在实践工程当中,AI 技术的本质还是一个压缩建模的过程,只不过压缩建模的数据到底是什么样一个数据。比如说我们对视频的编辑概率去建模,像这一次最重要的技术变化就是无损压缩,那么它在逻辑上来说其实跟语言模型( next token )的 prediction 其实没有本质区别。所以从这一点来讲,我们其实不用过多担心跟意识有关的一些讨论和问题。

我比较同意王强老师讲的,它具有一定的工具属性,技术的延伸,就是说在现有的使用效果上,它一定会被使用,你的一系列问题最终也是会变成在有效使用当中去控制的风险,而不会变成阻止它使用的情况。当然,可能胡老师认为有人性的弱点一系列问题,这不是我的专业领域,可能会比较挑战大家,悲观一些。

现在 AI 最大的问题,倒不是如何让 AI 产生意识或者没有意识,因为现有的技术逻辑,其实最大的难点在于怎么在压缩的技术当中探索智能的边界,因为它能力是有限的,不会产生意识,也不会替代人做决策。

现在的技术路线,一种叫压缩原始世界,压缩原始的尺寸、原始的图片,然后进行向量化,是这是视频的 prediction 在做的;另外一种就是压缩人们产生的数据行为,比如说我们产生的一些行为是通过人类大脑产生的,通过大脑用语言文本的方式有一些智能的判断。

所以可以理解为,视频模型在通过世界模型这样一种技术逻辑来做压缩原始世界的行为,文本模型再通过语言这样一个媒介来做对人的大脑里面的语言判断进行压缩。怎么样既能使得观点和判断语言的压缩能力能够被实践,又能够拟合视频模型当中所产生的一系列图像和视频的行为,这是一个很重要的工程问题,把这两种能力合二为一,使它真正地能够实现像《头号玩家》里面那种生成式的内容,或者一系列的产业应用。

所以在现有的技术条件下,我们技术通用人工智能的方法其实就是在做基于深度学习的数据压缩,只是压缩的方式和能力不一样,导致技术路线有差异。现在我们各打通了一个逻辑的大门或者工程的大门,怎么样使得它变得更有效、成本更可控、更安全,是我们在实践工程在解决的问题。这是我对这件事情现有阶段在技术工程上的一些思考,供老师们参考。

王俊秀:刘志毅又拉回到了工程技术的角度,他回避了意识问题,他讲的其实还是压缩建模的过程和他的工程观点。

王强:我再回应一下胡泳老师的观点。因为胡泳老师是我非常敬重的老师,也看过胡泳老师的书。非常受启发,因为今天王老师说是可以辩论,我也就抛一些不成熟的观点。

第一个观点,现在 AGI 其实还有距离。元旦的时候我也看了奥特曼的Twitter ,他说今年最大的愿望就是发 GPT-5。未来到 GPT 几时能实现AGI?目前来看其实还是有比较大的距离。所以现在很多对于 AI 风险的讨论,其实大家很可能会把未来的技术实现的风险,可能是未来超人工智能的风险,甚至用一些想象的风险来规制现在 AI 的发展。其实我比较担心这样的想法,在不同的发展阶段,对于发展和规制可能要有一个平衡。

目前的 AI 发展,我个人感觉跟这种核武器毁灭人的军备竞赛还是很不一样的。我们希望现在的 AI 发展,能够像进入电力时代的发明竞赛,去发明电话,发明汽车,发明飞机等等,向着更好地满足人的需求的角度去发展。

我最后提出来的“人不变”,其实我更想说的是,人对美好生活的追求是不变的,包括人性的变化、人的需求的变化,其实是很慢的,基本上没什么变化。

机器的生产能力很强,机器生产的内容很快就会超越人类生产内容,而且机器产生的内容其实在一定程度上已经超出了人类的平均水平。未来可能“真实”会成为一个稀缺的资源,大家怎么去找到这种真实,其实也是蛮重要的,但同时我们人的判断力很重要。我们经常说,听大多数人的意见,自己做决定。不光是AI,平常也有很多人给我们意见,最后其实人的判断力是很重要的。

这其实对于我们未来的教育也提出了很高的要求。比如说我们现在知识教授的方式要不要改?未来我们学什么?怎么学?比如提高学生的判断力、好奇心,包括领导力,未来可能每个人会有很多虚拟助手来帮助我们做各种各样的事情,比如说现在国外流行的一人企业,也是有这样的技术基础和能力去用很多的 AI 工具,其实是能够更好地去服务于人的发展。

当然,这个过程中肯定是需要治理的。其实有几种,一种是技术上的规制,比如说有打标识,打显性的标识或者隐性的标识,用技术去打败技术;另外我觉得“科技向善”是一个非常重要的需要坚守的原则。我们现在也在做一个项目叫 AI & Society ,希望有很多专家跟我们一起讨论 AI 未来的一些风险,包括它的一些负的外部性的问题、试验,包括人对AI 的依赖等等这样的一些影响,非常愿意和期待跟各位专家有更多的探讨。

王俊秀:期待胡泳对他们三个进行一次知识压缩。最好聚焦一下,对他们三个的观点再做一轮回应。

胡泳:知识压缩应该是主持人干的事,不应该是我干的事(笑)。

我从他们三个人分享当中学到了很多东西,我一直在做笔记,因为他们每一位的出发点,以及他们对于人工智能的熟悉,包括对于技术的熟悉,对于工程的熟悉,都让我受益匪浅。其实有很多可圈可点的,对于我来讲是新知识的东西。我们做沙龙就是要产生知识的增量,所以就包括蔡老师的“认知坎陷”,其实可能会是人区别于机器的一个很重要的特征,换句话讲,我们怎么更好地发挥人的这种认知坎陷的能力?大概用蔡老师话讲就是,也不是只有一条路走到那个目标上,是不是还可以通过别的路?

刘志毅有很多的工程的解释,其实是让我茅塞顿开的。他特别强调有了一定的技术路线,我们就可以发展应用,那么在这个应用过程当中能够解决很多很实际的问题,甚至是把一些现在已有的路线再结合起来,有一个合二为一的过程,那么一系列的产业应用可能会兴起。
我觉得这其实是人工智能研究者责无旁贷的事情。我们姑且不谈那么远,不提将来机器会不会取代人类,人类会不会被机器统治,至少目前人工智能的确应该服务于王强所讲的人对美好生活的向往,也即怎么样让我们能够更有效、更安全地来使用将来可能出现的一系列应用。从人工智能研究界来讲,这是传递的非常良好的信号。

其实王强跟我的观点有些地方仍然有很大的分歧,我并不觉得电力竞赛更像现在的人工智能竞赛,我还是认为现在的人工智能竞赛更像核竞赛。人工智能这种技术跟电力技术有非常大的不同。我觉得在过往的人类历史发展过程中,电力革命是最伟大的革命,远远超过现在的互联网革命。

大家可以想象一下,在电力革命那个阶段,人类的生产率才有了最大的提高,人类的生活才有了普遍的改善。如果没有洗衣机,那么在男权社会的压制下,会有多少女性现在在洗衣服?洗衣服是一种非常痛苦的人类劳动。我们能够想象,今天如果没有电灯,没有电冰箱,没有空调,没有吸尘器,没有洗碗机,我们的生活能有这么幸福吗?所以我觉得电力技术给我们人类创造的福祉远远超过互联网。

为什么说不能简单地把电力革命跟智能机器革命混为一谈,因为所有的智能机器的确已经威胁到,不仅是人的工作也好,或者人对于虚拟东西的依赖性也好,甚至直接威胁到人性本身。

我原来有一个观点可能跟王强的类似,我觉得以往我们看这个东西可能有个公式——技术是恒变的,而人性是恒不变的。现在我不这么认为。我认为人性可能会变,人性不是恒不变的。所以这点上我仍然跟王强有分歧。

但是在另一个地方我觉得我们俩还是有共识的,我也认为未来最重要的东西是人的判断力。我觉得将来很重要的要研究的一组关系,就是计算和判断的关系。我们把什么东西交给计算,把什么东西仍然保留在人类的手里,就是作为人类的判断。如果我们不能画出一条界线,把人类智能跟机器智能分开,而是把机器和人类思维完全混为一谈,我们其实就是在拒绝计算和判断之间的这种差异,所以我觉得这是个极其重要的问题。

换言之,要意识到人工智能是一个复杂的社会技术,人工制品,蔡老师说它是个人造物。那么这个人造物是不能用纯粹的计算术语来思考的,它一定需要被理解为是通过一个多样化的社会过程来构建的。那么在这个意义上来说,像刘老师是在研究和开发层面,他更多关注的是技术层面,可能我就更加关注人类层面。

我的主要的观点是,在考虑人工智能的时候,必须要同时考虑人类层面和技术层面,我们人类生活的一个很核心的东西是偶然性,但是如果一切的东西都是可计算的,用全面的数据化和可计算性导致用计算来代替判断,或者说是形成一种计算崇拜,那么一定会摧毁人类生活的偶然性。但是偶然性才是人类事物的一个中心特质。这是我的一点感想。

王俊秀:我觉得挺有意思的,最后讲到了实质。胡泳是高人,他讲到人工智能是一个人造物,不能简单地用计算术语来描述或者是统筹,它其实是一个多样化的社会过程。而且他也提到了在这个过程当中要区别人的这种判断力。这就跟王强融合了。其实讨论到最后,就是既有融合也有分歧,这样就比较有意思。

段永朝:今天听得很过瘾。从胡泳、蔡老师,到刘志毅、王强,四位讲的都很精彩。但是我想说可能他们也还不是 1: 3 或者 2: 2 的关系,实际上是在共同探讨今天的主题“ Sora火得有道理吗?”。我就不重复几位精彩的观点了,我只说我的一些看法。

我们有没有注意到这一次关于Sora 这个问题,为什么工人兄弟不讨论它,农民兄弟不讨论它?大家可能会觉得,我为什么会问这么一个傻问题?我在想这样一件事儿,如果放在几百年的尺度,比方200 年的尺度来看,对新技术的剧烈反应,其实最应该从产业工人开始,比如瓦特蒸汽机。瓦特蒸汽机是1769 年发明的,大概18 世纪中后期了,出现卢德分子是到了 19 世纪初期——也就是说,基本上是 50 年以后才出现工人砸机器的事情。

到了 1851 年的伦敦万国博览会,机器依然是主角,卢德分子并没有阻碍机器时代的发展。工业时代发展的历史就是机器发展的历史,也是机器和工人斗争的历史。我们知道历史上的工人砸机器,知道工人大罢工,包括国际共产主义运动历史上的第一国际就是工人国际,知道芝加哥工人大罢工。今天三八妇女节怎么来的呀?就是1909 年到1911 年,第二国际领导的女工暴动的成果。有意思的是,刚才胡泳提到的电视、电话、洗衣机这些对人类生活有贡献的机器、工具,一开始的时候并没有遭到工人阶级的抵抗,似乎工人阶级对新机器的出现的暴动、抵抗热情消退了。这是为什么?

我为什么要反复讲这个事情呢?我在做一点铺垫,提另外一个人,叫本雅明,这是胡泳老师非常熟悉的德国学者。本雅明在 1935 年写了一篇著名的《机械复制时代的艺术作品》。这是学传媒的同学必读的一个文献。他讨论的背景是照相术大行其道的年代。其实照相术基本上在本雅明的那个时代,已经出现超过100 年了。本雅明所处的时代离爱迪生发明的电影也过了将近40 多年。本雅明关心的是,机械复制时代导致作品的灵性消失了,复制品杀死原作了。但更重要的是本雅明洞察到艺术已经异化了,艺术已经被技术绑架了,更要命的是,艺术被绑架来为政治服务。所以本雅明真的是先知一样的人物,他已经敏锐地洞察到或者感觉到了艺术终将沦落为政治服务。艺术的堕落或者艺术的绑架,其实是伴随着工业革命诞生以来出现的一个非常重要的现象。很多后现代理论家,包括鲍德里亚讲的消费社会,利奥塔讲的宏大叙事,罗兰·巴特讲的作者已死等等,都是对机器崛起时代艺术堕落的控诉。

回顾这段历史,我想说的是,今天的大模型其实并没有像媒介宣传的那样,将来可能带来很多失业,带来对劳工阶层的巨大冲击。我觉得这不是要点,要点是它会杀死知识分子。当然你要定义一下到底什么是知识分子?这又是一个值得深思的问题。不妨简单说几句。

其实在我看来,工业革命伴随着一个非常重要的现实——知识分子精神的沦落,知识分子其实已经空心化了。传统意义上仰观天文俯察地理的知识分子已成为濒危物种。所以它会杀死知识分子。为什么?

今天真正的知识分子其实越来越少了,因为都被工程师替代了。我这么说并不代表对“工程师”这三个字的鄙视。我只是觉得这是一个历史现象:“工程师战胜科学家”的过程是一个历史现象。

今天的工程师文化大行其道,必然导致古典知识分子精神的沦丧,而大模型其实是让这件事情变得更加的自动化,更加的算法化、代码化了。所以我的结论就是,Sora 火的没有道理,一点道理都没有, Sora 火得很野蛮。

为什么这么说呢?传统的技术某种意义上还是在时间维度上展开,因为它的目的是为了提高效率,进行物质-能量转换。它基本上还是在热力学熵增原理的大循环当中,它是要追求时间的秩序。但是今天的人工智能跟传统的技术都不相同。人工智能、信息技术是空间性技术。空间性技术就是符号表征、普适计算。借用蔡老师的“坎陷”来讲,它简直像一个巨大的黑洞,它已经不完全是坎陷了,它是巨大的黑洞。

为什么刚才对“工程师”这个术语有批评的味道呢?今天的工程师在讲他的工程机械的效率层面、功能层面的东西的时候,从来不谈他的机器不能做什么,从来不谈他的机器原理中的局限性。所以我非常钦佩胡泳老师,以一个人文知识分子的视角,洞悉到图灵测试要重新来看,要反着看。可以说以我所见到的所谓的工程师们、科学家们,似乎还没有哪一个人用这样的视角来看过图灵测试的问题。

图灵机也是这样的。没有任何一个工程师用科普的语言告诉普罗大众,图灵机是有缺陷的。我简单举一个事实,图灵机的处理对象,用图灵自己1936 年的论文来讲,叫做可计算数,图灵机面对的是可计算数。可计算数就是数字的全部吗?当然不是,初中知识告诉我们有数系,有有理数、无理数,有理数、无理数加起来叫代数数,还有超越数,整个加起来叫实数。这个数系是一个连续的谱系。但是图灵机能解决的可计算数,只是实数中的一个子集,并不是我们所面对的数学领域里面所讲的实数的全部。这意味着什么?这意味着可计算的世界与我们肉身可感知的世界并不完全重叠,意味着我们日益被一个“缩小”了的世界画面(幻觉)所征服,日益被一个封闭在可计算数范畴内的世界所框定。关键是,我们对此浑然不知。

工程师们或者算法科学家们从来不把这件事情的重要性当回事情,他们认为这没有什么了不起的,他们总是夸耀今天的智能机器已经如此的强悍,我们已经借助计算机器可以处理如此多的对象,不用去想不可计算数的问题了。除了不可计算数,还有不可解问题、不可判定问题,所有的这些东西在工程师眼里都不重要。因为产业革命导致的工程师文化大行其道,他们只关心效率,它是一种时间性技术,但是今天的大模型其实已经变成了空间性技术。所以工程师这个物种其实已经走到了它的反面,他们所营造的人造世界,已经超出了工程师头脑所能驾驭的世界的范畴,关键是他们自己也浑然不觉。

我们不知道,是因为我们被喂养;他们不知道,是因为他们不以为然。

那么在这种情况下,我感觉大模型的确火得不应该。为什么火得不应该呢?简单说就是,它还没有讲清楚,这也不是什么所谓价值观对齐这么简单就可以讲清楚的问题。

我经常讲的一句话就是,大模型所基于的数学物理知识或基本原理并不牢靠,凡是认真读过图灵机、图灵测试,或者学过计算学科、计算原理的朋友都知道,图灵命题是只是一个命题,不是一个数学定理。图灵自己也这么讲,丘奇-图灵命题只是个命题,不是一个定理。这句话的意思就是说图灵命题只是一个猜想。这个猜想的含义是什么呢?就是一切物理世界中可行的计算都可以用图灵机实现。不要忘了,这个问题是从希尔伯特的第十个问题来的,这个问题通俗说就是:是否存在可行的判定方法,来判定如丢番图方程这样的不定方程,是否有整数解。希尔伯特第十个问题特别提到了一点,所谓“可行的”判定方法,要 “有限步骤完成”。

所以表面上看上去,今天的大模型人工智能似乎锋利无比、强悍无比。但是我想说,它的思想深处,特别是数学、物理底层的思想支撑,其实是非常脆弱的。今天的智能技术所依靠的数学思想,并没有在图灵1936 年论文的基础上上前进哪怕半步。它只是耗费了大量的能量,只是在空间上把我们过去的图书馆中的文献一网打尽。在效率主义眼中,这非常容易做到。

所以我认为大模型其实是当今时代的“知识圈地运动”,跟 300年前英国的农场主、牧场主的圈地运动简直如出一辙,各种所谓的大模型军备竞赛。胡泳老师一针见血地指出,它就是一种核军备竞赛,这种核备军备竞赛背后的思想基础完全停留在工业时代。

刚才胡泳有一句话讲得非常好,叫做机器迅速成为我们的世界,变成一种类人性的世界。那么在这种情况下,机器其实表面上看是越来越聪明,人看上去越来越臣服于机器。但这既是一种假象,其实也是一种不应该出现的一种现象。

我再增加一句,我感觉我们还是要站在人的本心、人的立场上去冷静地看待,现在所谓的技术爆炸或者奇点爆炸,撇开那些过度包装、声嘶力竭的话语,恐怕我们才能够真正地感觉到,今天我们已经被技术不知不觉地牵引到了一个多么令人胆战心惊的悬崖边上。

王俊秀: 老段的评价最后其实是有力地支援了胡泳。我觉得还是要分一下类,主持人就要分类,1: 3 还是弱了点,所以最后老段这个援军气势比较大,一下子弄到了一个新的高度。很明确,Sora 火得很野蛮,没有道理。

其实最后是很抒情地讲到了人的立场,讲到了大模型目前是一场知识圈地运动,是杀死知识分子的一个隐喻。

今天的讨论超越了技术,牵扯到了数学,也牵扯到了本雅明的灵性的消逝,最后谈到了人文。我觉得今天的讨论达到了一个新的高度。感谢大家的参与,下次再见。
 

话题:



0

推荐

胡泳

胡泳

706篇文章 6小时前更新

北京大学新闻与传播学院教授,博士。中国传播学会常务理事,中国网络传播学会常务理事,中国信息经济学会常务理事。国内最早从事互联网和新媒体研究的人士之一,有多种著作及译作,是推动中国互联网早期发展的最有影响的启蒙者之一。欢迎关注胡泳的微信公号:beingdigital,讨论数字化时代的生活设计。

文章