开云体育

开云体育官方扎克伯格谈DeepSeek(上):他们做了令人惊叹的底层优化但还不支持多模态

2025-05-11
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云体育官方扎克伯格谈DeepSeek(上):他们做了令人惊叹的底层优化但还不支持多模态

  或许是因为最近Meta财报发布,或许是因为最近Llama受到的非议太多,或许是因为小扎个人的分享欲爆棚,他在和

  的前后脚,还接受了这档商业人文播客Dwarkesh Podcast的访谈。

  ,这个访谈犀利点评他人更多,他聊到了OpenAI、聊到了谷歌的Gemini,聊到了

  DP:彼此彼此。上次你来,我们聊的是 Llama 3,现在你们发布了 Llama 4。

  MZ:整个领域变化太快了。自上次交谈以来,真是天翻地覆。Meta AI 的月活用户已逼近十亿,着实令人惊叹。

  我觉得今年会是大年,尤其是当我们真正跑通用户的个性化闭环,就是利用算法掌握关于兴趣的context,包括信息流、个人档案、社交图谱,还有基于你与 AI 对话的内容,这种“个性化”,将成为下一个令人振奋的大方向,我对此十分看好。

  模型本身也在突飞猛进。我对 Llama 4 的首批发布相当满意。我们官宣了四个模型,率先放出其中两个,Scout 和 Maverick,算是中小模型。

  Llama 3 最受欢迎的是 80 亿参数版本,所以 Llama 4 也会有同等规模的后继,内部代号Little Llama,预计数月内上线。

  Scout 和 Maverick的“单位成本智能”极高(highest intelligence per cost),原生多模态、高效、单机即可运行,专为低延迟场景打造,我们会先满足内部需求,再开源给大众,这一直是我们的做法。

  我同样期待即将到来的Behemoth,这是我们首个“前沿级”模型,参数量逾 2 万亿,非常庞大。仅仅是为它做后训练,我们就得搭一堆新基础设施。

  现在要思考的是,普通开发者如何用得上?也许需要蒸馏成更易部署的尺寸,毕竟消费级产品,不可能直接跑这么大的模型。

  回想Llama 3 的节奏,首发很激动人心,随后一年我们持续迭代,3.1 是4050 亿参数版本,3.2 加入完整多模态,今年我们同样有类似路线图,事情很多。

  DP:有人觉得,过去一年顶级闭源模型与顶级开源模型的差距更大了,虽说Llama 4全系列尚未放完,但Llama 4 Maverick在Chatbot Arena仅排第 35,在多项主流基准上,同级别的 o4-mini或Gemini 2.5 Flash的表现都更好,你怎么看?

  MZ:几点想法吧,第一,今年总体对开源模型而言绝对是大年,去年像样的创新开源模型几乎只有Llama,如今优秀模型百花齐放。

  普遍预测称,今年开源模型的使用量将超过闭源,我认为很有可能。令人惊喜的是,不止Llama,很多模型都很出色。

  再说推理模型现象,你提到的o3、o4等,现在出现了专业化:若要在数学、编程等任务上做到最好,就需要推理模型在推理时,投入更多算力,换取更高智能。

  但对我们关注的大量应用来说,延迟与单位成本智能(intelligence per cost),更为关键。面向消费者时,没人愿意多等半分钟,若能在半秒给出足够好的答案,那就是最好的。

  两条路线,都很重要,我也看好将推理模型与核心语言模型融合——Google最新的Gemini就在走这条路,未来会出现多种形态。

  你提到Chatbot Arena,这暴露了基准测试的弊病:如何评估模型在哪些任务表现优异?

  许多开源基准,偏向极其特定的场景,未必符合普通用户真实需求,它们衡量的能力组合,与用户在产品中真正关心的往往不同。

  过度迎合这些基准,就会跑偏,未必带来最佳产品体验和最高使用量。我们的北极星是用户反馈,用户说想要什么,以及实际行为,很多基准也很容易被“刷榜”。

  举例说,Sonnet 3.7是好模型,却排不上前列,我们团队其实可以轻松把 Llama 4 Maverick调优到榜首,但现在发布的模型,压根没为榜单做微调,所以排名靠后。

  DP:你觉得有没有某种基准,能客观衡量你所谓的“用户价值”北极星,让你说:“我得让 Llama 4在这项基准上拿第一?”

  MaZ:也许能,因为我们可以内部运行其他模型做对照,这正是开源的一大优势,社区能帮你揪出模型的短板与长处。

  现实是,各模型的优化组合略有不同。所有领先实验室,都在追求同一个终点:人工通用智能AGI、或者人工超级智能ASI,让每个人拥有超人级工具,创造任何想要的东西,极大赋能个人并带来经济红利。

  但不同团队确有各自的侧重,Anthropic更聚焦编程及相关智能体,OpenAI近期更偏向推理。

  我猜最终使用最广的,会是那种响应迅速、交互自然、原生多模态、能融入日常的模型。

  你应该试过我们即将发布的新Meta AI App,我们放了个全双工语音(full-duplex voice)的Demo。虽然还早,还没设为默认语音模型,但其自然对话的感觉,非常吸引人。

  把这与正确的“个性化”结合,未来的产品体验将是,几年后,我们日常会一直与AI交谈。

  拿着手机浏览信息流时,它与你对话,提供上下文、回答问题,在消息应用中,辅助沟通。最终,我们走在街头,戴着眼镜或其他AI设备,与之无缝互动。

  这就是北极星,只要某项基准能让人们觉得质量足够好、愿意使用,那才对我们最重要。

  DP:我同时体验了Orion和Meta AI App,语音模式流畅得惊人,真的很出色。

  关于各大实验室所追求的优化方向,如果非得为他们的观点做辩护,他们通常认为,一旦彻底自动化软件工程与 AI 研究,就能引爆一场“智能爆炸”。

  届时,数以百万计的“软件工程师的副本copies of software engineers”,会把 Llama 1 到 Llama 4 之间那种量级的进步再复制一遍,只是时间从数年缩短到数周或数月。

  所以,只要把“软件工程师”这个环节闭环起来,你就能率先抵达人工超级智能ASI,你怎么看?

  MZ:我认为这个设想颇具说服力,这也是我们在Meta内部大力投入编码代理的原因。鉴于我们并不是一家企业级软件公司,我们主要是为自身需求构建这些工具。

  我们的目标很明确——不是去做一个通用的开发者工具,而是打造能推进Llama 研究的编码代理coding agent和AI研究代理research agent,并且它们完全接入了我们的内部工具链toolchain。

  这的确重要,也必将成为 AI 研发的关键一环。我猜在未来 12-18 个月内,为这些项目编写的大部分代码,都将由AI完成,而且我指的不是自动补全。现在自动补全已经不错:你开始写一段代码,它可以把一整段补全。

  我说的是,你只需给出目标,它就能运行测试、改进功能、定位问题,写出的代码质量,已超过团队里一般优秀工程师的平均水平,我确信这会非常关键。

  但我并不认为这就是全部,这个行业很大,AI的开发方式也会多种多样。我不相信最终只会出现一家拥有单一优化函数、能最好地服务所有人的公司。

  不同实验室会在不同领域领跑:有的更偏向企业或编码场景,有的专注效率提升,有的聚焦社交或娱乐。

  即便在助手领域,也会有注重信息与生产力的助手,也会有偏向陪伴的助手,或者纯粹有趣、娱乐,直接出现在信息流里的内容。

  总之空间巨大,奔向AGI的道路上既有共同要迈的台阶,也有大量仍待创造的全新事物,我猜未来会看到各团队之间的进一步专业化。

  DP:有意思的是,你基本同意会出现“智能爆炸”,最终会诞生超级智能。如果我没理解错的话,在这种情况下,为什么还要费心开发个人助手之类的应用?为什么不先把超级智能做出来,其他东西晚点再说?

  MZ:那只是飞轮flywheel的一部分。我不太认同“快速起飞fast take-off”论的一个原因是——建设实体基础设施需要时间。

  如果要建一个吉瓦级算力集群gigawatt cluster of compute,就需要时间。NVIDIA需要时间稳定新一代系统,你还得规划网络架构,建设机房,拿许可证,搞能源——可能是燃气轮机,也可能是可再生能源——无论哪种,背后都有完整的供应链。

  我们上次播客里,聊过很多这类问题。这些都是现实世界、以人类时间尺度推进的事。当你在某一层获得更高智能,往往会撞到另一层的瓶颈。

  这些系统不会一现身,就让所有人瞬间会用,它们与人的使用方式是共同进化的,人学着如何最好地用助手,助手也在学用户在乎什么,开发者再把助手做得更好。

  同时,我们还在积累上下文。一年两年后回头看,助手能引用你两年前聊过的话,这非常酷。如果它今天才上线,就算再完美,也不可能引用两年前不存在的对话。

  所以我的观点是:智能的增速,确实非常迅猛,人们与 AI 助手的交互量和数据反馈飞轮,同样增长迅猛。

  同时,算力供应链、基础设施、监管框架也都在建设中,单有“写代码”那一环,远远不够。

  举个例子:几年前,我们广告团队做过一个项目,自动化广告排序实验。那是个相对封闭的环境,并非开放式编码,系统会回溯公司历史上每一次广告实验,分析成败和结果,然后提出新假设去做试验,提高广告效果。

  结果我们发现,瓶颈在于运行实验的算力,以及可用的用户分层。哪怕 Meta有35 亿用户,每个实验仍需几十万甚至上百万人,才能显著统计,我们已经有更多优质想法,但算力和受试人群都不够用。

  因此,仅仅生成更多实验想法,并不会带来增益。AI 生成的“假设”,如果未来能有价值,平均质量得先超越目前“上线门槛”以上的、由顶尖工程师提出的想法才行。

  我相信我们会很快达到那里,但这不是“AI 会写代码,一切瞬间升级”的故事,现实约束很多,你得有算力,有人群做实验,随着 AI 质量持续提升。

  也许五到十年后,没有任何人类团队能再提出比 AI 更好的假设了,也许吧,但那绝非现在。

  DP:如果你认同智能走向这幅图景,那看好 Meta 的理由,显然在于你们拥有庞大分发渠道,也能由此收集更多可用于训练的数据,你说Meta AI现在已有十亿活跃用户。

  MZ:不是独立App,本次单独推出的 App才刚上线,供想尝鲜的人使用,体验确实不错,里面有些新点子值得聊。

  用Meta AI用得最多的是WhatsApp,而WhatsApp的主战场在美国以外。虽然我们在美国已突破一亿用户,但美国的主流消息平台其实 iMessage,所以美国用户往往低估了Meta AI的实际使用量。

  也正因如此,独立App就很重要。美国无论如何都是关键市场,可WhatsApp在这儿确实不是老大,我们需要别的路径交付一流体验,让Meta AI真正出现在美国用户面前。

  DP:如果 AI 的未来不再只是答疑,而是成为虚拟同事,那么在WhatsApp里集成Meta AI,是否就无助于训练出完全自主的程序员或远程工作者?那时,谁拥有更大语言模型的分发量,或许就没那么重要了?

  MZ:我还是觉得场景会多元,想象一下互联网刚诞生时,你问:互联网的主战场会是什么?知识工作还是面向大众的消费级应用?

  具体到你的问题:人们确实不会在 WhatsApp里写代码,我丝毫不觉得那会成为主要用例。但人们肯定会让AI去做很多事,其中不少都需要 AI写代码,只是用户未必意识到。

  我们内部有大批工程师在用Meta AI,公司内还有名为MetaMate的工具,以及一系列围绕它打造的编码与研究代理,这条反馈循环可以大幅提速我们的内部研发。

  AI几乎肯定会带来知识工作和编码的革命,我也相信它会定义下一代搜索,帮助完成更复杂的信息任务。

  此外,人们会用它来娱乐自己,如今互联网到处都是梗和段子,未来也一样。人类倾注大量精力去娱乐、去推动文化、用幽默阐释观察到的现象,这点永远不会变。

  回顾Instagram、Facebook的演变:十几、二十年前主要是文字,后来手机有了摄像头,图片成主流,再后来移动网络提速,手机看视频不再卡顿,于是视频崛起。过去十年,大多数人在FB和IG上花的时间,都在看视频。

  那你觉得五年后,大家还会只是刷视频吗?不会的,内容会变得可互动:你滑到一条看似Reels的内容,却能跟它对话,它会回应你,甚至像游戏一样,让你跳进去互动,这一切都将由AI驱动。

  所有形态将百花齐放,我们野心很大,会涉猎多个领域,但我不认为任何一家公司能包办全部。

  MZ:很多问题只有真正看到用户行为后,才能回答。最重要的前提是,在每一步都主动提出这个问题,并认真对待。但是,如果一开始就过于武断,认定某些做法必然不好,往往会扼杀掉价值。

  人们之所以使用某样东西,是因为它对他们有价值。我设计产品的核心原则之一是:用户是聪明的,他们知道什么对自己有用。

  偶尔产品里会出现负面情况,你要尽量把风险降到最低。可如果你觉得某件事不好,而用户却乐此不疲,大多数情况下,以我的经验,用户肯定是对的,你错了。

  我相信人们会把AI用在许多社交场景。实际上,我们已经看到不少人用Meta AI来练习与亲友的艰难对话:

  “我和女友出现问题,该怎么谈?”“我得跟老板进行一场硬碰硬的交流,该怎么说?”

  这样的功能很有帮助,等到个性化闭环真正跑起来,AI越来越了解你,这种体验会更具吸引力。

  有个我常提的数据:平均美国人拥有的“线 个。可他们心里期望的朋友数量,大约是15 个。到某个点,人们会觉得“我太忙,顾不过来了”,但大多数人都渴望比现实更多的联结,也经常感到孤独。

  有人担心AI会取代现实中的面对面关系,我倾向认为不会。线下交流有无可替代的优势,只是现实中很多人得不到足够的连接感。

  今天,一些AI心理师、AI女友之类的应用,仍带着轻微的“污名”。随着时间推移,社会会逐渐找到合适的解释,说明它们的价值、使用者的合理性,以及它们怎样真正改善了生活,但现在仍然非常早期。

  目前做虚拟治疗师、虚拟伴侣的公司,不过寥寥数家,而且“具身化”很弱,打开应用只是一张头像,最多有点粗糙的动画,谈不上真正的具身。

  你见过我们Reality Labs的Codec Avatars,那真的像真人一样。这正是未来,你将能随时与AI进行视频对话,而手势同样关键,真实对话中,超过一半的信息并非语言,而是非语言信号。

  DP:前几天我体验了Orion,印象相当深刻。我总体对这项技术持乐观态度,也像你说的那样较为“自由主义”,如果用户选择做某事,很可能对他们有益。

  虽说,我不确定一个沉迷 TikTok 的人,是否真的满意自己花在 TikTok 上的时间。

  而我之所以乐观,是因为要在未来 AGI 世界生存,我们也需要用这类工具升级自身能力,而且世界会因此更美,比如处处都能见到“吉卜力风”。

  不过,你们团队展示的一个标志性场景,让我有些担心,我坐在早餐桌前,余光里不断划过一排排Reels,也许将来屏幕另一侧还会有我的 AI 女友。

  这很糟糕,技术的“奖励劫持reward-hacked”的所有阻力,似乎正在被全部消除,该怎么确保五年后不会变成这样?

  MZ:我仍然相信人们清楚自己想要什么,你看到的只是一个多任务与全息演示,仅用于展示能力。我同意未来不该是视野边角总有东西争夺注意力,大多数人不会喜欢那样。

  在设计眼镜时,我们尤其注意这一点。对眼镜而言,首要任务是“隐形”,它本质上是一副好眼镜。这也是 Ray-Ban Meta 受欢迎的原因,它能听歌、接电话、拍照录像,AI只有在你需要时才出现,当你不需要时,它就是一副好看的眼镜。

  更宏观地看,数字世界在我们生活中如此重要,却只能通过“物理数字屏幕”来访问——手机、电脑、墙上的电视,这些都是大块硬件。

  技术已经走到让物理与数字彻底融合的阶段,比如全息叠加holographic overlays就是实现路径。

  但正如没人愿意让现实空间过度杂乱,因为精神上会被压垮,人们同样不会想让混合现实空间显得拥挤不堪。

  DP:回到 AI 这个话题。你刚才提到,物理基础设施会成为非常大的瓶颈。拿其他开源模型来说,比如 DeepSeek,他们目前掌握的算力明显少于 Meta 这样的实验室,可有人认为它的表现已经能和 Llama 系列抗衡。

  如果中国在搭建物理基础设施、扩大工业规模、获取电力以及上线数据中心方面更有优势,你会不会担心他们最终在这条赛道上超过我们?

  MZ:这确实是一场真刀真枪的竞赛,而你已经能看到各国产业政策在发挥作用。中国正在并网更多电力,因此,美国必须加快数据中心建设和能源生产的流程,否则我们会落入相当不利的境地。

  与此同时,针对芯片等产品的export control,也的确在产生效果。大家谈到 DeepSeek 时常说,他们做了很多“令人惊叹的底层优化”。没错,他们确实做到了,而且相当厉害。

  可接着就要问:为什么 DeepSeek 得这么做,而美国的实验室却不用?

  原因是,他们用的是经export controls“降级”后的 NVIDIA 芯片,而美国实验室可以直接用完整版。DeepSeek 只好把大量精力花在底层基础设施优化上,这是美国同行不必付出的成本。

  结果是,DeepSeek 在文本任务上,拿出了漂亮的成绩,但他们目前只支持文本。他们的优化很惊艳,文本效果也不错,可如今每个重磅新模型都是多模态:既能处理图像,也能处理语音,而 DeepSeek 的模型做不到。

  为什么?并不是他们能力不足,而是他们必须先投入资源去弥补export controls带来的硬件缺口。

  再看 Llama 4 与 DeepSeek 的比较,我们的推理版本还没发布,所以 R1 的对标暂时不清楚。但就文本任务而言,我们用更小的模型,就能达到和 DeepSeek 相同的水平,因此单位智能成本(。在多模态上,我们目前处于领先,而他们的模型根本没有这部分能力。

  综合来看,Llama 4 表现很强,我相信大多数人最终会更愿意使用 Llama 4。不过,DeepSeek 那边显然也有一支优秀的团队。你提到的电力、算力与芯片的可获得性,确实至关重要。不同实验室能够做什么、做到何种程度,在很大程度上都取决于这些前置条件。

搜索