Meta开源AI路线的滑铁卢之路

日期:2025-11-15 11:33:24 / 人气:3



2025年10月底,Meta AI部门宣布裁员600个职位,核心部门研究总监及掌管AI业务的高管纷纷离职或被边缘化,就连图灵奖得主Yann LeCun也处境堪忧。扎克伯格一方面以上亿美元年薪招揽AI人才,另一方面却大刀阔斧裁员,这种看似割裂的行为背后,实则反映出Meta开源AI路线面临的困境。

为探究Meta开源AI路线究竟发生了什么,我们与Meta前FAIR研究总监、AI科学家田渊栋,参与Llama 3后训练的前Meta员工Gavin Wang,硅谷资深HR专家以及一些匿名人士进行了交流,试图还原Meta Llama开源路线从辉煌到滑铁卢的全过程。

一、Meta的AI布局与架构搭建

2013年年底,扎克伯格开始组建Meta的AI团队。彼时,谷歌收购了Geoffrey Hinton的DNN团队并将Hinton招致麾下,与此同时,Meta邀请Yann LeCun来主导AI发展。Yann LeCun提出了三个条件:不从纽约搬走、不辞去纽约大学的工作、开展开放研究并公开发布所有工作及代码。由此,Meta的AI路线从一开始就定下了开源的基调。

Yann LeCun进入Meta后,组建了Fundamental AI Research实验室(即FAIR实验室),专注于前沿AI研发。与此同时,Meta平行设置了GenAI组,该组包含Llama开源模型研发、将AI能力应用于产品的Meta AI团队、AI算力基建的数据中心团队,以及Search、Enterprise、Video - gen等小部门。

FAIR负责前沿研究,探索新的想法、算法、模型架构等,这些研究可能在未来带来重大突破;而GenAI则侧重于将AI应用于Meta现有产品,实现产品化。理想状态下,前沿研究能为产品提供助力,产品盈利后又能为FAIR的研发提供资金支持。田渊栋表示,FAIR会为GenAI提供有价值的研究成果,助力其产品生产。

然而,要保持这个天平的平衡并非易事,前提是Meta的AI模型水平必须始终保持领先,至少在开源赛道不落后于闭源模型太多。

二、Llama系列的兴衰

(一)Llama 1:开源的“种子”

2023年2月24日,Meta发布Llama模型,主打“更小参数更好效果”,其13B模型在多项基准上超过175B参数的GPT - 3。尽管Llama权重在官宣一周后“泄露”,引发了AI社区的广泛讨论和国会参议员的质询,但业界对这种“意外泄露”给予了意想不到的支持,被视为“大模型开源”格局的重塑,催生了众多民间微调项目。

Meta所谓的“开源”实际上是“开放权重”,即提供训练好的参数文件,外界可本地加载、部署和微调,但未公开训练数据、代码和许可等信息。不过,与OpenAI、Anthropic和谷歌等完全闭源的公司相比,Llama为开源社区带来了活力。

(二)Llama 2:开放“可商用”

2023年7月28日,Meta联合微软发布Llama 2,包含7B、13B和70B参数的三种变体。与Llama 1不同,Llama 2是免费可商用的版本,放宽了许可证权限,推动了“开放路线”对抗封闭模型巨头,很快在开发者社区风靡,放大了AI开发的生态。

(三)Llama 3:逼近闭源阵营

2024年4月至9月,Meta连发三个版本的Llama 3迭代。4月18日发布的8B、70B两个规格的Llama 3版本,称同等规模“显著超越Llama 2”,并作为Meta AI助手的底座之一;7月23日推出的405B、70B、8B三档Llama 3.1模型,宣称405B是“全球最强的开放可得基础模型”之一,且登陆多个平台;9月25日发布的Llama 3.2,主打小而全的多模态,新增多种轻量文本和视觉多模态模型,同步接入多个平台。

Llama 3系列让Meta成为AI开源社区的顶流,405B版本被认为在模型能力上逼近闭源阵营,推动了AI应用的落地。Llama 3团队的Gavin Wang表示,当时团队以“光速”前进,产品化生态取得很大进展,团队成员也因参与这一有意义的项目而感到自豪。

(四)Llama 4:滑铁卢

2025年4月5日,Meta推出Llama 4的两个版本(Scout与Maverick),宣称多模态与长上下文能力大幅跃进,宣传中引用LMArena排行榜上的领先成绩。然而,开发者社区反馈不佳,认为效果不及预期,还出现质疑Llama 4在LMArena上刷榜的流言,导致行业对基准公信力与可复现性展开讨论。Meta更高端的Behemoth版本推迟发布,公关与节奏严重受挫,截至目前Behemoth仍未发布,Meta可能已放弃。

三、失衡天平:前沿研究与商业化的路线之争

Meta内部的AI架构由FAIR和GenAI两个并行组构成。Yann LeCun专注于自身研发,还常发表对LLM路线的质疑言论,让Meta颇为头疼。2023年2月,Meta高层将Joelle Pineau调到FAIR担任全球负责人,与Yann LeCun共同领导FAIR;GenAI的负责人Ahmad Al - Dahle来自苹果,扎克伯格挖他来是为了将AI与Meta的产品结合。

在Llama 2和Llama 3研发过程中,Meta高层强调“将AI用于自家产品”。2024年1月,FAIR的两名负责人开始直接向Meta的CPO(首席产品官)Chris Cox汇报。Llama 3成功推出后,Meta高层制定Llama 4路线时,将注意力集中在与产品结合上,尤其是多模态能力,却忽视了模型推理能力。

2024年9月12日,OpenAI推出基于思维链的o1系列模型,2024年12月,中国的deepseek开源模型横空出世,以MOE混合专家架构在保证推理能力的同时大幅降低了模型成本。而Meta在Llama 4规划时,领导层更看重多模态,未重点关注推理能力。当DeepSeek出现后,虽有讨论是否重新重视推理,但因优先级冲突和时间有限,未能有效推进。

此外,Llama 1 - 3的模型架构和组织架构延续了最初设计,但随着Llama 3的成功,高层希望Llama 4有更大突破,却出现了问题。高层中很多是传统基础架构、计算机视觉背景,对AI原生技术和大语言模型缺乏深度理解,导致外行管理内行的局面。OpenAI的o1系列和DeepSeek的出现让Meta乱了阵脚,高层临时让FAIR的研究团队支援Llama 4研发,但前沿研究与产品工程脱节,加上严格的deadline压力,导致研发质量不佳。

四、空降“新王”:28岁Alex Wang获“无限特权”

Meta的AI业务架构再次重组,高层经历动荡。28岁的Alex Wang带领几十位高薪聘请的顶级研究员,成立了拥有无限特权和优先级别的特别小组TBD。TBD、FAIR和GenAI组成Meta Superintelligence Labs(MSL部门),直接汇报给Alex,Alex再汇报给扎克伯格。这意味着FAIR的Yann LeCun汇报给Alex,Joelle Pineau离职,Ahmad失去重要项目任命,CPO Chris Cox也被排除在AI团队直接领导之外。

Meta内部对Alex和他领导的TBD团队存在诸多不满,如TBD团队成员享有特殊待遇,Meta AI的所有论文需经TBD审核才能发表。但不可否认,TBD团队取得了一定成绩。Alex在团队内部邮件中提出三个改变:集中TBD和FAIR团队的核心基础研究力量;提升产品和应用研发的融合,以产品为模型聚焦点;成立一个核心基建团队来支持研究押注。

总结

Meta的Llama前三代是领先的开源模型,引领开源派对抗闭源派。然而,在Llama 3大获成功后,公司高层急于将AI与产品结合,以“产品驱动研发”的思维规划Llama 4,聚焦多模态等工程性能,却错失了思维链(CoT)等推理技术的时间优势。尽管FAIR的科学家已在研究CoT,但DeepSeek引发轰动后,临时让FAIR团队救火优化Llama 4的MoE架构,又中断了CoT和推理研发,导致AI前沿技术研究和产品工程的天平彻底失衡。

历史上许多前沿实验室都因无法平衡前沿科研和商业化而衰落,曾经理想的FAIR如今也面临成为商业化牺牲品的困境。这场由Llama 4失败引发的大重组,能否成为Meta AI的最后机会,仍有待时间给出答案。

作者:杏耀注册登录官方平台




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT 杏耀注册登录官方平台 版权所有