Llama 3 被爆微软和亚马逊「看不上」,开源难对企业胃口

摘要

Meta 的最强开源大模型 Llama 3,被云厂商冷落了,企业也不想买单。

Llama3被爆难入亚马逊等云厂商法眼

近日,据外媒 The Information 报道,Meta 的开源大模型 Llama 3 一直难以在全球最大云厂商——亚马逊的 AWS 上获得关注。

AWS 为其企业客户竭尽所能的提供各种大模型服务,目前,Anthropic 的闭源大模型 Claude 是该平台最受欢迎的模型。令人意外的是,虽然在技术圈评价颇高,但企业客户对 Meta 的 Llama 似乎并不认可。

在微软 Azure 云平台上,Llama 同样被冷落。The Information 援引一名微软员工的消息称,微软的销售人员只会向具备数据专业知识的客户推销 Llama,比如内部有工程师和数据科学家的公司。

Meta 发布的最新最强模型 Llama 3.1 发布已月余,市场反应格外冷淡。Llama 3.1 发布 1 个月,Hugging Face 下载量累计 360 万次,远低于 Llama 3 发布首月的 580 万次下载量。

为开发 Llama 系列模型,Meta 投入了重金,单是买 GPU 花费就耗资几十亿美元。这些研发成本都需要见到财务回报。但如果使用量不佳,再强的开源大模型也价值打折。

创业公司吐槽:开源模型不省钱还费钱

为什么性能最强,且以开源著称的 Llama,企业却不买单?

真相是,虽然 Llama 是免费的,但很多开发者还是愿意花钱使用闭源模型,因为羊毛出在猪身上,使用 Llama 的成本,有时候比使用 OpenAI 的 GPT 这类闭源模型的成本更高。

免费的才是最贵的。今年 4 月,在 Llama 3 发布 70B 和 400B 模型后,一位做智能体方向创业的美国 AI 创业者 Arsenii 在采访中大吐槽,看似免费的 Llama 3,用了后发现根本使不起。

Arsenii 发现,自己的公司运行开源大模型的效率远低于使用闭源大模型。蹚坑之后,他总结出了 2 点,一是开源大模型不像做好了精调和商业化适配的闭源模型那样拿来就能用,企业还要做优化、做精调,对技术团队的要求更高。二是开源模型下载下来才能用,参数庞大的百亿、千亿量级模型对本地的 IT 设施要求极高,而中小公司普遍缺乏与之相匹配的 IT 设施建设。

在 Llama 3.1 推出后,不少业界人士也提出了同样的问题,虽然 Llama 3.1 比前代产品更智能,但中小型企业部署它的成本过于昂贵。

半导体研究公司 SemiAnalysis 首席分析师 Dylan Patel 算了一笔账,Llama 3.1 405B 的运行成本极高,需要两台英伟达的 H100 服务器才能运行。而租两台 H100 服务器一年需要 30 万美元以上,对小公司来说,这是一笔很难承担得起的支出。

国内,百度创始人李彦宏曾谈到过开源、闭源谁更符合企业服务市场需求的问题。他在上个月的 WAIC 上提出的一个观点引起不少共鸣,开源模型在学术研究、教学领域有一定价值,能够让学术界更熟悉大模型的工作机制、形成理论。但在大多数的规模化应用场景中,开源模型并不合适,尤其是在激烈的商业化竞争中,只有闭源模型,才能让企业的业务效率更高、成本更低。

开源洗白乱象频出,持续创新节奏慢

除了成本,企业用大模型另一个最关注的问题就是性能了。那么,在性能上,开源和闭源模型谁更能打?

近期,业界最有影响力之一的大模型评测基准-斯坦福大学的 MMLU 评测(大规模多任务语言理解)发布的最新榜单显示,排名前十的模型中,仅有 Llama 3.1 为开源,其余 9 款上榜模型均为闭源。

可见,当前闭源模型性能整体领先于开源。

事实上,Llama 3 这样强大开源模型的出现虽然激发了开源社区的热情,但开源模型创新的速度却令人担忧。

一个原因就是现在所谓的模型开源并非真开源。不久前 Nature 杂志编辑 Elizabeth Gibney 刊文犀利指出了当前 AI 开源界存在的「开源洗白现象」,许多声称开源的 AI 模型,实际上在数据和训练方法上并不透明,例如号称坚定开源的 Meta,实际上只开放了 Llama 的权重,真正的代码依然是『黑箱』。

这种与以「开放源代码」为核心的开源理念相悖的所谓开源,很难做到众人拾柴火焰高,取得像 Linux 般的成功,这将严重阻碍开源创新。除了在参数上追赶闭源大模型,开源模型还要不断在应用中锤炼性能,但开源背后高昂的隐形成本无疑令企业止步。

长此以往,开源模型与闭源模型之间的差距只会越拉越大,开源模型会越来越落后。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。