
从「电商」到「AGI」,阿里的目标更清晰了。
今天一早,扑面而来的信息流提示「又是搬砖的一天」,QwQ~~
- 02:30,Anthropic 带着它的 Claude 3.7 Sonnet 混合推理模型来了,推理能力 next level;
- 05:01,阿里云 Qwen Chat 首次官宣 Thinking (QwQ) 模式,由一个叫做 QwQ-Max-Preview 的推理模型预览版支持;
- 10:24,DeepSeek 开源周 Day2 打卡,今天开源的是 DeepEP,用于 MoE 模型训练和推理的 EP 通信库,继续努力扫除让开发者高效部署模型的障碍;
- 10:50,特斯拉官宣在华正式发布「FSD 功能」,软件版本为 2024.45.32.12,更新名称为城市道路 Autopilot 自动辅助驾驶……
一众信息流中,不少网友一眼发现了今天的大戏。因为 Qwen 推理模型「QwQ-Max 预览版」的亮相,刚好赶上了也在今天官宣模型推理能力大跨越的 Anthropic,后者抢走了不少注意力。但其实 QwQ-Max-Preview 已经足够出色,包括思维链过程。
截图来源:X
Qwen 团队称,今天在 Qwen Chat 中发布的「Thinking (QwQ)」模式,由 QwQ-Max-Preview 推理模型支持,后者基于更强大的基座模型 Qwen2.5-Max 而来,在数学理解、编码、agent 等方面具有很强的能力。与 Qwen2.5-Max 相比,QwQ-Max-Preview 也更加智能,更具创造力。
我们也在第一时间感受了一把「QwQ」的实力。开源系列模型一年半以来,这次也是 C 端用户第一次可以直接用到 Qwen 家族的推理模型能力。
01 QwQ,一本正经思考的小大人
先来看看「QwQ-Max-Preview」擅长的数学、代码能力。
开启深度思考+联网搜索,问他「QwQ-Max-preview 中有几个 Q」?它不仅准确数出了两个 Q,还能结合联网信息拆解我的提问,额外回答了两个 Q 的含义。有被惊喜到~
截图来源:chat.qwen.ai(篇幅所限,未截图思维链过程)
搜索了一段提示词做「emoji 表情跳舞」小游戏,点击推理模式下的 Artifacts 功能输入这段提示词,它自动写完代码的展示页面如下。不会写代码的用户表示从 0 到 1 的小游戏初体验还挺上头。
在代码和数学能力上,X 平台有更专业对口的网友评测。这分别是一位魔搭社区维护者和 TikTok 研究员的体验,在专业的数学竞赛题目和代码题目上,QwQ-Max 预览版的完成度均比较高。
截图来源:X
另外,也试了试平时使用频率较高的两个场景:创意写作和联网搜索功能。
其思考过程和结果,都可以清晰理解用户意图、完整地给出答案。整个输出过程花了几秒。|截图来源:chat.qwen.ai
当问到「如何评价近日中国科技公司包括阿里巴巴,正在被全面重估的观点?这背后有多少可以支撑的论据?」时,thinking+联网搜索下的 Qwen 可以帮助人类节省阅读文献的时间,总结是相对清晰完整的。
Qwen Chat 网页最下方也会提醒你,「深度思考 (QwQ) 是一个预览模型,仍在更新中」。当前的 QwQ 展现出了连贯清晰的思考过程、以及推理结果,整体像一个一本正经思考的小大人。
但在像 DeepSeek 一样「放飞自我」能带来一些「out of box」思考的能力上,QwQ 预览版仍有进步的空间。这是问 QwQ-Max-Preview 和 DeepSeek-R1 同一个问题时对比图——「通义千问团队今天更新了 QwQ 的模型?为什么起名叫 QwQ?这个名字怎么读?」
DeepSeek 可以精准检索到网页,给出「QwQ 的全称为 Qwen with Questions,体现了模型的设计理念:通过『提问、质疑与反思』的机制,模拟人类思考过程,深化对复杂问题的理解。QwQ 的官方发音为**/kwjuː/**,类似于英文单词「quill」(羽毛笔)的读音」,还可以提出自己的思考与结论「QwQ 的命名与设计均围绕「以问题驱动思考」的哲学理念展开,其发音与符号化名称增强了技术传播的趣味性。该名称结合了技术标识(Qwen 系列)与拟人化元素(QwQ 的表情符号化写法),既体现了与通义千问大模型家族(Qwen)的关联,又通过符号化的「颜文字」风格增强了传播亲和力。」
比起小老哥 DeepSeek 的放飞自我,QwQ 自带严谨的老干部。相比之下,回答就中规中矩了。
02 Qwen App,马上来
值得注意的是,昨天晚上,Qwen 的官方推特就预告了 QwQ 预览版的发布,以及一个 qwen.ai 的新域名。
对此,一位行业人士向极客公园表示,新域名意味着阿里云可能要做技术品牌了,「他们本身模型能力很强,甚至一些维度里面肯定是超越 DeepSeek 的,也是国内最快追平 DeepSeek 的公司,但对于服务十亿用户的公司来说,更重要的是要保证完整的体验。」
去年 12 月,AI 应用「通义」正式从阿里云分拆,并入阿里智能信息事业群。调整后,通义的 PC 及 App 团队将与智能搜索产品「夸克」处于同一层级,共同在阿里智能信息事业群下发挥作用。
原有的通义实验室仍将保留在阿里云体系内,继续其研发工作。
但对于阿里云通义千问团队不断推出的新模型,仍需要一个 Kimi、豆包们来保证完整的用户体验,至少用户可以在第一时间通过更方便的网页和 App 体验到最新的模型能力,而不只是 API。现在看来,暂时不做 AI 应用、专注 AGI 探索的 DeepSeek 在去年底推出 DeepSeek App 也是出于一样的考量。
随着「DeepSeek 墙内开花墙外香」引发的好评如潮,在全球开发者中感知度更高的「Qwen」也比「通义」更适合做阿里云的技术品牌。
此前,MiniMax 创始人闫俊杰称,开源能加速技术生态构建,提升品牌影响力,「如果重新选择,应该第一天就开源」。阿里云正是国内最早选择开源路线的模型厂商。
自 2023 年 8 月以来,通义千问系列模型的开源也获得了一批开发者生态和优质模型的品牌心智。阿里云相继开源了全尺寸、多模态的 4 代模型。根据全球最大 AI 开源社区 Hugging Face 最新显示,截至目前,Qwen 开源大模型的衍生模型数量已突破 10 万,稳居全球最大开源模型榜首。
现在,这个用户体验闭环即将通过一个新域名的网页和新 App,随着 QwQ-Max 正式版的到来,同时推出,「very soon」!(可能是下个月?下周?)
今天 QwQ-Preview 版的官宣中就藏着这一彩蛋,「很快,我们将发布 QwQ-Max 的正式版本,并将在 Apache 2.0 许可下开放 QwQ-Max 和 Qwen2.5-Max!此外,我们还将提供更小的版本,例如 QwQ-32B,可以部署在本地设备上。此外,由于大量用户期待我们的 App,我们将在发布正式版 QwQ-Max 的同时发布 Android 和 iOS APP。」
能不能重演 DeepSeek-R1 给 DeepSeek App 带来的泼天流量不好说,但一个 Qwen 推理模型满血版的到来,必然会加速阿里巴巴在新时代的基本面探索,未必是电商,而是模型、云计算、ToC 应用、电商等等都有新可能的基本面。
在此前不到一个月的时间里,阿里股价已经累计上涨了 60%,背后是当阿里不再是被拼多多、抖音追赶的电商故事,所有人寄予厚望的新叙事——AGI。
几天前的财报电话会上,阿里巴巴集团 CEO 吴泳铭首度宣布阿里在新时代的野心,不遗余力地追逐 AGI。2 月 24 日,他给出了 AGI 目标下的第一个计划:未来三年,阿里将投入超过 3800 亿元,用于建设云和 AI 硬件基础设施,总额超过去十年总和。这笔中国民营企业在云和 AI 硬件基础设施建设领域有史以来创纪录的大规模投资,也在兑现阿里的 AGI 梦想。
「Don't Teach,Incentize」这句话适用于模型推理能力的涌现,也适用这个新时代的新故事。Incentize 的一年,阿里也需要找到自己的「豆包」「元宝」们。