通义千问 720 亿参数模型宣布开源,部分性能超越闭源GPT-4

摘要

「全尺寸、全模态」开源

12 月 1 日,阿里云通义千问 720 亿参数模型 Qwen-72B 今日宣布开源。该模型基于 3T tokens 高质量数据训练,在 10 个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的 GPT-3.5 和 GPT-4。

在英语任务上,Qwen-72B 在 MMLU 基准测试取得开源模型最高分;中文任务上,Qwen-72B 在 C-Eval、CMMLU、GaokaoBench 等基准得分超越 GPT-4;数学推理方面,Qwen-72B 在 GSM8K、MATH 测评中断层式领先其他开源模型;代码理解方面,Qwen-72B 在 HumanEval、MBPP 等测评中的表现大幅提升,代码能力有了质的飞跃。

据介绍,Qwen-72B 可以处理最多 32k 的长文本输入,在长文本理解测试集 LEval 上取得了超越 ChatGPT-3.5-16k 的效果。研发团队优化了 Qwen-72B 的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B 搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制 AI 助手,要求大模型扮演某个角色或者执行特定的回复任务。

随着 Qwen-72B 的开源,通义千问还开源了 18 亿参数模型 Qwen-1.8B 和音频大模型 Qwen-Audio。至此,通义千问共开源 18 亿、70 亿、140 亿、720 亿参数的 4 款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现「全尺寸、全模态」开源。

业界最强开源模型,填补中国 LLM 开源领域空白

在 10 大权威测评中,通义千问 720 亿参数模型获得开源模型最优成绩

通义千问 720 亿开源模型部分成绩超越闭源的 GPT-3.5 和 GPT-4

用户仅用一句提示词就可创建自己的 AI 助手

此前,中国大模型市场还没出现足以对标 Llama 2-70B 的优质开源模型。Qwen-72B 填补了国内空白,以高性能、高可控、高性价比的优势,提供不亚于商业闭源大模型的选择。基于 Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展 AI for Science 等科研工作。

从 1.8B 到 72B,通义千问率先实现全尺寸开源

如果说 Qwen-72B「向上摸高」,抬升了开源大模型的尺寸和性能天花板;发布会上的另一开源模型 Qwen-1.8B 则「向下探底」,成为尺寸最小的中国开源大模型,推理 2K 长度文本内容仅需 3G 显存,可在消费级终端部署。

从 18 亿、70 亿、140 亿到 720 亿参数规模,通义千问成为业界首个「全尺寸开源」的大模型。用户可在魔搭社区直接体验 Qwen 系列模型效果,也可通过阿里云灵积平台调用模型 API,或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台 PAI 针对通义千问全系列模型进行深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

阿里云是国内最早开源自研大模型的科技企业,8 月以来开源了 Qwen-7B、Qwen-14B 和视觉理解模型 Qwen-VL。几款模型先后冲上 HuggingFace、Github 大模型榜单,得到中小企业和个人开发者的青睐,累计下载量超过 150 万,催生出 150 多款新模型、新应用。发布会现场,多位开发者伙伴现身说法,分享了他们用 Qwen 开发专属模型和特定应用的实践。

阿里云 CTO 周靖人表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为「AI 时代最开放的大模型」,与伙伴们共同促进大模型生态建设。

通义千问基座模型持续进化,多模态探索业界领先

通义千问在多模态大模型领域的探索也领先业界一步,当天,阿里云首次开源音频理解大模型 Qwen-Audio。

Qwen-Audio 能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文学创作、逻辑推理、故事续写等等。音频理解能够赋予大模型接近人类的听觉能力。

通义大模型能「听」也能「看」。通义千问 8 月开源出视觉理解大模型 Qwen-VL,迅速成为国际开源社区最佳实践之一。本次发布会又宣布了 Qwen-VL 的重大更新,大幅提升通用 OCR、视觉推理、中文文本理解基础能力,还能处理各种分辨率和规格的图像,甚至能「看图做题」。不论从权威测评成绩还是真人体验的效果看,Qwen-VL 的中文文本理解能力都大幅超越了 GPT-4V。

通义千问闭源模型也在持续进化,一个月前发布的通义千问 2.0 版闭源模型,最近已进阶至 2.1 版,上下文窗口长度扩展到 32k,代码理解生成能力、数学推理能力、中英文百科知识、幻觉诱导抵抗能力分别提升 30%、10%、近 5% 和 14%。用户可以在通义千问 APP 免费体验最新版本的闭源模型。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。