昆仑万维开源「天工」13B 系列大模型,0 门槛商用

摘要

并配套开源了 600GB、150B Tokens 的超大高质量开源中文数据集。

10 月 30 日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B 系列,并配套开源了 600GB、150B Tokens 的超大高质量开源中文数据集。

昆仑万维「天工」Skywork-13B 系列目前包括 130 亿参数的两大模型:Skywork-13B-Base 模型、Skywork-13B-Math 模型,它们在 CEVAL, GSM8K 等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。

Skywork-13B 下载地址(Model Scope): https://modelscope.cn/organization/skywork

Skywork-13B 下载地址(Github): https://github.com/SkyworkAI/Skywork

除模型开源外,Skywork-13B 系列大模型还将开源 600GB、150B Tokens 的高质量中文语料数据集 Skypile/Chinese-Web-Text-150B,这是目前最大的开源中文数据集之一。

同时,昆仑万维「天工」Skywork-13B 系列大模型即将全面开放商用——开发者无需申请,即可商用。

130 亿参数、两大模型、最大中文数据集之一、全面开放商用。昆仑万维「天工」Skywork-13B 系列大模型堪称业内开源最彻底的百亿高质量商用模型。

Skywork-13B 系列大模型的开源将为大模型的场景应用和开源社区发展提供最佳技术支持,降低大模型商业门槛,推动人工智能技术落地千行百业,为人工智能生态建设添砖加瓦,携手开源社区探索未知世界、创造美好未来。

两大模型

昆仑万维「天工」Skywork-13B 系列包括两大模型及 150B 高质量中文数据集。

○ Skywork-13B-Base模型是 Skywork-13B 的基础模型,其经由 3.2 万亿个多语言高质量数据训练,在 CEVAL, CMMLU, MMLU, GSM8K 等评测与基准测试上都展现了同等规模模型的最佳效果。

○ Skywork-13B-Math模型经过专门的数学能力强化训练,在 GSM8K 等数据集上取得了同等规模模型的最佳效果。

○ Skypile/Chinese-Web-Text-150B数据集。该数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为 600GB,总 token 数量约为(1500 亿目前最大得开源中文数据集之一。

除此之外,Skywork-13B 系列还公开了模型中使用的评估方法、数据配比研究和训练基础设施调优方案等。希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。

五大特点

昆仑万维「天工」Skywork-13B 系列大模型在 CEVAL, GSM8K 等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。

Skywork-13B 系列模型的五大特点:

1. 最强参数表现:全面超越同等规模大模型

本次开源的 Skywork-13B 系列模型在 CEVAL, CMMLU, MMLU, GSM8K 等几大权威评估基准中全面超越 LLaMA2-13B 等开源大模型,在同等规模大模型间取得最佳效果。(截止至 10 月 25 日数据)

2. 最多训练数据:3.2T 高质量的多语言训练数据

Skywork-13B 系列大模型拥有 130 亿参数、3.2 万亿高质量多语言训练数据。模型的生成能力、创作能力和数学推理能力提升明显。

3. 最强中文语言建模能力:中文语言建模困惑度评测,超越所有中文开源模型

Skywork-13B 系列大模型在中文语言建模方面表现出色,具有优秀的中文文创能力。在中文文本创作领域的评测中,Skywork-13B 系列大模型展现出了卓越的能力,尤其在科技、金融、政务、企业服务、文创、游戏等领域均表现高于业内其他开源模型。

上图为不同领域数据下评估模型的困惑度,越低代表模型在该领域建模能力越强。结果显示天工 13B 在技术文章,电影,政务报告,游戏,金融,通用领域均表现出色

4. 最大中文开源数据集之一:150B Tokens 高质量中文语料

Skywork-13B 系列将配套开源 600GB、150B Tokens 的高质量中文语料数据集 Skypile/Chinese-Web-Text-150B,这是目前最大的开源中文数据集之一。开发者可以最大程度地借鉴技术报告中大模型预训练的过程和经验,深度定制模型参数,有针对性的进行训练与优化。

5. 最有诚意的开源商用:无需申请,即可实现商用

目前开源社区中的中文大模型多数并非是完全可商用,一般开源社区用户通常需要进行复杂的商用授权申请流程,在某些情况,甚至有对公司规模、所在行业、用户数等维度有明确规定不给予商业授权。

昆仑万维对 Skywork-13B 系列开源的开放性和可商用性高度重视,将授权流程做到极简,取消对行业、公司规模、用户等方面的限制,目的是帮助更多对中文大模型感兴趣的用户和企业在行业中不断探索和进步。

此次 Skywork-13B 系列大模型将全面开放商用许可,用户在下载模型并同意并遵守《Skywork 模型社区许可协议》后,无需再次申请授权即可将大模型进行商业用途。希望用户能够更便捷地探索 Skywork-13B 系列大模型技术能力,探索在不同场景下的商业化应用。

推动开源生态繁荣,让更多开发者们参与到 AIGC 的技术发展中,在共创和共享中推动技术的提升。

面向 AI 的时代,蓬勃发展的开源生态建设是构建 AI 和应用融合的重要一环。降低模型的研发门槛,使用成本,最大化的共享技术能力和经验,让更多的企业和开发者们参与到此次 AI 引领的科技变革中去。昆仑万维董事长兼 CEO 方汉是最早参与到开源生态建设的开源老兵,也是中文 Linux 开源最早的推动者之一,开源的精神和 AIGC 技术的发展将会在昆仑万维战略中完美融合。

All in AGI 与 AIGC

All in AGI 与 AIGC 是昆仑万维的战略。

4 月 17 日,昆仑万维发布了中国第一个真正实现智能涌现的国产大语言模型——「天工 3.5」,并启动邀请测试。

5 月 19 日,北京市经济和信息化局公布第一批《北京市通用人工智能产业创新伙伴计划成员名单》。昆仑万维凭借在 AIGC 领域的前沿探索和投资布局,成为第一批模型伙伴和投资伙伴。

8 月 23 日,昆仑万维发布国内第一款 AI 搜索产品——天工 AI 搜索。

9 月 1 日,计算机视觉和机器学习领域的国际顶级专家颜水成教授正式加盟昆仑万维,与昆仑万维创始人周亚辉一起出任天工智能联席 CEO,并兼任昆仑万维 2050 全球研究院院长,负责前沿技术的研究。

9 月 5 日,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,综合得分排名第一。

9 月 25 日,昆仑万维正式控股艾捷科芯,布局 AI 芯片。

今天,天工 Skywork-13B 系列大模型的开源标志着昆仑万维持续投资 AGI 生态的决心。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。