高校学子和行业精英如何「玩转」AI 大模型数据生成？来看看这场天池大赛

9 月 6 日，「天池 Better Synth-多模态大模型数据合成挑战赛」（以下简称「大赛」）在京圆满落下帷幕。这场由阿里云、NVIDIA 联合主办的 AI 盛事，自启动以来便吸引了来自全国各地的顶尖高校、科研机构及科技企业的积极参与。经过数月的激烈角逐，10 支队伍脱颖而出，斩获荣誉奖项。来自阿里巴巴通义实验室、NVIDIA、中国人民大学、华东师范大学等企业和高校的技术专家担任决赛评委，共同见证大赛成果的诞生。

近年来，随着大模型技术的加速发展，人工智能的底层技术架构持续迭代。在 AI 发展的初期，人们更多地聚焦于模型算法的创新与优化，然而，随着技术的不断成熟，数据的质量和治理情况逐渐成为决定 AI 性能的关键因素。据中科院声学所的张博士研究指出，在实际工程应用中，AI 系统落地效果的好坏，仅有 20% 取决于算法本身，而其余 80% 则依赖于数据的质量。

对于多模态大模型的训练而言，其对数据的海量需求与网络数据资源的有限性之间的矛盾日益凸显。如何在有限计算资源下，借助已有的大模型技术，高效高质地合成训练数据，成为了产业界和学术界共同面临的挑战。在此背景下，「天池 Better Synth-多模态大模型数据合成挑战赛」应运而生，作为 Data-Juicer for LLMs 系列赛的第四场比赛，旨在汇聚各方智慧，探索数据合成的新方法与新策略，共同推动多模态大模型技术的创新发展。

本次大赛周期 2 个月，采用线上初赛与线下决赛相结合的「赛训一体」模式。晋级队伍不仅有机会与来自阿里巴巴通义实验室、NVIDIA 等顶尖团队的技术专家面对面交流学习，还能在主办方统一提供的设备上进行研发与调试，确保比赛的公平性与高效性。

大赛统一使用阿里巴巴通义实验室一站式大模型数据处理系统 Data-Juicer，该系统可为参赛者提供了系统化、可复用的数据处理与生成工具，极大地提高了数据合成的效率与质量。同时，NVIDIA 发布的综合性模型优化库 TensorRT-Model-Optimizer 等工具和 FP8 训练框架的加入，更是让模型训练和推理过程如虎添翼。

自 2024 年 8 月启动以来，大赛共吸引来自清华大学、北京大学、复旦大学、度小满等国内顶尖高校、科研机构和企业的 1066 支队伍参赛。其中既有人工智能相关专业的专科团队，也有深耕技术的行业老兵。经过层层筛选，最终有 10 支队伍脱颖而出，决战 AI 之巅。

比赛中也涌现出诸多创新方案。例如 VLM 队针对比赛基模特点，使用了 SSIM 来衡量合成数据的学习难易程度，能够使模型在小数据量下学习更好；而 dxm 小分队则使用了最前沿的 Image Textualization 技术来尝试从合成数据中改写并消除图文内容不对齐的幻觉，进一步提升模型的模态间对齐能力。

「天池 Better Synth-多模态大模型数据合成挑战赛」正式收官，为参赛选手带来了宝贵的实战经验和交流机会，也为多元智慧的碰撞提供了平台，涌现出了更多数据合成的「解题思路」。随着技术不断发展，期待各方进一步构建「数据驱动的人工智能」的新高地，激发科研生态、助力产业落地，引领多模态大模型的创新发展。

来源：互联网

最新文章