腾讯混元文生图大模型开源：Sora 同架构，更懂中文

又一家大模型开源了，这次是腾讯。

5月14日，腾讯旗下的混元文生图大模型宣布对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

随后在5月17日，腾讯集团副总裁蒋杰在在腾讯云生成式AI产业应用峰会上表示，腾讯混元大模型通过持续迭代，目前整体性能已居国内第一梯队，部分中文能力已追平GPT-4。

针对备受关注的生视频能力，腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持 16s 视频生成。在生3D层面，腾讯混元已布局文/图生3D，单图仅需30秒即可生成3D模型。

混元文生图大模型是业内首个中文原生的DiT（Diffusion Models with transformer）架构文生图开源模型，这也是Sora 和 Stable Diffusion 3 的同款架构和关键技术，是一种基于Transformer架构的扩散模型。混元文生图大模型支持中英文双语输入及理解，参数量15亿。

过去，视觉生成扩散模型主要基于 U-Net 架构，但随着参数量的提升，基于 Transformer 架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。

在DiT架构之上，腾讯混元团队在算法层面优化了模型的长文本理解能力，能够支持最多 256 字符的内容输入，达到行业领先水平。同时，在算法层面创新实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，从而达到更满意的效果。

腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。

腾讯文生图负责人芦清林｜图片来源：腾讯

混元文生图大模型的发布会后，腾讯文生图负责人芦清林等人接受了极客公园在内的多家媒体群访，分享了腾讯文生图的进展和对 DiT 架构开发过程中的心得体会，以及为何选择将混元文生图大模型开源。群访内容整理如下：

为什么开源？

问：为什么在今年这个节点做开源？

芦清林：现在做开源其实有两个考虑，一方面我们从去年7月份开始做研发，那个时候其实大家都不知道有DiT这个东西，那个时候我们相对来说是在业界做得比较早的，也经过了比较长时间的打磨，所以现在是一个比较ok的阶段，所以对我们自己来说我们是ready，我们是具备开源条件的。

第二我们为什么选择在此时此刻选择开源，我们已经看到过去基于U-Net架构这套已经逐步逐步越来越少的人去用它，大家更多是在DiT这样的结构上去建设。但是我们也看到很多的应用由于过去做了很多的工作，始终还保持在Stable Diffusion那个阶段上，同时也因为没有开源DiT，所以导致他们没有办法切换到新一代的技术能力上来，所以一方面我们也ready了，第二方面，目前业界也是需要的，所以就干了这个事。

曾经的AI小模型时代其实开不开源差别也没有特别大，但现在有一个问题在于，如果业界不开放一些大体量的FounDaTion model，独立的研究人员甚至一个大型的实验室都是很难做出一个好的FounDaTion model，因为数据及其资源这些成本的问题，所以如果没有人把这样的FounDaTion model拿出来的话，未来一些很多的优化工作没办法进行。

问：现在开源和闭源的文生图技术能力差距是在逐渐拉大还是逐渐缩小？

芦清林：我觉得在我们开源之前是在逐渐拉大，但是希望通过我们的开源能把这个差距变小。

问：刚才听您说要生成一个社区，把技术报告公开，但是没有提到数据这块，数据这块会公开吗？

芦清林：对于训练的数据来说，一方面它有很多业务层面自己的数据，所以我们对这个东西我们自己可以用，但是share这件事情我们自己说了不算，比如很多的业务数据，这个东西我们说不了不算，这个还会有很多法律相关的东西。

问：对大模型开源有哪些看法，或者现在做大模型开源还有哪些难题需要突破？

芦清林：我觉得最重要的点首先得自己做得好，如果做得不好的话拿出来开源意义是不大的，把一个模型做得足够好地让大家能用起来，这一点很重要，也是必要的。

问：市面上有种说法是闭源的成本会更低效率更高，关于这一点怎么看？另外现在开源文生图后续会开放其他模型的吗？

芦清林：我们原来其实走的是闭源这条路线，包括去年都是把模型迭代，再把接口开放给大家用。但现在我们发现在开源社区能让大家都参与进来，这件事情是非常好的，共建能让这件事情能走得更快。

我们后续也会做一些开源的工作，包括后面的生文我们也在考虑如何能把它开源出来，但首先我们在考虑如何让大家能在用得起来。

DiT会是多模态的答案吗？

问：可以介绍一下混元这块用DiT的时间线吗？

张建伟：首先我们做DiT其实是从2023年6、7月份的时候开始做的，那个时候我们认为已经是一个比较早的时间，因为那个时候大家大部分还是基于Unet去做，我们为什么去做DiT，因为它是基于transformer的一个生成模型，transformer我们有它本身的先验感，我们知道现在包括ChatGPT在它们已经基于transformer把文生图做得非常非常好了，并且基于transformer有一个非常强大的扩展能力，它的天花板非常非常高，目前我们还不知道它的天花板在哪儿。正是有了这样的先验，我们觉得文生图做文生文的水平，我们觉得走transformer的路是势在必行的，这也是我们为什么坚定地往transformer去走。

混元采用DiT架构｜图片来源：腾讯

问：在采用DiT架构之前，你们的模型参数量是更大的吗？

李志宇：在采用DiT架构之前，我们的模型参数量经历了逐步增长的过程。最初，我们使用的Unet模型参数量大约在3亿以下，但图像质量并不理想。为了提升性能，我们逐步增加了模型的参数量，从3亿增加到十几亿，再到22亿，最终达到30亿。随着参数量的增加，模型的图像质量有了显著的提升。然而，当参数量超过30亿后，我们发现计算量大幅增加，且性能提升开始遇到瓶颈。

为了突破这一瓶颈，我们开始尝试DiT架构。在尝试初期，我们采取了小步快跑的策略，从较小的参数量（7亿到600兆或700兆）开始，并在充分验证后逐步增加参数量。目前，我们的模型参数量已经扩充到15亿，这是一个我们认为相对乐观的状态。未来，我们还计划将参数量进一步提升到50亿甚至100亿，以期望进一步提升模型的性能。

问：DiT技术加强之后，在文生图这块可能会有很多的改进，在文生视频这个方向上技术进展会怎样，如果想追上Sora的话，除了DiT技术，还需要再做什么？

芦清林：这也是为什么我们今天想开源的一个初衷，我记得非常清楚大年初七的时候OpenAI把Sora放出去了，是因为他们有了一个很强的DiT模型，在视频维度上做了升级。我们希望我们能够把现在图片的DiT拿出来，让业界想做视频的这些同行让他们可以快速地有这么一个图片基础扩展到视频上去，其实这是非常明确的一个意图，大家可以在上面省掉很多时间。目前视频除了这个以外，还有很多比如对计算资源的诉求，视频其实会比图片的维度更多一些，对计算资源要求更高，这也是目前比较大的困难。

问：DiT会是多模态版本的答案吗，或者还有哪些潜在的部署，可能会把DiT给替代掉？

张建伟：刚才提到的问题是多模态的问题，首先我个人认为或者我们团队认为transformer仍然是它必须要走的路，因为transformer它非常非常大的特点，它可以把所有的媒体信息包括文本，包括图像、视频，全部把它们看作一个Token，这个Token可以理解为如果是一句话，它是一个字，如果是一张图的话，它有可能是图像里的一个区块，如果是视频的话，可能还会增加一个时间维度，一个三维的trap，这样的话我们可以把所有的媒体统一成一种表达模式，这样可以最简单的模式去训练我们的多模态模型，所以我认为多模态也是要走transformer这条路的。

而DiT里面还包括了扩散模型这部分，而扩散模型这部分我觉得未来有可能会被代替，有可能做得更先进，比如它会做得更快，同时质量也会更好。

芦清林：我完全赞同，还有一个点，我觉得未来可能会变成一个自回归的网络结构，它可能会更简单粗暴一点。

只用看到一些前面的东西，下一个Token内容，不管是图片、视频、文本甚至是音频，理论上都可以通过这样的方法去做，如果大家能全部统一到这里，其实未来所有的模态统一就不是不可能的。

为什么现在还不是这样？目前包括算力还有一些数据的支撑可能还是不足的，还需要一定的技术发展，它的配套能力要足够强大的时候，这种完整的范式可能才会做得足够好。

问：视频用DiT很好理解，那么文生图从Stable Diffusion改成DiT，它的价值在哪里？如果DiT有更好的可扩展性，具体来说相较于Stable Diffusion有什么不同？

芦清林：你刚才说视频用DiT其实是很好理解的，文生图从Stable Diffusion改成DiT完全是同一个道理，当我想生成一个更高质量和更大图片的时候，用DiT因为它有更好的扩展性，它的能力是更强，天花板更高，其实和视频是一样的，包括现在做视频也都是这样去做，甚至一些国外头部的公司他们图片和视频是一起做的，用一个模型输出。

问：可以理解成它可以生成的图片质量更高？

芦清林：不仅仅是这样，它的语义表达能力会更强，因为它的参数量未来会做得很大，所以它可以容纳的信息量就会更多。

问：DiT模型是否更适合几十亿参数规模的训练，并且如果参数量较小，是否会影响其在视频处理方面的效果提升？

芦清林：刚好反过来，它未来的扩展空间非常大，它的扩展能力很强，所以它的天花板会更高，所以它做未来的图片和视频都能够有更好的表现。

问：一般认为参数量较小的模型消耗的算力较小，这种理解是否正确？另外，对于15亿参数或更大规模的视频大模型，是否更适合在PC上应用？

芦清林：从两个层面来解答这个问题：从参数量与算力消耗来看，将一个大参数量的模型减小参数量并不困难，可以通过牺牲一定的效果来实现更快的处理速度；从模型规模与应用场景来看，对于如何让一个小规模的模型在扩展时仍能发挥良好作用，目前还在探索阶段。而将大规模模型参数量减少以适应PC等平台的应用，相对而言是比较清晰的。

性能指标“最强”？

问：现在怎么定义在性能指标上“最强”？

芦清林：这个无非就是别人没有的，我们有，别人有的，我们更好一些。从别人没有这个点里说，目前DiT里没有一个中文原生开源的，过去由于我们做了非常多的在中文理解和表达上包括数学方面的一些工作，所以让模型在这方面有比较强的能力。这是第一个点，目前业界没有，所以相对来说也比较好说。

第二点，怎么去证明我们在其他的维度上更好。这个点我们会通过接近20多个维度去评估，这里展示的只是四个维度，包含语义的理解，能不能把一些细节的数量表达好，颜色表达好，空间位置表达好，这里面有非常多的维度。所以我们从所有的综合维度来评估，我们并没有非常明确的短板，以及我们在很多维度上面都会有一些优势，以至于综合评分我们会有比较高的一个能力。所以才会这么说。

问：刚才看到那个评分上，目前技术的水平可能和最顶尖的模型还有一定的差距，后续通过什么方式做加强，追赶？另外训练数据上怎么去迭代？

芦清林：在中文和英文语料上其实中文有天然劣势的，因为确实英文的语料非常非常丰富，以及质量更好，这块我们一直在补充。从去年的数据大概在5-6亿的图文费，今年已经扩充到20亿，未来我们会持续扩充。包括能把它筛选得更准确一些，让把更高质量的筛选出来，这是数据方面的工作。

第二个是模型方面的工作，模型方面目前是 15 亿的参数量，同时我们会尝试参数量更大的模型，因为它耗费的计算资源和时间会更长，目前还没有ready，但是已经在做。

混元DiT对中国元素理解具有优势｜图片来源：混元官网

问：中文语料主要是从哪儿来的？

芦清林：我们这个地方也是费很大的力气去做这些工作的，包括开源数据做清洗，开源数据是这样做的，它的难点在于你能不能清洗好，以及标打好，这个是非常非常重的一些工作。包括我们内部也有很多有版权的素材，包括设计师这些都有，包括游戏，其实都有很多工作。

问：腾讯对于AI生成的版权是怎么看的？

芦清林：无论是从法律层面来说，还是从更加规范的管理层面来说，我们全部都会去遵循。

问：前段时间和字节聊，他们是先推出6-7个产品，然后发展一批种子用户，然后会根据种子用户的意见对产品进行调整，对算法进行优化，但是腾讯的思路好像是要更打磨技术，更打磨底层，这样的思路其实是有差异的？

芦清林：其实没有什么特别大的差异，因为腾讯里面内部的业务场景是非常非常多的，从游戏、广告、社交、内容产品、云所有的东西都有，几乎外部能感受到的它都有，所以不管是在内部打磨还是外部打磨，对于基础能力来说其实差别是不大的，因为我们需要的是用户的一个反馈，它是点踩还是点赞，这块他觉得哪里有问题，从我们的底层技术来说，这个反馈到底是对外部的客户来说，还是内部产品带来的，其实对我们来说是一样的。

如何发掘场景需求？

问：在游戏、广告、社交这些领域上有没有遇到一些场景问题，以及如何发掘场景的需求？

芦清林：这三个场景完全不一样，截然不同，因此我们有专门的团队针对每个场景进行深入研究和应用开发。

社交领域：在社交场景中，我们可能会采用智能体的形式，通过包装成小型的互动玩法来促进社交传播。举例来说，可以利用图像生成技术，如使用个人照片训练生成新的写真形象，这些更侧重于智能体的互动性。
游戏领域：游戏制作流程复杂，从概念设计到最终的3D模型，涉及上百个步骤。对于视觉和图像生成的需求各不相同，需要为每个步骤提供定制化的技术解决方案，以提高游戏生产的效率。
广告领域：广告更注重效果，广告主关注的是点击率和商品的转化率，而非单纯的美观。在设计广告素材时，需要紧密结合广告效果数据，如点击率和转化率，以生成更具吸引力和转化潜力的图片。

问：文生图算力消耗非常大，现在市面上的一些应用落地的情况，会不会觉得文生图的商业化路径会比较清晰一点？

芦清林：它的应用点是比较多的，但是它的商业化应用比较清晰这个我没有那么赞同，目前我们没有看到一个极强的AI原生的产品能有很好的商业化的表现，只是大家目前都还在摸索，只是说现在因为有很多的玩法这个我认可，有很多玩法已经出来了，有很多的小产品可以让大家比较有意思玩起来，甚至比较火的一个状态，但是这并不代表它有未来有很强的商业化能力，我们还在摸索阶段。

问：去年腾讯文生图已经在探索视频生成，相比于语言和文生图来说，视频生成大模型成熟度是什么样的？

芦清林：肯定不如这两个，视频它最大的一个点是如何生成质感非常好的视频生产，目前一方面是生成的时间非常短，另外生成的视频分辨率不足，以至于很多场景用不起来。还有一个特别大的问题就是，它计算资源消耗非常大，包括现在的Sora它如果想生成一个视频要分钟级才能生成出来，而且良品率也没那么高，这个是目前没有广泛应用的问题。

问：现在很多人说AI生图有的一言假，生成图可以细节做得很漂亮，但是全是细节，缺乏逻辑性，或者像人画图一样会有一个上下文怎么理解这个场景。在给AI提示词的时候给的其实是元素，比如小桥、流水、人家这三个元素。从文字到图片这个算法其实没有人所谓的逻辑或者上下文的，最后生图怎么弥补这个逻辑性，让AI生的图更有人味一点？

芦清林：尤其在去年还没有大模型的时候，基本上是一个暴力的生成，通过过去见到所有的文本和图片去脑部出当前的文本会生长成什么样子。

我们现在接入大语言模型，语言模型和图像生成模型联动以后，逐步有自己的一些逻辑的思考，因为语言模型它的逻辑推理能力，包括COP、POT这些能力会逐步逐步这些能力强化到图像生成里面来，我们目前在这些方向上，而且已经看到一些方向，包括多轮对话，包括解释一些画面，包括还有我们如何输入一个公众号的文章，让语言模型从这个公众号文章里面里面去抽象一句画图的prompt出来，再拿这个图片去画一幅图，把这个图配到文案里面去，其实我们都已经做到了这些事情。包括写故事，包括儿童绘本都可以做到。

问：不同模型，刚才提到大语言模型和文生图模型的联动，今天早上我们看到OpenAI发的新的模型也是在做整体的联动，把更多多模态的模型在一起做联动，有哪些技术挑战？

芦清林：它的联动跟我们不一样，他们是在输入的时候把图文视频进行输入，给到大语言模型，这是他们在做的事情。我们做的事情是大语言模型和不同模态的输出联动起来，这是不一样的。

都需要做，但是今天放出来的是没有完全多模态输入多模态输出，这是一个理想的情况，但是如果想做到这样一个像我刚才说的大一统模型的话还需要接入，目前大家都是把前半段连起来多模态输入，后半段多模态输出。

问：现阶段的技术难点是什么？

芦清林：现在最大的难点在于不同的模态之间是不对齐的。举例就像我们曾经在想视频和音频能不能同时生成，其实这个东西是很合理的，但是我们发现视频画面跟音频不是一一对应的，同一段视频可以配上很多音，意味着他们没有这样一个一致性，所以生成视频和生成音频如果想用一个模型输出的话对我们来有很大的混淆，我们要解决对齐，这些模态其实很难对齐，这是最大的问题。

接下来的挑战？

问：基于现在混元文生图能力，未来的工作方向是什么？

芦清林：这个问题能从两个维度回答，这两个维度我们都会去做，一个是技术能力的提升和模型应用更广泛，包括从技术能力提升来说，一方面如何能让它生成的速度更快，生成的质量更好，这是我们永远都会追求的一个技术方向，它似乎是没有止境的。

第二个是腾讯的业务场景非常多，包括外部的，我们希望能在更广泛的应用场景用起来。去年我们非常深入地跟广告的场景做了一些协作，今年会跟社交包括QQ、企业微信很多业务场景做联动，跟他们合作做一些新的技术能力。同时还跟腾讯游戏做非常深的一些技术合作，也希望能在美术场景应用起来。除了这些以外当然还有QQ音乐等等都会是我们支撑的业务场景。

问：这次开源之后文生图模型接下来发展主要面临的挑战是什么？

芦清林：可能会被说，我也不太确定我们会面临什么样的挑战，今天也提醒我们今天跟大家公布这个消息，心态也非常忐忑，它一定会有不完美的地方，一定会被人诟病，我们去改进，可能未知是一个比较大的挑战。

问：另外文生图模型未来商业化的策略主要路径是什么？现在行业内类似的文生图应用比较火，腾讯有没有计划推出专门面向C端的AI应用？

芦清林：这件事情其实并不是非常急迫的状态，因为腾讯内部的业务场景非常丰富，我们如果能给他们带来价值，能帮助他们就非常好。至于AI能作为一个独立的产品，2C能商业化，其实我们目前还没有非常明确的想法，我们也会去尝试，不排斥。

头图来源：混元官网

为什么开源？

DiT会是多模态的答案吗？

性能指标“最强”？

如何发掘场景需求？

接下来的挑战？

最新文章