Scaling Law 已成为大模型进化的「不二法门」。
Scaling Law 已成为大模型进化的「不二法门」。
参数量越大、数据集规模越大、算力消耗越大,大模型性能就越好。相比较海外的大模型公司,国内的大模型公司会面临更严峻的算力问题,资金、显卡限购等,以至于有不少人质疑,中国大模型到底有没有 Scaling Law?
无问芯穹联合创始人 & CEO 夏立雪认为,「我认为 Scaling Law 在中国可以有另外一个解读,也就是应用场景的 Scaling Law。」
而他们推出的「MxN」架构,「解决的是一堆相似的大模型,怎么能够在不同的卡上跑起来,最后以一种类似于水、电、煤气这样的资源的形式给到开发者使用。」
在他看来,「大模型今年最核心的任务就是落地,而落地的卡点就是性价比」。
4 月 10 日,在极客公园创始人&总裁张鹏和夏立雪的对话直播里,关于大模型 Scaling Law、国内的算力难题,以及大模型的落地难题,进行了探讨,并尝试提出了一些非共识的观点。
01 CUDA 是英伟达的壁垒,推理场景是算力未来的重点
张鹏:从你的角度来看,上个月的 GTC 有什么值得大家注意的东西?
夏立雪:大概从 2018 年那一届 GTC 开始,大家的关注重点就都是英伟达最新的显卡是怎么样的,包括这次也发布了最新的 B 系列显卡(Blackwell B200)。
B 系列在技术上还是有很多提升的,比如显存提升了小一倍;使用了新的 PCIe 6.0 的协议;包括整个互联的带宽都有非常大的提升。这说明随着技术的发展,英伟达仍然走在时代的最前列,并且可以说是非常坚定地去做更大的系统工程。因为这些升级都是实实在在地面向「搭建一个更大的训练系统」这件事。
不过有些指标也确实存在可讨论的空间。比如有些新闻里面会提到有 30 倍的提升,这个目前还没有找到特别明确的证据,我们推测这个可能是在一些特定场景上的数据,比如规模大到一定程度,它原有的 H 系列显卡已经产生饱和损失的时候,这个对比结果可能会实现 30 倍的提升。
我们目前看到的最核心的提升,还是 B 系列实现了两块显卡叠加在一起之后没有太明显的性能损失,实现了大概两倍的效果。
整体上这次发布会没有很夸张的那种「black magic」式的提升,但也确实证明了英伟达在 Scaling Law 这件事上,扎扎实实做了很强的一些系统层面上的技术升级。
张鹏:前两天安克的阳萌就分享了一个观点。他认为,长期来看,英伟达还是有巨大的挑战和不确定性的,存算一体才是未来的希望,而这次的发布会完全看不到这样对应的打算。这里面你有没有一些大家忽视的、非共识的发现?
夏立雪:其实英伟达之所以能够持续领先,一个核心的原因就是它现在用户非常多,所以他自己能够看到未来的方向,然后再把这个方向落实到自己的下一代产品。所以我们可以去分析它的一些新功能点,来看看它在想什么事情。
这次发布会我看到的一个点就是 4 比特(FP4)的浮点数被正式加到了 B 系列的功能指标上,这是在之前的 H 系列没有的。考虑到 H 系列的 8 比特数(比如 FP8)还没有在训练中被广泛使用,这个 4 比特一定不是为了训练大模型,而是为了大模型最终怎么推理落地、让更多的开发者享受英伟达显卡的好处而准备的。所以英伟达也在考虑除了帮大家做一个更大规模的模型之外,是不是也能帮助大家去把模型在具体场景上更好地落地。
而且可以结合一下英伟达最新的财报,推理这个场景的收入已经占比将近 40%,这件事其实是超过行业对它的预期的。之前华尔街预判训练和推理的比例是 8:2,但是现在光靠英伟达自己就已经是 6:4 了。
所以无论是从英伟达已经拿到的实际回报的角度还是未来战略规划的角度,它都会更多地去支持推理场景的使用。
张鹏:传统也有很多优秀的芯片公司,比如英特尔、AMD;包括现在也有很多新锐的公司出现。为什么英伟达在今天能达到这么高的高度?
夏立雪:英伟达核心的竞争力,就是它永远知道下一代芯片做哪些指标,是能够为下一个时代的任务服务的。
那它为什么能知道这个?那就要说到它的CUDA 生态了。在 AI 领域,这是英伟达最重要的一个壁垒。
每一个硬件都有一个接口,接口就相当于说明书一样,开发者对着「说明书」来使用它的硬件。英伟达在很早的时候就投入了非常大的人力去打造它的 CUDA 开发生态,让这个说明书非常的易读,让所有的开发者都能很容易把英伟达的硬件用起来。
所以基本从上一个 AI 时代开始,所有最先进的模型和应用都是在英伟达的 CUDA 上先跑起来的。这样就形成了一个正向的循环,大家都会自发在英伟达的卡上开发自己的新功能,英伟达就享受了这样的红利。同时它的竞争对手还得投入额外的人力把这些功能搬运到自己的环境上。相当于英伟达什么都不用干,竞争对手多做了一倍的工作。这实际上是英伟达最核心的壁垒,也是它能够在硬件上不产生代际领先的情况下,仍然能够保持「霸主地位」的核心原因。
当然这件事也不是完全不可撼动的,因为大模型出现了。
上一个时代的 AI 模型,针对每一个场景都需要去做一套自己的软件优化,比如卷积神经网络就是用于视觉的模型;递归神经网络是用于语言处理的模型……这样大家必然会趋同于在同一个语言体系中去完成自己的开发。比如我现在用 CUDA 积累出了一套东西,自然也会把里面一些共性的东西迁移到其他场景。
这件事情实际上构成了英伟达 CUDA 生态的厚度,但是大模型把这个生态打薄了。因为大模型之间的结构差异没那么大,我不再需要 100 种大模型了。大家更追求的是账算下来到底便宜不便宜。
从这个角度来说,其他硬件厂商有了更多的机会。所以这也是为什么大模型出来之后,像 AMD、英特尔等都非常抓紧地发布自己的一些核心软件和产品,就是因为他们也看到了这一点。
02中国的 Scaling Law 是场景优势
张鹏:视角回到国内,还要面临一个算力天花板的问题。甚至前段时间有个朋友提出了一个特别悲观的观点:Scaling Law 在中国真的存在吗?因为 Scaling Law 理论上需要无尽的算力支持去通向 AGI,但国内是存在算力天花板的,最后可能没有办法真正享受 Scaling Law 这样的一个技术红利?你怎么看这个观点?
夏立雪:这个词走到大众面前之前,他的源头是一篇 OpenAI 的论文。那篇论文的核心是说,当我们要去训练一个模型、做最佳预判的时候,遵循的规则是什么?里面提到影响 Scaling Law 的其实是有两个因子,不只是算力,还有数据。
关于 Scaling Law 的观点在 OpenAI 和 Llama 上已经碰撞过一次。OpenAI Scaling Law 的逻辑是用更大的算力和数据可以更有效地获得一个好的大模型,是纯从训练模型的性价比角度来看的。Llama 思路是模型最终要落地,所以这个性价比应该考虑到最终模型推理的阶段,那么以推理为目标,在一个「差不多可以了」规模的模型上不断地叠加数据,最后得到一个数据层面上的 Scaling Law。
这个画面似曾相识。回顾互联网时代和移动互联网时代,部分技术起源于欧美,然后在中国做到了场景的爆发。因为中国首先有最大的用户量和场景数据,我们也有非常多的企业和开发者能够把应用场景落地。
所以我认为 Scaling Law 在中国可以有另外一个解读,也就是应用场景的 Scaling Law。假设我们先拥有一个达到基本水位的模型,并且把它赋能千行百业。赋能千行百业,是不是就是在每一个行业积累优质的数据?有了新增的优质数据之后,应用到模型里,就能快速地让数据飞轮转起来。
可以说,算力 Scaling Law 提升的是一个产业本身的产值,而场景的 Scaling Law 解决的是渗透率的问题,也就是如何把大模型渗透到各行各业去。这件事情我们是有优势的,可以有一套自己独特的 Scaling Law 定义。
张鹏:对于国内的算力市场,你有什么长期的判断?
夏立雪:首先我们已经用脚投票了,就是为什么我们要做「MxN」这件事,就是因为我们认为算力厂商不只有英伟达一个。
当然现在国内算力市场英伟达依然占主导地位,但是我们也看到很多厂商,不论是我们合作的 AMD 还是其他的一些芯片厂商,已经逐渐具备了一定的和英伟达比较的能力了。
但大家所欠缺的还是所谓的下一个客户。就是没有人知道你能用,所以就没有人会大规模用你,然后更没有人知道你能用。
那怎么去解决这个问题?我们也告诉我们的模型伙伴,不要同时去做两个很不确定的事,模型归你,把算力的不确定性交给我,你先在我们 Infini-AI 上把业务跑通。我可以向你证明其他的卡,也能让你把业务又好、又快,还省地跑起来。
我们和这么多芯片厂商关系都能保持很好,因为大家也需要我们来帮他们证明自己的实力;大家也需要我们的优化能力帮他做得更好;以及大家需要我们去做产业链的打通。
回到开头的问题,我认为当前还是以英伟达为主导,但是未来非英伟达的市场一定是存在的。
张鹏:什么是多元异构算力?它为什么重要?
夏立雪:本质上还是因为国内的特殊生态。如果有足够多的英伟达芯片,那大家都去用英伟达就好了,但现在问题是英伟达的芯片不够用。
所以为什么要做异构?因为国内的生态还是比较分散,大家都有自己的一亩三分地要去耕耘。所以市场会较长期地持续这个状态:有很多选择供大家使用,同时这些选择又相对分散。
大家都不可能拥有足够多的英伟达芯片,所以不管是大模型的厂商还是做应用的厂商,都需要和很多家芯片去做适配。那我们能不能把这些需求统筹起来,最终变成一个好用的服务给大家?相当于把每一个人都要做一遍的事情,我们帮大家做了。原来大家要做 MxN 次开发,但是无问芯穹通过自己的平台,已经对接了 M 种模型、应用和 N 种芯片,那整个生态就只需要做 M+N 次适配就好,不用再形成浪费。
这个实际上也是中国算力市场特有的情况孕育出来的一个机会。
03 推训一体是未来,Transformer 架构不会很快被颠覆
张鹏:怎么理解「推理即训练」这个观点?
夏立雪:这是很重要的一个点。我们如何理解人最核心的能力?有人说是会使用工具,但是猴子也会使用工具;有人说是社会分工,但其实蚂蚁也有社会分工。所以我理解人最核心的能力是持续学习,可以把智慧一代代地传承下去,不断地迭代,这是一个文明生长出来的基础。
我们现在训练模型的方式,基于现有的技术限制,是先预训练一个模型,然后再到对应的场景中使用,返回来的结果又能成为一个新的数据集,让模型得到迭代。就像软件升级一样,今天发了 iOS13,明天升级成 iOS14。
但实际上人不是这样,上午我考试做错了一个题,下午我就不会去犯这个错了。
所以一个理想的情况是训练和推理是一体的,我们在不断使用的过程中就能实时地把数据给到系统,然后系统当下就产生一个反馈。这种模式在互联网上一个时代的产业中已经实际运用起来了,就是广告投放系统。一旦你不点这个广告,它下次大概率就不会再给你投类似的广告了;一旦你点了某个广告,它就会马上知道你的喜好。
但是这套系统在当时能够被快速运用起来,是因为它算得过来账,整个训练和推理的成本能够支持系统 7x24 不断地学习、运行。
现在大模型就是卡在成本太高了,如果既有训练又有推理,整个成本是扛不住的。所以这件事情还停留在一个目标的状态,但我认为是一个很重要的方向。
张鹏:某种程度上可以理解成,如果没有明确目标地修炼通用人工智能,这就是一个非常高成本的事情;但如果是目标非常明确地强化某个能力上的智能,可能就有不同的路径。
其实商业起到的作用就是这样的,过去只要商业的需求算得过账,这部分的技术就会快速发展。
所以谁先产生商业闭环,谁的智能可能就发展得快,这个说法也 make sense,不一定只看算力的绝对值。
张鹏:除了GPU之外,还有哪些芯片解决方案,是你觉得值得看的?
夏立雪:我觉得首先英伟达代表了一种方向,就是 GPU 这种大规模的并行计算,在 Transformer 这个结构下,就是效率最高的一类执行逻辑。
像 AMD、包括国内的一些厂家,也在做自己的类 GPU 的架构。我觉得这肯定是有很好的空间的。大模型依托于 GPU 的架构诞生,反过来 GPU 也因为大模型的增长而快速发展。
Tranformer 结构不会有很快的、本质上的颠覆,它已经吸收了人类绝大部分知识,再造一个新的「神」和它「对抗」是比较劳民伤财的。所以现在没有人有动力去完整做一个新的架构来颠覆 GPU。
顺着这条路来看,除了 GPU 架构之外,也会有人去做一些完全针对 Tranformer 结构的硬件,也是值得期待的。
张鹏:有人提到了 SambaNOVA 这家公司,就是顺着你讲的思路去针对 Tranformer 做进一步的强化,形成一个完整的体系。你看好这种类型的公司吗?
夏立雪:我们还是希望有更多人来探索的,这有利于行业的健康发展。
但这里面有一个很核心的问题,就是硬件的发展一定要和场景持续保持结合,不能真的闷声造核弹。
大家在看硬件未来的发展的时候,一定是要看到它怎么能够有一个可规划的路径,能够不断吸收新的计算的范式,来实现硬件持续的迭代优化。
人工智能为软硬件的联合优化提供了非常好的基础。因为在上一个时代,很多任务的软硬件设计是分离的。但是因为人工智能的模型是可调整的,就可以在设计流程的时候把硬件的结构考虑进去,去设计一个既能满足任务又能计算效率最高的硬件。
这是人工智能为软硬件联合设计提供的独特空间,这件事我认为未来会有更大的价值。
04 无问芯穹致力于把算力和大模型变成水电一样的基础资源
张鹏:无问芯穹的名字是怎么来的?感觉很浪漫,不像你们理工科的风格。
夏立雪:无这个字是清华电子系的缩写,因为电子系的前身是 80 年代的无线电系,所以电子系又叫无系。无问、无穹都是清华校歌里的歌词,和我们公司的理想愿景也非常契合,不要问芯片和智慧的极限在哪里,去探索就可以了。所以就取了这样一个名字。
张鹏:在芯片领域,无问芯穹看到了怎样的机会,要解决什么问题?
夏立雪:一方面既然大模型统一了模型的结构,实现了一种更通用的任务,就涌现了一种新需求,需要在软件和硬件的联合打通做优化。
另一方面既然大模型打薄了 CUDA 的生态壁垒,国内硬件和算法生态又日渐繁荣,这中间就形成了一个缺口,就是模型和硬件之间的连接问题。作为最终客户来讲,他其实不关心模型、算力之类的问题,他关心的是大模型能为我的应用场景带来什么。
所以作为无问芯穹来讲,我们有两个核心的任务。
一个就是去做不同模型不同硬件的连接,我们叫做「MxN」,也就是 M 种不同的大模型和 N 种不同的硬件之间,做到统一的部署和联合的优化。相当于把大家团结起来形成一个合力,去为最终的产业客户提供更好的模型和算力的服务,最后促进大模型在中国这样一个独特的应用场景的爆发。
第二个任务就是算账。不模型不仅仅是匹配上的问题,更核心的是怎么算账做到极致的性能。所以在解决前面的易用性之后,更重要的是我们要去做模型到硬件的深度优化。
这两点是我们团队所积累的基础能力,使得我们愿意在这样一个时间点出来做这样一家公司,来把整个产业的发展能够促进起来。
张鹏:这听起来和 CUDA 做的事情很类似,你们和 CUDA 的区别是什么?
夏立雪:可以这么理解,CUDA 解决的是一堆不相似模型怎么在英伟达的芯片上跑起来的问题;我们解决的是一堆相似的大模型,怎么能够在不同的卡上跑起来,最后以一种类似于水、电、煤气这样的资源的形式给到开发者使用。相当于我们把原本有差异的资源统一了,变成一套服务,给到最终需要算力、需要模型的客户。
就像你用电的时候不需要关心背后是风力发电还是火力发电,电力本身就是一个统一的资源。这是我们在做的事情。
张鹏:听起来无问芯穹做的是类似中间层的工作。这个工作今天听起来很有需求,但是未来会不会被模型或者算力侵蚀掉它的价值?
夏立雪:这里面其实有两个点。
首先是国内整体上算力是一个供不应求的状态。一方面很多软件公司找不到好的算力,一方面很多芯片厂商做出来的算力也找不到好的客户来使用。在这个供需关系下,中间层就有非常大的价值,因为相当于把供应链打通了。这是中间层本身存在的产业层的价值。
然后我们团队最核心的还是想去做优化能力的提升,最终为大家提供一个极具性价比的极致的优化。我们团队在联合模型到硬件的跨层优化方面是非常有自信的,是相关领域最强的一个团队。
我们在这方面积累经验,就是想和上游的硬件厂商、下游的模型厂商一起去解决大模型落地的问题。因为现在很多模型其实已经具备可用性,但就是成本卡住了。
这是我们这个产业共同的使命,在这个使命中我们的极致优化能力就非常重要。在达成使命的过程中,已经能够实现产业价值。
05 大模型今年最核心的任务是落地,卡点是性价比
张鹏:百度、腾讯、智谱都投了无问芯穹,很少看到一家创业公司一上来就被行业里重要的 player 联合加持。这个过程中是怎么聊的?他们是如何对你们形成了这么明确的共识的?
夏立雪:首先肯定是因为我们团队的技术积累对大家来说还是需要的。因为大模型这个时代其实需要的是最后算得过来账,就涉及到很多性价比方面的优化。在这个过程中,包括我们联合模型到硬件的优化能力,把各种各样的卡帮大家用起来的能力,都是产业所需要的。
这几家其实也都是偏场景的下游的厂商,我们就能够帮助他们提供资源补充,这是产业上的身位。
然后我们核心的优化能力是帮助大家把性价比做上来。因为大模型今年最核心的任务就是落地,而落地的卡点就是性价比。这件事情需要我们和模型厂商、硬件厂商共同努力。模型厂商做的是把模型做得更精致;硬件厂商做更好的算力;那我们做的就是怎么能够让这些精致模型和这些硬件结合得更贴切。
这件事情最终转起来,我们能够让大模型落地的成本降几个数量级,那才能够把整个产业带动起来。
张鹏:所以你认为他们最终认可无问芯穹的价值,到底是因为能够有效地解决多元异构算力的问题,还是长期角度上效能的优化?
夏立雪:我认为这两者同样重要,而且这两者是相互匹配的。
算力持续短缺是因为大家都在做更大的模型。大家一方面面临算力短缺,一方面也面临成本非常高。所以这两个价值都会持续存在。
然后在现在的国际形势下,做国产化、做异构又是非常明确的一条路。那无问芯穹就坚定地选择了这条路。
张鹏:像你们这样的能力,如果加入到一家大模型公司,他们会变得非常有竞争力。当初有过这样的思考吗?为什么最后会成立一家独立的公司?
夏立雪:这有点像刚刚讨论 Scaling Law 时候的观点差异了,最终目的都是让大模型赋能千行百业,但是实现这件事可以有不同的路径。
我们可以选择先把智慧的能力堆到极致,准备好最佳的训练基础设施,然后再逐渐解决落地的问题。也可以选择现在就让各行各业都用上大模型。
无问芯穹为什么还要做一个独立的中间层生态?因为我们想做普惠这件事。一方面我们和大模型厂商合作,帮助他们去探索智能的极限。另一方面我们也希望帮助现有的软件公司,作为一个数据和场景的持有方,快速把先进的技术用起来。比如前一阵我们发布了 MaaS(Infini-AI),能够让小开发者很轻松地使用这些算力和模型。做这样普惠的事情能够让整个生态快速地赚到钱。
无穹 Infini-AI 体验地址:http://infini-ai.com
张鹏:无问芯穹的客户是谁?你是怎么让他们理解无问芯穹的价值的?
夏立雪:我们客户有很多类型,包括很多行业的场景客户。
对这些客户来讲,他们目前的核心问题是怎么把自己的场景和大模型高性价比地结合起来。所以我们提供的最核心的能力,就是我们这里有足够好用、足够有性价比的大模型服务资源。客户可以直接在我们这里开箱即用,而且资源非常充沛。原因就是我们这套核心的技术能力和产品能力,让我们能把各种各样的卡都能用起来。
但这件事实操起来往往不需要给客户解释这么清楚,他们通常也不太关心。因为不管我们技术怎么强,最后体现的都是产品足够易用、性价比高,这是我们能给客户带来的最直接的价值。
06 无问芯穹是智算运营商,未来每个公司会有自己的智算资源部
张鹏:「MxN」这件事听上去应该是一个非常复杂的事情,你们团队有信心去做这件事,背后的信心来自于哪里?
夏立雪:我们的团队源自清华电子系,包括公司的发起人也是清华电子系的系主任汪玉教授,我本人也是汪玉教授的学生。
我们实验室实际上从 2008 年开始就一直在做面向各种场景的软硬件联合优化,其中人工智能就是非常重要的一个场景。软件联合优化其实就是解决类似「MxN」的问题,这件事我们已经积累了十几年。
只不过上一个时代的模型各种各样,我们更多的还是停留在学术研究的阶段。形成了一套方法论,能够面对每一个不同的小模型,做极致的优化。虽然这件事本质上还是要为 100 个模型做 100 次优化,但我们可以比较方便地做到这 100 次。
今天,大模型的机遇告诉我们,现在市场需要的不再是为每一个模型做一遍,要针对这个大语言模型去做更深度的优化了。我们发现之前积累了十几年的技术,终于能够在一个足够聚焦又足够大的场景里发挥能力了。这使得我们可以去成立一家公司来做这个事情,整体上的 ROI 又是非常正向的。
所以在这个时间点,我们有信心去做这件事。
张鹏:很多人把你们做的事情理解成编译器。你觉得无问芯穹是依托于什么样的体系去创造价值的,可以用一句话概括吗?
夏立雪:像编译器这样的词汇,更多的是对技术定位的解读。我们的技术栈不止编译器,最终呈现也不止是一个软件。
我觉得我们相当于是智算领域的运营商。就是把算力也好、模型也好,像水电煤气一样作为一种基础资源提供给大家。
张鹏:运营商这个概念,可以再展开聊一下吗?
夏立雪:最开始大家会认为基础设施是电力、房子、服务器这些。后来大家认为算力也是一个基础设施。然后随着大模型的又一次爆发,也有人说 token 就是未来的一个基础资源。
如果说算力是一个基础资源,那我就相当于是一个运营商,因为我实际上是把各种异构的、跨地域的算力整合起来提供给客户。如果说最终 token 成为了基础资源,那我们其实就是这个基础资源的供应方。
不同的视角下我们的定位会有一些差异,这个可能看每个人之前的行业积累——他习惯于从哪个角度看。
张鹏:我从业界了解到,去年这个时候帮公司部署私有模型,是可以收到上千万的。但好像在去年年中开始,价格就开始掉到几百万、甚至几十万了。所以我想了解一下,去为企业训练和运用模型这两方面的成本,在过去一年大概是怎样一个下降趋势?包括未来它会怎样,是呈指数级下降吗?还是线性的?
夏立雪:去年价格确实有一些变化,但解读起来,不一定是负面的。
也许是因为客户需求在变化。可能在最开始的探索阶段,想要解决的是一个大客户的、非常复杂的综合任务,要投入的成本和对应要实现的功能都是最强化、最复杂的。那相应的价格就会更高。
之后部分客户发现,我对大模型智力的要求其实没那么高,并不需要花那么贵的价格请一个「专家」过来,我只需要请一个「助理」过来就能够解决很多问题。
所以这个价格的变化某种意义上也体现了,大家对大模型在自身场景中可能带来收益高低的判断,是定价体系不断丰富和完整的过程。只不过从外界看起来就是,原来千万的东西,现在几十万也能买到了。
这件事情最终还是看在落地场景中,大模型能够解决什么问题,以及每一个层次对应的能力又需要投入多少。我认为千万、百万、十万都是可能的,就好像在淘宝上有不同的品牌,对应不同的价格一样。
张鹏:如果把智能当成一种生产力,未来它在公司这种组织架构中,会以什么样的方式存在?比如说类比人力资源部,会有一个智能资源部存在吗?
夏立雪:这个概念非常超前,但也确实符合我们客户现在碰到的一些实际情况。
大模型刚出来的时候,大家更多的需求是满足好奇和工具学习。这个时候企业使用大模型,还没有到定制这一步,更多的是作为一种统一标准的机器来管理。
但是最近我们很多客户,明显遇到了这种问题。这些客户体量并不小,自身的数字化程度也非常好。他们内部有很多业务部门想用大模型,相当于在内部分化出了很多版本。这个时候怎么协调这些资源分配就成了问题。比如公司内部怎么去做模型的版本控制,以及这些版本之间能不能互相协调?甚至他们能不能互相培训?就像人员的轮岗一样,学习一些基础知识,再学习一些产品知识,能不能培养成一个产研的负责人?类似模型的职业规划问题,也是我们客户面临的问题。因为如果重头做,他又要为每一个模型去做 N 份培养方案,这个就和大模型的理念相悖了,同时企业的成本也非常高。
我们已经通过一些技术手段,去让不同版本的模型能够形成信息的互通,以及快速生成一些特定的内部版本。
我觉得以后除了算力是一种资源以外,模型也会成为一种重要的资源。这个资源怎么能够产生更大的价值、如何升级迭代?我们也会为它去定制一些培养方案,就像培养一个核心员工一样。