Testin 云测：Claude 3 问鼎 Chatbot Arena 榜单意味着什么

今年 3 月初，Anthropic 祭出憋了近一年的大招 Claude 3 系列模型 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中最强的 Claude 3 Opus 模型在包括本科水平的知识（MMLU）、研究生水平的推理（GPQA）、小学数学（GSM8K）等基准测试上的表现，已经完全超越了 GPT-4。

在人工智能语言模型发展史上，这是一个里程碑式的时刻——Anthropic 的 Claude 3 Opus 大语言模型 (LLM) 在 Chatbot Arena 上首次超越了 OpenAI 的 GPT-4，夺得第一名。同时，Anthropic 的小型模型之一 Haiku 也因其在排行榜上的出色表现引人注目。Chatbot Arena 是人工智能研究人员用来衡量人工智能语言模型相对能力的流行众包排行榜。自从 GPT-4 于 2023 年 5 月 10 日左右被纳入 Chatbot Arena（排行榜于当年 5 月 3 日推出）以来，GPT-4 的变体至今一直在排行榜前列持续霸榜。因此，GPT-4 在 Arena 的战败是一个轰动 AI 圈的重大事件。

这家后来居上的 Anthropic 背后的主要金主，无疑是亚马逊。2023 年 9 月亚马逊宣布对其初始投资 12.5 亿美元，并表示至多投资 40 亿美元。就在近日，亚马逊在其官方网站上宣布，已经完成了对 Anthropic 的额外 27.5 亿美元投资，从而兑现了其 40 亿美元的总投资承诺。

在大家都在卷自建大模型的时候，亚马逊云科技更倾向于为大模型提供「淘金的铲子」——作为云计算的开创者、迄今为止云计算领域的老大，亚马逊云科技在生成式 AI 时代的战略占位、对「云是公共服务」这一本质的认知逻辑，值得我们今天中国云计算厂商思考。是因为业内人士会认为这是个伪命题，大模型根本无法离开算力。那云计算厂商，究竟在卷什么？2022 年，亚马逊云科技的 re: Invent 上的一个概念或许给出了回答「Data Gravity」，它的基本理念是指：数据在哪里，资源就在哪里，趋势就在哪里。数据就像具有引力一样，吸引着一个又一个的技术潮流奔向它，比如 2021 年的 Data Lake。这句话放在今天的生成式 AI 同样成立。

过去经常提到数据驱动型（Data-driven），数据驱动型企业、数据驱动型决策、数据驱动型应用、数据驱动型硬件设计……我们过去更多的关注到了「数据」，或许更重要的是「驱动」，数据如何驱动？就是今天强大的 AI。说到底，云厂商从诞生的那一天起，就已经清楚的知道数据、AI、云缺一不可。

Testin 云测就是这样一家以人工智能技术驱动的企业服务平台，已经为全球超过百万的企业及开发者提供云测试服务、AI 训练数据服务、安全服务。在保障应用、软件、系统等产品质量的测试环节，Testin 云测将云模式与 AI 人工智能的优势融为一体，通过云服务和智能化，以 AI+RPA 的测试能力部分或全部取代人工测试为主要发展趋势。

同时，在人工智能数据服务领域，Testin 云测通过数据采集、数据清洗、数据标注等方式为企业业务引入数据治理，用专业领先的一站式数据服务充分满足 AI 客户的需求，利用自身在技术、服务和标准化方面的特色优势引领行业的发展趋势。

AI 带来的颠覆性变革正在持续进行中，所有行业都将或早或晚地受其影响。云计算、大数据、人工智能、物联网等新兴技术让企业未来充满机遇和挑战。面对这样一场影响深远的变革，选择一个优秀的企业服务伙伴无疑是顺应时代之举，Testin 云测不仅具备深刻的洞察力，也在服务、产品、安全等全方位专业领域的能力过硬，是企业服务领域的佼佼者。

最新文章