九方科技实测:文心一言、ChatGPT 孰强孰弱

摘要

作为近年来自然语言处理 (NLP) 技术的集大成者,「ChatGPT」一经推出就引起了巨大的轰动,很多人甚至将其视为真正的人工智能。

作为近年来自然语言处理 (NLP) 技术的集大成者,「ChatGPT」一经推出就引起了巨大的轰动,很多人甚至将其视为真正的人工智能。「ChatGPT」表现出了非常惊艳的语言理解、生成、知识推理能力,它可以很好地理解用户意图,做到有效的多轮沟通,并且回答内容完整、重点清晰、有概括、有逻辑、有条理。目前「ChatGPT」使用的语言模型是 GPT-3.5。

「ChatGPT Plus」版本的用户可以试用 GPT-4.0。GPT-4.0 是一个大型多模态模型(接受图像和文本输入,提供文本输出)。相较 GPT-3.5 主要实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。OpenAI 称,「虽然这两个版本在随意的谈话中看起来很相似,但当任务的复杂性达到足够的阈值时,差异就会出现「—GPT-4.0 更可靠、更有创意,并且能够处理更细微的指令。

和「ChatGPT」一样,百度的「文心一言」是一个多模态大模型,包括文学创作、商业文案创作、数理逻辑推算等能力。

那么,这个「中国版的 ChatGPT「到底实力如何?九方科技团队对「文心一言」和「ChatGPT」进行了实测,对比一下「文心一言」VS「ChatGPT」谁更强。

事件发展

以下为 ChatGPT、GPT-4.0、文心一言等推出、逐步进化的事件发展始末,主要帮助读者梳理、了解整个发展脉络。

2022 年 11 月 30 日,OpenAI 推出「ChatGPT」

2022 年 12 月 4 日,「ChatGPT」已有超过一百万用户。

2023 年 1 月,「ChatGPT」的用户数超过 1 亿,成为该时间段内增长最快的消费者应用程序。

2023 年 3 月 14 日,OpenAI 宣布正式发布「GPT-4.0」。

2023 年 3 月 16 日,百度宣布正式推出基于百度新一代大语言模型的生成式 AI 产品「文心一言」。

2023 年 3 月 17 日,申请内测用户开始逐渐收到百度「文心一言」邀请码,用户开始测评。

实际测评

本文选择文心一言、ChatGPT 进行测评,对比仅挑选几个 AIGC 常见业务应用场景的例子,主要展示文心一言与 ChatGPT 在各方面的差异,大家感兴趣可以去官网申请试用,官网地址附在文末。

1. 文字创作

本次测评分别使用文心一言和 ChatGPT 来为给定文章生成相对应的评论。

「文心一言」

文心一言:

1)内容更像总结

2)存在字数小于 20 的情况

3)生成大于 5 条评论

4)结果输出格式排序混乱,存在重复

「ChatGPT」

ChatGPT:

1)内容更像评论

2)字数均大于 20

3)生成 5 条评论

4)结果输出格式整齐统一

从结果来看,ChatGPT 给出的结果更符合九方科技团队的预期,文心一言关于文字创作方面稍逊一筹,输出结果不可控。

2. 文章改写

本次测评分别使用文心一言和 ChatGPT 来对给定文章进行分段、合并、去版权、改写等。

「文心一言」

「ChatGPT」

可以看出,ChatGPT 准确给出了文章改写结果,并按照指定 json 格式返回。文心一言返回内容显然有误,不及预期。

3. 关键信息抽取

本次测评分别使用文心一言和 ChatGPT 来为给定文章生成内容标题、关键词等。

「文心一言」

「ChatGPT」

从结果看来,文心一言对输出格式、字数的控制及关键词的质量把握存在不稳定性,ChatGPT 返回结果更加准确、结构清晰、稳定性更高。

4. 输出格式控制

本次测评分别使用文心一言和 ChatGPT 来指定输出结果的格式。

「文心一言」

「ChatGPT」

关于返回结果输出格式,ChatGPT 比文心一言稳定性更高,并且更符合标准格式。如果输出结果格式不稳定,会导致结果后处理很难统一。

5. 多模态作图

「文心一言」

文心一言自带文生图的功能,基本能给出较为符合预期的图像,但质量无法保证,结果并不可控。

「ChatGPT」

ChatGPT 目前只能测试到 GPT-3.5,GPT-4.0 具备多模态作图能力,但目前无法测试,九方科技团队暂时采用 plus 版本的网友测试反馈来进行对比展示,后续开放之后,进行测试。

在这个示例中,用户提问:下面这张图搞笑在哪里?请逐一进行回答。

GPT-4.0 可以按顺序描述出每一格的内容,并总结出笑点:用巨大的过时 VGA 接口给小巧的现代智能手机充电。

除此之外,GPT-4.0 还具备阅读论文、根据草稿画网页、理解漫画等图表理解能力,可见 GPT-4.0 的多模态能力已经非常强大。

优、缺点对比

「文心一言」

优点:

1. 中文场景表现较为优秀。

2. 问题生成响应时间较快。

3. 具备基本写作能力。

4. 自带文生图功能。

缺点:

1. 生成文字不一定具备事实性。

2. 上下文理解能力弱,长提示有可能记忆失效或细节失效。

3. 不能对输出格式做细致调整。

4. 作画采用文心一格模型,但可控性较差,质量无法保证。

「ChatGPT」

优点:

1. 对大部分事实回答能保证正确性,具备一定的逻辑推理能力。

2. 具备很强的写作能力。

3. 上下文理解能力强,能记忆较长提示信息的细节内容。

4. 能对输出格式做细致调整。

5. 支持多语种。

缺点:

1. 对仅在中文环境下熟知的事实缺乏准确性。

2. 生成时间较长。

3. 不支持方言及国内网络环境下的新生词汇。

4. 只能处理文生文场景。

总结

总的来说,文心一言的整体使用效果要逊色于 ChatGPT。无论从提示问题的理解程度、返回结果的质量,还是到细节的处理上,ChatGPT 都要看起来更加「聪明」。

在国内,百度 NLP 确实处于技术领先地位,这么多年来,一直持续做着 AI 相关技术的积累和跟进,从深度学习框架到大模型以及相关的应用,都有布局。能在这么短时间推出类 ChatGPT 产品,值得尊敬,这毫无疑问与之前的持续积累有关。

但根据实际评测结果来看,文心一言整体效果上和 ChatGPT 的差距还是有的,加上 GPT4.0 的出现,依然有很长一段路要走。但九方科技团队相信,这只是时间问题。

1. 百度「文心一言」目前只开放了部分内测账号,只提供了页面试用的方式,API 开放时间未知。

官网地址:https://yiyan.baidu.com

2. OpenAI「ChatGPT」GPT-4.0 由于需要国外付费账号,暂时无法测试和使用,本篇实测仅针对 GPT-3.5。

官网地址:https://chat.openai.com/chat

关于九方科技

九方科技自成立以来,一直专注于服务金融客户,以用户需求为基石驱动产品技术升级,致力于打造更多满足用户需求的金融大数据产品。目前,九方科技拥有多项核心技术,如大数据处理和分析技术、基于机器学习的数据可视化技术、大数据云计算技术等,在金融领域积累了深厚的技术经验和专业知识,能够为金融客户提供全方位的大数据解决方案。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。