网易互娱 AI LAB 开源「最强」AI 斗地主模型 研究登上顶会 NeurIPS

摘要

继围棋、德州扑克、星际争霸之后,AI 技术又「卷」到了斗地主游戏。近日,网易互娱 AI Lab 联合上海交通大学和 CMU 开源斗地主 AI 模型「PerfectDou」。

继围棋、德州扑克、星际争霸之后,AI 技术又「卷」到了斗地主游戏。近日,网易互娱 AI Lab 联合上海交通大学和 CMU 开源斗地主 AI 模型「PerfectDou」。该 AI 模型不仅击败了一众已知开源的 AI「同行」,成为目前实力最强的斗地主 AI,相关研究成果还登上了 AI 顶级学术会议 NeurIPS 2022,受到国际学术界的高度认可。

对人类而言,斗地主可能只是一个简单的纸牌游戏;但在 AI 眼中,斗地主的玩法极具挑战性。作为一款非完美信息游戏,斗地主不仅涉及策略合作,队友/对手水平等复杂因素,其牌型组合更是高达 27472 种,极大地限制了如 CFR 等搜索类算法的使用,这也对算法模型的创新探索提出了更高的要求。

针对上述难点,网易互娱 AI Lab 联合上海交通大学和 CMU 提出基于完美信息蒸馏(PTIE)的斗地主 AI「PerfectDou」。在斗地主游戏中,非完美信息的引入主要是由于三位玩家均不能看到别人的手牌,对于任意一位玩家而言,仅可知道其余两位玩家当前手牌的并集,但很难精准判断每位玩家当前手牌。针对此类非完美信息问题,完美信息蒸馏的思路是构建一个第三方角色,该角色可以看到三位玩家的手牌,该角色在不告知每位玩家完美信息的情况下,通过信息蒸馏的方式,引导玩家打出基于当前情况相对合理的出牌,并赢得比赛。

针对斗地主游戏出牌组合数较多的问题,PerfectDou 基于 RLCard 的工作上对动作空间进行了简化,对占比最大的两个出牌牌型进行动作压缩,将整体动作空间由 27472 种缩减到 621 种,帮助 AI 加速训练过程。

(PerfectDou 策略网络结构)

为验证 AI 模型的强度,PerfectDou 与各个斗地主 AI 分别进行了 1 万局的对战,并与之前达到 SOTA 水平的 DouZero 模型单独进行了 10 万局对战。对战主要指标包括两种:胜率(WP)和场均得分(ADP)。考虑到场均得分更符合斗地主游戏规则,所以将其作为主要指标,胜率则作为辅助指标。实验结果显示,PerfectDou 击败了所有已知 AI 斗地主模型,创下最新的 SOTA 水平。

(上表中加粗数字代表 A 对战 B 胜率超过 50% 或者 ADP 大于 0)

目前,网易互娱 AI LAB 已公布论文全文、对外开源 PerfectDou 代码,并提供在线试玩平台,帮助人工智能领域学者进一步研究 AI 技术在斗地主游戏上的应用。

据悉,包括 PerfectDou 在内的最新 AI 研究成果,均已集成于网易互娱 AI LAB 自研游戏 AI 系统 Athena AI 中。该系统还拥有前沿的模仿学习、强化学习、进化学习算法等众多前沿游戏智能体相关技术,为网易不同类型的热门游戏,提供竞技对战、友好陪玩、平衡性测试等丰富多样的 AI 解决方案。

网易互娱 AI Lab 成立于 2017 年,隶属于网易互动娱乐事业群。作为游戏行业领先的人工智能实验室,网易互娱 AI Lab 所提供的 AI 服务包括计算机视觉、自然语言处理、语音信号处理、游戏 AI 等;应用于《梦幻西游》《哈利波特:魔法觉醒》《阴阳师》《大话西游》《荒野行动》等网易旗下多款热门游戏。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。