极速三分快三破解德扑AI之父请来了最棒的博弈论学者们,他们能与 AI 擦出怎样的火花?| AAAI 2018

  • 时间:
  • 浏览:85

美国当地时间 2 月 3 日,AAAI 2018 在第一天的预热之前 逐渐热闹了起来。雷锋网 AI 科技评论在前瞻报道中提到过,本次大会肯能有 15 个 W极速三分快三破解orkshop 陆续进行,其中《非对称信息博弈的 AI( AI for Imperfect-Information Games)》就是其涵盖有四个。什儿 workshop 的组织者包括 CMU 的 Noam 极速三分快三破解brown, DeepMind 的 Marc Lanctot 还有南加州大学博士生、曾获谷歌 PhD 奖研金的徐海峰。

就像 AlphaGo 让让让村里人 更加熟知深度1学习,让让村里人 对非对称信息博弈结速英语 了解并熟悉,很大程度也是肯能 2017 年初,CMU 计算机极速三分快三破解系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 联合研发的 Libratus 在单挑无限注德州扑克( heads-up no-limit hold’em)人机对战中完胜人类选手。在去年的 NIPS 2017 上,最佳论文正是由他俩的战略合作论文《Safe and Nested Subgame Solving for Imperfect-Information Games》所摘得。雷锋字幕组也曾对什儿 论文解读视频进行独家编译。

正像 Noam Brown 和 Tuomas Sandholm 在 Reddit 上所表达的那样:深度1学习远非人工智能的完整篇 ,非对称信息博弈也与 AI 联系得越发紧密。「非对称信息博弈」常被用来模拟涉及隐藏信息的各种战略交互(什儿 谈判,拍卖等)和安极速三分快三破解全交互中。肯能隐藏信息的指在,外理那此事件没了的最好的辦法 与传统的对称信息(比如国际象棋或棋类游戏)完整篇 不同。尽管在什儿 研究「非对称信息模拟」的领域取得了相当大的进展,以后每个领域所使用的技术尽管具有普遍性,却仍然相对孤立。它们之间指在充分的跨学科交流的肯能,让研究人员们会通过肯能在有有四个领域中流行的最好的辦法 的新应用、或使用建立在不同领域中已有最好的辦法 来创建新的技术。

本场 Workshop 的主要话题几乎涵盖了「非对称信息博弈的 AI」相关的大主次内容,包括新近用于 AAAI 年度计算机扑克比赛(ACPC),用于外理大型不完美信息游戏的可伸缩算法,游戏中的对手建模和开发,一般和多于有有四个的算法建模和分析信息非对称在游戏中的作用,战略信号(叫华说服),在不完整篇 信息的战略环境中进行探索与开发,以及什儿 是否对称信息博弈有关的什儿 主题的研究。

研究者们将分享让让村里人 在研究 AI 在非对称信息博弈中的理论和实践方面当前的研究成果,也提出有关怎样改善相关领域算法的构想,推动该领域的 AI 研究。

这场 Workshop 持续了一整天,原计划是早上 9:30 开场,下午 5:00 结速英语 ,有 8 个演讲者对让让村里人 的研究成果进行分享,每人限时半小时,以下是原定议程:

但肯能第一位演讲者未到现场,统统第有有四个主题《Dynamic Adaptation and Opponent Exploitation in Computer Poker》撤除,活动推迟到 10 点,并将第四个主题作为开场,以后其中什儿 主题也做了相应的调整。

1

开场的论文是由 CMU 的 Christian Kroer 带来的,题目为《广泛形式博弈中 Stackelberg 均衡的鲁棒性及有限前瞻的扩展(Robust Stackelberg Equilibria in Extensive-Form Games and Extension to Limited Lookahead)》 ,而作者也包括了 Gabriele Farina 和 Tuomas Sandholm。后者与本次议程的主持人 Noam Brown 所研发的 Libratus 在 2017 年初打败了人类选手,他也被誉为德州AI之父。

作为计算博弈论中的有有四个外理方案概念,Stackelberg 均衡肯能变得没了重要,这在很大程度上受到诸如安全设置等实际难题的启发。然而在实践中,关于对手的模型通常具有不选择型。据作者介绍,这篇论文是首个在广泛形式博弈中进行不选择条件下的 Stackelberg 均衡的研究。

Christian Kroer 的团队引入了鲁棒性较高的 Stackelberg 均衡,其中不选择性是关于对手的收益,以及对手有有限前瞻性和关于对手的节点评价函数的不选择。让让村里人 为选择性限制前瞻设置开发了有有四个新的混合整数守护进程。以后,系统把什儿 守护进程扩展到无限制下的 Stackelberg 均衡的鲁棒设置,以后仍然指在对手有限的前瞻范围内。

该论文证明了对于对手的收益区间不选择性的具体情形(肯能在有限的前瞻的情形下关于对手的节点评估),能不需要 用有有四个混合整数守护进程来计算 Stackelberg 平衡的鲁棒性,该守护进程的渐近大小与选择性设置相同。

2

第二篇论文是由哈佛大学的刘洋带来的《建立高质量信息的强化学习框架(A Reinforcement Learning Framework for Eliciting High Quality Information)》。

对等预测是一类机制,当没了验证贡献的基础事实时,它能助 从 strategic human agents 中获得高质量的信息。尽管它的设计看似完善,以后在实践中总爱失败,主就是肯能有有四个缺点:(1) agents 对提供高质量信息的努力的动机被认为是已知的; (2) agents 被建模为完整篇 理性的。

在这篇论文中,作者们提出了第有有四个强化学习(RL)框架,在什儿 领域,加强对等预测,来外理这有有四个限制。在论文中提到的框架中,研究人员为数据请求者开发了有有四个RL算法,用于数据请求者动态调整缩放级别以最大化其收入,并使用对等预测评分函数调配工作人员。实验显示,在不同的模式下,数据请求者的收入显着提高。

3

第三篇论文是由密歇根大学的 Mason Wright 带来的《在连续双标拍卖中评估非自适应交易的稳定性:有某种强化学习最好的辦法 ( Evaluating the Stability of Non-Adaptive Trading in Continuous Double Auctions: A Reinforcement Learning Approach)》。

该论文是在本次 AAAI 2018 大会上首次公开, 此前 Mason 和他的团队曾在 2017 年发表过关于非对称性信息博弈在连续双标拍卖中的研究成果,在本次的论文中,主要针对新的强化学习最好的辦法 进行阐述,肯能本篇论文还未正式放出,雷锋网 AI 科技评论将在后续的报道中对该篇论文的演讲 PPT 进行完整篇 报道。

4

第四篇是由 Facebook AI Research 的研究工程师 Adam Lerer 主讲的《在社会困境中结果主义的条件战略合作的非对称博弈(Consequentialist Conditional Cooperation in Social Dilemmas with Imperfect Information)》

在社会困境中,战略合作能不需要 带来高回报,但参与者面临欺骗的动机,且什儿 情形在多主体的互动中无处没了。让让村里人 希望与纯粹的战略合作伙伴进行战略合作,并外理一蹶不振 者的剥削;此外,让让村里人 还没了鼓励什儿 的战略合作。然而,通常战略合作伙伴采取的行动(主次)未能被观察到,肯能本人所有所有行为的后果没了预测。这篇论文中证明,在有有四个大型的活动中,好的策略能不需要 通过调整四本人所有所有的行为来建立有有四个奖励机制,这被称之为结果主义的条件战略合作。在论文中,Adam Lerer 展示了怎样使用深度1强化学习技术来构建没了 的策略,并通过分析和实验证明,它们在简单的矩阵游戏之外的社会困境中是有效的,此外,论文还说明了单纯依赖后果的局限性,并讨论了对行动的后果意图的理解的必要性。

5

第四个演讲内容是圣路易斯华盛顿大学 Samuel Ang等人的课题《应用于安全领域的博弈论目标识别模型Game-theoretic Goal-Recognition Models with Applications to Security Domains》。

在人工智能规划领域的目标识别 (GR) 和目标识别设计 (GRD) 难题的驱动下,论文分别介绍和研究了战略代理的 GR 和 GRD 难题的有某种自然变体。更具体地说,就是考虑了游戏理论 (GT) 的场景,其涵盖有四个恶意对手的目标是在有有四个 (物理或虚拟) 环境中对有有四个防御者监视的目标进行破坏。敌人没了采取一系列行动以攻击预定目标。在 GTGR 和 GTGRD 设置中,防御者试图识别对手的预定目标,一起观察对手的可用动作,没了 他/她就能不需要 加强目标防御攻击。此外,在 GTGRD 设置中,防御者能不需要 改变环境 (什儿 ,增加路障),以便更好地区分对手的目标/目标。

在论文中,研究人员建议将 GTGR 和 GTGRD 设置为零和随机游戏,其信息不对称与对手的预定目标有关。游戏是在图形上播放的,顶点代表情形,边缘是对手的动作。对于 GTGR 设置,肯能防御者只局限于只玩固定的策略,没了计算最优策略的难题 (对于防御者和对手) 都能不需要 被制定并以有有四个线性守护进程来表示。对于 GTGRD 设置,在游戏结速英语 时,防御者能不需要 选择 K 条边来阻止,研究人员将计算最优策略的难题作为混合整数规划,并提出有某种基于 LP 二元性和贪婪算法的启发式算法。实验表明,什儿 研究的启发式算法具有良好的性能。与混合整数规划最好的辦法 相比,它具有更好的可扩展性。

目前研究中,现有的工作,尤其是 GRD 难题,几乎完整篇 集中在决策理论范式上,即对手在没了考虑到让让村里人 肯能被观察的情形下选择本人所有所有的行为。肯能什儿 假设在 GT 场景中是不现实的,统统该篇论文提出的模型和算法填补了文献中的有有四个空白。

6

第六篇论文是来自南加州大学的 Sara McCarthy 带来的《在游戏中保持领先:用于威胁筛选的资源动态分配的自适应鲁棒性优化(Staying Ahead of the Game: Adaptive Robust Optimization for Dynamic Allocation of Threat Screening Resources)》

Sara McCarthy 的研究考虑在安检地点(什儿 ,在机场或港口)动态分配不一起延的筛选资源(什儿 X光机等),以成功地外理一名被筛查者的攻击。在此之前 ,研究人员引入了威胁筛选博弈模型来外理什儿 难题,虽然理论能不需要 假设屏幕到达时间是完整篇 已知的,但实际上,到达时间是不选择的,这严重阻碍了该最好的辦法 的实现和性能。

以后,研究者们提出了有某种新的威胁筛选资源动态分配框架,明确说明了筛选到达时间的不选择性。研究者将难题建模为有有四个阶段鲁棒优化难题,并提出了有有四个使用紧凑线性决策规则和鲁棒重构和约束随机化相结合的外理方案。在进行了多量的数值实验后,那此实验表明,什儿 最好的辦法 在外理性方面胜过(a)精确的外理最好的辦法 ,一起在最优性方面只产生很小的损失,(b)最好的辦法 忽略了可行性和最优性方面的不选择性。

7

最后一篇论文来自卡内基梅隆大学的于澜涛,主题为《基于网络信息绿色安全游戏的深度1强化学习(Deep Reinforcement Learning for Green Security Game with Online Information)》。

出于保护濒危野生动物免受偷猎和外理非法采伐等绿色安全领域的迫切没了,研究人员提出了博弈论模型,以优化执法机构的巡逻。尽管有了那此努力,在线信息和在线互动(什儿 ,巡逻者追踪偷猎者的足迹)在之前 的游戏模型和外理方案中被忽略了。这篇论文的研究旨在通过将安全游戏与深度1强化学习相结合,为复杂化的现实世界绿色安全难题提供更切实可行的外理方案。具体来说,研究者提出了有某种新颖的游戏模型,它融合了在线信息的重要元素,并对肯能的外理方案进行了讨论,并提出了基于深度1强化学习的未来研究方向。

小结

以上就是 AAAI 第三天「人工智能非对称信息博弈」专场 workshop 的完整篇 内容摘要,接下来,雷锋网 AI 科技评论会对完整篇 7 篇论文的 PPT 和演讲内容进行精编收集,逐步放出。

接下来 AAAI 的议程会更加精彩,明天雷锋网(公众号:雷锋网)将继续在现场为让让村里人 报道精彩盛况。

雷锋网原创文章,未经授权禁止转载。详情见转载须知。