青青草原影院国产主播,欧美成人无码狠狠色第一页,国产Chinese HD精品电影

同濟(jì)大學(xué)陳杰院士團(tuán)隊(duì) | 對(duì)抗博弈的決策方法綜述

時(shí)間：2023-09-11 16:50:30 發(fā)布：tgy 來(lái)源：中國(guó)科學(xué)信息科學(xué) 第一對(duì)焦：同濟(jì)大學(xué)

　　【ZiDongHua 之自動(dòng)化學(xué)院派收錄關(guān)鍵詞：同濟(jì)大學(xué) 人工智能】

　　同濟(jì)大學(xué)陳杰院士團(tuán)隊(duì) | 對(duì)抗博弈的決策方法綜述研究團(tuán)隊(duì)

　　李修賢,孟敏,洪奕光,陳杰：同濟(jì)大學(xué)電子與信息工程學(xué)院，上海自主智能無(wú)人系統(tǒng)科學(xué)中心研究意義

　　與人工智能關(guān)系密切的博弈論在眾多領(lǐng)域具有廣泛應(yīng)用。而在許多實(shí)際應(yīng)用中，如撲克游戲、追逃問(wèn)題、海岸防衛(wèi)、網(wǎng)絡(luò)安全等，玩家之間往往具有敵對(duì)立場(chǎng)，即每個(gè)玩家明顯具有自私行為并對(duì)其他玩家造成利益損失。在這些場(chǎng)景中，對(duì)抗博弈的高效智能決策方法對(duì)于玩家至關(guān)重要，其在國(guó)計(jì)民生、科技發(fā)展及國(guó)防安全等多方面扮演著重要角色。

　　本文工作

　　基于此，本文就對(duì)抗博弈的三種主要模型進(jìn)行了系統(tǒng)性的綜述，包括零和正規(guī)式與擴(kuò)展式博弈、Stackelberg博弈以及零和微分博弈，旨在從博弈模型、研究分類(lèi)、流行算法及未來(lái)展望等多維度對(duì)對(duì)抗博弈進(jìn)行概述。值得注意的是，這三種博弈模型并不相互獨(dú)立，從不同角度來(lái)看有可能具有一定的重疊性。例如，Stackelberg博弈和微分博弈也可以是零和博弈。

　　(1) 研究分類(lèi)

　　正規(guī)式博弈用于描述玩家同時(shí)決策的情形，而擴(kuò)展式博弈應(yīng)用于玩家序貫決策的情況，特別對(duì)于不完美信息博弈尤其重要。而零和博弈意味著所有玩家的效用函數(shù)之和始終為零。已有文獻(xiàn)中，零和正規(guī)式和擴(kuò)展式博弈的研究大致可分為：雙線性博弈、鞍點(diǎn)問(wèn)題、多玩家零和博弈、團(tuán)隊(duì)博弈和不完美信息零和博弈。

　　Stackelberg博弈用于處理玩家具有不對(duì)稱信息的情形，其中領(lǐng)導(dǎo)者具有信息與決策的主導(dǎo)權(quán)，并知道跟隨者們的效用函數(shù)，而跟隨者們通常在領(lǐng)導(dǎo)者做出決策后執(zhí)行最佳響應(yīng)動(dòng)作。此類(lèi)博弈主要包括一般性Stackelberg博弈 (GSGs) 與Stackelberg安全博弈 (SSGs)，其中后者是前者的一類(lèi)特殊情況。在SSGs中，領(lǐng)導(dǎo)者和跟隨者通常被叫做防衛(wèi)者和攻擊者。已有文獻(xiàn)研究主要包括一般性的GSGs和SSGs、連續(xù)Stackelberg博弈 (玩家具有連續(xù)的決策空間)、不完全信息Stackelberg博弈等。

　　微分博弈是用于描述連續(xù)時(shí)間演化的博弈模型，即描述此類(lèi)博弈的模型為連續(xù)時(shí)間微分方程?，F(xiàn)有文獻(xiàn)中大多研究的是二人的零和微分博弈，此類(lèi)模型在追逃等多種問(wèn)題中具有廣泛應(yīng)用?，F(xiàn)有研究大體分為：線性二次微分博弈、非線性微分博弈、Stackelberg微分博弈、隨機(jī)微分博弈等，另外，基于不同的終端時(shí)間與狀態(tài)約束，研究也包括有限和無(wú)限終端時(shí)間、狀態(tài)無(wú)約束和狀態(tài)有約束情形。

　　(2) 主流算法

　　對(duì)于零和正規(guī)式博弈，至今已有大量算法，例如，后悔匹配 (RM)、RM+、fictitious play、 (online) double oracle等。其中，最流行的算法是基于后悔學(xué)習(xí)的，通常稱為no-regret (或次線性) 學(xué)習(xí)算法，依賴于外部遺憾、內(nèi)在遺憾、交換遺憾及基于納什均衡的遺憾等概念?；诖?，兩個(gè)主流算法是optimistic FTRL和optimistic mirror descent。

　　針對(duì)零和不完美信息擴(kuò)展式博弈，流行方法均基于反事實(shí)遺憾最小化 (CFR)。至今，許多更優(yōu)性能的CFR變體被相繼提出，包括CFR+、DCFR、LCFR、ECFR、AutoCFR等。同時(shí)涌現(xiàn)大量AI算法，例如，PSRO、deep CFR、single deep CFR、UDEF、PoG、NAC等。

　　針對(duì)Stackelberg博弈，普遍的解決辦法是把問(wèn)題轉(zhuǎn)化成雙層線性規(guī)劃或者混合整數(shù)線性規(guī)劃問(wèn)題，然后流行的解決算法包括multiple LP方法、benders decomposition、cut and branch等。對(duì)于連續(xù)Stackelberg博弈，常用算法是梯度上升下降法，許多算法都可以看作這個(gè)算法的變體。

　　對(duì)于零和微分博弈，最流行的方法是粘性解方法，其關(guān)鍵是Hamilton-Jacobi-Isaacs方程，值函數(shù)是此方程的解。

　　(3) 未來(lái)展望

　　最后，針對(duì)對(duì)抗博弈中的諸多挑戰(zhàn)，提出了潛在的熱點(diǎn)研究方向，包括高效算法設(shè)計(jì)、最后迭代收斂、不完美信息、大型模型、不完全信息、有限理性、動(dòng)態(tài)環(huán)境、混合博弈、博弈中的人工智能方法等。

　　文章信息

我要收藏

點(diǎn)個(gè)贊吧