推好自動化科技觀察:第二屆智能決策論壇 | 報告回顧(上):業(yè)內(nèi)專家分享決策智能研究最新進展!
【推好自動化科技觀察】:聚焦決策智能研究最新進展,促進前沿技術(shù)的應(yīng)用落地。6月18日,第二屆智能決策論壇正式召開,吸引超十萬人次線上實時觀看互動!論壇邀請了七位領(lǐng)域知名學(xué)者做學(xué)術(shù)報告,分享決策智能領(lǐng)域研究的前沿成果。本系列文章將對嘉賓帶來的精彩報告進行回顧梳理,歡迎各位讀者一同討論交流!
決策智能是新一代人工智能的重要發(fā)展方向之一,具有廣闊的研究和應(yīng)用前景。為聚焦決策智能研究最新進展,促進前沿技術(shù)的應(yīng)用落地,第二屆智能決策論壇于6月18日正式召開,吸引超10萬人線上參與。本次論壇由中國科學(xué)院自動化研究所主辦,中科南京人工智能創(chuàng)新研究院承辦。
第二屆智能決策論壇 | 報告回顧(上):業(yè)內(nèi)專家分享決策智能研究最新進展!
決策智能是新一代人工智能的重要發(fā)展方向之一,具有廣闊的研究和應(yīng)用前景。為聚焦決策智能研究最新進展,促進前沿技術(shù)的應(yīng)用落地,第二屆智能決策論壇于6月18日正式召開,吸引超10萬人線上參與。本次論壇由中國科學(xué)院自動化研究所主辦,中科南京人工智能創(chuàng)新研究院承辦。

01
智能決策和學(xué)習(xí)中的挑戰(zhàn)
洪奕光
同濟大學(xué) 教授
來自同濟大學(xué)上海自主智能無人系統(tǒng)科學(xué)中心的洪奕光教授帶來了《智能決策和學(xué)習(xí)中的挑戰(zhàn)》主題報告。洪奕光教授首先從群體智能決策的背景和現(xiàn)狀出發(fā),提出了目前智能決策發(fā)展的三個方向:“高”,即將不同層次的決策和控制融合在一起;“寬”,即擴大問題規(guī)模、將問題網(wǎng)絡(luò)化;“深”,即針對特定問題的研究不斷深入。
從當前智能決策的相關(guān)發(fā)展,可以看出“智能”既給我們帶來了強有力的工具,也帶來了新的挑戰(zhàn)。洪奕光教授分別從分布式?jīng)Q策、層次化集成設(shè)計和決策學(xué)習(xí)中的非線性這三個方面介紹了當前智能決策和學(xué)習(xí)中所面臨的挑戰(zhàn)。
● 分布式?jīng)Q策
洪奕光教授認為,分布式?jīng)Q策可以表示為:“分布式?jīng)Q策 = 決策(優(yōu)化/博弈) + 多智能體系統(tǒng)”。相比于集中式?jīng)Q策,分布式?jīng)Q策則是將優(yōu)化目標函數(shù)分為多個,交由多個智能體進行優(yōu)化,并且這些智能體在優(yōu)化過程中通過交互中間變量,從而實現(xiàn)整體最優(yōu)。同時,針對決策中優(yōu)化和博弈間的關(guān)系,洪奕光教授認為優(yōu)化可以是博弈的特例,而博弈也可以說是優(yōu)化的推廣,這在一定程度上統(tǒng)一了兩者的研究。
接著,報告以實際問題為例,介紹了當前分布式?jīng)Q策中可能遇到的挑戰(zhàn)。如在“分布式資源分配”中,目標函數(shù)是非光滑函數(shù)、資源分配的不等式約束、含不確定性的多種約束等都是這類問題中常見的難點。洪奕光教授在研究分布式的在線優(yōu)化學(xué)習(xí)時,提出了基于“全信息反饋”和“Bandit反饋”兩種方式的算法,并取得了與現(xiàn)有結(jié)果同等量級時間復(fù)雜度的效果。而從分布式凸優(yōu)化出發(fā),實際上其許多推廣問題,如非凸優(yōu)化、在線或魯棒優(yōu)化、矩陣優(yōu)化、動態(tài)優(yōu)化等,均有待進一步研究。對于分布式對抗博弈的研究,其挑戰(zhàn)性則主要體現(xiàn)在博弈種類多、不完全信息等方面。
● 層次化集成設(shè)計
在層次化集成設(shè)計方面所遇到的挑戰(zhàn),報告則主要從信息層和物理層兩個角度進行介紹。其中,信息層主要負責(zé)決策,而物理層則主要負責(zé)控制。洪奕光教授提到,決策與控制實際上在一開始就關(guān)系密切,隨著過去幾十年決策與控制的研究獨立發(fā)展并趨于成熟,當今高科技給出了新機遇——控制和決策的綜合成了必然。
然而,決策優(yōu)化通常都是離散的,而真實的物理控制則是連續(xù)的,因此當進行上下層一體化設(shè)計時,整個問題變成了一個混雜系統(tǒng)的優(yōu)化,相比之下變得更加復(fù)雜。報告從無人機的協(xié)同和Euler-Lagrange系統(tǒng)的優(yōu)化這兩個例子出發(fā),簡單展示了數(shù)學(xué)理論是如何將決策與控制結(jié)合在一起的,并給出了一般系統(tǒng)的設(shè)計框架:先做預(yù)處理、再做優(yōu)化設(shè)計、最后跟蹤控制。根據(jù)代價函數(shù)是否顯示表達,決策與控制的結(jié)合可以分為兩種情況:離線和在線。其中離線情況下,先將決策“離線”分布式得到,隨后設(shè)計集中式的跟蹤控制;而在線情況下,先將決策和跟蹤控制器分別設(shè)計,再進行“在線”一體化耦合。目前洪奕光教授采用閉環(huán)集成的方式實現(xiàn)優(yōu)化決策和物理系統(tǒng)的結(jié)合,但仍有更多更復(fù)雜的挑戰(zhàn)。同時,洪奕光教授還給出了與決策和控制集成相關(guān)的一些研究架構(gòu),如圖1所示。
圖1 決策和控制集成相關(guān)研究架構(gòu)
● 決策學(xué)習(xí)中的非線性
最后,洪奕光教授討論了決策學(xué)習(xí)中的非線性。雖然非線性會給問題帶來很多復(fù)雜的現(xiàn)象,但是如果能利用好它,那么也可以帶來好處、提高效率。決策設(shè)計中非線性出現(xiàn)的場合非常多,如:指標函數(shù)、約束條件、算法設(shè)計的輔助項、切換拓撲等。在本次討論中,洪奕光教授以非光滑映射、低維的流形兩個典型例子為例,介紹了他在智能決策中的相關(guān)工作。
在一個非光滑問題中,其難點主要為:一般凸(解不唯一)、具有非光滑的代價函數(shù)和非光滑的集合約束,這使得算法設(shè)計中解的存在性和算法的收斂性證明比較困難。但是在聚合博弈中,洪奕光教授通過引入非光滑,使該問題的方程少一階,從而減少問題的不確定性并保證了算法的收斂性,這在一定程度上體現(xiàn)了非光滑映射的好處。
而在低維流形方面的相關(guān)研究中,洪奕光教授通過研究并利用流形中的結(jié)構(gòu)(尤其是負曲率),對在線梯度下降算法進行改進,并與當前歐氏空間中最好的結(jié)果相比取得了更好的結(jié)果。另外,在基于流形匹配多模態(tài)數(shù)據(jù)整合的研究中,洪奕光教授根據(jù)集合拓撲結(jié)構(gòu)給出優(yōu)化指標,提出了單細胞多模態(tài)全局流形整合的方法;而在處理模態(tài)數(shù)據(jù)集間只有一部分細胞類型的情況下,洪奕光教授基于局部Gromv-Wasserstein的最優(yōu)傳輸框架,提出了單細胞多模態(tài)局部流形整合的方法。
在結(jié)尾部分,報告總結(jié)了智能系統(tǒng)的廣泛應(yīng)用,認為它現(xiàn)在雖然可以解決很多復(fù)雜問題,但仍有很大的研究探索空間。同時,隨著研究的不斷進展,跨學(xué)科、跨領(lǐng)域的知識融合,對于智能決策的相關(guān)研究也有非常大的推動作用。
02
合作型多智能體強化學(xué)習(xí)的應(yīng)用探索
李厚強
中國科學(xué)技術(shù)大學(xué) 教授
來自中國科學(xué)技術(shù)大學(xué)的李厚強教授從多智能體強化學(xué)習(xí)角度展開,首先向我們介紹了多智能體強化學(xué)習(xí)的背景知識。智能體通過傳感器感知環(huán)境,然后通過執(zhí)行器作用于環(huán)境,而多智能體系統(tǒng)是一個在環(huán)境中交互的多個智能體組成的系統(tǒng)。多智能體強化學(xué)習(xí)實際上是一個序貫決策問題(當前的動作不僅影響即時收益,還會影響后續(xù)環(huán)境狀態(tài)和未來收益)。根據(jù)智能體之間的利益關(guān)系,多智能體系統(tǒng)還可以分為合作型多智能體系統(tǒng)、競爭性多智能體系統(tǒng)和混合型多智能體系統(tǒng)。
而根據(jù)訓(xùn)練范式的不同,又可以分為中心化訓(xùn)練中心化執(zhí)行、分布式訓(xùn)練去中心化式執(zhí)行和中心化訓(xùn)練去中心化執(zhí)行。
接著,李厚強教授從狀態(tài)表征、信用分配、任務(wù)分工、異常處理等多個角度出發(fā),向我們分享了合作型多智能體強化學(xué)習(xí)的研究熱點。
● 狀態(tài)表征
由于實際的原始問題輸入的狀態(tài)規(guī)模爆炸,導(dǎo)致強化學(xué)習(xí)性能提升慢、訓(xùn)練開銷大,如何從高維輸入狀態(tài)中抽取出任務(wù)有關(guān)信息的隱狀態(tài)是實現(xiàn)高效強化學(xué)習(xí)的關(guān)鍵。李厚強教授提出了一種隨機遮擋順序輸入表征學(xué)習(xí)的訓(xùn)練范式,通過恢復(fù)遮擋輸入的隱狀態(tài)和對比損失函數(shù)優(yōu)化網(wǎng)絡(luò)實現(xiàn)高效地學(xué)習(xí)。
● 信用分配
多智能體問題中環(huán)境往往只給出了整體性團隊回報,但是僅有團隊獎勵作為評價標準可能會引起Lazy Agent問題,使有些智能體在訓(xùn)練時不處理,表現(xiàn)消極,僅由部分智能體發(fā)揮作用。李厚強教授提出,利用信用分配,從團隊獎勵中分解出每個智能體的貢獻,引導(dǎo)其形成積極的。有利于團隊的策略。目前的主流信用分配方法有使用聚合Individual Q函數(shù)的方式實現(xiàn)隱式信用分配,但分配機制仍是黑盒,作用機制仍不明確。李厚強教授提出,對QMIX的聚合方式進一步簡化,并在原有損失函數(shù)上加入熵正則項有利于提高QMIX的勝率。
● 任務(wù)分工
一個復(fù)雜的協(xié)作多智能體問題往往可以分解成多個子任務(wù),不同子任務(wù)對應(yīng)不同的工作職責(zé),如在足球比賽中,有擔(dān)任前鋒、中鋒、后衛(wèi)和門將這些不同的職位。像中心化訓(xùn)練去中心化執(zhí)行這種共享網(wǎng)絡(luò)參數(shù)的訓(xùn)練方式確實有利于降低訓(xùn)練復(fù)雜度,但是不利于智能體行為多樣性。一種折中的方法是將系統(tǒng)問題分為多個不同的子任務(wù),不同的子任務(wù)之間可以共享網(wǎng)絡(luò)參數(shù)。
用這種思想在SMAC等多個場景中測試,勝率和訓(xùn)練速度方面都要優(yōu)于baseline。
● 異常處理
經(jīng)典的多智能體強化學(xué)習(xí)默認智能體可以一直正常運行,但是實際上,在訓(xùn)練過程中有些智能體會出現(xiàn)崩潰,導(dǎo)致訓(xùn)練所得策略無法適配。針對這種情況,李厚強教授提出可以通過調(diào)整出錯率進行隨機采樣來決定智能體是否崩潰,然后針對不同的出錯率采用不同的策略進行調(diào)整。
最后,李厚強教授分享了實驗室正在開展包括配電網(wǎng)電力調(diào)度、智能交通燈控制、游戲AI和主動視覺目標跟蹤等領(lǐng)域的研究,并指出強化結(jié)合博弈、超大規(guī)模擴展、模型可解釋性、專家知識引導(dǎo)等均是 多智能體強化學(xué)習(xí)問題研究中極具前景的方向。
向公眾號后臺發(fā)送“01 ” 即可獲取PPT
03
多智能體系統(tǒng)中的稀疏交互
高陽
南京大學(xué) 教授
來自南京大學(xué)計算機軟件新技術(shù)國家重點實驗室的高陽教授帶來了《多智能體系統(tǒng)中的稀疏交互》主題報告。
● 智能決策與多智能體系統(tǒng)
高陽教授首先對智能決策和多智能體系統(tǒng)做了比較全面的介紹,智能決策技術(shù)從最初 的基于規(guī)則一步步發(fā)展到現(xiàn)在基于博弈,總體來看是從定性到定量,從單體到協(xié)同的過程。以混合型多智能體系統(tǒng)中的布雷斯悖論為例,高陽老師強調(diào)了隨著多智能體系統(tǒng)中的Agent數(shù)目增多,在Agent之間存在相互影響的情況下,決策從單體轉(zhuǎn)向群體時會產(chǎn)生一種相變。這種相變產(chǎn)生的原因、機理以及解決方法就是多智能體系統(tǒng)研究中的一個核心問題。
● 多智能體系統(tǒng)交互的稀疏性
高陽教授認為,以游戲為研究對象的多智能體系統(tǒng)均屬于緊交互系統(tǒng);而在實際情況中,隨著智能體數(shù)目的增多,緊交互的現(xiàn)象并不是處處存在的,于是把這種全局隨機但是局部聚集的系統(tǒng)認為是稀疏交互系統(tǒng),比如高速公路上的車輛。進一步地,可以將稀疏交互分為時間上的交互稀疏性(比如機器人控制、足球、籃球等場景 )以及空間上的交互稀疏性(只有少數(shù)智能體在局部時空上緊交互,而在全局上呈現(xiàn)稀疏交互特性,比如電力網(wǎng)絡(luò)、交通網(wǎng)絡(luò)等場景 )。
多智能體系統(tǒng)的建模采用馬爾科夫博弈(MarkovGame),對這個問題求解的學(xué)習(xí)方法和思路(學(xué)習(xí)范式)有四種:單智能體學(xué)習(xí)、多智能體聯(lián)合學(xué)習(xí)(集中式思想)、對手建模和最佳反應(yīng)學(xué)習(xí)以及基于博弈均衡的學(xué)習(xí)。高陽老師主要討論了這四種范式之間能否建立聯(lián)系的問題。在基于博弈均衡的多智能體強化學(xué)習(xí)中,算法構(gòu)造思路是:首先綜合每個Agent的初始認知(值函數(shù)),在每個狀態(tài)構(gòu)成n維的博弈矩陣,然后根據(jù)某種博弈選擇均衡動作(伴隨一定的隨機性),獲得經(jīng)驗和反饋,修改認知,最后根據(jù)延遲的反饋,回退修改歷史認知。當情況擴展到大規(guī)模群體博弈決策時,目前仍然面臨著兩大挑戰(zhàn):大規(guī)模博弈結(jié)構(gòu)的歸納推理以及均衡計算。
● 利用交互稀疏性的博弈約簡
考慮到多智能體系統(tǒng)中不僅存在緊交互,還存在稀疏交互,因此想到來利用這種特性對大規(guī)模博弈中面臨的挑戰(zhàn)進行一些簡化。
在這一部分,首先需要關(guān)注的問題是如何知道在一個多智能體系統(tǒng)中出現(xiàn)了交互,即交互檢測問題。環(huán)境動態(tài)性的測量方法包括基于先驗的協(xié)同圖構(gòu)造、基于統(tǒng)計的因動態(tài)性增大導(dǎo)致的狀態(tài)訪問頻率增加、基于學(xué)習(xí)的測量獎賞值或值函數(shù)(N步回報獎賞,NSR)。高陽教授團隊構(gòu)造了一個NSR模型來實現(xiàn)博弈約簡和學(xué)習(xí),首先在NSR模型中判斷是否存在交互,如果不存在交互則采用分布式獨立學(xué)習(xí),如果存在交互則采用聯(lián)合學(xué)習(xí),在得到聯(lián)合動作后和環(huán)境進行交互。
第二個問題是如何學(xué)習(xí)智能體之間的交互關(guān)系??梢圆捎脠D神經(jīng)網(wǎng)絡(luò)(用邊和權(quán)重反映智能體之間的交互關(guān)系),通過注意力機制方法進行學(xué)習(xí)。高陽教授團隊采用兩階段注意力機制:在硬注意力機制中確定是否存在交互關(guān)系。采用雙向LSTM得到孤立子圖,使用Gumbel-Softmax函數(shù)進行梯度反向傳播;在軟注意力機制中來計算子圖中邊的權(quán)重。
在報告最后高陽教授總結(jié)道,稀疏交互是多智能體系統(tǒng)的本質(zhì),這種稀疏交互包括時間和空間上的,可以通過一些顯式的方法對這種交互進行檢測,或者來學(xué)習(xí)這種交互關(guān)系,也可以去度量其中的相似性。有了相似性之后就可以實現(xiàn)單智能體向多智能體,或者多智能體向多智能體之間的策略遷移。
04
個體決策中心理與行為要素的建模與求參
趙琳
西南財經(jīng)大學(xué) 教授
西南財經(jīng)大學(xué)趙琳教授帶來了題為《個體決策中心理與行為要素的建模與求參 》的報告。
● 可歸因結(jié)構(gòu)化建模
趙琳教授首先從經(jīng)濟學(xué)與管理學(xué)角度介紹了經(jīng)濟管理研究決策的一般方法——可歸因結(jié)構(gòu)化建模。該方法首先在行為方面做出少量且清晰的初始假設(shè)。該假設(shè)需要能夠清晰地體現(xiàn)行為特點,并且具有可解釋性,之后使用邏輯鏈推導(dǎo)出該假設(shè)的行為表現(xiàn)。其中可歸因體現(xiàn)在后面的行為表現(xiàn)一定是由該假設(shè)導(dǎo)致的,結(jié)構(gòu)化體現(xiàn)在非線性的結(jié)果是由邏輯推理與優(yōu)化理論導(dǎo)出,具有可解釋性。
過去的研究假設(shè)研究對象是完全理性的,但實際中研究對象的決策往往會受到智力限制、計算力等的限制,進而不滿足完全理性假設(shè),而這又進一步導(dǎo)致了模型與實際決策的不符。而這些非理性假設(shè)往往難以使用數(shù)學(xué)工具進行建模。
針對該問題趙琳教授介紹了數(shù)學(xué)建模非理性因素的方法,該方法使得決策過程能夠符號化地表達出來,方便之后使用程序化的方法進行自動化求解。方法首先從決策過程的生理學(xué)、心理學(xué)以及腦科學(xué)機制出發(fā),抽象出行為規(guī)律的符號化數(shù)學(xué)模型。之后針對模型中未知的參數(shù),使用行為運籌與參數(shù)估計的方法利用真實數(shù)據(jù)進行估計,在得出準確參數(shù)之后利用該已知的參數(shù)模型對實際決策過程進行描述,實現(xiàn)自動決策。
● 建模示例
報告采用來自娛樂消費、體育賽事和零售運營領(lǐng)域的三個示例展示了對心理與行為要素的建模與求參過程。
第一個案例是以消費為背景,研究音樂消費中的飽和效應(yīng)。音樂消費是一種精神消費,因此需要考慮精神活動本身的生理學(xué)機制。其中飽和效應(yīng)是消費中一種非常重要的現(xiàn)象。該現(xiàn)象是兩重邊際效應(yīng)遞減,第一重邊際效應(yīng)遞減是敏感性隨著數(shù)量的增加而不斷降低,第二重邊際效應(yīng)遞減是隨著時間的推移,敏感性會逐漸增加。為了對飽和效應(yīng)進行建模,報告首先從飽和效應(yīng)的生理學(xué)機制出發(fā),建立飽和效應(yīng)的數(shù)學(xué)模型。音樂產(chǎn)生的刺激可以被視為一種小球。而大腦處理音樂刺激的感受器可以被視為一種容納小球的信道。接受音樂信號的刺激可以類比為將小球打入到信道中。而處理神經(jīng)信號的速率是一定的,即信道排出小球的速率有限的,因此如果頻繁的接受音樂信號的刺激會使得信道內(nèi)的小球堆積起來。如果原有的刺激沒有完全地處理掉,那么就無法處理新的刺激?;谝陨戏治觯w琳教授建立了飽和效應(yīng)的數(shù)學(xué)模型。并以利用實際數(shù)據(jù)求出該模型中的位置參數(shù)。之后利用混合整數(shù)非線性規(guī)劃進行對音樂進行選擇、排序和時間調(diào)節(jié),以避免飽和效應(yīng)的負面影響,制定出合適的歌單。
在第二個案例中,報告介紹了心理與行為要素的建模在體育競賽中的應(yīng)用。通過對運動員疲勞現(xiàn)象的建模合理規(guī)劃訓(xùn)練與比賽時間。該案例同樣從疲勞的生理機制出發(fā)構(gòu)建數(shù)學(xué)模型。當運動時肌肉會消耗大量的葡萄糖分子,但消耗葡萄糖的有氧通道是有限的,因此無法通過有氧通道消耗的葡萄糖會通過無氧呼吸產(chǎn)生乳酸,進而導(dǎo)致疲勞感的產(chǎn)生。因此可以將該問題建模為一個限流排隊問題。該模型中包含五個參數(shù),分別是疲勞恢復(fù)速度、效率消減速度、肌肉最大力量、初始能量,能量再生速率。根據(jù)實際數(shù)據(jù)可以擬合出這五個參數(shù)估計值從而指導(dǎo)運動實踐?;谠撃P涂梢赃M行對體育競賽的優(yōu)化,在最短的時間內(nèi)克服疲勞阻力獲得最好的競賽效果。由于建模的準確性,該方法對數(shù)據(jù)量的要求并不高。
在第三個案例中,報告以零售運營中的后悔現(xiàn)象為例介紹了一種不同的心理與行為要素建模方式。零售業(yè)運營者往往會在訂貨時受到后悔情緒的影響而使得自己的決策偏離最優(yōu)決策。而這可以通過實際腦電波數(shù)據(jù)來對描述情緒的模型進行參數(shù)估計,進而利用該模型實現(xiàn)自動決策。
趙琳教授總結(jié),隨著認知科學(xué)的發(fā)展,我們可以從心理學(xué)、生理學(xué)和腦科學(xué)中找到微觀行為機制,通過這些微觀行為機制我們可以對行為因素進行精確地數(shù)學(xué)建模,同時明確收集數(shù)據(jù)的方向,避免了對大數(shù)據(jù)與大算力的要求,并提高了模型的可解釋性。
微信聯(lián)盟:中科院自動化所微信群、人工智能微信群、智能決策論壇微信群、智能無人系統(tǒng)微信群、分布式?jīng)Q策微信群、自動化科技觀察微信群、推好自動化科技觀察微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語


評論排行