国产AV激情无码久久,精品国产YW在线观看,亚洲国产欧美日韩欧美2018,中文字幕一区二区三区在线不卡

南棲仙策提出高相容性協作算法,保障智能體在開放環境中的高效協作

2024-03-18 15:01   來源: 大眾時報網

      開放環境的機器學習是目前的研究難點與熱點,是算法落地的關鍵之一。其中,開放環境的多智能體強化學習與人智協同方向需要智能體與各種多樣甚至是未見的隊友策略進行高效協作。為了達成這一目標,主流方法在訓練階段生成若干隊友策略與智能體配對訓練以提高智能體的協作能力。然而,以往方法嘗試以隊友策略為中心解決問題,而無法高效并有保證地生成多樣的隊友策略,進而導致智能體在開放環境中與未見隊友的協作能力有限,阻礙了該方向的發展。

      基于此,南京大學與南棲仙策團隊合作提出了一種面向任意隊友的高相容性協作算法(Multi-agent compatible policy learning, Macop),成功發表在DAI'2023會議上,并獲得唯一最佳論文獎(Best Paper Award)。這一算法可以應用在多智能體強化學習與人智協同領域,有效地增強了智能體與多樣甚至未見的智能體隊友或人類隊友進行協同的能力,推進了集群協同的有無人系統在開放現實世界的落地應用。


      以往隊友生成與訓練智能體方法的局限性

      經典的協作多智能體強化學習方法,假設訓練階段與測試階段,智能體都與相同的隊友策略進行協作,這些方法致力于提升一個固定且封閉的多智能體系統的協作性能。然而,真實的協作場景往往是開放的,也就是說智能體需要與各種多樣甚至是訓練階段沒有遇到過的隊友進行協作,例如游戲AI需要與實時匹配到的人類玩家協作、自動駕駛智能體需要與路面上的人類司機協作等等。為了賦予智能體在這些開放的場景中與多樣甚至未見隊友協作的能力,一種可行的方法是在訓練階段就使得智能體學會與盡可能多樣的隊友協作。

開放協作場景中,智能體需要與多樣甚至未見隊友協作

      基于此,研究者提出了例如虛擬博弈[1]等方法,這些方法的大體步驟如下:首先,使用不同手段生成一批固定數量且各不相同的隊友策略;然后,訓練智能體與這些生成的隊友策略進行協作。

以往隊友生成與訓練智能體方法示意圖

      盡管這些方法在一些較為簡單的協作場景中取得了一定的效果,但是這種分兩步走、以隊友策略生成模塊為中心的訓練范式仍然具有一定的局限性。第一,該范式需要提前指定需要生成的隊友策略數量,然而最優的生成數量是無法提前得知的,過少的隊友不足以覆蓋策略空間,而過多的隊友會降低訓練效率。第二,該范式生成隊友策略先于訓練智能體,是以隊友策略為中心的范式,然而,即使生成的隊友各不相同,但從智能體的視角來看,它們的行為可能并不具有多樣性,智能體只需要單一的協作模式即可與它們配合,這導致生成的隊友并不能高效地覆蓋策略空間。第三,該范式需要智能體同時與大量生成的隊友學習協作,會導致增大訓練難度。以上問題啟發我們:開發一種新的以智能體為中心的訓練范式,從智能體的視角持續高效地生成未見且多樣的隊友并學會與它們協作,直到智能體學會與策略空間中所有有代表性的隊友協作,這樣一來智能體就具備與任意隊友協作的能力了。


      與任意隊友協作的學習算法:主動出擊

      為了達成上述目標,我們需要開發以智能體為中心的訓練范式實現高效的隊友生成與智能體訓練,其中的核心思想是以持續學習的過程,主動地生成與智能體還協作得不夠好的新隊友與之訓練,真正做到智能體視角中的隊友策略多樣性,并高效提升智能體的協作能力。

      1、隊友生成:以智能體為中心的多樣性

      該模塊的目標是持續高效地生成多樣的隊友策略以逐步覆蓋隊友。受到基于種群的訓練和演化算法的啟發,我們維護一個隊友策略種群并迭代地對其進行優化。

      首先,每個隊友策略需要具備基本的協作與完成任務的能力,以確保與智能體的配對訓練是有意義的,為此隊友策略需要與其自身的復制策略協作以最大化回報與完成任務,即最大化自博弈(self-play, sp)目標:

      接下來,為了增強種群內隊友策略的多樣性,我們引入多樣性(diversity)目標增大策略間的距離:

      最后,為了主動地生成與智能體還協作得不夠好的新隊友與之訓練,我們加入不相容性(incompatibility)目標,使隊友策略最小化與智能體協作的回報,迫使隊友尋找新的協作模式,覆蓋策略空間的新區域,從智能體的視角高效地增強隊友策略多樣性:

      優化當前的隊友策略種群同時最大化以上三個目標,即可得到一個新的隊友策略種群與智能體進行配對訓練了。

      2、學智能體:持續學習防止遺忘舊隊友

      設計好隊友生成模塊后,我們可以持續地生成多樣的隊友策略用以訓練智能體。由于將要生成的隊友策略的數量是未知的,且為了節省算法的存儲空間開銷,我們無法存儲所有已經生成的隊友策略與智能體配對訓練。為了防止智能體遺忘與過去生成隊友協作的能力,我們使用了多任務頭架構的多智能體持續協作技術[2]進行訓練,既能使智能體快速學習與當前新生成的隊友進行協作,又可以保持其與過去生成隊友的協作能力。這樣一來,算法只需要存儲當前新生成的隊友種群與智能體訓練而不需要存儲所有生成過的隊友,在節省存儲開銷的同時提高了智能體的學習效率。

      以上是訓練智能體的兩個優化目標,第一個目標旨在提高智能體與當前(第 k+1 輪)隊友的協作能力,即相容性(compatibility);第二個目標是對智能體神經網絡中的特征提取器部分進行正則化(regularization) 以緩解遺忘現象。

      3、整體算法:交替進行直到空間全覆蓋

      介紹(a)隊友生成模塊與(b)智能體學習模塊后,我們提出本工作的 Macop 整體算法。首先初始化第一代隊友種群與智能體策略,隨后交替進行(a)隊友生成與(b)智能體學習,期間生成第二代、第三代等隊友種群與更新智能體策略。該過程將持續進行到第 K 代隊友種群在更新后依然無法降低與當前智能體協作的回報,即降低相容性失敗。這說明,此時整個隊友策略空間已經得到覆蓋,且智能體已經學會與所有生成的隊友協作。Macop算法則會終止并輸出具有強大協作能力的智能體。

Macop整體框架示意圖


      技術驗證

      我們在食物收集、獵物追捕、合作導航、星際爭霸微操四個環境的八個場景上對算法進行驗證。

      1、Macop 可以極大地提高智能體與不同隊友協作的能力


      各個算法測試的隊友策略相同,均為 Macop 與所有對比方法生成的隊友策略的集合,也即每個算法的智能體都需要與大量未見隊友進行協作。在各個任務場景中,相較當前致力于提高智能體與未見隊友協作能力的方法與變種,Macop均表現出明顯的回報優勢。表格最后一列的平均性能提升指標顯示,Macop更是比最好的對比算法提升高出 18%。

      2、Macop可以很好地與未見隊友進行協作


      我們收集了八個所有算法的智能體都沒有見過的隊友策略(tm1~tm8)作進一步測試。測試回報的雷達圖顯示,相較于其他方法,Macop可以更好地與這些隊友進行協作,驗證了Macop的有效性。


      結論

      真實場景中智能體需要與各種未見隊友策略進行協作,就需要智能體在訓練階段與盡可能多樣的隊友學習。本工作第一次真正站在智能體的角度持續生成這些需要的隊友策略,如同為智能體提供一本“練級攻略”,有方向且高效率地提升自身的協作能力。

      這一算法可以應用在高頻變化的多智能體系統,也可以應用在人機交互的現實場景等,讓這些懂得協作的智能體更好地服務我們的生產與生活。


      參考文獻

[1] DJ Strouse, Kevin McKee, Matt Botvinick, Edward Hughes, and Richard Everett. 2021. Collaborating with humans without human data. In NeurIPS. 14502–14515.

[2] Lei Yuan, Lihe Li, Ziqian Zhang, Fuxiang Zhang, Cong Guan, and Yang Yu. 2023. Multi-agent Continual Coordination via Progressive Task Contextualization. 2023. preprint arXiv:2305.13937.


責任編輯:劉明德
分享到:
0
【慎重聲明】凡本站未注明來源為"大眾時報網"的所有作品,均轉載、編譯或摘編自其它媒體,轉載、編譯或摘編的目的在于傳遞更多信息,并不代表本站贊同其觀點和對其真實性負責。如因作品內容、版權和其他問題需要同本網聯系的,請在30日內進行!
網站地圖 關于我們 免責聲明 投訴建議 sitemap

未經許可任何人不得復制和鏡像,如有發現追究法律責任 粵ICP備2020138440號