人妻无码人妻有码中文字幕在线,国产欧美日韩国产第一区,亚洲中文字幕久久精品蜜桃

“在追求現(xiàn)實(shí)世界的問題時(shí)，我們必須從簡單開始，”艾倫說 ?！耙虼耍覀儗Ｗ⒂?Hanabi 的基準(zhǔn)協(xié)作游戲。”

近年來，多個(gè)研究團(tuán)隊(duì)探索了可以玩花的人工智能機(jī)器人的開發(fā) 。其中一些代理使用符號(hào) AI，工程師預(yù)先提供游戲規(guī)則，而其他代理則使用強(qiáng)化學(xué)習(xí) 。

人工智能系統(tǒng)根據(jù)它們在自我游戲(代理玩自己的副本)、交叉游戲(代理與其他類型的代理合作)和人類游戲(代理合作)中的表現(xiàn)進(jìn)行評級(jí)與人) 。

研究人員寫道：“與人類的交叉游戲，稱為人類游戲，特別重要，因?yàn)樗饬咳藱C(jī)合作，并且是我們論文中實(shí)驗(yàn)的基礎(chǔ) ?！?

為了測試人與人工智能合作的效率，研究人員使用了智能機(jī)器人(SmartBot)，這是自我游戲中表現(xiàn)最佳的基于規(guī)則的人工智能系統(tǒng)，以及其他游戲，一種在交叉游戲和人類游戲中排名最高的 RL 中的 Hanabi 機(jī)器人算法。

“這項(xiàng)工作直接擴(kuò)展了先前在 RL 方面的工作，用于訓(xùn)練 Hanabi 代理。我們特別研究了來自 Jakob Foerster 實(shí)驗(yàn)室的“Other Play”強(qiáng)化學(xué)習(xí)代理，”艾倫說 ?！霸摯淼挠?xùn)練方式使其特別適合與在培訓(xùn)期間未遇到的其他代理合作。當(dāng)它與其他在訓(xùn)練中沒有遇到過的人工智能合作時(shí)，它在 Hanabi 中產(chǎn)生了最先進(jìn)的性能。”

人機(jī)合作

在實(shí)驗(yàn)中，人類參與者與 AI 隊(duì)友玩了幾款 Hanabi 游戲。玩家接觸了 SmartBot 和其他游戲，但沒有被告知幕后工作的算法。

研究人員根據(jù)客觀和主觀指標(biāo)評估了人與人工智能合作的水平。客觀指標(biāo)包括分?jǐn)?shù)、錯(cuò)誤率等。主觀指標(biāo)包括人類玩家的體驗(yàn)，包括他們對 AI 隊(duì)友的信任度和舒適度，以及他們理解 AI 動(dòng)機(jī)和預(yù)測其行為的能力。

兩個(gè)AI代理的客觀表現(xiàn)沒有顯著差異。但是研究人員希望人類玩家對其他游戲有更積極的主觀體驗(yàn)，因?yàn)樗呀?jīng)被訓(xùn)練為與自身以外的代理合作。

“我們的結(jié)果讓我們感到驚訝，因?yàn)槿祟悈⑴c者對與其他游戲代理合作的反應(yīng)非常強(qiáng)烈。簡而言之，他們討厭它，”艾倫說。

根據(jù)參與者的調(diào)查，與基于規(guī)則的 SmartBot 代理相比，經(jīng)驗(yàn)豐富的 Hanabi 玩家對其他游戲 RL 算法的體驗(yàn)較差。Hanabi 成功的關(guān)鍵點(diǎn)之一是向其他玩家提供微妙提示的技巧。例如，假設(shè)“方格之一”牌放在桌子上，你的隊(duì)友手里拿著兩個(gè)方格。通過指著這張牌說“這是一張二”或“這是一張正方形”，你是在暗示你的隊(duì)友打出那張牌，而沒有告訴他關(guān)于這張牌的完整信息。一個(gè)有經(jīng)驗(yàn)的玩家會(huì)立即抓住這個(gè)提示。但事實(shí)證明，向 AI 隊(duì)友提供相同類型的信息要困難得多。

“我給了他信息，他只是把它扔掉，”一名參與者在對其他球員的經(jīng)紀(jì)人感到沮喪后說道，據(jù)該報(bào)稱。另一個(gè)說，“在這一點(diǎn)上，我不知道重點(diǎn)是什么 ?！?

有趣的是，Other-Play 旨在避免創(chuàng)建“秘密”約定，這是 RL 代理在僅通過自我對弈時(shí)制定的。這使得 Other-Play 成為不屬于其訓(xùn)練制度一部分的 AI 算法的最佳隊(duì)友。但研究人員指出，它仍然對遇到的隊(duì)友類型有假設(shè) 。

“值得注意的是，[Other-Play] 假設(shè)隊(duì)友也針對零射擊協(xié)調(diào)進(jìn)行了優(yōu)化。相比之下，人類 Hanabi 玩家通常不會(huì)根據(jù)這種假設(shè)進(jìn)行學(xué)習(xí) 。賽前約定設(shè)置和賽后評論是人類 Hanabi 玩家的常見做法，這使人類學(xué)習(xí)更類似于少拍協(xié)調(diào)，”研究人員在他們的論文中指出。

對未來人工智能系統(tǒng)的影響

“我們目前的研究結(jié)果表明，在與人工智能合作時(shí)，僅人工智能的客觀任務(wù)表現(xiàn)(我們在論文中稱為‘自我游戲’和‘交叉游戲’)可能與人類的信任和偏好無關(guān)，”艾倫說過 ?！斑@就提出了一個(gè)問題：什么樣的客觀指標(biāo)做關(guān)聯(lián)到人的主觀偏好?鑒于訓(xùn)練基于 RL 的代理需要大量數(shù)據(jù)，在循環(huán)中與人類一起訓(xùn)練是站不住腳的。因此，如果我們想訓(xùn)練被人類合作者接受和重視的 AI 代理，我們可能需要找到可訓(xùn)練的目標(biāo)函數(shù)，這些目標(biāo)函數(shù)可以作為人類偏好的替代品，或與人類偏好密切相關(guān) ?！?

以上關(guān)于本文的內(nèi)容，僅作參考！溫馨提示：如遇健康、疾病相關(guān)的問題，請您及時(shí)就醫(yī)或請專業(yè)人士給予相關(guān)指導(dǎo)!

「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容，希望對您有所幫助：

優(yōu)質(zhì)邊坡防護(hù)網(wǎng)：麻省理工學(xué)院的研究發(fā)現(xiàn)人類在與RL代理合作時(shí)會(huì)掙扎( 二 )