“在追求現(xiàn)實(shí)世界的問題時(shí),我們必須從簡單開始,”艾倫說 ?!耙虼耍覀儗W⒂?Hanabi 的基準(zhǔn)協(xié)作游戲 。”
近年來,多個(gè)研究團(tuán)隊(duì)探索了可以玩花的人工智能機(jī)器人的開發(fā) 。其中一些代理使用符號(hào) AI,工程師預(yù)先提供游戲規(guī)則,而其他代理則使用強(qiáng)化學(xué)習(xí) 。
人工智能系統(tǒng)根據(jù)它們在自我游戲(代理玩自己的副本)、交叉游戲(代理與其他類型的代理合作)和人類游戲(代理合作)中的表現(xiàn)進(jìn)行評級(jí)與人) 。
研究人員寫道:“與人類的交叉游戲,稱為人類游戲,特別重要,因?yàn)樗饬咳藱C(jī)合作,并且是我們論文中實(shí)驗(yàn)的基礎(chǔ) ?!?
為了測試人與人工智能合作的效率,研究人員使用了智能機(jī)器人(SmartBot),這是自我游戲中表現(xiàn)最佳的基于規(guī)則的人工智能系統(tǒng),以及其他游戲,一種在交叉游戲和人類游戲中排名最高的 RL 中的 Hanabi 機(jī)器人算法 。
“這項(xiàng)工作直接擴(kuò)展了先前在 RL 方面的工作,用于訓(xùn)練 Hanabi 代理 。我們特別研究了來自 Jakob Foerster 實(shí)驗(yàn)室的“Other Play”強(qiáng)化學(xué)習(xí)代理,”艾倫說 ?!霸摯淼挠?xùn)練方式使其特別適合與在培訓(xùn)期間未遇到的其他代理合作 。當(dāng)它與其他在訓(xùn)練中沒有遇到過的人工智能合作時(shí),它在 Hanabi 中產(chǎn)生了最先進(jìn)的性能 。”
人機(jī)合作
在實(shí)驗(yàn)中,人類參與者與 AI 隊(duì)友玩了幾款 Hanabi 游戲 。玩家接觸了 SmartBot 和其他游戲,但沒有被告知幕后工作的算法 。
研究人員根據(jù)客觀和主觀指標(biāo)評估了人與人工智能合作的水平 。客觀指標(biāo)包括分?jǐn)?shù)、錯(cuò)誤率等 。主觀指標(biāo)包括人類玩家的體驗(yàn),包括他們對 AI 隊(duì)友的信任度和舒適度,以及他們理解 AI 動(dòng)機(jī)和預(yù)測其行為的能力 。
兩個(gè)AI代理的客觀表現(xiàn)沒有顯著差異 。但是研究人員希望人類玩家對其他游戲有更積極的主觀體驗(yàn),因?yàn)樗呀?jīng)被訓(xùn)練為與自身以外的代理合作 。
“我們的結(jié)果讓我們感到驚訝,因?yàn)槿祟悈⑴c者對與其他游戲代理合作的反應(yīng)非常強(qiáng)烈 。簡而言之,他們討厭它,”艾倫說 。
根據(jù)參與者的調(diào)查,與基于規(guī)則的 SmartBot 代理相比,經(jīng)驗(yàn)豐富的 Hanabi 玩家對其他游戲 RL 算法的體驗(yàn)較差 。Hanabi 成功的關(guān)鍵點(diǎn)之一是向其他玩家提供微妙提示的技巧 。例如,假設(shè)“方格之一”牌放在桌子上,你的隊(duì)友手里拿著兩個(gè)方格 。通過指著這張牌說“這是一張二”或“這是一張正方形”,你是在暗示你的隊(duì)友打出那張牌,而沒有告訴他關(guān)于這張牌的完整信息 。一個(gè)有經(jīng)驗(yàn)的玩家會(huì)立即抓住這個(gè)提示 。但事實(shí)證明,向 AI 隊(duì)友提供相同類型的信息要困難得多 。
“我給了他信息,他只是把它扔掉,”一名參與者在對其他球員的經(jīng)紀(jì)人感到沮喪后說道,據(jù)該報(bào)稱 。另一個(gè)說,“在這一點(diǎn)上,我不知道重點(diǎn)是什么 ?!?
有趣的是,Other-Play 旨在避免創(chuàng)建“秘密”約定,這是 RL 代理在僅通過自我對弈時(shí)制定的 。這使得 Other-Play 成為不屬于其訓(xùn)練制度一部分的 AI 算法的最佳隊(duì)友 。但研究人員指出,它仍然對遇到的隊(duì)友類型有假設(shè) 。
“值得注意的是,[Other-Play] 假設(shè)隊(duì)友也針對零射擊協(xié)調(diào)進(jìn)行了優(yōu)化 。相比之下,人類 Hanabi 玩家通常不會(huì)根據(jù)這種假設(shè)進(jìn)行學(xué)習(xí) 。賽前約定設(shè)置和賽后評論是人類 Hanabi 玩家的常見做法,這使人類學(xué)習(xí)更類似于少拍協(xié)調(diào),”研究人員在他們的論文中指出 。
對未來人工智能系統(tǒng)的影響
“我們目前的研究結(jié)果表明,在與人工智能合作時(shí),僅人工智能的客觀任務(wù)表現(xiàn)(我們在論文中稱為‘自我游戲’和‘交叉游戲’)可能與人類的信任和偏好無關(guān),”艾倫說過 ?!斑@就提出了一個(gè)問題:什么樣的客觀指標(biāo)做關(guān)聯(lián)到人的主觀偏好?鑒于訓(xùn)練基于 RL 的代理需要大量數(shù)據(jù),在循環(huán)中與人類一起訓(xùn)練是站不住腳的 。因此,如果我們想訓(xùn)練被人類合作者接受和重視的 AI 代理,我們可能需要找到可訓(xùn)練的目標(biāo)函數(shù),這些目標(biāo)函數(shù)可以作為人類偏好的替代品,或與人類偏好密切相關(guān) ?!?
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問題,請您及時(shí)就醫(yī)或請專業(yè)人士給予相關(guān)指導(dǎo)!
「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對您有所幫助:- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):智能家居服務(wù)公司Plume獲得軟銀3億美元的支持
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):企業(yè)使用人工智能預(yù)測現(xiàn)金流量有望增長450%
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):借助這5個(gè)功能 更酷的WhatsApp來到您的手機(jī)
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):Twitter以10億美元將移動(dòng)廣告部門MoPub出售給AppLovin
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):WhatsApp的新設(shè)置可讓您讓特定用戶看到您的個(gè)人資料照片
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):Windows 11安裝錯(cuò)誤擊中用戶;檢查如何修復(fù)錯(cuò)誤
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):WhatsApp測試版在iOS上測試端到端加密聊天備份
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):Instagram視頻標(biāo)簽:現(xiàn)在在IGTV合并時(shí)觀看60分鐘的剪輯
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):Facebook中斷后數(shù)百萬人涌向Signal和Telegram
- 優(yōu)質(zhì)邊坡防護(hù)網(wǎng):WhatsApp全球語音信息播放器即將到來您的手機(jī)
