人工智能已經(jīng)證明,復雜的棋盤游戲和視頻游戲不再是人類思維的專屬領域 。從國際象棋到 Go 到星際爭霸,使用強化學習算法的AI 系統(tǒng)近年來的表現(xiàn)都超過了人類世界冠軍 。
但是,根據(jù)麻省理工學院林肯實驗室 AI 研究人員的一項研究,盡管 RL 代理的個人表現(xiàn)很高,但當與人類玩家配對時,它們可能會成為令人沮喪的隊友 。該研究涉及紙牌游戲Hanabi 中人類和 AI 代理之間的合作,表明相比復雜的 RL 系統(tǒng),玩家更喜歡經(jīng)典且可預測的基于規(guī)則的 AI 系統(tǒng) 。

文章插圖
該研究結(jié)果發(fā)表在 arXiv 上的一篇論文中,突出了將強化學習應用于現(xiàn)實世界情況的一些尚未探索的挑戰(zhàn),并且可能對旨在與人類合作的 AI 系統(tǒng)的未來發(fā)展產(chǎn)生重要影響 。
尋找強化學習的差距
深度強化學習是最先進的游戲機器人使用的算法,它首先為代理提供一組游戲中可能的動作、一種從環(huán)境接收反饋的機制以及要追求的目標 。然后,通過大量的游戲情節(jié),RL 代理逐漸從隨機動作轉(zhuǎn)變?yōu)閷W習可以幫助其最大化目標的動作序列 。
深度強化學習的早期研究依賴于對來自人類玩家的游戲數(shù)據(jù)進行預訓練的智能體 。最近,研究人員已經(jīng)能夠開發(fā)出 RL 代理,該代理可以在沒有人工輸入的情況下通過純粹的自我游戲從頭開始學習游戲 。
在他們的研究中,麻省理工學院林肯實驗室的研究人員有興趣了解一個超越人類的強化學習程序是否可以成為人類可靠的同事 。
“在非常高的層面上,這項工作的靈感來自以下問題:存在哪些技術差距阻止強化學習 (RL) 應用于現(xiàn)實世界的問題,而不僅僅是視頻游戲?”林肯實驗室的人工智能研究員、該論文的合著者羅斯艾倫博士告訴 TechTalks ?!半m然存在許多這樣的技術差距(例如,現(xiàn)實世界的特點是不確定性/部分可觀察性、數(shù)據(jù)稀缺性、模糊/微妙的目標、不同的決策時間尺度等),但我們認為與人類合作的必要性是在現(xiàn)實世界中應用 RL 的關鍵技術差距 ?!?
對抗與合作博弈
最近的研究主要將強化學習應用于單人游戲(例如 Atari Breakout)或?qū)剐杂螒?例如星際爭霸、圍棋),其中 AI 與人類玩家或其他游戲機器人進行較量 。
“我們認為強化學習非常適合解決人與人工智能協(xié)作中的問題,原因與強化學習在人與人工智能競爭中取得成功的原因類似,”艾倫說 ?!霸诟偁庮I域,強化學習是成功的,因為它避免了關于游戲應該如何玩的偏見和假設,而是從頭開始學習所有這些 ?!?
事實上,在某些情況下,強化系統(tǒng)已經(jīng)成功地破解了游戲并找到了連最有才華和最有經(jīng)驗的人類玩家都感到困惑的技巧 。一個著名的例子是 DeepMind 的 AlphaGo 在與圍棋世界冠軍李世石的比賽中做出的舉動 。分析人士首先認為此舉是錯誤的,因為它違背了人類專家的直覺 。但同樣的舉動最終扭轉(zhuǎn)了局勢,有利于 AI 玩家并擊敗了世石 。艾倫認為,當 RL 與人類合作時,同樣的獨創(chuàng)性也會發(fā)揮作用 。
“我們認為,通過避免基于規(guī)則的專家系統(tǒng)的先入為主的假設和偏見,可以利用 RL 來推進人類與人工智能協(xié)作的最新水平,”艾倫說 。
在他們的實驗中,研究人員選擇了 Hanabi,這是一種紙牌游戲,其中 2 到 5 名玩家必須合作以特定順序打牌 。Hanabi 特別有趣,因為它雖然簡單,但也是一個充分合作和信息有限的游戲 。玩家必須將他們的牌向后拿,不能看到他們的臉 。因此,每個玩家都可以看到他們隊友的卡片的面孔 。玩家可以使用有限數(shù)量的代幣來為彼此提供有關他們所持牌的線索 。玩家必須利用他們在隊友手上看到的信息以及他們對自己手牌的有限提示來制定獲勝策略 。
以上關于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關的問題,請您及時就醫(yī)或請專業(yè)人士給予相關指導!
「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對您有所幫助:- 優(yōu)質(zhì)邊坡防護網(wǎng):智能家居服務公司Plume獲得軟銀3億美元的支持
- 優(yōu)質(zhì)邊坡防護網(wǎng):企業(yè)使用人工智能預測現(xiàn)金流量有望增長450%
- 優(yōu)質(zhì)邊坡防護網(wǎng):借助這5個功能 更酷的WhatsApp來到您的手機
- 優(yōu)質(zhì)邊坡防護網(wǎng):Twitter以10億美元將移動廣告部門MoPub出售給AppLovin
- 優(yōu)質(zhì)邊坡防護網(wǎng):WhatsApp的新設置可讓您讓特定用戶看到您的個人資料照片
- 優(yōu)質(zhì)邊坡防護網(wǎng):Windows 11安裝錯誤擊中用戶;檢查如何修復錯誤
- 優(yōu)質(zhì)邊坡防護網(wǎng):WhatsApp測試版在iOS上測試端到端加密聊天備份
- 優(yōu)質(zhì)邊坡防護網(wǎng):Instagram視頻標簽:現(xiàn)在在IGTV合并時觀看60分鐘的剪輯
- 優(yōu)質(zhì)邊坡防護網(wǎng):Facebook中斷后數(shù)百萬人涌向Signal和Telegram
- 優(yōu)質(zhì)邊坡防護網(wǎng):WhatsApp全球語音信息播放器即將到來您的手機
