新科技

德?lián)銩I來華掀起人機(jī)大戰(zhàn)？化名“冷撲大師”由李開復(fù)牽線

新浪科技 2017-03-24 13:27:05

即便在AlphaGo之后，AI擊敗人類已經(jīng)不再是什么新聞，但人工智能在德州撲克上擊敗人類，這其中的難度和信息量不可小覷。

新浪科技李根

3月24日下午消息，新浪科技今日獨(dú)家獲悉，卡耐基梅隆大學(xué)（Carnegie Mellon University，以下簡稱CMU）開發(fā)的德?lián)淙斯ぶ悄艹绦騆ibratus，將在4月來到中國，與中國德?lián)渫婕疫M(jìn)行德?lián)浣绲?ldquo;人機(jī)大戰(zhàn)”。

新浪科技還獲悉，這款CMU開發(fā)的名為Libratus的德?lián)涑绦?，將?ldquo;冷撲大師”的譯名挑戰(zhàn)中國德?lián)涓呤?，而這場挑戰(zhàn)賽的發(fā)起者，正是CMU校友、創(chuàng)新工場創(chuàng)始人李開復(fù)。

新浪科技也就此向創(chuàng)新工場做了進(jìn)一步求證，但對方表示不予置評。

Libratus曾碾壓人類高手贏200萬美元

實際上，Libratus并非初出茅廬的毛頭“程序”。在今年春節(jié)期間，Libratus就已經(jīng)在賓夕法尼亞州匹茲堡的Rivers賭場，將4位人類職業(yè)玩家挑落馬下，并且奪走了共計176萬美元的獎金。

當(dāng)時，美國東部時間1月30日，CMU開發(fā)的 Libratus與四名人類職業(yè)玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 約戰(zhàn)賓夕法尼亞州匹茲堡的Rivers賭場，并在持續(xù)20天的比賽時間中，對玩 12 萬手，最后 Libratus贏走了總數(shù)200萬美元獎金中的176萬美元。

值得注意的是，與Libratus對戰(zhàn)的都是德?lián)渎殬I(yè)玩家中的高手。比如其中的Dong Kim，還在2年前在同一個賭場擊敗了這個人工智能的前身，但在這場為期二十天的比賽剛剛過半之時，Kim就直言：人類已經(jīng)沒有真正獲勝的機(jī)會。

Libratus的這場人機(jī)大戰(zhàn)中的勝利，也迅速引發(fā)關(guān)注。即便在AlphaGo之后，AI擊敗人類已經(jīng)不再是什么新聞，但人工智能在德州撲克上擊敗人類，這其中的難度和信息量不可小覷。

AI玩德?lián)錇楹坞y？

利用人工智能程序玩德?lián)?，最大的難度在于“不完整信息博弈”。因為玩德州撲克需要推理能力，而這對于機(jī)器來說很難模仿。雖然人工智能在跳棋、象棋乃至圍棋比賽中，已經(jīng)完勝人類對手，但無限注德州撲克是一個完全不同的情況。

此前據(jù)AI新媒體《量子位》報道，由于一些卡牌并沒有發(fā)出來，在德州撲克的對局里，任意時間，任何一個玩家，都只能觀察到一部分的情況。要贏，他們需要直覺：一種猜測其他玩家手上是什么牌的能力。而且還要考慮到對手每一種可能的打法，想得到理想的戰(zhàn)略非常困難。而

現(xiàn)實世界中，不完美信息才是常態(tài)，各種看不見的隱藏信息產(chǎn)生了大量的不確定性，而德州撲克代表的就是這種類型的博弈。在圍棋界縱橫無敵的AlphaGo，本質(zhì)上處理的還是完美信息博弈，而AlphaGo無法處理德州撲克的問題，更遑論使出詐唬。

新浪科技則了解到，為了解決“不完整信息博弈”這種計算機(jī)難題，CMU 的人工智能研究者們專注于信息集，通過同時思考未知和已知變量各種可能狀態(tài)的方式來進(jìn)行預(yù)測，這需要強(qiáng)大的計算能力。

在計算能力方面，CMU主要依賴于Bridges Super Computer超級計算機(jī)。每個牌局結(jié)束后的夜晚，匹茲堡市超級計算中心Bridges電腦執(zhí)行計算，用以優(yōu)化Libratus的策略。而在白天的比賽過程中，Bridges用于計算每一手的終結(jié)游戲策略，Bridges提供三種類型的計算選項，稱為節(jié)點(diǎn)：常規(guī)、大型和超大型。Bridges不是當(dāng)今世界最大、最快、最強(qiáng)勁的超級計算機(jī)，但它可能是面向公眾開放的，最大、最快、最強(qiáng)勁的超級計算機(jī)，在Bridges的幫助下，原本在個人電腦上耗時數(shù)月的計算，僅僅幾個小時就搞定。

此外，在計算能力保障的基礎(chǔ)上，CMU在具體技術(shù)應(yīng)用方面，用到了區(qū)別于AlphaGo的方法。CMU方面曾披露稱，Libratus沒有用到專業(yè)的牌局進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，不同于AlphaGo用了大量的棋局做訓(xùn)練，這個模型用的是隨機(jī)生成的牌局（隨機(jī)產(chǎn)生公共牌、底池籌碼、玩家拿牌概率）和嘗試性的動作帶來的結(jié)果（在隨機(jī)生成的輸入情況下模擬玩家跟牌后的結(jié)果）作為訓(xùn)練數(shù)據(jù)。

Libratus 還利用了博弈論，與AlphaGo不同，Libratus系統(tǒng)不通過分析大量可能的下一步完成任務(wù)，這個 CMU 構(gòu)建的新系統(tǒng)通過平衡風(fēng)險與收益來決定自己的下一步，在納什均衡定義中的完美游戲狀態(tài)。

最后，在具體操作上，Libratus分三步走。第一階段，Libratus通過名為反事實遺憾最小化（counterfactual regret minimization）的算法，在經(jīng)過訓(xùn)練之后獨(dú)立于人的玩法形成自己的策略。第二階段，第二個系統(tǒng)屬于一種“殘局解算器”。它可以分析游戲狀態(tài)并聚焦于第一套系統(tǒng)的注意力，使人工智能在比賽過程中也能進(jìn)行學(xué)習(xí)。第三階段，Libratus會借助Brown，運(yùn)用一個算法來識別出那些被玩家利用的機(jī)器玩法，然后從策略中剔除掉。

贏了人類又怎樣？

當(dāng)然，人工智能程序Libratus在德?lián)溱A了人類，還不止于會改變德州撲克發(fā)展歷程這么簡單。跟AlphaGo一樣，它很容易應(yīng)用到其他領(lǐng)域，并且更加有效且快速地解決人類難題。

因為玩德州撲克需要推理能力和心理戰(zhàn)術(shù)，而這對于機(jī)器來說很難模仿。在圍棋界縱橫無敵的DeepMind AlphaGo本質(zhì)上處理的還是完美信息博弈，無法處理德州撲克的不完美信息問題，更遑論使出詐唬（Bluffing）。

而Libratus的例子說明，AI在面臨不完全或誤導(dǎo)信息時，已經(jīng)有進(jìn)行推論的能力?，F(xiàn)實世界中，不完美信息才是常態(tài)，各種看不見的隱藏信息產(chǎn)生了大量的不確定性，而德州撲克代表的就是這種類型的博弈。

所以在未來，Libratus這樣的AI，可以用于商業(yè)談判、網(wǎng)絡(luò)安全、醫(yī)療方案制定等領(lǐng)域。

而人工智能發(fā)展的終極目標(biāo)，很可能會產(chǎn)生一個通用人工智能（AGI）。通用人工智能可以解決任何一個問題，而不是像Libratus或者AlphaGo這樣只能專注于撲克或者圍棋。想要實現(xiàn)AGI就得讓人工智能學(xué)會解決不確定性問題，這也是Libratus讓科技界、科學(xué)界興奮不已的最主要原因。

為何還要在中國掀起“人機(jī)大戰(zhàn)”？

不過，既然Libratus已經(jīng)在正式比賽中戰(zhàn)勝了頂級職業(yè)玩家，為何還要專門來到中國掀起“人機(jī)大戰(zhàn)”？更何況德州撲克跟圍棋還不一樣，中國并非德?lián)涞娜A山之巔。

新浪科技希望就此向創(chuàng)新工場咨詢，但對方并未對此作出回應(yīng)。

不過新浪科技有可靠渠道和可信資料證明，把CMU的德?lián)涑绦騆ibratus帶進(jìn)中國的，正是CMU的知名校友、現(xiàn)創(chuàng)新工場創(chuàng)始人：李開復(fù)。

值得一提的是，李開復(fù)還專門為“Libratus”取了中文名——冷撲大師。

新浪科技獨(dú)家獲悉的資料顯示，李開復(fù)作為發(fā)起人，將在海南舉辦一場“人機(jī)撲克華人巔峰表演賽”，人類代表方面將由前人人網(wǎng)高管、2016德州撲克賽冠軍，WSOP鏈獲得者杜悅領(lǐng)攜，取名“龍之隊”。與在匹茲堡進(jìn)行的人機(jī)德?lián)浯髴?zhàn)一樣，本次比賽也有專門獎金，總額200萬元。

至于為何是李開復(fù)和創(chuàng)新工場作為主辦方？有接近創(chuàng)新工場方面的人士向新浪科技分析稱，首先CMU是李開復(fù)的母校，也是CMU在中國最為知名的代表；其次創(chuàng)新工場主辦此事，可能還與其目前在人工智能領(lǐng)域的布局有關(guān)，去年年底，創(chuàng)新工場正式成立了創(chuàng)新工場人工智能工程院，并且希望進(jìn)一步提升知名度攬獲更多的AI人才；值得一提的是，李開復(fù)是創(chuàng)投圈內(nèi)知名的德?lián)溥x手，之前先后發(fā)起并參與了首屆投資界撲克賽和中國創(chuàng)投名人賽，甚至還吸引了娛樂明星汪峰等參加。

此外，新浪科技還獲悉，在此次人機(jī)撲克大賽期間，Libratus開發(fā)者卡內(nèi)基（CMU）學(xué)教授也將同步來華進(jìn)行交流。

有趣的是，在新浪科技獲悉的資料上，表演賽選手名單中包括李開復(fù)、沈南鵬、倪正東、吳世春、王小川、許朝軍等科技創(chuàng)投人士，也有許家印、朱曄等企業(yè)家，還包括王思聰、汪峰、和華少等娛樂圈焦點(diǎn)人物。

然而截至發(fā)稿前，創(chuàng)新工場方面并未對此發(fā)表回應(yīng)和說明。

責(zé)編盧祥勇

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

新浪科技李根 3月24日下午消息，新浪科技今日獨(dú)家獲悉，卡耐基梅隆大學(xué)（CarnegieMellonUniversity，以下簡稱CMU）開發(fā)的德?lián)淙斯ぶ悄艹绦騆ibratus，將在4月來到中國，與中國德?lián)渫婕疫M(jìn)行德?lián)浣绲摹叭藱C(jī)大戰(zhàn)”。新浪科技還獲悉，這款CMU開發(fā)的名為Libratus的德?lián)涑绦颍瑢⒁浴袄鋼浯髱煛钡淖g名挑戰(zhàn)中國德?lián)涓呤?，而這場挑戰(zhàn)賽的發(fā)起者，正是CMU校友、創(chuàng)新工場創(chuàng)始人李開復(fù)。新浪科技也就此向創(chuàng)新工場做了進(jìn)一步求證，但對方表示不予置評。 Libratus曾碾壓人類高手贏200萬美元實際上，Libratus并非初出茅廬的毛頭“程序”。在今年春節(jié)期間，Libratus就已經(jīng)在賓夕法尼亞州匹茲堡的Rivers賭場，將4位人類職業(yè)玩家挑落馬下，并且奪走了共計176萬美元的獎金。當(dāng)時，美國東部時間1月30日，CMU開發(fā)的Libratus與四名人類職業(yè)玩家JasonLes、DongKim、DanielMcAulay和JimmyChou約戰(zhàn)賓夕法尼亞州匹茲堡的Rivers賭場，并在持續(xù)20天的比賽時間中，對玩12萬手，最后Libratus贏走了總數(shù)200萬美元獎金中的176萬美元。值得注意的是，與Libratus對戰(zhàn)的都是德?lián)渎殬I(yè)玩家中的高手。比如其中的DongKim，還在2年前在同一個賭場擊敗了這個人工智能的前身，但在這場為期二十天的比賽剛剛過半之時，Kim就直言：人類已經(jīng)沒有真正獲勝的機(jī)會。 Libratus的這場人機(jī)大戰(zhàn)中的勝利，也迅速引發(fā)關(guān)注。即便在AlphaGo之后，AI擊敗人類已經(jīng)不再是什么新聞，但人工智能在德州撲克上擊敗人類，這其中的難度和信息量不可小覷。 AI玩德?lián)錇楹坞y？利用人工智能程序玩德?lián)?，最大的難度在于“不完整信息博弈”。因為玩德州撲克需要推理能力，而這對于機(jī)器來說很難模仿。雖然人工智能在跳棋、象棋乃至圍棋比賽中，已經(jīng)完勝人類對手，但無限注德州撲克是一個完全不同的情況。此前據(jù)AI新媒體《量子位》報道，由于一些卡牌并沒有發(fā)出來，在德州撲克的對局里，任意時間，任何一個玩家，都只能觀察到一部分的情況。要贏，他們需要直覺：一種猜測其他玩家手上是什么牌的能力。而且還要考慮到對手每一種可能的打法，想得到理想的戰(zhàn)略非常困難。而現(xiàn)實世界中，不完美信息才是常態(tài)，各種看不見的隱藏信息產(chǎn)生了大量的不確定性，而德州撲克代表的就是這種類型的博弈。在圍棋界縱橫無敵的AlphaGo，本質(zhì)上處理的還是完美信息博弈，而AlphaGo無法處理德州撲克的問題，更遑論使出詐唬。新浪科技則了解到，為了解決“不完整信息博弈”這種計算機(jī)難題，CMU的人工智能研究者們專注于信息集，通過同時思考未知和已知變量各種可能狀態(tài)的方式來進(jìn)行預(yù)測，這需要強(qiáng)大的計算能力。在計算能力方面，CMU主要依賴于BridgesSuperComputer超級計算機(jī)。每個牌局結(jié)束后的夜晚，匹茲堡市超級計算中心Bridges電腦執(zhí)行計算，用以優(yōu)化Libratus的策略。而在白天的比賽過程中，Bridges用于計算每一手的終結(jié)游戲策略，Bridges提供三種類型的計算選項，稱為節(jié)點(diǎn)：常規(guī)、大型和超大型。Bridges不是當(dāng)今世界最大、最快、最強(qiáng)勁的超級計算機(jī)，但它可能是面向公眾開放的，最大、最快、最強(qiáng)勁的超級計算機(jī)，在Bridges的幫助下，原本在個人電腦上耗時數(shù)月的計算，僅僅幾個小時就搞定。此外，在計算能力保障的基礎(chǔ)上，CMU在具體技術(shù)應(yīng)用方面，用到了區(qū)別于AlphaGo的方法。CMU方面曾披露稱，Libratus沒有用到專業(yè)的牌局進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，不同于AlphaGo用了大量的棋局做訓(xùn)練，這個模型用的是隨機(jī)生成的牌局（隨機(jī)產(chǎn)生公共牌、底池籌碼、玩家拿牌概率）和嘗試性的動作帶來的結(jié)果（在隨機(jī)生成的輸入情況下模擬玩家跟牌后的結(jié)果）作為訓(xùn)練數(shù)據(jù)。 Libratus還利用了博弈論，與AlphaGo不同，Libratus系統(tǒng)不通過分析大量可能的下一步完成任務(wù)，這個CMU構(gòu)建的新系統(tǒng)通過平衡風(fēng)險與收益來決定自己的下一步，在納什均衡定義中的完美游戲狀態(tài)。最后，在具體操作上，Libratus分三步走。第一階段，Libratus通過名為反事實遺憾最小化（counterfactualregretminimization）的算法，在經(jīng)過訓(xùn)練之后獨(dú)立于人的玩法形成自己的策略。第二階段，第二個系統(tǒng)屬于一種“殘局解算器”。它可以分析游戲狀態(tài)并聚焦于第一套系統(tǒng)的注意力，使人工智能在比賽過程中也能進(jìn)行學(xué)習(xí)。第三階段，Libratus會借助Brown，運(yùn)用一個算法來識別出那些被玩家利用的機(jī)器玩法，然后從策略中剔除掉。贏了人類又怎樣？當(dāng)然，人工智能程序Libratus在德?lián)溱A了人類，還不止于會改變德州撲克發(fā)展歷程這么簡單。跟AlphaGo一樣，它很容易應(yīng)用到其他領(lǐng)域，并且更加有效且快速地解決人類難題。因為玩德州撲克需要推理能力和心理戰(zhàn)術(shù)，而這對于機(jī)器來說很難模仿。在圍棋界縱橫無敵的DeepMindAlphaGo本質(zhì)上處理的還是完美信息博弈，無法處理德州撲克的不完美信息問題，更遑論使出詐唬（Bluffing）。而Libratus的例子說明，AI在面臨不完全或誤導(dǎo)信息時，已經(jīng)有進(jìn)行推論的能力?，F(xiàn)實世界中，不完美信息才是常態(tài)，各種看不見的隱藏信息產(chǎn)生了大量的不確定性，而德州撲克代表的就是這種類型的博弈。所以在未來，Libratus這樣的AI，可以用于商業(yè)談判、網(wǎng)絡(luò)安全、醫(yī)療方案制定等領(lǐng)域。而人工智能發(fā)展的終極目標(biāo)，很可能會產(chǎn)生一個通用人工智能（AGI）。通用人工智能可以解決任何一個問題，而不是像Libratus或者AlphaGo這樣只能專注于撲克或者圍棋。想要實現(xiàn)AGI就得讓人工智能學(xué)會解決不確定性問題，這也是Libratus讓科技界、科學(xué)界興奮不已的最主要原因。為何還要在中國掀起“人機(jī)大戰(zhàn)”？不過，既然Libratus已經(jīng)在正式比賽中戰(zhàn)勝了頂級職業(yè)玩家，為何還要專門來到中國掀起“人機(jī)大戰(zhàn)”？更何況德州撲克跟圍棋還不一樣，中國并非德?lián)涞娜A山之巔。新浪科技希望就此向創(chuàng)新工場咨詢，但對方并未對此作出回應(yīng)。不過新浪科技有可靠渠道和可信資料證明，把CMU的德?lián)涑绦騆ibratus帶進(jìn)中國的，正是CMU的知名校友、現(xiàn)創(chuàng)新工場創(chuàng)始人：李開復(fù)。值得一提的是，李開復(fù)還專門為“Libratus”取了中文名——冷撲大師。新浪科技獨(dú)家獲悉的資料顯示，李開復(fù)作為發(fā)起人，將在海南舉辦一場“人機(jī)撲克華人巔峰表演賽”，人類代表方面將由前人人網(wǎng)高管、2016德州撲克賽冠軍，WSOP鏈獲得者杜悅領(lǐng)攜，取名“龍之隊”。與在匹茲堡進(jìn)行的人機(jī)德?lián)浯髴?zhàn)一樣，本次比賽也有專門獎金，總額200萬元。至于為何是李開復(fù)和創(chuàng)新工場作為主辦方？有接近創(chuàng)新工場方面的人士向新浪科技分析稱，首先CMU是李開復(fù)的母校，也是CMU在中國最為知名的代表；其次創(chuàng)新工場主辦此事，可能還與其目前在人工智能領(lǐng)域的布局有關(guān)，去年年底，創(chuàng)新工場正式成立了創(chuàng)新工場人工智能工程院，并且希望進(jìn)一步提升知名度攬獲更多的AI人才；值得一提的是，李開復(fù)是創(chuàng)投圈內(nèi)知名的德?lián)溥x手，之前先后發(fā)起并參與了首屆投資界撲克賽和中國創(chuàng)投名人賽，甚至還吸引了娛樂明星汪峰等參加。此外，新浪科技還獲悉，在此次人機(jī)撲克大賽期間，Libratus開發(fā)者卡內(nèi)基（CMU）學(xué)教授也將同步來華進(jìn)行交流。有趣的是，在新浪科技獲悉的資料上，表演賽選手名單中包括李開復(fù)、沈南鵬、倪正東、吳世春、王小川、許朝軍等科技創(chuàng)投人士，也有許家印、朱曄等企業(yè)家，還包括王思聰、汪峰、和華少等娛樂圈焦點(diǎn)人物。然而截至發(fā)稿前，創(chuàng)新工場方面并未對此發(fā)表回應(yīng)和說明。

德州撲克人工智能冷撲大師李開復(fù)

上一篇文章

章澤天：和劉強(qiáng)東分工明確京東以外都我說了算

返回每經(jīng)網(wǎng)首頁

下一篇文章

輝山乳業(yè)暴跌85%停牌！傳賬上30億資金被挪用，公司正在核查！

熱文精選