AlphaGo Zero

AlphaGo Zero是谷歌下屬公司Deepmind的新版程式。

從空白狀態學起,在無任何人類輸入的條件下,AlphaGo Zero能夠迅速自學圍棋,並以100:0的戰績擊敗“前輩”。

基本介紹

  • 外文名:AlphaGo Zero
  • 研發:Deepmind
發展歷史,工作原理,戰績,

發展歷史

2017年10月19日凌晨,在國際學術期刊《自然》(Nature)上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程式AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以100:0的戰績擊敗“前輩”。Deepmind的論文一發表,TPU的銷量就可能要大增了。其100:0戰績有“造”真嫌疑。它經過3天的訓練便以100:0的戰績擊敗了他的哥哥AlphoGo Lee,經過40天的訓練便擊敗了它的另一個哥哥AlphoGo Master

工作原理

拋棄人類經驗”和“自我訓練”並非AlphaGo Zero最大的亮點,其關鍵在於採用了新的reinforcement learning(強化學習的算法),並給該算法帶了新的發展。

戰績

AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。但它以100:0的戰績擊敗前輩。

相關詞條

熱門詞條

聯絡我們