AlphaGo Zero

發展歷史

2017年10月19日凌晨，在國際學術期刊《自然》（Nature）上發表的一篇研究論文中，谷歌下屬公司Deepmind報告新版程式AlphaGo Zero：從空白狀態學起，在無任何人類輸入的條件下，它能夠迅速自學圍棋，並以100:0的戰績擊敗“前輩”。Deepmind的論文一發表，TPU的銷量就可能要大增了。其100:0戰績有“造”真嫌疑。它經過3天的訓練便以100：0的戰績擊敗了他的哥哥AlphoGo Lee，經過40天的訓練便擊敗了它的另一個哥哥AlphoGo Master

工作原理

拋棄人類經驗”和“自我訓練”並非AlphaGo Zero最大的亮點，其關鍵在於採用了新的reinforcement learning（強化學習的算法），並給該算法帶了新的發展。

戰績

AlphaGo Zero僅擁有4個TPU，零人類經驗，其自我訓練的時間僅為3天，自我對弈的棋局數量為490萬盤。但它以100:0的戰績擊敗前輩。

AlphaGo Zero

基本介紹

發展歷史

工作原理

戰績

相關詞條

熱門詞條