⑴ alphago 用到 什麼 演算法
AlphaGo依靠精確的專家評估系統(value network)、基於海量數據的深度神經網路(policy network),及傳統的人工智慧方法蒙特卡洛樹搜索的組合,以及可以通過左右互搏提高自己的水平,這個真的是有的恐怖了有木有。李世石九段固然厲害,可人類畢竟是動物,機器軟體程序是無休止的工作,這一點也是客觀因素了。圍棋九段李世石目前已經一比三了落後alphago了,還有一場15日今天的比賽可以關注一下(比賽規定即使是在分出勝負的情況下,也要下滿五局)。
⑵ 孟凡利為何AlphaGo Zero如此成功
AlphaGo為什麼這么厲害
AlphaGo這個系統主要由幾個部分組成:
走棋網路(Policy Network),給定當前局面,預測/采樣下一步的走棋。
快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質量的條件下,速度要比1快1000倍。
估值網路(Value Network),給定當前局面,估計是白勝還是黑勝。
蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統。
我們的DarkForest和AlphaGo同樣是用4搭建的系統。DarkForest較AlphaGo而言,在訓練時加強了1,而少了2和3,然後以開源軟體Pachi的預設策略 (default policy)部分替代了2的功能。以下介紹下各部分。
1、走棋網路
走棋網路把當前局面作為輸入,預測/采樣下一步的走棋。它的預測不只給出最強的一手,而是對棋盤上所有可能的下一著給一個分數。棋盤上有361個點,它就給出361個數,好招的分數比壞招要高。
DarkForest在這部分有創新,通過在訓練時預測三步而非一步,提高了策略輸出的質量,和他們在使用增強學習進行自我對局後得到的走棋網路(RL network)的效果相當。當然,他們並沒有在最後的系統中使用增強學習後的網路,而是用了直接通過訓練學習到的網路(SL network),理由是RL network輸出的走棋缺乏變化,對搜索不利。
有意思的是在AlphaGo為了速度上的考慮,只用了寬度為192的網路,而並沒有使用最好的寬度為384的網路(見圖2(a)),所以要是GPU更快一點(或者更多一點),AlphaGo肯定是會變得更強的。
所謂的0.1秒走一步,就是純粹用這樣的網路,下出有最高置信度的合法著法。這種做法一點也沒有做搜索,但是大局觀非常強,不會陷入局部戰斗中,說它建模了「棋感」一點也沒有錯。我們把DarkForest的走棋網路直接放上KGS就有3d的水平,讓所有人都驚嘆了下。
可以說,這一波圍棋AI的突破,主要得益於走棋網路的突破。這個在以前是不可想像的,以前用的是基於規則,或者基於局部形狀再加上簡單線性分類器訓練的走子生成法,需要慢慢調參數年,才有進步。
當然,只用走棋網路問題也很多,就我們在DarkForest上看到的來說,會不顧大小無謂爭劫,會無謂脫先,不顧局部死活,對殺出錯,等等。有點像高手不經認真思考的隨手棋。因為走棋網路沒有價值判斷功能,只是憑「直覺」在下棋,只有在加了搜索之後,電腦才有價值判斷的能力。
2、快速走子
那有了走棋網路,為什麼還要做快速走子呢?有兩個原因,首先走棋網路的運行速度是比較慢的,AlphaGo說是3毫秒,我們這里也差不多,而快速走子能做到幾微秒級別,差了1000倍。所以在走棋網路沒有返回的時候讓CPU不閑著先搜索起來是很重要的,等到網路返回更好的著法後,再更新對應的著法信息。
其次,快速走子可以用來評估盤面。由於天文數字般的可能局面數,圍棋的搜索是毫無希望走到底的,搜索到一定程度就要對現有局面做個估分。在沒有估值網路的時候,不像國象可以通過算棋子的分數來對盤面做比較精確的估值,圍棋盤面的估計得要通過模擬走子來進行,從當前盤面一路走到底,不考慮岔路地算出勝負,然後把勝負值作為當前盤面價值的一個估計。
這里有個需要權衡的地方:在同等時間下,模擬走子的質量高,單次估值精度高但走子速度慢;模擬走子速度快乃至使用隨機走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。所以說,如果有一個質量高又速度快的走子策略,那對於棋力的提高是非常有幫助的。
為了達到這個目標,神經網路的模型就顯得太慢,還是要用傳統的局部特徵匹配(local pattern matching)加線性回歸(logistic regression)的方法,這辦法雖然不新但非常好使,幾乎所有的廣告推薦,競價排名,新聞排序,都是用的它。
與更為傳統的基於規則的方案相比,它在吸納了眾多高手對局之後就具備了用梯度下降法自動調參的能力,所以性能提高起來會更快更省心。AlphaGo用這個辦法達到了2微秒的走子速度和24.2%的走子准確率。24.2%的意思是說它的最好預測和圍棋高手的下子有0.242的概率是重合的,相比之下,走棋網路在GPU上用2毫秒能達到57%的准確率。這里,我們就看到了走子速度和精度的權衡。
和訓練深度學習模型不同,快速走子用到了局部特徵匹配,自然需要一些圍棋的領域知識來選擇局部特徵。對此AlphaGo只提供了局部特徵的數目(見Extended Table 4),而沒有說明特徵的具體細節。我最近也實驗了他們的辦法,達到了25.1%的准確率和4-5微秒的走子速度,然而全系統整合下來並沒有復現他們的水平。
我感覺上24.2%並不能完全概括他們快速走子的棋力,因為只要走錯關鍵的一步,局面判斷就完全錯誤了;而圖2(b)更能體現他們快速走子對盤面形勢估計的精確度,要能達到他們圖2(b)這樣的水準,比簡單地匹配24.2%要做更多的工作,而他們並未在文章中強調這一點。
在AlphaGo有了快速走子之後,不需要走棋網路和估值網路,不藉助任何深度學習和GPU的幫助,不使用增強學習,在單機上就已經達到了3d的水平(見Extended Table 7倒數第二行),這是相當厲害的了。任何使用傳統方法在單機上達到這個水平的圍棋程序,都需要花費數年的時間。在AlphaGo之前,Aja Huang曾經自己寫過非常不錯的圍棋程序,在這方面相信是有很多的積累的。
3、估值網路
AlphaGo的估值網路可以說是錦上添花的部分,從Fig 2(b)和Extended Table 7來看,沒有它AlphaGo也不會變得太弱,至少還是會在7d-8d的水平。少了估值網路,等級分少了480分,但是少了走棋網路,等級分就會少掉800至1000分。特別有意思的是,如果只用估值網路來評估局面(2177),那其效果還不及只用快速走子(2416),只有將兩個合起來才有更大的提高。
我的猜測是,估值網路和快速走子對盤面估計是互補的,在棋局一開始時,大家下得比較和氣,估值網路會比較重要;但在有復雜的死活或是對殺時,通過快速走子來估計盤面就變得更重要了。考慮到估值網路是整個系統中最難訓練的部分(需要三千萬局自我對局),我猜測它是最晚做出來並且最有可能能進一步提高的。
關於估值網路訓練數據的生成,值得注意的是文章中的附錄小字部分。與走棋網路不同,每一盤棋只取一個樣本來訓練以避免過擬合,不然對同一對局而言輸入稍有不同而輸出都相同,對訓練是非常不利的。這就是為什麼需要三千萬局,而非三千萬個盤面的原因。對於每局自我對局,取樣本是很有講究的,先用SL network保證走棋的多樣性,然後隨機走子,取盤面,然後用更精確的RL network走到底以得到最正確的勝負估計。當然這樣做的效果比用單一網路相比好多少,我不好說。
一個讓我吃驚的地方是,他們完全沒有做任何局部死活/對殺分析,純粹是用暴力訓練法訓練出一個相當不錯的估值網路。這在一定程度上說明深度卷積網路(DCNN)有自動將問題分解成子問題,並分別解決的能力。
另外,我猜測他們在取訓練樣本時,判定最終勝負用的是中國規則。所以說三月和李世石對局的時候也要求用中國規則,不然如果換成別的規則,就需要重新訓練估值網路(雖然我估計結果差距不會太大)。至於為什麼一開始就用的中國規則,我的猜測是編程非常方便(我在寫DarkForest的時候也是這樣覺得的)。
4、蒙特卡羅樹搜索
這部分基本用的是傳統方法,沒有太多可以評論的,他們用的是帶先驗的UCT,即先考慮DCNN認為比較好的著法,然後等到每個著法探索次數多了,選擇更相信探索得來的勝率值。而DarkForest則直接選了DCNN推薦的前3或是前5的著法進行搜索。我初步試驗下來效果差不多,當然他們的辦法更靈活些,在允許使用大量搜索次數的情況下,他們的辦法可以找到一些DCNN認為不好但卻對局面至關重要的著法。
一個有趣的地方是在每次搜索到葉子節點時,沒有立即展開葉子節點,而是等到訪問次數到達一定數目(40)才展開,這樣避免產生太多的分支,分散搜索的注意力,也能節省GPU的寶貴資源,同時在展開時,對葉節點的盤面估值會更准確些。除此之外,他們也用了一些技巧,以在搜索一開始時,避免多個線程同時搜索一路變化,這部分我們在DarkForest中也注意到了,並且做了改進。
5、總結
總的來說,這整篇文章是一個系統性的工作,而不是一兩個小點有了突破就能達到的勝利。在成功背後,是作者們,特別是兩位第一作者David Silver和Aja Huang,在博士階段及畢業以後五年以上的積累,非一朝一夕所能完成的。他們能做出AlphaGo並享有現在的榮譽,是實至名歸的。
從以上分析也可以看出,與之前的圍棋系統相比,AlphaGo較少依賴圍棋的領域知識,但還遠未達到通用系統的程度。職業棋手可以在看過了寥寥幾局之後明白對手的風格並採取相應策略,一位資深游戲玩家也可以在玩一個新游戲幾次後很快上手,但到目前為止,人工智慧系統要達到人類水平,還是需要大量樣本的訓練的。可以說,沒有千年來眾多棋手在圍棋上的積累,就沒有圍棋AI的今天。
⑶ AlphaGo 擊敗李世石,是否促進了AI行業的發展
有意思的是曾經和史蒂芬霍金(Stephen Hawking)和其他的人工智慧專家聯名簽署了一封禁止開發人工智慧武器公開信的馬斯克還是開發Alphago公司Deepmind的早期投資者。馬斯克還因為擔心人工智慧會無比控制而傷害人類的言論而獲得「阻礙科技進步獎」。那麼離我們似乎並沒有那麼遙遠的人工智慧將會帶來哪些變革呢?以筆者的觀察,人工智慧將會對智能家居、無人駕駛等方面對人類的生活產生巨大的影響。
當被問到真正的智能家居何時才能到來的時候,王雄輝表示,「歐瑞博已經在經歷智能家居的第二個階段,我們已經實現了不同智能單品的聯動,比如門打開的時候自動打開燈光和電視,溫度高時自動打開空調等聯動控制,下一步我們計劃引入具備人工智慧能力的家用服務型機器人,來做家庭總管,全部管理你的家庭,當然這個階段需要5-10年的時間。」我們可以推測,人工智慧極有可能是打開智能家居的任督二脈的關鍵技術,實現真正「懂」你的智能家居,將極大的方便和舒適我們的家居生活。
⑷ AlphaGo是什麼 谷歌AlphaGo全解讀
AlphaGo一般指阿爾法圍棋
阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧程序。
其主要工作原理是「深度學習」。
阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程序。其主要工作原理是「深度學習」。「深度學習」是指多層的人工神經網路和訓練它的方法。一層神經網路會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網路「大腦」進行精準復雜的處理,就像人們識別物體標注圖片一樣。
⑸ alphago如何學習
這幾年深度學習出現後,就感覺有機會能夠突破圍棋,和.看知乎里好多討論,是從之前AlphaGo完成的棋局來判斷.深藍的開局更多依靠資料庫棋譜的建立,但沒有泛化能力。
⑹ 到底是什麼讓AlphaGo變得如此成功
AlphaGo這個系統主要由幾個部分組成:
走棋網路(Policy Network),給定當前局面,預測/采樣下一步的走棋。
快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質量的條件下,速度要比1快1000倍。
估值網路(Value Network),給定當前局面,估計是白勝還是黑勝。
蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統。
我們的DarkForest和AlphaGo同樣是用4搭建的系統。DarkForest較AlphaGo而言,在訓練時加強了1,而少了2和3,然後以開源軟體Pachi的預設策略 (default policy)部分替代了2的功能。以下介紹下各部分。
1、走棋網路
走棋網路把當前局面作為輸入,預測/采樣下一步的走棋。它的預測不只給出最強的一手,而是對棋盤上所有可能的下一著給一個分數。棋盤上有361個點,它就給出361個數,好招的分數比壞招要高。
DarkForest在這部分有創新,通過在訓練時預測三步而非一步,提高了策略輸出的質量,和他們在使用增強學習進行自我對局後得到的走棋網路(RL network)的效果相當。當然,他們並沒有在最後的系統中使用增強學習後的網路,而是用了直接通過訓練學習到的網路(SL network),理由是RL network輸出的走棋缺乏變化,對搜索不利。
AlphaGo的估值網路可以說是錦上添花的部分,從Fig 2(b)和Extended Table 7來看,沒有它AlphaGo也不會變得太弱,至少還是會在7d-8d的水平。少了估值網路,等級分少了480分,但是少了走棋網路,等級分就會少掉800至1000分。特別有意思的是,如果只用估值網路來評估局面(2177),那其效果還不及只用快速走子(2416),只有將兩個合起來才有更大的提高。
我的猜測是,估值網路和快速走子對盤面估計是互補的,在棋局一開始時,大家下得比較和氣,估值網路會比較重要;但在有復雜的死活或是對殺時,通過快速走子來估計盤面就變得更重要了。考慮到估值網路是整個系統中最難訓練的部分(需要三千萬局自我對局),我猜測它是最晚做出來並且最有可能能進一步提高的。
關於估值網路訓練數據的生成,值得注意的是文章中的附錄小字部分。與走棋網路不同,每一盤棋只取一個樣本來訓練以避免過擬合,不然對同一對局而言輸入稍有不同而輸出都相同,對訓練是非常不利的。這就是為什麼需要三千萬局,而非三千萬個盤面的原因。對於每局自我對局,取樣本是很有講究的,先用SL network保證走棋的多樣性,然後隨機走子,取盤面,然後用更精確的RL network走到底以得到最正確的勝負估計。當然這樣做的效果比用單一網路相比好多少,我不好說。
一個讓我吃驚的地方是,他們完全沒有做任何局部死活/對殺分析,純粹是用暴力訓練法訓練出一個相當不錯的估值網路。這在一定程度上說明深度卷積網路(DCNN)有自動將問題分解成子問題,並分別解決的能力。
另外,我猜測他們在取訓練樣本時,判定最終勝負用的是中國規則。所以說三月和李世石對局的時候也要求用中國規則,不然如果換成別的規則,就需要重新訓練估值網路(雖然我估計結果差距不會太大)。至於為什麼一開始就用的中國規則,我的猜測是編程非常方便(我在寫DarkForest的時候也是這樣覺得的)。
4、蒙特卡羅樹搜索
這部分基本用的是傳統方法,沒有太多可以評論的,他們用的是帶先驗的UCT,即先考慮DCNN認為比較好的著法,然後等到每個著法探索次數多了,選擇更相信探索得來的勝率值。而DarkForest則直接選了DCNN推薦的前3或是前5的著法進行搜索。我初步試驗下來效果差不多,當然他們的辦法更靈活些,在允許使用大量搜索次數的情況下,他們的辦法可以找到一些DCNN認為不好但卻對局面至關重要的著法。
一個有趣的地方是在每次搜索到葉子節點時,沒有立即展開葉子節點,而是等到訪問次數到達一定數目(40)才展開,這樣避免產生太多的分支,分散搜索的注意力,也能節省GPU的寶貴資源,同時在展開時,對葉節點的盤面估值會更准確些。除此之外,他們也用了一些技巧,以在搜索一開始時,避免多個線程同時搜索一路變化,這部分我們在DarkForest中也注意到了,並且做了改進。
5、總結
總的來說,這整篇文章是一個系統性的工作,而不是一兩個小點有了突破就能達到的勝利。在成功背後,是作者們,特別是兩位第一作者David Silver和Aja Huang,在博士階段及畢業以後五年以上的積累,非一朝一夕所能完成的。他們能做出AlphaGo並享有現在的榮譽,是實至名歸的。
從以上分析也可以看出,與之前的圍棋系統相比,AlphaGo較少依賴圍棋的領域知識,但還遠未達到通用系統的程度。職業棋手可以在看過了寥寥幾局之後明白對手的風格並採取相應策略,一位資深游戲玩家也可以在玩一個新游戲幾次後很快上手,但到目前為止,人工智慧系統要達到人類水平,還是需要大量樣本的訓練的。可以說,沒有千年來眾多棋手在圍棋上的積累,就沒有圍棋AI的今天。
⑺ AlphaGo是如何研發出來的 意味著什麼
哈薩比斯稱,很多藝術都是主觀,AlphaGo把圍棋看做了一個客觀的藝術,每一步都會分析有什麼影響。「因此,我給直覺的定義是,通過體驗獲得初步感知,無法表達出來,可通過行為確認其存在和正誤。」哈薩比斯表示,AlphaGo已經可以模仿人的直覺,而且具備創造力,通過組合已有知識或獨特想法的能力。所以AlphaGo已經有了直覺和創造力,不過這些能力目前僅僅局限在圍棋上。
在這之後,DeepMind希望彌補AlphaGo知識的空白,之後便發布了新的版本「Master」,在網上進行對局,也獲得了很大的勝利。柯潔在與Master對弈後感嘆到,人類數千年的實戰演練進化,計算機卻告訴我們人類全都是錯的。哈薩比斯稱,「20世紀三四十年代,吳清源給圍棋帶來了革命性的力量。我相信AlphaGo也能開啟一個圍棋新時代。棋類程序講戰術,AlphaGo講戰略。」
「我們離最優還有多遠,怎樣才是完美的棋局?3000年的對弈不足以找到最佳棋局。AlphaGo讓我們可探尋這些奧秘。」哈薩比斯說到。
圍棋之外,哈薩比斯希望將人工智慧運用到各種各樣的領域。哈薩比斯稱,「人機合作可以達到1+1>2的效果,人類的智慧將被人工智慧放大。人工智慧和AlphaGo都是工具,就像哈勃望遠鏡一樣,可以推進人類文明的進步。」哈薩比斯稱,無數其他領域也將遭到組合轟炸,強人工智慧也是我們探索的最好工具,比如將AI用到材料設計、新葯研製上,還有現實生活中的應用,如醫療、智能手機、教育等。
目前,DeepMind已經非常成功的將AlphaGo用到了數據中心的優化中,結果顯示可以節省50%的電能。
最後,哈薩比斯總結到,信息過載和系統冗餘是巨大挑戰,我們希望利用AI找到元解決方案。「我們的目標是實現人工智慧科學,或人工智慧輔助科學,當然AI要有倫理和責任的約束。總之,人工智慧技術可以幫助我們更好的探索人腦的奧秘
⑻ 是顛覆還是創造,人工智慧如何做到賦能營銷
從2016年的AlphaGo開始,有關人工智慧的討論,就從未有所停歇。人工智慧對於我們,到底是一場顛覆,還是一種創造?
凱文.凱利說過,「人工智慧和數字技術的可以讓產品更智能,但也會提供給我們一種全新的服務,這種服務是我們以前並不覺得需要的。」這句話很簡單的詮釋了人工智慧與生活結合的意義。
人工智慧的本質在於「智能」兩個字,通過產品、服務和應用的智能化,賦予了很多行業新的能量,這絕不是顛覆,而是創造。那麼,從廣告營銷的角度看,人工智慧的創造性,能夠為「智能營銷」帶來何種改變?
人工智慧大環境下的營銷變革
毫無疑問,我們正處在一個大時代的前端,雖然AlphaGo並不足以開啟人工智慧的時代,但它讓整個人類社會意識到了人工智慧擁有了改變世界的力量。
根據中國人工智慧學會、羅蘭貝格統計,去年全球人工智慧融資總額達49.68億美元。預估2025年全球人工智慧市場規模將達30610億美元。同時,金融、醫療、汽車和零售行業的應用場景相對成熟,這說明,距離人工智慧社會的到來其實並不遙遠。
而從應用的角度看,人工智慧也已經悄然走到了我們的身邊。比如智能的導航,就是最標準的智能化改變出行方式的案例,同時早教機器人和老年陪伴機器人的出現,則讓人工智慧多了一些人性的溫度。從智能門鎖到智能家居,智能化的產品和工具,其實早已服務於千千萬萬的用戶。
在我看來,這就是智能時代典型的表現,在潤物細無聲當中,改變行業。
目前人工智慧已經開始在各個行業得到應用,數字營銷行業也不例外,結合人工智慧,各種營銷工具將變得更自動化、更智能化,最終必將形成整合各種營銷工具和方法的數字營銷生態平台,通過人工智慧所具備的深度學習和數據積累,可以與用戶進行近似於人與人之間的溝通,帶來非比尋常的體驗。
我們知道,互聯網帶來了體驗的時代,過去更多談的是產品的體驗,實際上營銷作為一種服務和品牌與用戶溝通的方式,更需要打好體驗牌。互聯網營銷本質是是根據用戶的個性化需求導致廣告針對性的推送給消費者,但是現在無創意的生硬廣告植入雖然滿足了消費者個性化的需求,但是卻忽略了用戶體驗。
將人工智慧的演算法和技術應用於營銷實踐當中,以用戶體驗為核心追求,這勢必會帶來智能營銷的行業變革,例如360人工智慧在營銷領域的應用就針對這種現狀,通過不斷的技術研發在視頻廣告上做出了建樹,與圖文和音頻相結合,拓展了信息承載的形式和傳遞的方式,適應了不同的商業場景,不僅提升了體驗,也創造了更佳的效果。
智能技術賦能營銷,核心是精準和效率
李開復曾在一次演講中提到,人工智慧發展的第一階段是任務性的,在單任務領域超越人類,通過工具性產生井噴的雲應用,讓更多領域實現人工智慧帶來的效率優化。
沒錯,在營銷與智能結合的時代,最大的創造就是效率的提升。
我們知道,從上世紀80年代興起的直郵營銷、電話營銷,再到互聯網時代的電郵營銷,其目的都在於找到具體用戶,並盡可能的讓營銷的指向精準。那麼在移動互聯網時代,社交和碎片化的時代,這些簡單的指向性營銷方式明顯效率更低。
360首席科學家顏水成教授認為,隨著科技的發展,消費者對場景化、定製化信息的需求更加強烈,傳統生硬的商業廣告無法最大化吸引消費者,人工智慧的發展為更加精準高效的營銷提供了可能。
從國際到國內,眾多互聯網巨頭都開始紛紛試水智能營銷。例如,HubSpot同樣快速跟進AI能力的建設,發布了應答機器人應用GrowthBot,讓用戶可以不用谷歌,就能直接獲得跟品牌營銷有關的答案。這是人工智慧機器人在營銷端的典型應用。
在國內市場,去年小米發布「4M」智能營銷體系(moment,media,matching,measurement)。其目的就是要通過場景的感知捕獲用戶需求,以大數據實現精準的匹配,用最優的媒體表現,在最佳時刻觸達用戶,最後帶來更可靠的實效衡量。
而回到一直處於市場前沿的媒體平台也做了相當多的工作,比如新媒體營銷工具「魯班」就是其中的代表。在智能營銷時代,人工智慧技術的意義就是賦能,為品牌商賦能,更准確的找到用戶的需求痛點,並讓廣告效率實現最大化。
在這些智能營銷工具中較為突出的是360營銷推出的OCPC工具。移動端效果廣告多以CPC競價為主,存在效果不穩定,成本難控制和轉化量不夠的難題。而360OCPC通過積累轉化數據和智能投放優化,解決了兩個核心的技術問題:轉化率預估和動態出價,來做到為品牌商賦能。
不難發現,這些智能營銷的工具立足點,都在於用智能化的技術,從大數據中挖掘用戶需求的痛點,找出具體的演算法,並形成標准化的工具,對廣告主進行賦能。
智能營銷之所以能夠被各大巨頭所關注,其中一個重要的原因是人工智慧技術的發展。其實,每一家成功的互聯網公司,本質上都是一家成功的技術公司。
周鴻禕曾說過,「360的人工智慧團隊已經耕耘了三年,也在一些國際的人工智慧、人臉大賽上獲得過獎項。」360這家公司從不盲從於風口效應,所以360一向認為人工智慧不能夠脫離具體的業務而抽象地去做,必須要建立在具體的業務當中。所以,360通過人工智慧技術來賦能智能營銷,其實正是360利用自身的大數據優勢,和人工智慧技術積累到一定程度後的一次水到渠成。
文/鄭凱
科技正能量,推動新科技
⑼ 如何打造史上最強AlphaGo
最強AlphaGo Zero怎樣煉成
剛剛,Deepmind在Reddit的Machine Learning板塊舉辦了在線答疑活動AMA,Deepmind強化學習組負責人David Silver和其同事熱情地回答了網友們提出的各種問題。由於在AMA前一天Deepmind剛剛發表了《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文,相關的提問和討論也異常熱烈。
什麼是AMA?
AMA(Ask Me Anything)是由Reddit的特色欄目,你也可以將其理解為在線的「真心話大冒險」。AMA一般會約定一個時間,並提前若干天在Reddit上收集問題,回答者統一解答。
本次Deepmind AMA的回答人是:
David Silver:Deepmind強化學習組負責人,AlphaGo首席研究員。David Silver1997年畢業於劍橋大學,獲得艾迪生威斯利獎。David於2004年在阿爾伯塔大學獲得計算機博士學位,2013年加盟DeepMind,是AlphaGo項目的主要技術負責人。
Julian Schrittwieser:Deepmind高級軟體工程師。
此前有多位機器學習界的大牛/公司在Reddit Machine Learning版塊開設AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。
我們從今天Deepmind的AMA中選取了一些代表性的問題,整理如下:
關於論文與技術細節
Q: Deepmind Zero的訓練為什麼如此穩定?深層次的增強學習是不穩定和容易遺忘的,自我對局也是不穩定和容易遺忘的,如果沒有一個好的基於模仿的初始化狀態和歷史檢查點,二者結合在一起應該是一個災難...但Zero從零開始,我沒有看到論文中有這部分的內容,你們是怎麼做到的呢?
David Silver:在深層增強學習上,AlphaGo Zero與典型的無模式演算法(如策略梯度或者Q學習)採用的是完全不同的演算法。通過使用AlphaGo搜索,我們可以極大改進策略和自我對局的結果,然後我們會用簡單的、基於梯度的更新來訓練下一個策略及價值網路。比起基於簡便的基於梯度的策略改進,這樣的做法會更加穩定。
Q:我注意到ELO等級分增長的數據只與到第40天,是否是因為論文截稿的原因?或者說之後AlphaGo的數據不再顯著改善?
David Silver:AlphaGo已經退役了!這意味著我們將人員和硬體資源轉移到其他AI問題中,我們還有很長的路要走吶。
Q:關於論文的兩個問題:
Q1:您能解釋為什麼AlphaGo的殘差塊輸入尺寸為19x19x17嗎?我不知道為什麼每個對局者需要用8個堆疊的二進制特徵層來描述?我覺得1、2個層就夠了啊。雖然我不是100%理解圍棋的規則,但8個層看起來也多了點吧?
Q2:由於整個通道使用自我對局與最近的/最好的模型進行比較,你們覺得這對於採用參數空間的特定SGD驅動軌跡對否會有過擬合的風險?
David Silver:說起來使用表徵可能比現在用的8層堆疊的做法更好!但我們使用堆疊的方式觀察歷史數據有三個原因:1)它與其他領域的常見輸入一致;2)我們需要一些歷史狀態來表示被KO;3)如果有一些歷史數據,我們可以更好地猜測對手最近下的位置,這可以作為一種關注機制(註:在圍棋中,這叫「敵之要點即我之要點」),而第17層用於標注我們現在究竟是執黑子還是白子,因為要考慮貼目的關系。
Q:有了強大的棋類引擎,我們可以給玩家一個評級——例如Elo圍棋等級分就是通過棋手對局的分析逐步得出的,那麼AlphaGo是否可以對過去有等級分前的棋手的實力進行分析?這可能為研究人類的認知提供一個平台。
Julian Schrittwieser:感謝分享,這個主意很棒!
我認為在圍棋中這完全可以做到,或許可以用最佳應對和實際應對的價值差異或者政策網路給每一手位置評估得到的概率來進行?我有空的時候試一下。
Q: 既然AlphaGo已經退役了,是否有將其開源的計劃?這將對圍棋社區和機器學習研究產生巨大的影響。還有,Hassabis在烏鎮宣稱的圍棋工具將會什麼時候發布?
David Silver:現在這個工具正在准備中。不久後你就能看到新的消息。
Q:AlphaGo開發過程中,在系統架構上遇到的最大障礙是什麼?
David Silver:我們遇到的一個重大挑戰是在和李世石比賽的時候,當時我們意識到AlphaGo偶爾會受到我們所謂的「妄想」的影響,也就是說,程序可能會錯誤理解當前盤面局勢,並在錯誤的方向上持續許多步。我們嘗試了許多方案,包括引入更多的圍棋知識或人類元知識來解決這個問題。但最終我們取得了成功,從AlphaGo本身解決了這個問題,更多地依靠強化學習的力量來獲得更高質量的解決方案。
圍棋愛好者的問題
Q:1846年,在十四世本因坊跡目秀策與十一世井上幻庵因碩的一盤對局中,秀策下的第127手讓幻庵因碩一時驚急兩耳發赤,該手成為扭轉敗局的「耳赤一手」。如果是AlphaGo,是否也會下出相同的一首棋?
Julian Schrittwieser:我問了樊麾,他的回答是這樣的:
當時的圍棋不貼目,而AlphaGo的對局中,黑棋需貼7.5目。貼目情況不同造成了古今棋局的差異,如果讓AlphaGo穿越到當年下那一手,很有可能下的是不同的另一個地方。
Q:從已發布的AlphaGo相互對局看,執白子的時間更為充裕,因而不少人猜測,7.5目的貼目太高了(註:現代圍棋的貼目數也在不斷變化,如在30年前,當時通行的是黑子貼白子5.5目)。
如果分析更大的數據集,是否可以對圍棋的規則得出一些有趣的結論?(例如,執黑或者執白誰更有優勢,貼目應該更高還是更低)
Julian Schrittwieser:從我的經驗和運行的結果看,7.5目的貼目對雙方來說是均勢的,黑子的勝率略高一些(55%左右)。
Q:你能給我們講一下第一手的選擇嗎?ALphaGo是否會下出我們前所未見的開局方式?比如說,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,這是否是一種「習慣」,或者說AlphaGo有強烈的「信念」認為星位、小目、三三是更好的選擇?
David Silver:在訓練中我們看到ALphaGo嘗試過不同方式的開局——甚至剛開始訓練的時候有過第一手下在一一!
即便在訓練後期,我們仍然能看到四、六位超高目的開局,但很快就恢復到小目等正常的開局了。
Q:作為AlphaGo的超級粉絲,有一個問題一直在我心中:AlphaGo可以讓職業棋手多少子?從論文中我們知道AlphaGo可以下讓子棋,我也知道AlphaGo恐怕讓不了柯潔兩子,但我想你們一定很好奇,你們是否有做內部測試?
David Silver:我們沒有和人類棋手下讓子棋。當然,我們在測試不同版本的時候下過讓子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan這三個版本中,後一個版本均可讓三子擊敗前一個版本。但是,因為AlphaGo是自我訓練的,所以尤其擅長打敗自己的較弱的前一版本,因此我們不認為這些訓練方式可以推廣到和人類選手的讓子棋中。
Q:你們有沒有想過使用生成對抗網路(GAN)?
David Sliver:從某種意義來講,自我對弈就是對抗的過程。每一次結果的迭代都是在試圖找到之前版本的「反向策略」。
傳言終結者
Q:我聽說AlphaGo在開發初期被引導在某一個具體的方向訓練以解決對弈中展現出的弱點。現在它的能力已經超過了人類,是否需要另外的機制來進一步突破?你們有做了什麼樣的工作?
David Silver:實際上,我們從未引導過AlphaGo來解決具體的弱點。我們始終專注於基礎的機器學習演算法,讓AlphaGo可以學習修復自己的弱點。
當然你不可能達到100%的完美,所以缺點總會存在。 在實踐中,我們需要通過正確的方法來確保訓練不會落入局部最優的陷阱,但是我們從未使用過人為的推動。
關於DeepMind公司
Q:我這里有幾個問題:在DeepMind工作是什麼感受?AlphaGo團隊成員都有誰?你能介紹一下AlphaGo團隊工作分配的情況嗎?下一個重大挑戰是什麼?
David Silver:在DeepMind工作感覺好極了:)——這不是一個招聘廣告,但我感覺每天可以在這里做我喜歡的事實在是太幸運了。有很多(多到忙不過來!:))很酷的項目去參與。
我們很幸運有許多大牛在AlphaGo工作。您可以通過查看相應的作者列表來獲取更詳細的信息。
Q: 你覺得本科生是否可以在人工智慧領域取得成功?
Julian Schrittwiese:當然。我本人就只有計算機科學學士學位,這一領域變化迅速,我認為您可以從閱讀最新的論文和試驗中來進行自學。另外,去那些做過機器學習項目的公司實習也是很有幫助的。
關於演算法的擴展和其他項目
Q:Hassabis今年三月份在劍橋的一個演講中表示,AlphaGo項目未來目標之一是對神經網路進行解釋。我的問題是:ALphaGo在神經網路結構上取得了什麼樣的進展,或者說,對AlphaGo,神經網路仍然是神秘的黑盒子?
David Silver:不僅僅是ALphaGo,可解釋性是我們所有項目的一個非常有意思的課題。Deepmind內部有多個團隊從不同方式來探索我們的系統,最近有團隊發表了基於認知心理學技術去嘗試破譯匹配網路內部發生了什麼,效果非常不錯!
Q: 很高興看到AlphaGo Zero的好成績。我們的一篇NIPS論文中也提到了對於深度學習和搜索樹之間效率的相似問題,因此我對於在更長的訓練過程中的行為尤其感興趣。
AlphaGo的訓練過程中,創建學習目標的蒙特卡洛樹搜索的貪心演算法、策略網路的貪心演算法、以及在訓練過程中價值功能變化的貪心演算法之間的相對表現如何?這種自我對局學習的方法是否可以應用在最近的星際爭霸 II API中?
David Silver:感謝介紹您的論文!真不敢相信這篇論文在我們4月7日投稿的時候已經發布了。事實上,它與我們的學習演算法的策略組件非常相似(盡管我們也有一個值組件),您可以參考我們的方法和強化學習中的討論,也很高興看到在其他游戲中使用類似方法。
Q:為什麼早期版本的AlphaGo沒有嘗試自我對弈?或者說,AlphaGo之前也嘗試過自我對弈但效果不好?
我對這個領域的發展和進步程度感到好奇。相比起今天,在兩年前在設計一個自主訓練的AlphaGo的瓶頸在哪裡?今天我們見到的「機器學習直覺」又是經歷了什麼樣的系統迭代過程?
David Silver:創建一個可以完全從自我學習的系統一直是加強學習的一個開放性問題。 我們最初的嘗試包括你能查到的許多類似的演算法,是相當不穩定的。 我們做了很多嘗試,最終AlphaGo Zero演算法是最有效的,而且似乎已經破解了這個特定的問題。
Q:你認為機器人什麼時候能夠有效解決現實世界關於高度、尺寸方面的問題(例如,自己學習如何抓取任何形狀、尺寸、位置垃圾的設備)?策略梯度方法是否是實現這一目標的關鍵點?
Julian Schrittwieser:這主要是由於價值/政策網路上的雙重改進,包括更好的訓練和更好的架構。具體參見論文圖4對不同網路架構的比較。
Q:據說擊敗柯潔的ALphaGo Master的功耗只是擊敗李世石的AlphaGo Lee的1/10。你們做了什麼樣的優化呢?
Julian Schrittwieser:這主要是由於價值/政策網路上的雙重改進,包括更好的訓練和更好的架構。具體參見論文圖4對不同網路架構的比較。(你確認不是上一個問題的答案嗎)
Q:看起來在增強學習中使用或模擬Agent的長期記憶是一個很大的障礙。 展望未來,您覺得我們是否能以一種新的思維方式解決這一點? 還是說需要等待我們技術可以實現一個超級網路?
Julian Schrittwieser:是的,長期記憶可能是一個重要的因子,例如在「星際爭霸」游戲中,你可能已經做出了上千個動作,但你還要記住你派出的偵察兵。
我認為現在已經有了令人振奮的組件(神經圖靈機!),但是我認為我們在這方面仍有很大的改進空間。
Q:David,我看過你的演講視頻,你提到增強學習可以用於金融交易, 你有沒有真實世界的例子? 你會如何處理黑天鵝事件(過去沒有遇到過的情況)?
David Silver:已經發表增強學慣用於現實世界的財務演算法的論文非常少見,但有一些經典論文值得一看,例如Nevmyvaka、Kearns在2006寫的那篇和Moody、Safell在2001年寫的那篇。
Q:你們和Facebook幾乎同時研究圍棋問題,你們能更快獲得大師級表現的優勢是什麼?
對於那些無法獲得像AlphaGo如此多的訓練數據的領域如何開展機器學習或者增強學習?
David_Silver:Facebook更側重於監督學習,我們選擇更多地關注強化學習,因為我們認為AlphaGo最終將超越人類的知識。 我們最近的結果實際上表明,監督學習方法可以讓人大吃一驚,但強化學習絕對是遠遠超出人類水平的關鍵之處。