?

生成對抗思想在強化學習技術中的研究與應用

2020-05-08 08:43王嘉偉
大經貿 2020年2期
關鍵詞:深度學習

王嘉偉

【摘 要】 近年來,生成對抗網絡技術和強化學習技術取得了很大的進步,前者主要研究了生成對抗網絡應用于分布建模的基本原理,而后者研究了智能體如何在與環境交互過程中學習最優策略的基本問題。實際上,這兩個技術在思想層面上存在著交叉與耦合,本文將深入探討生成對抗思想在強化學習技術中的研究與應用,并在數學形式上揭示其異同。

【關鍵詞】 生成對抗網絡 強化學習 深度學習

引 言

2014年,Ian Goodfellow首次提出了一種名為生成對抗網絡(Generative Adversarial Networks,GAN)的架構[1],GAN是一類能夠學習數據分布,并實現在該數據分布中采樣的模型。其架構主要由判別器D和生成器G組成,D能夠估計數據分布與生成分布之間的散度或距離,G則負責最小化該散度或距離,以生成以假亂真的樣本。而后,GAN便取得了極大的發展。2016年,阿爾法圍棋(Alpha Go)橫空出世,成為第一個戰勝世界圍棋冠軍的強化學習算法[2]。這種算法使用了一種名為Actor-Critic的架構,其結合了Value-based模型和Policy-based模型的優點,使得強化學習模型能夠在自我博弈和互相對抗中學習和進步。這種算法在本質上與生成對抗思想具有異曲同工的地方,下文將從優化函數的角度對其進行闡述和說明。

算法思想分析

生成對抗網絡 GAN的目標是,給定一個來自真實分布的數據集,我們想用一個模型學習一個生成分布,從而去逼近真實分布。首先,GAN由一個判別網絡(Discriminator, D)和一個生成網絡(Generator, G)組成,D用來估計生成分布與真實分布的散度,G則通過優化其網絡參數來最小化該散度。以標準GAN的原理為例,其損失函數的形式如下:

其中,為噪聲,其滿足均值為0,方差為1的高斯分布。從公式中可以看出,D和G分別是用min-max訓練方式迭代學習的,D的目標是要最小化網絡生成結果的判別誤差,而G網絡的目標是要最大化其判別概率。

強化學習 在強化學習技術中,有兩種主要的基本模型,一種是Value-based的模型,另外一種是Policy-based的模型。前者通過學習值函數來評估策略,并通過比較不同策略的估計值來選擇當前時刻的動作。而后者不學習值函數,其通過梯度估計的方法直接優化策略網絡以最大化收益。Actor-Critic算法結合了兩者的優點,其中Actor為一個策略網絡,其輸入為狀態、動作,輸出為相應概率值;而Critic的作用是估計給定狀態和動作的值函數,用于策略評估和策略改進。標準的Actor-Critic算法的更新算法如下:

其中,為智能體的行動軌跡。對于Q網絡而言,其目標是要最小化行動所造成的值函數估計誤差,而對于網絡而言,其目標是要最大化其行動策略的值函數。這和GAN一樣,剛好構成了min-max對抗訓練過程。

生成對抗思想與Actor-Critic技術的對比 GAN與Actor-Critic網絡的損失函數從數學形式看非常相似,這兩種算法都有一個共同點,就是任務本身難以實現有監督學習。比如對于GAN而言,我們無法獲取生成圖像的標簽進行有監督訓練;對于Actor-Critic而言,策略網絡生成的動作我們也沒法直接判斷其正確與否;為此,這兩種技術都采用了生成對抗思想,即用一個值網絡對目標進行估計,再用最大化其值估計的方式去訓練另一個子網絡,從而剛好對應min-max訓練過程。

結 論

生成對抗思想是人工智能技術中一種巧妙的理論構思,其脫胎于生成對抗網絡技術領域,卻有利于強化學習技術的進步。從本質上來說,這是一種自動化構建損失函數的方法,使得機器學習算法能夠在自我博弈中學習。本文從數學形式進行討論,研究了生成對抗思想在強化學習技術中的應用,但這其實只是生成對抗思想的應用之一。本人希望在未來工作中,能看到更多生成對抗思想的借鑒與使用,進而促進人工智能領域的蓬勃發展。

【參考文獻】

[1] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680.

[2] Silver, D., Huang, A., Maddison, C. et al. Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature 529, 484–489 (2016). https://doi.org/10.1038/nature16961

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
利用網絡技術促進學生深度學習的幾大策略
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
構建“單元整合、主題牽引”詩歌鑒賞“深度學習”課堂的策略
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合