全國中小學科展

利用近端策略優化演算法結合內在好奇心模組進行2D雙足模型行走模擬

科展類別

臺灣國際科展作品

屆次

2021年

科別

電腦科學與資訊工程

得獎情形

一等獎

學校名稱

雲林縣立古坑華德福實驗高級中學

指導老師

駱巍元

作者

黃守榕

關鍵字

Deep Reinforcement Learning、Proximal Policy Optimization、Intrinsic Curiosity Module

摘要或動機

強化學習為當前AI領域的熱門話題,其特點是在環境的獎勵與懲罰下,進行學習。強化學習雖然較為困難,但其成功的項目都非常有名,其中最著名的例子有: AlphoGo、AlphaZero等等。 深度強化學習(DRL)是深度學習與強化學習的結合體,本專題透過DRL實現近端優化策略演算法,來使BipedalWalker環境中的二足模型學會行走,並調適超參數與神經網路來讓模型訓練擁有更好的結果。 經過實驗後發現,適當的降低獎勵折扣衰減率能有效的提升學習速度以及學習上限,同時可以避免分數落差過大導致的Dead relu問題。最終的結果能讓平均分數達到302分,成功達成了BipedalWalker環境要求(平均分數>=300分)。 為了使智能體擁有更好的探索能力,本專題加入了ICM(Intrinsic Curiosity Module),成功提升了最終的平均分數至316分,將不摔倒的機率提升至99%,最高分數則到了320分,使得雙足模型能以更快的速度向前移動並保持穩定。

TISF2021-190037.pdf

Adobe Reader(Pdf)檔案