臺灣國際科展

利用近端策略優化演算法結合內在好奇心模組進行2D雙足模型行走模擬

科展類別
臺灣國際科展作品
屆次
2021年
科別
電腦科學與資訊工程
得獎情形
一等獎
學校名稱
雲林縣立古坑華德福實驗高級中學
指導老師
駱巍元
作者
黃守榕
關鍵字
Deep Reinforcement Learning、Proximal Policy Optimization、Intrinsic Curiosity Module

摘要或動機

強化學習為當前AI領域的熱門話題,其特點是在環境的獎勵與懲罰下,進行學習。強化學習雖然較為困難,但其成功的項目都非常有名,其中最著名的例子有: AlphoGo、AlphaZero等等。 深度強化學習(DRL)是深度學習與強化學習的結合體,本專題透過DRL實現近端優化策略演算法,來使BipedalWalker環境中的二足模型學會行走,並調適超參數與神經網路來讓模型訓練擁有更好的結果。 經過實驗後發現,適當的降低獎勵折扣衰減率能有效的提升學習速度以及學習上限,同時可以避免分數落差過大導致的Dead relu問題。最終的結果能讓平均分數達到302分,成功達成了BipedalWalker環境要求(平均分數>=300分)。 為了使智能體擁有更好的探索能力,本專題加入了ICM(Intrinsic Curiosity Module),成功提升了最終的平均分數至316分,將不摔倒的機率提升至99%,最高分數則到了320分,使得雙足模型能以更快的速度向前移動並保持穩定。


「為配合國家發展委員會「推動ODF-CNS15251為政府為文件標準格式實施計畫」,以及 提供使用者有文書軟體選擇的權利,本館檔案下載部分文件將公布ODF開放文件格式, 免費開源軟體可至LibreOffice 下載安裝使用,或依貴慣用的軟體開啟文件。」

檔案名稱 檔案大小 格式
TISF2021-190037.pdf 2 MB Adobe Reader(Pdf)檔案