FS-Micro Corporation

Article #893

既に発行済みのブログであっても適宜修正・追加することがあります。
We may make changes and additions to blogs already published.

November
13

posted by sakurai on November 13, 2024 #893

Deep Q-Network (DQN) for Atari GamesというGithubリポジトリがあったので、それに基づいてPongのDQNによるトレーニングをやってみました。

図893.1は始めたばかりで、緑の学習機のパドルはほとんど打ち返すことができません。ランダムにパドルを動かすだけなので、偶然に打ち返すことはあるものの一点も取れませんでした。

図893.1 エピソード8

図893.2は約26H経過した後で、緑の学習機のパドル操作は上手になっており、あまりボールを逸らすことはなくなりました。コンピュータ相手に大差で勝てるまで上達しています。

図893.2 エピソード5000

図893.3は約26H経過した後のQ値とTD損失の推移グラフです。横軸の単位は時間です。Q値は報酬と関係しているため、大きいほうが良く、TD損失は誤差であるため、小さいほうが良い行動ということができます。

図893.3 Q値とTD損失の推移

Tags: Design, FPGA, AI
Read more | Comments (0) | Last updated on November 13, 2024