Article #893

既に発行済みのブログであっても適宜修正・追加することがあります。
We may make changes and additions to blogs already published.

Pongと強化学習 (72)

posted by sakurai on November 13, 2024 #893

Deep Q-Network (DQN) for Atari GamesというGithubリポジトリがあったので、それに基づいてPongのDQNによるトレーニングをやってみました。

https://github.com/adhiiisetiawan/atari-dqn?tab=readme-ov-file#installation

図893.1は始めたばかりで、緑の学習機のパドルはほとんど打ち返すことができません。ランダムにパドルを動かすだけなので、偶然に打ち返すことはあるものの一点も取れませんでした。

図%%.1
図893.1 エピソード8

図893.2は約26H経過した後で、緑の学習機のパドル操作は上手になっており、あまりボールを逸らすことはなくなりました。コンピュータ相手に大差で勝てるまで上達しています。

図%%.2
図893.2 エピソード5000

図893.3は約26H経過した後のQ値とTD損失の推移グラフです。横軸の単位は時間です。Q値は報酬と関係しているため、大きいほうが良く、TD損失は誤差であるため、小さいほうが良い行動ということができます。

図%%.3
図893.3 Q値とTD損失の推移

左矢前のブログ 次のブログ右矢

Leave a Comment

Your email address will not be published.

You may use Markdown syntax. If you include an ad such as http://, it will be invalidated by our AI system.

Please enter the numbers as they are shown in the image above.