Posts Issued on April 4, 2024

Pongと強化学習 (5)

posted by sakurai on April 4, 2024 #769

状態$s$や行動$a$について深堀りします。


DQN(Deep Q-Network)アプローチにおいて、状態$ s $と行動$ a $は通常、問題の性質に応じて様々な形式で表現されます。Pongゲームの文脈でこれらを具体的に考えてみましょう。

状態$s$の形式

Pongゲームにおける状態は、ゲーム画面自体または画面から抽出された特徴によって表されます。FPGA実装のために、CNNを使用して画面データから特徴を抽出すると述べました。したがって、状態$ s $はCNNを通過した後の特徴ベクトルとして表されることが多いです。

  • 画面データ:元の画面データは256x256のON/OFF(1ビット)データです。これをCNNに入力します。
  • 特徴ベクトル:CNNからの出力は、画面データを圧縮した特徴を含むベクトルです。このベクトルのサイズはCNNの構造に依存します。たとえば、最終的な全結合層の出力が100要素のベクトルであれば、状態$ s $は100要素のベクトルとなります。

行動$a$の形式

Pongゲームでは、行動は比較的単純です。エージェント(ここではコンピュータのパドル)が取りうる行動は、「上に移動」、「移動なし」、「下に移動」の3つです。したがって、行動$ a $はこれら3つの選択肢の中から1つを選ぶことを意味し、通常は離散的な値で表現されます。

  • 行動の選択肢: 3(上に移動=0、移動なし=1、下に移動=2などのようにエンコード可能)
  • 行動$ a $は、選択された行動を表すスカラー値(たとえば、0、1、2)として表現されることが多いです。

精度と表現

  • 状態ベクトルの精度:CNNからの出力である特徴ベクトルの各要素は、固定小数点数または浮動小数点数で表現される可能性があります。ビット数(精度)は、FPGAのリソースと精度要件に基づいて選択されます。一般的には16ビットや32ビット固定小数点数が使用されることが多いです。
  • 行動の精度:行動$ a $は離散的な選択肢を表すため、多くの場合、単純な整数値(例えば、2ビットで3つの行動を表すことができます)で十分です。

このように、DQNアプローチにおいては状態$ s $と行動$ a $の具体的な形式は問題の性質によって異なりますが、Pongゲームの場合は状態がCNNによって抽出された特徴ベクトル、行動がエージェントの選択可能な動作を表す離散値となります。


次記事に続きます。


左矢前のブログ 次のブログ右矢