4 |
Pongと強化学習 (5) |
状態$s$や行動$a$について深堀りします。
DQN(Deep Q-Network)アプローチにおいて、状態$ s $と行動$ a $は通常、問題の性質に応じて様々な形式で表現されます。Pongゲームの文脈でこれらを具体的に考えてみましょう。
状態$s$の形式
Pongゲームにおける状態は、ゲーム画面自体または画面から抽出された特徴によって表されます。FPGA実装のために、CNNを使用して画面データから特徴を抽出すると述べました。したがって、状態$ s $はCNNを通過した後の特徴ベクトルとして表されることが多いです。
- 画面データ:元の画面データは256x256のON/OFF(1ビット)データです。これをCNNに入力します。
- 特徴ベクトル:CNNからの出力は、画面データを圧縮した特徴を含むベクトルです。このベクトルのサイズはCNNの構造に依存します。たとえば、最終的な全結合層の出力が100要素のベクトルであれば、状態$ s $は100要素のベクトルとなります。
行動$a$の形式
Pongゲームでは、行動は比較的単純です。エージェント(ここではコンピュータのパドル)が取りうる行動は、「上に移動」、「移動なし」、「下に移動」の3つです。したがって、行動$ a $はこれら3つの選択肢の中から1つを選ぶことを意味し、通常は離散的な値で表現されます。
- 行動の選択肢: 3(上に移動=0、移動なし=1、下に移動=2などのようにエンコード可能)
- 行動$ a $は、選択された行動を表すスカラー値(たとえば、0、1、2)として表現されることが多いです。
精度と表現
- 状態ベクトルの精度:CNNからの出力である特徴ベクトルの各要素は、固定小数点数または浮動小数点数で表現される可能性があります。ビット数(精度)は、FPGAのリソースと精度要件に基づいて選択されます。一般的には16ビットや32ビット固定小数点数が使用されることが多いです。
- 行動の精度:行動$ a $は離散的な選択肢を表すため、多くの場合、単純な整数値(例えば、2ビットで3つの行動を表すことができます)で十分です。
このように、DQNアプローチにおいては状態$ s $と行動$ a $の具体的な形式は問題の性質によって異なりますが、Pongゲームの場合は状態がCNNによって抽出された特徴ベクトル、行動がエージェントの選択可能な動作を表す離散値となります。
次記事に続きます。