Posts Issued on April 3, 2024

Pongと強化学習 (4)

posted by sakurai on April 3, 2024 #768

Q値について深堀りします。


DQN(Deep Q-Network)におけるQ値は、環境の状態$ s $に対して取り得る各行動$ a $の価値を評価するものです。Pongゲームのようなシンプルな環境では、エージェント(ここではコンピューターのパドル)が取りうる行動が限られています(例えば、上に移動、移動なし、下に移動)。したがって、Q値はそれぞれの行動に対する期待報酬を表すベクトルとして表現されます。

このベクトルは、取りうる行動の数と同じ要素数を持ちます。Pongゲームのケースでは、エージェントが取り得る行動が3つあるため、Q値は3要素のベクトルになります。

Q値ベクトルのビット数

Q値のビット数は、使用する数値表現(固定小数点数表現や浮動小数点数表現)に依存します。FPGA上での実装を考慮すると、リソースを効率的に使用するためには固定小数点数表現を採用することが一般的です。固定小数点数のビット数は、必要な精度と範囲に応じて選択されます。たとえば、16ビット、32ビットなどが考えられますが、実際の選択は使用するFPGAのリソース、演算の精度要件、およびシステム全体のパフォーマンス目標に基づいて決定されます。

要素数

  • 行動数: 3(上に移動、移動なし、下に移動)

ビット数(例)

  • 固定小数点: 16ビットまたは32ビット
    • 例えば、16ビット固定小数点数を使用する場合、それぞれのQ値は16ビットで表現されます。この場合、Q値ベクトルは合計で48ビット(3要素 x 16ビット)になります。
    • 32ビット固定小数点数を使用する場合、Q値ベクトルは合計で96ビット(3要素 x 32ビット)になります。

まとめ

PongゲームにおけるQ値は、エージェントが取りうる3つの行動に対する期待報酬を表す3要素のベクトルです。ビット数は、FPGAのリソース、演算の精度要件、およびパフォーマンス目標に応じて選択される固定小数点表現に依存します。リソースを効率的に使用しつつ、適切な精度を確保するために、ビット数を慎重に選定する必要があります。


左矢前のブログ 次のブログ右矢