FS-Micro Corporation

Posts Issued on April 4, 2024

April
4

posted by sakurai on April 4, 2024 #769

状態$s$や行動$a$について深堀りします。

DQN（Deep Q-Network）アプローチにおいて、状態$ s $と行動$ a $は通常、問題の性質に応じて様々な形式で表現されます。Pongゲームの文脈でこれらを具体的に考えてみましょう。

Pongゲームにおける状態は、ゲーム画面自体または画面から抽出された特徴によって表されます。FPGA実装のために、CNNを使用して画面データから特徴を抽出すると述べました。したがって、状態$ s $はCNNを通過した後の特徴ベクトルとして表されることが多いです。

画面データ：元の画面データは256x256のON/OFF（1ビット）データです。これをCNNに入力します。
特徴ベクトル：CNNからの出力は、画面データを圧縮した特徴を含むベクトルです。このベクトルのサイズはCNNの構造に依存します。たとえば、最終的な全結合層の出力が100要素のベクトルであれば、状態$ s $は100要素のベクトルとなります。

Pongゲームでは、行動は比較的単純です。エージェント（ここではコンピュータのパドル）が取りうる行動は、「上に移動」、「移動なし」、「下に移動」の3つです。したがって、行動$ a $はこれら3つの選択肢の中から1つを選ぶことを意味し、通常は離散的な値で表現されます。

状態ベクトルの精度：CNNからの出力である特徴ベクトルの各要素は、固定小数点数または浮動小数点数で表現される可能性があります。ビット数（精度）は、FPGAのリソースと精度要件に基づいて選択されます。一般的には16ビットや32ビット固定小数点数が使用されることが多いです。
行動の精度：行動$ a $は離散的な選択肢を表すため、多くの場合、単純な整数値（例えば、2ビットで3つの行動を表すことができます）で十分です。

このように、DQNアプローチにおいては状態$ s $と行動$ a $の具体的な形式は問題の性質によって異なりますが、Pongゲームの場合は状態がCNNによって抽出された特徴ベクトル、行動がエージェントの選択可能な動作を表す離散値となります。

次記事に続きます。

Tags: Design, FPGA, AI
Read more | Comments (0) | Last updated on April 19, 2024