Posts Tagged with "FPGA"

既に発行済みのブログであっても適宜修正・追加することがあります。
We may make changes and additions to blogs already published.

Zynq UltraScale+ MPSoC

posted by sakurai on April 28, 2018 #39

FPGAボード

プロセッサを含んだFPGAボードを入手しましたので、お約束のLED点滅を実験してみたいと思います。 まず、FPGAは、XilinxのZynq UltraScale+ MPSoCという部品で、ARM Cortex A53のクアッドコアとARM Cortex R5のデュアルコアを内蔵しています。

ボードの詳細は以下にあります。 http://microzed.org/product/ultrazed-eg-starter-kit

ベースボードとメザニンボードから構成されており、ベースボードの資料は、 http://picozed.org/product/ultrazed-eg-io-carrier-cardに、 メザニンボードの資料は http://microzed.org/product/ultrazed-EGにあります。

メザニンボード上にFPGA、SDRAM、Flash等が搭載されており、ベースボード上には各種高速インタフェースが搭載されています。

図FPGAボード
図39.1 FPGAボード

開発環境

最近のFPGAの開発環境の進歩はいちぢるしく、従来は高価なEDAツールが無償で使えるようになりました。XilinXが無償で提供しているVivado HLx WebPackが、上記FPGAの開発ツールです。このツールには論理合成ツール、配置配線ツール、論理シミュレータ等が含まれます。特に、最近は高位合成ツールまで無償で使用できるので、隔世の感があります。高位合成までいかなくても強力なIPインテグレータが搭載されており、従来はRTL設計するしかなかった各種AXIインタフェースに関して、単にブロックをドロップし、auto connectをクリックするだけで自動結線する、強力な機能を持ちます。

Vivadoの入手はXilinxにアカウントを作成する必要がありますが、無償ですので以下からwebpackを入手してください。 https://japan.xilinx.com/products/design-tools/vivado/vivado-webpack.html

IP Integrator

IPインテグレータでブロック設計をした結果を以下の図に示します。FPGA全体はPS(Processor System)部とPL(Plogrammable Logic)部から構成されていますが、ZynqはFPGA全体ではなく、PS部のみです。blinkはRTLで設計するブロックで、PL内に配置します。

ブロック図
図39.2 ブロック図

Zynqをダブルクリックすると以下の図のようにブロック図が現れます。APUはApplication Processing Unit、RPUはRealtime Processing Unitの略で、それぞれCA53、CR5及びそのキャッシュシステムを意味します。今回はハードのみで動作する回路を設計するため、プロセッサは全く使用しません。

Zynq内部ブロック図
図39.3 Zynq内部ブロック図

左矢前のブログ 次のブログ右矢

Pongと強化学習 (106)

posted by sakurai on June 7, 2025 #984

コードの続きの説明です。


このコードブロックは、Deep Q-Network (DQN) で使われる重要なテクニックであるターゲットネットワークのパラメータ更新に関するものです。具体的には、ソフトアップデート手法を用いてターゲットネットワークの重みを徐々に元のQネットワークの重みに近づける処理を行っています。

ソフトアップデートの概要

DQNでは、学習を安定化させるために、二つのネットワークを使用します:一つは学習に使われるQネットワークで、もう一つはターゲットネットワークです。ターゲットネットワークは、Qネットワークの学習が進むにつれて定期的にそのパラメータを更新することで、学習プロセス中の価値推定の変動を緩和します。この更新は、完全なコピー(ハードアップデート)か、徐々にパラメータを移動させるソフトアップデートのどちらかで行われます。

コードの詳細解説

1. 更新頻度のチェック:
           if global_step % args.target_network_frequency == 0:

この条件は、指定された頻度(args.target_network_frequency)ごとにターゲットネットワークのパラメータを更新するタイミングを決定します。

2. パラメータのソフトアップデート:
           for target_network_param, q_network_param in zip(target_network.parameters(), q_network.parameters()):
               target_network_param.data.copy_(
                   args.tau * q_network_param.data + (1.0 - args.tau) * target_network_param.data
               )
  • zip(target_network.parameters(), q_network.parameters())を使用して、ターゲットネットワークとQネットワークの各パラメータを組み合わせます。
  • ソフトアップデート式はargs.tau * q_network_param.data + (1.0 - args.tau) * target_network_param.dataです。ここでargs.tauは[0, 1]の範囲の値で、ターゲットネットワークのパラメータをどの程度Qネットワークに近づけるかを決定します。tauが1に近いほど、ターゲットネットワークはQネットワークに迅速に追従します。

役割と重要性

このソフトアップデートは、DQNの学習過程において重要な役割を果たします。ターゲットネットワークのゆっくりとした更新は、学習中の過大な価値推定の振動や発散を防ぎ、全体の学習プロセスの安定性を保ちます。このメカニズムにより、エージェントはより確実に効果的なポリシーに収束することができます。


左矢前のブログ 次のブログ右矢


ページ: