Posts Tagged with "Design"

既に発行済みのブログであっても適宜修正・追加することがあります。
We may make changes and additions to blogs already published.

BSVの例題 (2)

posted by sakurai on June 20, 2024 #821

食事する哲学者全員が左手→右手の順にスプーンを取るシミュレーションです。当然ですが全員左手にスプーン持った状態でデッドロックします。

図%%.1
図821.1 シミュレーション1

ソースを修正し、2番目の哲学者のみ右手→左手の順のシミュレーションです。この場合はランダム的に全員が食事することができます。

図%%.1
図821.2 シミュレーション2

spoon0とテストベンチは親子モジュールとなっており、その間にpickupとputdownのEN-RDYインタフェースが自動生成されます。まずspoon0にpickup指示を出すと、RDYが落ちます(=busy)。同時にspoon0のinuseがTrueとなり使用中を示します。哲学者の食事が終了するとputdown指示がされ、inuseはFalseになります。

スプーンを取得する場合は当然使用中で無いことを確認してから取得するコードとなっていますが、一方、スプーンをリリースする場合は、直前まで自分が使用していることはシーケンスから明らかなため特に使用中であることは確認していません。


左矢前のブログ 次のブログ右矢

BSVの例題

posted by sakurai on June 19, 2024 #820

強化学習シリーズの途中ですが、BSVの例題を見つけたので、紹介します。

「哲学者の食事」をBSVでシミュレーションするものです。

一度にスプーンは片手で1つしか持てず、2つ取ろうとすると、右手⇒左手、もしくは左手→右手の順にスプーンを取るしかありません。ここで、全員が右手⇒左手のように取ると、全員が右手に1つを持ったまま、左側のスプーンが空くのを永久に待つことになり、いわゆるデッドロックが起きます。

ソースは一人の哲学者が他人とは反対の順で取るようにプログラムしてあり、それにより全員がなんらかの形で食事をすることができる様子を示しています。

ソースコード

//
// CBG SQUANDERER : Dining Philosophers In Bluespec
// (C) 2012 David Greaves, University of Cambridge

import StmtFSM::*;

interface Spoon_if;
   method Action pickup;
   method Action putdown;
endinterface

(* synthesize *)
module spoon (Spoon_if) ;
   Reg#(Bool) inuse <- mkReg(?);
   method Action pickup if (!inuse);
     inuse <= True;
   endmethod
   method Action putdown;
     inuse <= False;
   endmethod
endmodule

(* synthesize *)
module philoBENCH (Empty) ;
   Spoon_if spoon0 <- spoon; 
   Spoon_if spoon1 <- spoon; 
   Spoon_if spoon2 <- spoon; 
   Spoon_if spoon3 <- spoon; 
   Spoon_if spoon4 <- spoon; 
   Diner_if din0 <- mkDiner (7, 7, spoon1, spoon0); // <---- Reverse pickup
   Diner_if din1 <- mkDiner (6, 4, spoon1, spoon2);
   Diner_if din2 <- mkDiner (5, 9, spoon2, spoon3);
   Diner_if din3 <- mkDiner (6, 6, spoon3, spoon4);
   Diner_if din4 <- mkDiner (8, 8, spoon4, spoon0);
   Reg#(UInt#(15)) timer <- mkReg(5000);
   rule foo;
      timer <= timer - 1;
      if (timer == 0) $finish;
   endrule
endmodule: philoBENCH

interface Random_if;
   method ActionValue#(UInt#(15)) gen;
endinterface    

module mkRandom_gen #(UInt#(15) seed) (Random_if);
   Reg#(UInt#(15)) prbs <- mkReg(seed);
   method ActionValue#(UInt#(15)) gen;
      prbs <= (prbs << 1) | (((prbs >> 14) ^ (prbs >> 13)) & 1);   
      return prbs;
  endmethod
endmodule 

interface Diner_if;
endinterface

module mkDiner #(UInt#(15) on, UInt#(15) seed) (Spoon_if left, Spoon_if right, Diner_if i) ;
   Reg#(Bool) eating <- mkReg(?);    
   Reg#(UInt#(15)) timer <- mkReg(0);
   Random_if random <- mkRandom_gen(seed);
   rule foo (timer != 0);
      timer <= timer - 1;
   endrule
   Stmt seq_behaviour = (seq
      while (True) seq
         action
            UInt#(15) x <- random.gen;
            timer <= x & 31;
         endaction
         await(timer== 0);
         left.pickup;
         action
            UInt#(15) x <- random.gen;
            timer <= x & 31;
         endaction
         await(timer== 0);
         right.pickup;
         action
            eating <= True;
            timer <= on;
         endaction
         await(timer==0);
         eating <= False;
         left.putdown; 
         right.putdown;
      endseq
   endseq);
   mkAutoFSM(seq_behaviour);
endmodule

左矢前のブログ 次のブログ右矢

Pongと強化学習 (32)

posted by sakurai on June 18, 2024 #819

CNNの各段について細かく聞いてみます。まずDepthwise Separable Convolutionについて。


Bluespec SystemVerilog (BSV) で Depthwise Separable Convolution(深さ方向分離可能な畳み込み)の具体的なコーディング例を提供するのは、直接的なコードの提供が可能な範囲を超えるため難しいです。しかし、深さ方向分離可能な畳み込みを実装する際の基本的な考え方と、BSVでのハードウェア設計における一般的なアプローチについて説明できます。

Depthwise Separable Convolution の概要

Depthwise Separable Convolution は、通常の畳み込み操作を2つの部分に分割します。

  1. Depthwise Convolution: 各入力チャネルに対して個別に畳み込みを行います。つまり、入力のチャネルごとにフィルターが適用され、出力のチャネル数は入力と同じになります。
  2. Pointwise Convolution: その後、1x1の畳み込み(Pointwise Convolution)を使用して、Depthwise Convolution の出力のチャネルを組み合わせて新たな特徴を生成します。このステップでチャネル間の情報が統合されます。

BSV でのアプローチ

BSVで Depthwise Separable Convolution を設計する際には、以下のようなステップを考慮します。

  • モジュール定義: Depthwise Convolution と Pointwise Convolution のための個別のモジュールを定義します。各モジュールは、特定の入力、フィルター、および出力を持つように設計します。
  • パラメータ化: フィルターサイズ、ストライド、パディングなどのパラメータをモジュールの引数として設定できるようにします。これにより、異なるサイズや設定で畳み込みを再利用できます。
  • 並列処理: Depthwise Convolution では、異なる入力チャネルに対する畳み込みを並列に実行できます。BSV の強力な並列処理機能を利用して、各チャネルの処理を同時に行います。
  • ポイントワイズ畳み込み: Pointwise Convolution では、各位置での1x1畳み込みを行い、チャネル間の特徴を結合します。このステップも、複数の出力位置に対して並列に実行できます。

コーディングのヒント

実際のコーディングに際しては、以下の点に注意してください。

  • フィルターと入力の格納: FPGA のオンチップメモリ(例えば BRAM)を使用して、畳み込みフィルターと入力データを効率的に格納します。
  • データフローの管理: データフローを適切に管理し、パイプライン処理を最大限に活用することで、レイテンシを最小限に抑え、スループットを最大化します。
  • テストと検証: シミュレーション環境を使用して、畳み込みモジュールの挙動を検証し、正確な計算が行われていることを確認します。

直接的なBSVコードの例は提供できませんが、上記のガイドラインは、BSVを使用したハードウェア設計におけるDepthwise Separable Convolution の実装に向けた出発点となるはずです。ハードウェアでのCNN実装は高度な知識と経験を要しますので、小規模な部分から始めて徐々にシステムを構築していくことをお勧めします。


左矢前のブログ 次のブログ右矢

Pongと強化学習 (31)

posted by sakurai on June 17, 2024 #818

正解ラベルとの誤差を伝搬するとのことですが、ビデオゲームには正解ラベルは有りません。そこを追及します。


Pongゲームのような強化学習タスクでは、確かに伝統的な教師あり学習とは異なり、具体的な「正解ラベル」がありません。強化学習では、エージェントは環境からのフィードバック(報酬)に基づいて学習します。このフィードバックは、エージェントが取った行動の結果として得られる報酬であり、その行動がどれだけ「良い」か、あるいは「悪い」かを示します。

強化学習の学習プロセス

  1. エージェントが環境と相互作用: エージェントは、ある状態である行動を選択し、その行動を実行します。
  2. 報酬の受領: 行動の結果として、エージェントは環境から報酬を受け取ります。Pongゲームでは、ボールを打ち返した場合に正の報酬を、ボールを失った場合に負の報酬を受け取るかもしれません。
  3. ポリシーの更新: 受け取った報酬をもとに、エージェントはそのポリシー(状態に対する行動の選択戦略)を更新します。目標は、期待される報酬の合計を最大化するポリシーを見つけることです。

ポリシー学習とバックプロパゲーション

強化学習においては、CNNなどのニューラルネットワークがエージェントのポリシーを表現するために使用される場合があります。このような場合、CNNは状態(例えば、Pongゲームの画面)から行動を決定するための関数として機能します。CNNを通じてポリシーを最適化するプロセスでは、バックプロパゲーションが使用されることがありますが、このときの「損失関数」は、伝統的な教師あり学習で使用されるものとは異なり、報酬を基にしたものになります。

強化学習における損失関数

強化学習における損失関数は、エージェントの行動選択がどれだけ「良い」結果をもたらしたかを評価するために設計されます。例えば、行動価値関数(Q関数)を用いるQ学習では、Q値の予測と得られた報酬(及び将来のQ値)との差(TD誤差)を最小化することを目指します。このプロセスを通じて、ニューラルネットワークの重みが更新され、エージェントのポリシーが徐々に改善されていきます。

結論

Pongゲームのような強化学習タスクでは、「正解ラベル」は存在せず、エージェントは環境からの報酬に基づいて行動を学習します。CNNを使用してポリシーを表現し、バックプロパゲーションを用いて学習を行う場合でも、このプロセスは報酬に基づいて行われ、最終的には最適なポリシーを見つけることを目指します。


左矢前のブログ 次のブログ右矢

Pongと強化学習 (30)

posted by sakurai on June 14, 2024 #817

CNNのバックプロパゲーションについて聞いてみます。


CNN(Convolutional Neural Network)における重みの更新は、一般的に「バックプロパゲーション」というプロセスを通じて行われます。これは、ネットワークの出力層(下流)から入力層(上流)に向かって逆方向に誤差を伝播させながら、各層の重みを更新する方法です。バックプロパゲーションは、以下のステップで構成されます。

1. フォワードパス

  • ネットワークの入力から出力へとデータを順方向に伝播させます。
  • 各層での活性化関数を通じて、次の層への入力を計算します。
  • 最終的に、ネットワークの出力層で予測結果を得ます。

2. 損失関数の計算

  • 出力層での予測結果と、実際のラベル(正解データ)との間の誤差を計算します。
  • この誤差は損失関数(例えば、クロスエントロピー損失)を用いて表され、ネットワークの性能の良し悪しを評価する指標となります。

3. バックプロパゲーション

  • 損失関数から得られた誤差を、出力層から入力層に向かって逆方向に伝播させます。
  • 各層における重みの勾配(損失関数の重みに対する偏微分)を計算します。これは、重みをどの方向にどれだけ調整すれば損失を減少させることができるかを示します。

4. 重みの更新

  • 計算された勾配を用いて、各層の重みを更新します。この際、学習率というパラメータが重みの更新量を決定します。
  • 通常、勾配降下法(またはその変種、例えば、モーメンタムやAdam)が重みの更新に使用されます。

5. 反復学習

  • これらのステップをデータセット上で複数回繰り返し実行し(エポック)、ネットワークの性能を徐々に改善していきます。

バックプロパゲーションによる重みの更新は、CNNを含む多くのディープラーニングモデルで採用されている基本的な学習アルゴリズムです。このプロセスにより、ネットワークは与えられたタスク(例えば、画像分類)に対して最適な予測を行うための重みを学習します。


左矢前のブログ 次のブログ右矢

Pongと強化学習 (29)

posted by sakurai on June 13, 2024 #816

(前記事の続き)

ハードウェア最適化のためのアプローチ

リソース共有

  • 複数の畳み込み層や活性化関数が同様の計算を行う場合、これらの計算資源を共有することで、全体のリソース消費を削減できます。例えば、複数の畳み込み層が同時に動作しない場合、一つのハードウェア畳み込みエンジンをタイムシェアリングすることが可能です。

精度とリソースのトレードオフ

  • データの精度(ビット幅)を調整することで、計算リソースの使用量とパワー消費を削減できます。例えば、32ビット浮動小数点数から16ビット固定小数点数への変換は、精度のわずかな低下と引き換えに、計算速度とエネルギー効率の向上をもたらすことがあります。

動的なリコンフィギュレーション

  • FPGAのようなプログラマブルなハードウェアを使用する場合、動的にハードウェアの構成を変更することで、異なるタスクに最適な計算資源を割り当てることができます。これにより、一つの物理デバイス上で複数のモデルやアルゴリズムを効率的に実行することが可能になります。

カスタムデータパス

  • タスクの特定の要件に合わせて、カスタムのデータパスや計算ユニットを設計することで、標準的なCPUやGPUよりもはるかに高速な処理が可能になります。このアプローチは、特にデータフローが予測可能で、特定の計算パターンが頻繁に発生するタスクに適しています。

デバッグと検証

  • ハードウェア実装では、シミュレーションを通じて設計を検証することが重要です。特に、BSVのような高レベル合成言語を使用する場合、論理的なエラーや性能のボトルネックを初期段階で特定し、修正することができます。
  • 実際のハードウェア上でのプロトタイピングとテストを行うことで、シミュレーションでは捉えられない問題(例えば、タイミングの問題やハードウェアの不具合)を発見し、解決することができます。

ハードウェアでのCNN実装は、ソフトウェアベースの実装と比較して複雑な作業ですが、リアルタイム性やエネルギー効率の面で顕著な利点を提供します。設計の各段階での慎重な検討と最適化を行うことで、高性能なハードウェアアクセラレータを実現することが可能です。


左矢前のブログ 次のブログ右矢

bsvのMakefile作成 (2)

posted by sakurai on June 12, 2024 #815

トラブルシュート

当初、以下のbsvからverilogをコンパイルするというふつうの依存関係が動作せずに苦労しました。

# Verilogファイルの生成
mk%.v: %.bsv
        time bsc -verilog -u -steps-warn-interval 1000000 -steps 8000000 -suppress-warnings T0054 $<

そこで以下のコマンドによりデバッグ情報を出力したところ、原因がわかりました。

$ make -rd

原因は、makeがtop-original.vという原始ファイルの元となるtop-original.bsvを探しに行ったためでした。探しに行って無ければ無視すれば問題ないのですが、動作としてはこのルール全体を却下する動作をするため、このルールが無効になっていたものです。ChatGPTと相談して.SECONDARYキーワードでなんとか無視させることができました。

パターンマッチ

さらにC/C++等だと拡張子のみが変化するのですが、bsvではUart.bsvをコンパイルするとmkUart.vとなるなど変則的な変化をするため、それがなかなか表現できませんでしたが、

mk%.v: %.bsv

このように変化しないところを%で記述することで対処できました。

原始ファイルからのファイル名生成法

汎用的に使用できるように、原始ファイル名から中間ファイル名を生成するようにしました。例えば、

$(addprefix mk, $(addsuffix .v, $(basename $(wildcard *.bsv))))

これにより原始ファイルのbsvファイル名からverilogファイル名を自動生成します。このようにすればMakefileに具体的なファイル名を書く必要がありません。誤ってwildcard *.v等としてしまうと、make cleanを行った後には何もないためmake処理が正しく行えないので、全部を集めるリンクのような場合は必ず存在するファイルに基づき必要なファイル名を生成します。一方、一対一の場合は%.v: %.bsvのような記法で十分です。

top.vの役割

忘れがちですが、top.vは直下の端子とemacsのマクロにより自動結線するため、テストベンチのverilogであるmkTb.vが必要です。そのため、Makefileにはその依存関係も加えました。

そもそもtop.vはverilog.vcdを出力するためのものです。

$ bsc -verilog -e mkTb -o mkTb.exv

一方、このようにbsimシミュレーションと同様、フラグを-verilogに変えるだけでiverilogを使わずとも*.vファイルをリンクし、実行ファイルまで生成されます。ではなぜtop.vを使ったかというと、verilog.vcdをダンプするためで、mkTb.exvを実行するだけではvcdが出力されなかったからです。

ところが、

$ ./mkTb.exv +bscvcd=verilog.vcd

このフラグ設定によりvcdが出力できることがわかりました。これによってtop.v等は不要となります。従ってemacsで結線する手段やiverilogが不要となるため、Makefileもだいぶ簡潔になります。


左矢前のブログ 次のブログ右矢

bsvのMakefile作成

posted by sakurai on June 11, 2024 #814

Makefile

ChatGPTの助けを借りながらbsvのMakefileを作成しました。bsvソースはBSVの問題点?を作成したときのファイルです。完成したMakefileを示します。

# ファイル名の生成
BSRCS = $(wildcard *.bsv) # BSVソースファイル
BASRCS = $(addprefix mk, $(addsuffix .ba, $(basename $(BSRCS)))) # BA中間ファイル
VSRCS = $(addprefix mk, $(addsuffix .v, $(basename $(BSRCS)))) # Verilogファイル

# .PHONY ターゲットの定義
.PHONY: all bsv_view verilog_view clean

# 全体のターゲット定義
all: bsv_view verilog_view

# BSV波形ビューアの起動
bsv_view: bsim.vcd
    gtkwave -A bsim.vcd

# BSV波形ファイルの生成
bsim.vcd: mkTb.exe
    ./mkTb.exe -V bsim.vcd

# BSV実行ファイルの生成
mkTb.exe: $(BASRCS)
    bsc -sim -e mkTb -parallel-sim-link 4 -o mkTb.exe

# BSVファイルのコンパイル
mk%.ba: %.bsv
    time bsc -sim -u -steps-warn-interval 1000000 -steps 8000000 -suppress-warnings T0054 $<

# Verilog波形ビューアの起動
verilog_view: verilog.vcd
    gtkwave -A verilog.vcd

# Verilog波形ファイルの生成
verilog.vcd: mkTb.exv
    ./mkTb.exv -V verilog.vcd

# Verilog実行ファイルの生成
mkTb.exv: top.v $(VSRCS)
    iverilog -y /usr/local/lib/Verilog/ top.v $(VSRCS) -o mkTb.exv

# top.vの生成と更新
top.v: top-original.v mkTb.v
    cp top-original.v top.v
    chmod 644 top.v
    emacs --batch top.v -f verilog-batch-auto

# BSVファイルからVerilogファイルを生成
mk%.v: %.bsv
    time bsc -verilog -u -steps-warn-interval 1000000 -steps 8000000 -suppress-warnings T0054 $<

# クリーンアップ
clean:
    @rm -f mk*.v top.v
    @rm -f *.bi *.bo *.ba a.out \#*
    @rm -f *.cxx *.h *.o *.so *.bexe
    @rm -f *.exe *.exv
    @rm -f *.vcd *~ *.fsdb *.log

# 中間ファイルを保持するための設定
.SECONDARY: top-original.v

依存関係グラフ

ここで、’Makefile'の依存関係の可視化の記事のプログラムをそのまま用いて、

$ LANG=C make -np | python3 make_p_to_json.py > graph.json; python json_to_dot.py workflow.png; xv workflow.png

このコマンドにより作成した依存関係図を図814.1に示します。

図%%.1
図814.1 依存関係図

左矢前のブログ 次のブログ右矢

bscのコンパイルとインストール

posted by sakurai on June 10, 2024 #813

bscのコンパイルとインストールをChatGPTの助けを借りながら実行しました。OSはFedora 40の場合です。

$ sudo dnf -y install ghc stack libX11-devel libXft-devel gperf bison flex itk-devel tk-devel itcl-devel tcl-devel g++ iverilog autoconf
$ git clone --recursive https://github.com/B-Lang-org/bsc.git bsc
$ cd bsc

bsc.cabalとstack.yamlを作成します。

$ echo "name:                bsc
version:             0.1.0.0
synopsis:            Brief description
description:         Longer description
license:             BSD3
author:              Author name
maintainer:          example@example.com
category:            Category
build-type:          Simple
cabal-version:       >=1.10
executable bsc
 main-is:             Main.hs
 build-depends:       base >=4.7 && <5
 hs-source-dirs:      src
 default-language:    Haskell2010" > bsc.cabal
$ echo "resolver: lts-18.0
    packages:
    - .
    extra-deps:
    - regex-compat-0.95.2.1
    - syb-0.7.2.4
    - old-time-1.1.0.4
    - split-0.2.5" > stack.yaml

Haskellのパッケージのバージョンを調べるためには、StackageHackageを利用します。ChatGPTに依頼しても調べて貰えます。

次にsrc/Main.hsが無いため作成します。

$ echo 'module Main where
    main :: IO ()
    main = putStrLn "Hello, BSC!"' > src/Main.hs

stackを用いて必要なライブラリをインストールします。

$ stack install regex-compat syb old-time split; stack update; stack build --only-dependencies; stack build
$ stack exec -- make install-src

これでコンパイルが始まるので、しばらく待ちます。終わったら以下のコマンドでインストールします。

$ sudo cp -r ./inst/bin/* /usr/local/bin/; sudo cp -r ./inst/lib/* /usr/local/lib/

何か不明な点があったらリファレンスマニュアルbsv例を調べてからフォーラムで質問します。


左矢前のブログ 次のブログ右矢

Pongと強化学習 (28)

posted by sakurai on June 4, 2024 #810

(続き)以下に、ハードウェアでCNNを実装する際の追加的な考慮点を示します。

パラメータとウェイトの管理

  • ウェイトの格納: CNNの性能は、学習されたウェイトに大きく依存します。これらのウェイトは、ハードウェア内のメモリに効率的に格納され、アクセスされる必要があります。FPGAの場合、オンチップのブロックRAM(BRAM)や、より大きなデータセットの場合は外部メモリとのインターフェースが必要になる場合があります。
  • ウェイトの更新: 学習プロセス中にウェイトを更新する場合、これを効率的に行うメカニズムを設計する必要があります。多くの実装では、ウェイトは事前に学習され、ハードウェアに固定されるため、更新は行われません。しかし、オンライン学習やアダプティブなシステムを設計する場合は、この点を考慮する必要があります。

データフローの最適化

  • パイプライン処理: データを連続的に処理する畳み込み層やプーリング層では、パイプライン処理を用いることで、各ステージの遅延を重ね合わせ、全体のスループットを向上させることができます。
  • 並列処理: CNNの各層で複数の演算を同時に行うことができるため、並列処理を活用して計算の高速化を図ります。特に、Depthwise Separable Convolutionでは、Depthwise畳み込みとPointwise畳み込みの両方で並列化の機会があります。

リソースの制約と最適化

  • リソースの利用: FPGAのリソースは有限です。使用するロジックブロックの数、メモリの使用量、I/Oの利用などを最適化することが必要です。
  • 性能と精度のトレードオフ: ハードウェアの制約の下で、性能(例えば、推論の速度)と精度(例えば、分類性能)のバランスを取る設計決定を行う必要があります。例えば、ウェイトの量子化を行うことでメモリ使用量を減らすことができますが、これが精度に影響を与える可能性があります。

ハードウェア実装におけるデバッグと検証

  • シミュレーションとテスト: 設計したモジュールの正確性を検証するために、BSVのシミュレーション環境を利用して広範なテストを行います。これには、単体テストから統合テストまで、さまざまなレベルのテストが含まれます。

ハードウェアでのCNN実装は、特にリアルタイム処理やパワー効率が重要なアプリケーションにおいて、大きな利点をもたらすことができます。しかし、その設計と実装は複雑であり、ハードウェアの特性や制約を十分に理解する必要があります。上記の考慮点を踏まえて設計を進めることで、効率的かつ効果的なハードウェアベースのCNNを実現することが可能になります。


左矢前のブログ 次のブログ右矢


ページ: