FS-Micro Corporation

November
21

GameFSMの改良 (18)

posted by sakurai on November 21, 2025 #1043

さて、過去記事の続きです。GameFSM(ゲームシナリオ)とSoundFSM(サウンドプレーヤ)の間をOneStageというセマフォで接続していて、それを最適化しようとしたところ、ChatGPTにCDCを考慮していないと怒られてしまいました。「なら作って」と言って作ってもらった(実際には大変だったが)コードを示します。

マルチクロック設計で、2つの非同期クロックドメインにまたがる1段の非同期FIFOを用いています。

GSBridge.bsv：

package GSBridge;

import Clocks::*;

typedef Bit#(4) SoundCode_t;

// Game 側 IF：busy を見て !busy のときだけ setReq する前提
interface GSBridgeGameIfc;
  method Action setCode(SoundCode_t code);   // このサイクルのコード値
  method Action setReq (Bool fire);          // このサイクルで発行するなら True
//  method Bool   busy;                        // バッファ占有中なら True
endinterface

// Sound 側 IF：valid が立ったサイクルで code を取り込む
interface GSBridgeSoundIfc;
  method SoundCode_t code;    // 取り込まれたコマンド値
  method Bool        valid;   // 新コマンド到着 1 サイクルパルス
endinterface

interface GSBridgeIfc;
  interface GSBridgeGameIfc  game;
  interface GSBridgeSoundIfc sound;
endinterface
(* synthesize, always_ready, always_enabled, no_default_clock, no_default_reset *)
module mkGSBridge#(Clock gameClk, Reset gameRst,
                   Clock sndClk)
                  (GSBridgeIfc);

  // gameRst を sndClk ドメインに同期させたリセット
  Reset sndRst <- mkSyncReset(2, gameRst, sndClk);

  // Game→Sound の 4bit コマンド用 Sync FIFO（深さ1）
  SyncFIFOIfc#(SoundCode_t) fifo
    <- mkSyncFIFO(1, gameClk, gameRst, sndClk);

  // Game ドメイン側入力（必ず gameClk/gameRst にぶら下げる）
  Wire#(SoundCode_t) w_code <- mkWire(clocked_by gameClk, reset_by gameRst);
  Wire#(Bool)        w_req  <- mkWire(clocked_by gameClk, reset_by gameRst);

  // Sound ドメイン側の出力レジスタ（sndClk/sndRst ドメイン）
  Reg#(SoundCode_t) r_code  <- mkRegU   (clocked_by sndClk, reset_by sndRst);
  Reg#(Bool)        r_valid <- mkReg(False,           clocked_by sndClk, reset_by sndRst);

  //-------------------------
  // Game ドメイン: fire かつ FIFO に空きがあるときだけ enq
  //-------------------------
  rule rl_enq (w_req && fifo.notFull);
    fifo.enq(w_code);
  endrule

  //-------------------------
  // Sound ドメイン: FIFO から 1 件取り出して r_code にラッチ
  //                 valid を 1 サイクルだけ立てる
  //-------------------------
  rule rl_deq (fifo.notEmpty && !r_valid);
    r_code  <= fifo.first;
    fifo.deq;
    r_valid <= True;
  endrule

  rule rl_clear (r_valid);
    r_valid <= False;
  endrule

  //-------------------------
  // Game 側サブインタフェース実装
  //-------------------------
  interface GSBridgeGameIfc game;

    // このサイクルのコード値を保持
    method Action setCode(SoundCode_t code);
      w_code <= code;
    endmethod

    // このサイクルで発行するなら fire=True
    method Action setReq(Bool fire);
      w_req <= fire;
    endmethod

    // ★ busy は「未消費のコマンドが FIFO にあるかどうか」
    //    = 元の 1bit セマフォと等価
//    method Bool busy;
//      return fifo.notEmpty;
//    endmethod

  endinterface

  //-------------------------
  // Sound 側サブインタフェース実装
  //-------------------------
  interface GSBridgeSoundIfc sound;

    // 直近に取り込んだコマンド値（valid が 1 のサイクルに有効）
    method SoundCode_t code;
      return r_code;
    endmethod

    // 新コマンドが届いたサイクルだけ 1 になるパルス
    method Bool valid;
      return r_valid;
    endmethod

  endinterface

endmodule

endpackage

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on November 21, 2025

October
24

GameFSMの改良 (17)

posted by sakurai on October 24, 2025 #1039

3番目にボディが厚い関数の最適化をトライします。対象はinitAll()(毎回のステージでの初期化関数)で、45行あります。

初期化関数(initAll())の最適化前後		前	後	比較
BSV合成	コンパイル時間	1'03''	0'54''	▲14.3%
Verilog合成	ファイルサイズ[KB]	4,283	3,554	▲17.0%
	合成時間	0'58''	0'51''	▲12.1%
	Vivado LUT数	5,582	5,489	▲1.7%
	Vivado FF数	1,907	1,907	0.0%

結果としては、FSMオーバヘッドはほぼ0でした。一方、ボディがやや厚かったため、bscコンパイル時間とverilog量の削減となりました。物量も削減されているのは2度呼ばれているためかもしれません。

かつて1時間以上かかっていたbscコンパイルがPCやbscの更新により16分になり、さらに今回のFSM切り出しにより、とうとう1分を切るようになりました。まさに隔世の感があります。

最初は論理の構築に集中しているため最適化までは手が出せず、コンパイル時間が長いため思うように検証を進められませんでした。

一方、現在は論理が固まったことで最適化も容易になり、コンパイル時間は劇的に短縮されました。皮肉なものですがこの効果を当初に得られていればと感じます。

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on November 21, 2025

October
21

GameFSMの改良 (16)

posted by sakurai on October 21, 2025 #1038

contentDisplay

2番目にボディが厚い関数の最適化をトライします。対象はupdatePlayerBullet()(自弾処理関数)で、64行あります。

自弾処理関数(updatePlayerBullet())の最適化前後		前	後	比較
BSV合成	コンパイル時間	1'15''	1'03''	▲16.0%
Verilog合成	ファイルサイズ[KB]	5,253	4,283	▲18.5%
	合成時間	0'52''	0'58''	11.5%
	Vivado LUT数	5,490	5,582	1.7%
	Vivado FF数	1,894	1,907	0.7%

結果としては、おなじくFSMオーバヘッドが想定されそのとおりになりました。一方、ボディが厚かったため、bscコンパイル時間とverilog量の削減となりました。物量は微増していますが、bscコンパイル時間を1分を切らせたかったので採用することにしました。

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on November 20, 2025

October
17

GameFSMの改良 (15)

posted by sakurai on October 17, 2025 #1037

前回の1度しか呼ばれていない関数のdrawString関数はボディが薄い(関数の行数が少ない)ので効果が出なかったかもしれないと思い、ボディが厚い関数をトライします。対象はupdateAlienBullet()(敵弾処理関数)で、行数は83行あります。

敵弾処理関数(updateAlienBullet())の最適化前後		前	後	比較
BSV合成	コンパイル時間	1'27''	1'15''	▲13.8%
Verilog合成	ファイルサイズ[KB]	5,922	5,253	▲11.3%
	合成時間	0'59''	0'52''	▲11.9%
	Vivado LUT数	5,685	5,490	▲3.4%
	Vivado FF数	1,789	1,894	5.9%

結果としてはまず1度しか呼ばれない関数のため、物量削減どころかFSMオーバヘッドが増加しました。一方、ボディが厚かったため、bscコンパイル時間とverilog量及びそれに比例するvivado合成時間が削減されました。

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on October 17, 2025

October
16

GameFSMの改良 (14)

posted by sakurai on October 16, 2025 #1036

call順位が高い関数のFSM化が完了したので、次に1度しか呼ばれていない関数もFSM化してみます。これは物量にはほぼ影響はないか若干増加するものの、関数のシーケンスを巨大なシーケンスループからはずすことで、コンパイル時の競合条件計算量の減少を目的とするものです。まず、6個あるdrawTitle関数の1つをFSM化します。

まず、オリジナルのコードは、

   function Stmt drawTitle1(); // PLAY SPACE INVADERS
      return (seq
         for (str_idx <= 0; str_idx < 19; str_idx <=  str_idx + 1) seq
            copyGlyph(s1[str_idx]);
            waitTicks(`TICK_WAIT8);
            if (fbutton) break;
         endseq // for
      endseq);
   endfunction

コードの修正法は前回と同様なので省略します。

以下に結果の表を示します。思ったほどはコンパイル時間は減りませんでした。またverilog量は若干減ったものの、物量は若干増加しています。これは新たにFSMの起動、終了待ちが増えるためでしょう。全体としてあまり意味が無さそうなのでこの最適化は撤回します。

タイトル文字表示1(drawTitle1())の最適化前後		前	後	比較
BSV合成	コンパイル時間	1'26''	1'25''	▲1.2%
Verilog合成	ファイルサイズ[KB]	5,922	5,790	▲2.2%
	合成時間	0'59''	0'53''	▲10.2%
	Vivado LUT数	5,583	5,638	1.0%
	Vivado FF数	1,784	1,794	0.6%

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on October 17, 2025

October
15

GameFSMの改良 (13)

posted by sakurai on October 15, 2025 #1035

他にもcall順位の上位では出てこなかった関数にdrawLives()がありました。これは自機の残り数を表示するもので、staticには6回呼ばれているため、これもFSM化して最適化します。

まず、オリジナルのコードは、

    // 残機表示
   function Stmt drawLives();
      return (seq
         // 残機数字の表示
         copyArea(gun_no*8, 161, 23, 241, 8, 8);
         if (gun_no == 1) seq
            eraseArea(42, 241, 16, 8);
         endseq else if (gun_no > 1) seq
            eraseArea(16*gun_no + 26, 241, 16, 8);
            copyArea(0, 16, 16*gun_no+10, 241, 16, 8);
         endseq // if
      endseq);
   endfunction

ここでgnu_noが自機の数を示します。これを例によってFSM化してメインでは起動し、終了待ちをするだけに変更します。以下が変更後のコードです。

   // 残機表示
   function Stmt drawLives_org();
      return (seq
         // 残機数字の表示
         copyArea(gun_no*8, 161, 23, 241, 8, 8);
         if (gun_no == 1) seq
            eraseArea(42, 241, 16, 8);
         endseq else if (gun_no > 1) seq
            eraseArea(16*gun_no + 26, 241, 16, 8);
            copyArea(0, 16, 16*gun_no+10, 241, 16, 8);
         endseq // if
      endseq);
   endfunction

   // 単一インスタンスのFSMを生成（モジュールスコープ）
   FSM drawLives_fsm <- mkFSM(drawLives_org());

   // “起動ラッパ”を元の名前に
   function Stmt drawLives();
      return (seq
         `RUN_FSM(drawLives_fsm)
      endseq);
   endfunction

本体の関数名に_orgを付けるだけでロジックは変えません。元の関数名は起動マクロで本体を起動し終了待ちする関数に付け替えます。

以前作成したマクロは以下のとおりです。呼ぶ側で必ずseq/endseqで挟む必要があります。

`define RUN_FSM(F) action F.start(); endaction await(F.done);

以下に結果の表を示します。bsvソース量はほとんど変わらないので表示していません。bscの見る場合の数が減るためコンパイル時間がかなり減少し、物量も若干減少しています。

自機表示(drawLives())の最適化前後		前	後	比較
BSV合成	コンパイル時間	1'54''	1'25''	▲25.4%
Verilog合成	ファイルサイズ[KB]	7,509	5,924	▲21.1%
	合成時間	1'00''	0'51''	▲15%
	Vivado LUT数	5,700	5,551	▲2.6%
	Vivado FF数	1,794	1,790	▲0.2%

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on October 17, 2025

October
1

GameFSMの改良 (12)

posted by sakurai on October 1, 2025 #1032

次にかなり大きな修正となりますが、OneStageの除去をトライします。もともと外部投稿記事にあるようにGameFSMとSoundFSMの両FSMのタイミング調停を図る目的で1stage FIFOを設けましたが、実はBSVの特徴として、自動ハンドシェーク、すなわちBack pressureを自動的にかける機能があります。

前記事のあたりで検討していたもので、この時はトップでconnectableで接続すれば配線だけになると誤解していました。実際にはconnectableは配線だけではなく、トップでANDを生成します。具体的には図1032.1に示すように、上流モジュールの送信RDYと下流モジュールの受信RDYのANDを最上位でとり、これが通信RDYを意味するわけですが、それを上流モジュールへ送信ENとして配り、かつ下流モジュールへも受信ENとして配るものです。

図1032.1　connectableハンドシェイクロジック

これはcallerであるトップが2つのcalleeを呼ぶ際に調停ロジックとしてANDゲートを配置するためです。

しかしながら、これだとVivadoのBlock DesignerによりANDゲートを起こさなければいけないためあまりきれいではないので、このANDゲートをwrapperで吸収してもらうようにChatGPTに依頼します。

ところが、ChatGPTとの会話の結果、問題はCDC(clock domain crossing)であり、GameFSMのクロックとSoundFSMのクロックが非同期であるため、cdc対策をしなければならないと怒られてしまいました。逆にOneStageを抜くことはできず、そこにcdcを組み込めばよいとのアドバイスでした。

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on November 20, 2025

September
29

GameFSMの改良 (11)

posted by sakurai on September 29, 2025 #1031

コール順位4位のsound関数は元々サウンドFSMを構成しており、それを起動するだけなので、このままでOKです。

最後にコール順位6位のketa関数をリファクタします。これは元は10進4桁の数値を表示する関数であり、一桁ずつ10^nを引いて商を求めるものでした。従ってStmtを用いてループを構成しており、汎用FSM起動マクロでもうまく行きましたが、一方で内部変数への競合の回避が困難でした。

ChatGPTに相談したところ、組み合わせ回路で可能とのことで全面リファクタしたものです。

  // 14bit → BCD4（加算+比較のみ、組合せ）
   function Tuple4#(UInt#(4), UInt#(4), UInt#(4), UInt#(4)) dec4_dd (UInt#(14) x);
     Bit#(16) b16 = 0;  // [15:12]=千, [11:8]=百, [7:4]=十, [3:0]=一
     Bit#(14) bx  = pack(x);           // ★ UInt を Bit に変換してからビット参照
     for (Integer i = 13; i >= 0; i = i - 1) begin
       // 各桁 >=5 なら +3
       for (Integer n = 0; n < 4; n = n + 1) begin
         Bit#(4) nib = b16[n*4 + 3 : n*4];
         if (nib >= 5) nib = nib + 3;
         b16[n*4 + 3 : n*4] = nib;
       end
       // 左シフトして次ビットを流し込む
       b16 = { b16[14:0], bx[i] };
     end
     UInt#(4) d0 = unpack(b16[3:0]);
     UInt#(4) d1 = unpack(b16[7:4]);
     UInt#(4) d2 = unpack(b16[11:8]);
     UInt#(4) d3 = unpack(b16[15:12]);
     return tuple4(d3, d2, d1, d0);
   endfunction

よく見ると、dec4_dd関数には=は使われていますが、<=(レジスタ代入)は使われていません。これはdec4_ddには見かけはforループがあるものの、全てstaticに展開され、全体として組み合わせ回路になっていることがわかります。

最後にこれを用いてscoreとhigh_scoreを画面の特定の場所に表示する関数です。

   // Draw Score and High-score
   function Stmt scores;
      match { .s3, .s2, .s1, .s0 } = dec4_dd(score);
      match { .h3, .h2, .h1, .h0 } = dec4_dd(high_score);
      return (seq
         // display score
         if (score > high_score) high_score <= score;
         copyArea(zeroExtend(s3) << 3, 169, 38      , 24, 8, 8);
         copyArea(zeroExtend(s2) << 3, 169, 38 +  8 , 24, 8, 8);
         copyArea(zeroExtend(s1) << 3, 169, 38 + 16 , 24, 8, 8);
         copyArea(zeroExtend(s0) << 3, 169, 38 + 24 , 24, 8, 8);
         copyArea(zeroExtend(h3) << 3, 177, 110      , 24, 8, 8);
         copyArea(zeroExtend(h2) << 3, 177, 110 +  8 , 24, 8, 8);
         copyArea(zeroExtend(h1) << 3, 177, 110 + 16 , 24, 8, 8);
         copyArea(zeroExtend(h0) << 3, 177, 110 + 24 , 24, 8, 8);
      endseq);
   endfunction

このようにバイナリを4桁BCD化する関数を組合わせ回路にしたところ、ワンサイクルなので回路は増加するかと思いきや、以下のように若干減少する結果になりました。組合せ回路は多少増えても10^nを引くループが8回削減された効果が大きいようです。

BCD4桁表示を最適化前後		前	後	比較
BSV合成	コンパイル時間	2:08	2:04	▲3.1%
Verilog合成	ファイルサイズ[KB]	8,396	8,101	▲3.5%
	合成時間	1:01	0:54	▲11.5%
	Vivado LUT数	5,901	5,565	▲5.7%
	Vivado FF数	1,812	1,766	▲2.5%

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on September 29, 2025

September
26

GameFSMの改良 (10)

posted by sakurai on September 26, 2025 #1030

前記事でコール順位3位の16回も呼ばれているwait_timerを最適化します。

元のwait_timerは単純に60Hzの外部信号ticに同期して動作する関数です。これをまずwait_timer_orgにリネームします。

   // 時間待ち
   function Stmt wait_timer_org(
      UInt#(12) count
   );
      return (seq
         repeat(pack(extend(count))) seq
         await(tic == 0 || (foa && fbutton));
         await((tic == 1 && sreq == 0) || (foa && fbutton));
         endseq
      endseq);
   endfunction

これに対して、FSM wt_fsmを作成し、さらにそれを起動する汎用マクロを用いたタイマFSM起動関数を元の名前で作成します。

  // ラッパ用：引数をラッチするだけ（Reg は1本）
  Reg#(UInt#(12)) wt_count <- mkReg(0);
  // 本体は org を mkFSM 化（count は Reg 値を読ませる）
  FSM wt_fsm <- mkFSM( wait_timer_org(wt_count) );

  // 同名の薄ラッパ：値ラッチ → 1サイクル待つ → start → done 待ち
  function Stmt wait_timer (UInt#(12) count);
    return (seq
      action wt_count <= count; endaction
      `RUN_FSM(wt_fsm)
    endseq);
  endfunction

このようにすれば、wait_timerを読んでもStmtがほとんど増加せずにFSMに起動をかけ、終了を待つだけになります。本体のStmtとしてはやや小さいものの、前ページのように16回呼ばれているため多少の効果はあるようです。

この関数だけのFSM化効果を調べたら以下のようにverilog量(byte数)で10.6%の削減となったので、そこそこの効果はありました。

wait_timerを最適化前後		前	後	比較
BSV合成	コンパイル時間	2:36	2:10	▲16.7%
Verilog合成	ファイルサイズ[KB]	9,394	8,395	▲10.6%
	合成時間	0:51	0:51	0.0%
	Vivado LUT数	5,992	5,901	▲1.5%
	Vivado FF数	1,871	1,812	▲3.2%

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on October 24, 2025

September
25

GameFSMの改良 (9)

posted by sakurai on September 25, 2025 #1029

GameFSM中で2回以上staticに呼ばれているsystem functionではない関数とそのstaticな回数です。

順位	関数名	回数	備考
1	copyArea	31	基本関数でありblitに集約
2	eraseArea	17	基本関数でありblitに集約
3	wait_timer	16
4	sound	11
5	copyGlyph	6	copyAreaを呼んでいるだけ
6	keta	6
7	eraseBullet	4	eraseAreaを呼んでいるだけ
8	eraseInvBullet	3	eraseAreaを呼んでいるだけ
9	eraseAreaSP	2	基本関数でありblitに集約
10	explodeBullet	2	orAreaを呼んでいるだけ
11	explodeInvBullet	2	eraseAreaを呼んでいるだけ
12	orArea	2	基本関数でありblitに集約

前回まででVRAMアクセス関数をFSM化したため、色付けされている、69回も展開されているこれらの関数が全てFSMの起動-終了待ちとなりました。

次に比較的多数回呼ばれている時間待ち関数wait_timer()をFSM化します。

前のブログ次のブログ

Tags: Design, BSV, AI
Read more | Comments (0) | Last updated on September 25, 2025

Posts Tagged with "BSV"