過去ブログの、BSVによるスペースインベーダーの再設計の記事#234~#239, #254をまとめてQiitaに投稿しました。さらに考察を加えています。
BSV (Bluespec SystemVerilog)によるスペースインベーダーの再設計
過去ブログ記事でUltra96ボードを用いた、VerilogHDLによるSpace Invadersゲームの作成を投稿しましたが、その続きです。

過去ブログの、BSVによるスペースインベーダーの再設計の記事#234~#239, #254をまとめてQiitaに投稿しました。さらに考察を加えています。
BSV (Bluespec SystemVerilog)によるスペースインベーダーの再設計
過去ブログ記事でUltra96ボードを用いた、VerilogHDLによるSpace Invadersゲームの作成を投稿しましたが、その続きです。
![]() |
11 |
BSVの設計トライアル (21) |
![]() |
トライアルの結果、BSVによるゲームFSMが完成しました。過去記事のステートベースのサウンドステートマシンと異なり、ステート分解をしていないため、rule文を一切使用していません。全てbsc(Bluespec Compiler)の、StmtFSMライブラリにステート管理を任せました。
基本的にはCで記述するようにゲームが記述できることが分かりました。例えば、弾の移動及び衝突判定、衝突処理(爆発マーク)、爆発マーク消去等のアルゴリズムを考えると、自弾、敵弾共にアルゴリズムは共通で、疑似コードで書けば、
if (弾爆発タイマ >= 1) { // 弾爆発中
弾爆発タイマ++;
if (弾爆発タイマ == MAX) {
弾削除; // 論理的な消去
弾爆発マーク消去; // 物理的な消去
弾爆発タイマ停止;
}
} else {
if (弾が出ていない and 弾生成条件) {
弾生成処理;
弾発射音; // 自弾のみ
}
if (弾存在) {
衝突判定;
if (対象物) { // 自弾の場合はインベーダ及びUFO、敵弾の場合は自機
弾削除; // 論理的な消去
対象物ステート <= 爆発;
対象物爆発タイマ <= 0;
} else if (上下ハズレ || ベース || 弾) { // 弾:自弾の場合は敵弾、敵弾の場合は自弾
弾マーク消去;
弾爆発マーク;
弾爆発タイマ <= 1;
} else { // 衝突していない場合
弾を進める;
}
}
}
一方、対象物は、
if (対象物ステート == 爆発) {
if (対象物爆発タイマ==0) {
対象物爆発タイマ <= 1;
対象物爆発音;
対象物爆発マーク;
} else {
対象物爆発タイマ++;
if (対象物爆発タイマ == MAX) {
対象物削除; // 論理的な消去
対象物爆発マーク消去; // 物理的な消去
}
}
}
のようになりますが、StmtFSMを使うと、このようなシーケンスをクロック毎のステートに分解しなくて記述できます。
某所で質問があったので、タイミングについて解説します。基本の1 tickは1/60秒で、その中で、インベーダ1匹、敵弾全弾、自機、自弾、UFO、スコア等の処理を行います。以下は実際のBSVのメインループのコードです。
while (game_flag) seq // メインループ
for (noy <= 0; noy < `Inv_TateS; noy <= noy + 1) seq // インベーダの行処理
for (nox <= 0; nox < `Inv_YokoS; nox <= nox + 1) seq // インベーダの列処理
if (inv_s[nox][noy]) seq // インベーダが生きてれば
ivader; // インベーダ処理
gun; // 自機処理
bullet; // 自弾処理
for (idx <= 0; idx < extend(max); idx <= idx + 1) seq
invBullet(idx); // 敵弾全弾処理
endseq
ufo; // UFO処理
scores; // スコア表示
endJudge; // 終了判定
counter <= counter + 1; // tickカウンタ++
wait_timer; // インナーループを1/60secにするウエイト
endseq
endseq
endseq
endseq
gameOver; // ゲームオーバー表示
1tick=1/60secの間に、インベーダ1匹(2ピクセル移動)の処理に対して、自機(1ピクセル移動)、敵弾(1ピクセル移動)、自弾(4ピクセル移動)の処理が行われます。インベーダは初期に55匹存在するので、1/55倍のスピードで始まりますが、最終的に1倍のスピードになります。従って、インベーダを倒すたびにインベーダ全体は速くなり、一方その他の速度は変わらないわけです。
FPGAでの実装では1 tick内にインベーダ全体を移動することは可能ですし、そのような実装も見ますが、ゲーム性が変わってしまいます。具体的には、インベーダ全体の速度が次第に速くならなかったり、後ろのインベーダを撃つことができなくなります。
例えば、インベーダゲームのレインボーは、後ろのインベーダを撃つことにより出現します。インベーダは残りが一匹になると左へは2ピクセルずつ右には3ピクセルずつ移動します。下2段のインベーダは、左右2ピクセルまでの移動では跡が残らない図形になっていますが、3ピクセルだと跡が消えずに残ります。もちろん今回の実装でもレインボーを体験できます。
図254.1は、BSVで再設計したゲームFSMにより動作する、インベーダーゲームの動画です。過去記事に書いたように、サウンドが4ch同時発声と高品質になりました。
![]() |
4 |
BSVの設計トライアル (20) |
![]() |
次は、ファンクションの中にシーケンスを組み込み、ゲームFSMの設計トライアルを行います。 シーケンスを人手で分解することは、なるべくしたくありません。ファンクションでシーケンスが定義できれば、インベーダ動作、自機動作等のファンクションを作成し、順番にそれらを呼び出せば良いはずです。
import StmtFSM::*;
interface TestFSM_ifc;
method Action inp(UInt#(8) inx);
endinterface
(* synthesize *)
module mkTestFSM(TestFSM_ifc);
Reg#(UInt#(8)) i <- mkRegU;
Reg#(UInt#(8)) x <- mkRegU;
function Stmt test1;
return (seq
$display("%3d 1-1", $time);
delay(5);
$display("%3d 1-2", $time);
endseq);
endfunction
function Stmt test2(UInt#(8) xx);
return (seq
$display("%3d 2-1", $time);
for (i <= 0; i < xx; i <= i + 1)
$display("%3d 2-loop-%1d", $time, i);
$display("%3d 2-2", $time);
endseq);
endfunction
Stmt main =
seq
$display("%3d fsm1.start", $time);
test1;
$display("%3d fsm2.start", $time);
test2(x);
endseq;
mkAutoFSM(main);
method Action inp(UInt#(8) inx);
x <= inx;
endmethod
endmodule: mkTestFSM
このためのテストベンチを示します。あえてモジュール外部からループ回数を入れているのは、ループ回数がダイナミックに(実行時に)決定できるかを確認するためです。ファンクションのループを8回呼び出してみます。
import StmtFSM::*;
import TestFSM::*;
(* synthesize, always_ready, always_enabled *)
module mkTb (Empty);
TestFSM_ifc test <- mkTestFSM();
Reg#(UInt#(8)) count <- mkReg(8);
Stmt main =
seq
test.inp(count);
repeat(40) noAction;
endseq;
mkAutoFSM(main);
endmodule
実行結果を示します。test1の次にtest2が呼び出され、ループが8回回ったことを示しています。
20 fsm1.start
30 1-1
90 1-2
100 fsm2.start
110 2-1
130 2-loop-0
150 2-loop-1
170 2-loop-2
190 2-loop-3
210 2-loop-4
230 2-loop-5
250 2-loop-6
270 2-loop-7
290 2-2
![]() |
1 |
BSVの設計トライアル (19) |
![]() |
以下に実行結果を示します。
senderFSM 20 FSM started
receiverFSM 20 receiver FSM started
senderFSM 30 Enq 10
senderFSM 40 Enq 20
receiverFSM 40 FIFO popped data 10
senderFSM 50 Enq 30
receiverFSM 70 FIFO popped data 20
receiverFSM 100 FIFO popped data 30
10nsずつ見ていきます。最初の10nsはリセット期間なので、20nsからFSM動作を開始します。
senderFSM 20 FSM started
receiverFSM 20 receiver FSM started
同時にセンダーFSMとレシーバーFSMが動作を開始しました。
senderFSM 30 Enq 10
センダーFSMがデータ10をエンキューしました。FIFOには1段のデータがあるはずです。
senderFSM 40 Enq 20
receiverFSM 40 FIFO popped data 10
レシーバーFSMが10をデキューすると同時にセンダーFSMがデータ20をエンキューしました。FIFOには差し引き1段のデータがあるはずです。
senderFSM 50 Enq 30
センダーFSMのレイテンシは1サイクル10nsなので次々に(FIFO FULLにならない限り)エンキューします。これが最後のデータです。FIFOには2段のデータがあるはずです。
receiverFSM 70 FIFO popped data 20
レシーバーFSMのレイテンシは3サイクル30nsなので、70nsにならないと次データの20がデキューできません。FIFOには1段のデータがあるはずです。
receiverFSM 100 FIFO popped data 30
レイテンシである3サイクル後にレシーバーFSMがデキューしました。FIFOには0段のデータがあるはずです。つまりFIFOは空になったはずです。
波形で見たほうが判りやすいです。エンキュー動作(オレンジの信号)はFIFOがフルでない限り1サイクルで行われるのに対してデキュー動作(ブルーの信号)は3サイクル毎に実行されています。
以上はデータを3つエンキューした場合ですが、ここで4つ目をエンキューすると動作が異なります。図252.2に示すように、3つまではレイテンシ1でエンキューできていましたが、3つめでFIFO FULLとなり、その後はレシーバーFSMのレイテンシが見えてきます。つまりエンキュー動作もレイテンシが3となります。
実は、FIFO段数もコントロール可能であり、任意の段数のFIFOを作成するにはmkSizedFIFOFを使用します。
FIFOF#(Bit#(8)) fifo <- mkSizedFIFOF(2);
mkSizedFIFOFの引数サイズを2とすると、上記と同じ動作を行います。サイズを1にすると、デキューするまでエンキューが待たされる、図252.3のような動作となります。
![]() |
30 |
BSVの設計トライアル (18) |
![]() |
前稿ではBSVにより、ステートベースのFSMを設計しました。ステートベースとは、シーケンスを人手でステートに分解し、一つ一つのステートに対してルールを書くもので、基本的にはverilogと同程度の工数がかかります。一方、BSVにはステートマシンを効率的に設計できる、StmtFSMというライブラリが存在します。
このライブラリの検証用のために検証用FSMを作成します。検証用FSMは2つのコンカレントなFSMを持ち、一方のSenderFSMがFIFOにデータを詰め(エンキュー)、他方のReceiverFSMがFIFOからデータを取り出す(デキュー)ものとします。コンカレントであり、エンキューとデキューは同時に起こります。
package Tb;
import StmtFSM::*;
import FIFOF::*;
(* synthesize *)
module mkTb (Empty);
FIFOF#(Bit#(8)) fifo <- mkFIFOF;
Stmt sender =
seq
$display("senderFSM %4d FSM started", $time);
action
$display("senderFSM %4d Enq 10", $time);
fifo.enq(10);
endaction
action
$display("senderFSM %4d Enq 20", $time);
fifo.enq(20);
endaction
action
$display("senderFSM %4d Enq 30", $time);
fifo.enq(30);
endaction
repeat (8) noAction;
endseq;
FSM senderFSM <- mkFSM(sender);
Stmt receiver =
seq
$display("receiverFSM %4d receiver FSM started", $time);
while(True) seq
action
$display("receiverFSM %4d FIFO popped data", $time, fifo.first());
fifo.deq();
endaction
repeat (2) noAction;
endseq
endseq;
FSM receiverFSM <- mkFSM(receiver);
rule startit;
senderFSM.start();
receiverFSM.start();
endrule
rule finish (senderFSM.done() && !receiverFSM.done());
$finish;
endrule
endmodule
endpackage
コードに示すように、エンキューはレイテンシ1で実行され、デキューはレイテンシ3で実行されます。各々のFSMは、エンキューデータ、デキューデータをそれぞれ表示します。
![]() |
29 |
BSVの設計トライアル (17) |
![]() |
前稿のリターンスタックrsはベクター配列で構成しましたが、最初に戻りレジスタ配列を試してみます。当初から配列で試したところ、うまく行っていませんでしたが、成功したのでその方法を記述します。まずリターンスタックrsを配列宣言します。
// return stack
Reg#(State_t) rs[3];
次に、リターンスタックrsを3段レジスタによりインスタンシエートします。これが無かったため、今まで動作しませんでした。ちなみにverilogでは宣言しただけで使用できますが、BSVでは宣言し、次にインスタンシエートが必要です。
for (int i = 0; i < 3; i = i + 1)
rs[i] <- mkRegU;
マクロ命令定義はベクター配列と同じ配列によるアクセス法を用います。
`define call(SUB) `_pushNext; state <= State_t {func:SUB, step:S0}
`define _pushNext rs[sp] <= State_t {func:state.func, step:nextStep()}; sp <= sp + 1
`define return state <= rs[sp-1]; sp <= sp - 1
`define next state.step <= nextStep()
説明は表248.1と同一です。これを用いて、前稿の検証FSMを実行してみます。
$ bsc -sim -u TestFSM4.bsv
checking package dependencies
compiling TestFSM3.bsv
code generation for mkTestFSM starts
Elaborated module file created: mkTestFSM.ba
All packages are up to date.
$ bsc -sim -e mkTestFSM -o mkTestFSM
Bluesim object created: mkTestFSM.{h,o}
Bluesim object created: model_mkTestFSM.{h,o}
Simulation shared library created: mkTestFSM.so
Simulation executable created: mkTestFSM
$ ./mkTestFSM -m 15 -V dump.vcd | tee result
L1 S0
L1 S1
L2 S0
L2 S1
L2 S2
L3 S0
L3 S1
L4 S0
L4 S1
L3 S2
L2 S3
L2 S4
L1 S2
L1 S2
$
正しく実行することが検証できました。波形を図250.1に示します。内部信号を見ると、ベクター配列と同様、rs_0, rs_1, rs_2という3個のレジスタインスタンスが生成されています。
Vivadoによる合成結果は21 LUTのサイズでした。レジスタ配列とベクター配列は同様のサイズであったため、今後は最も素直なこの方式を採用します。
ソフトウェアの場合は高速なレジスタと低速なメモリがあるため、リターンレジスタ等の実装が必要ですが、FSMではよほどのことが無い限り全てレジスタなので、リターンレジスタを使用しない、この実装を基本的に使用していきます。
![]() |
28 |
BSVの設計トライアル (16) |
![]() |
前稿までのリターンスタックrsはレジスタファイルで構成しましたが、別法のベクター配列を試してみます。 まずベクターをインポートします。
import Vector::*;
次に、リターンスタックrsを3段インスタンシエートします。
// return stack
Vector#(3, Reg#(State_t)) rs <- replicateM(mkRegU);
さらにマクロ命令定義を書き換えます。ベクター配列はrs[sp]として扱えるので、直感的に分かりやすいです。
`define call(SUB) `_pushNext; state <= State_t {func:SUB, step:S0}
`define _pushNext rs[sp] <= State_t {func:state.func, step:nextStep()}; sp <= sp + 1
`define return state <= rs[sp-1]; sp <= sp - 1
`define next state.step <= nextStep()
説明は表248.1と同一です。これを用いて、前稿の検証FSMを実行してみます。
$ bsc -sim -u TestFSM3.bsv
checking package dependencies
compiling TestFSM3.bsv
code generation for mkTestFSM starts
Elaborated module file created: mkTestFSM.ba
All packages are up to date.
$ bsc -sim -e mkTestFSM -o mkTestFSM
Bluesim object created: mkTestFSM.{h,o}
Bluesim object created: model_mkTestFSM.{h,o}
Simulation shared library created: mkTestFSM.so
Simulation executable created: mkTestFSM
$ ./mkTestFSM -m 15 -V dump.vcd | tee result
L1 S0
L1 S1
L2 S0
L2 S1
L2 S2
L3 S0
L3 S1
L4 S0
L4 S1
L3 S2
L2 S3
L2 S4
L1 S2
L1 S2
$
正しく実行することが検証できました。波形を図249.1に示します。内部信号を見ると、rs_0, rs_1, rs_2という3個のレジスタインスタンスが生成されています。これが3段のリターンスタックを構成しています。
Vivadoによる合成結果は21 LUTのサイズでした。レジスタファイルよりもベクター配列のほうが、わずかに小さくなることが分かりました。レジスタファイルは下位モジュールのレジスタファイルをインスタンスする必要がありますが、ベクター配列は上記のようにレジスタが展開されるだけです。従って、インタフェースが簡略化されるため、小さくなると考えられます。
![]() |
27 |
BSVの設計トライアル (15) |
![]() |
以上の議論から再定義したマクロ命令のコードです。
`define call(SUB) `_pushNext; state <= State_t {func:SUB, step:S0}
`define _pushNext rs.upd(sp, State_t {func:state.func, step:nextStep()}); sp <= sp + 1
`define pushCall(FUNC,SUB) _pushFunc(FUNC); state <= State_t {func:SUB, step:S0}
`define _pushFunc(FUNC) rs.upd(sp, State_t {func:FUNC, step:S0}); sp <= sp + 1
`define nextFunc state <= State_t {func:nextFunc(), step:S0}
`define return state <= rs.sub(sp-1); sp <= sp - 1
`define next state.step <= nextStep()
今回、アプリ(インベーダサウンドFSM)の必要上pushCallを定義しています。これは、call命令の一般化であり、次ステートではなく任意のファンクションに戻るコールを実装するものです。以上のマクロ命令の説明を表248.1に示します。
マクロ命令名 | 説明 |
---|---|
call(SUB) | サブルーチンコールです。次ステートをプッシュして、サブルーチンSUBをコールします。 |
_pushNext | callに使用されており、次のステートをプッシュする内部マクロ命令です。nextStep()関数を使用しています。ユーザは陽に使う必要は無いため、先頭にアンダースコアを付けています。 |
pushCall(FUNC,SUB) | サブルーチンコールです。戻り先ファンクションFUNCをプッシュして、サブルーチンSUBをコールします。戻り先は指定されたファンクションFUNCの先頭S0となります。 |
_pushFunc(FUNC) | pushCallに使用されており、戻り先ファンクションFUNCをプッシュする内部マクロ命令です。ユーザは陽に使う必要は無いため、先頭にアンダースコアを付けています。 |
nextFunc | 次のファンクションに進めるためのマクロ命令です。nextFunc()関数を使用しています。 |
return | 呼び出し元(の次のステート)に戻るためのマクロ命令です。 |
next | 次のステートに進めるためのマクロ命令です。nextStep()関数を使用しています。 |
Vivadoによる合成結果は22 LUTのサイズでした。
![]() |
24 |
BSVの設計トライアル (14) |
![]() |
前稿でpushRetとcallをまとめるアイデアを記載しましたが、それを実装してみます。まとめたマクロ命令をpushCallと名付けます。
`define _pushRet rs.upd(sp, ret); sp <= sp + 1
`define popRet state <= rs.sub(sp-1); sp <= sp - 1
`define pushCall(SUB) `_pushRet; `_saveNext; state <= State_t {func:SUB, step:S0}
`define _saveNext ret <= State_t {func:state.func, step:nextStep()}
`define return state <= ret
非リーフでのコールとリターンが完成したので動作確認を行います。非リーフでのcallをpushCallに、リターンはそのままpopRetとします。リーフではcallは無く、リターンはそのままreturnとします。
ソースコード内のpushRetを削除し、それぞれのcallをL1ルール内において、
`pushCall(L2);
L2ルール内において、
`pushCall(L3);
L3ルール内において、
`pushCall(L4);
のように修正します。動作確認した結果、expectedと一致し正常動作が確認されました。
そもそもリターンレジスタのretがあるためリーフと非リーフの区別がありました。スタック操作はハードウエアであり、性能へのインパクトがほとんど無いことから、リーフ・非リーフで統一したやり方を考えます。それにはretレジスタを廃止します。従って、callとreturnは以下のようにリターンスタックのみで操作します。 retレジスタの削除の他、マクロの修正を次のように行います。
`define return state <= rs.sub(sp-1); sp <= sp - 1
`define call(SUB) `_pushNext; state <= State_t {func:SUB, step:S0}
`define _pushNext rs.upd(sp, State_t {func:state.func, step:nextStep()}); sp <= sp + 1
`define next state.step <= nextStep()
としました。これにより、サブルーチンコールの場合は常にcall()を用い、リターンの場合は常にreturnを用います。このように修正した結果、正常動作することを確認しました。ただし、returnレジスタを削除したため、rsはL1~L3で使用により3段、従ってspは2bitとなりました。
以上から、内部マクロを除くユーザーに見えるマクロは、call()、return、nextの3種となります。
![]() |
23 |
BSVの設計トライアル (13) |
![]() |
ソースプログラムをコンパイルします。
$ bsc -u -sim TestFSM.bsv
checking package dependencies
compiling TestFSM.bsv
code generation for mkTestFSM starts
Elaborated module file created: mkTestFSM.ba
All packages are up to date.
次にリンクします。
$ bsc -sim -e mkTestFSM -o mkTestFSM
Bluesim object created: mkTestFSM.{h,o}
Bluesim object created: model_mkTestFSM.{h,o}
Simulation shared library created: mkTestFSM.so
Simulation executable created: mkTestFSM
15サイクル実行します。
$ ./mkTestFSM -V dump.vcd -m 15 | tee result
L1 S0
L1 S1
L2 S0
L2 S1
L2 S2
L3 S0
L3 S1
L4 S0
L4 S1
L3 S2
L2 S3
L2 S4
L1 S2
L1 S2
結果を比較することにより検証します。
$ diff -c result expected
出力結果がサイクルベースで一致したことにより、正しく動作していることが検証されました。実は階層が4レベルあってもL1では戻り先が無いのでスタックを使いませんし、L4もリーフなのでスタックを使いません。従ってL2とL3だけでpush/popするため、スタックは2段(retを含めて3段)となり、spは1bitで良いことになります。これはたまたま前稿と同じ設計です。
このように変更し、上記のコンパイル、実行、一致検証まで実施したところ、期待した動作をすることが確認されました。rsが2段の場合のBsimの波形を図246.2に示します。spは1bitしかないので、sp==2の際にsp==0という不正な値となっていますが、sp==2の場合のspは使用しないため、問題ありません。