Posts Tagged with "failure rate"

既に発行済みのブログであっても適宜修正・追加することがあります。
Even in the already published blog, we may modify and add appropriately.
posted by sakurai on February 25, 2020

ここで前稿の図207.1の左端の事象E1について、説明を加えます。AとBの同時故障とは2とおり考えられます。

 C1. AとBが時刻tで同時に故障する場合
 C2. AとBが時刻tまでに両方共故障している場合

どちらもANDゲートを用いて図208.1のように表現されますが、

図%%.1
図208.1 DPFのFault Tree

前述のように、C1は誤りです。同時に故障するDPF確率はほぼ確実にゼロだからです。一方、C2の場合は妥当です。区間$[0, t)$において、Aが故障し、同様に区間$[0, t)$においてBが故障する確率はそれぞれ有限の値を持ちます。時刻$t$においてその両方が起きているDPF確率は、(AとBが独立に起こる場合)それらの確率の積で表される有限の値だからです。

それでは、前稿の図207.1の左端の事象E1は上記のどちらの意味でしょうか?

図208.2に前稿の図207.1を弊社で書き直した図を示します。E1, E2, E3を削除しています。

図%%.2
図208.2 前稿の書き直し図(弊社作成)

E1, E2, E3を削除しE4とE5が残ったのですが、E1を削除した判断を確認します。もし上記のC2の場合であれば妥当なので。

E4, E5はそれぞれ、

  • E4: Aが故障してレイテントとなっており、次にBが故障した場合
  • E5: Bが故障してレイテントとなっており、次にAが故障した場合

ですが、上記C2ならばE4 or E5が成り立ち、 $$C2\subset (E4\cup E5)$$ 逆に、E4ならばC2、かつE5ならばC2が成り立ち、 $$\ (E4\cup E5)\subset C2$$ 従って、C2とE4 or E5は同値です。以上から、左端事象はAとBが同時に故障するC1の場合を指すと考えられ、それは確率ゼロのため、削除可能と判断できます。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 24, 2020

詳細を見れば誤りはさらに種々あります。まず、Fault TreeのTOPの図を示します。ここで、エレメントAやBは冗長を構成する2つのエレメントを指します。

図%%.1
図207.1 FT図

5つの場合分けをして考えています。
  • E1  A&Bに同時にSPFが起こる
  • E2  AにRFが起き、引き続きBにSPF/RFが起こる
  • E3  BにRFが起き、引き続きAにSPF/RFが起こる
  • E4  AにLFが起き、引き続きBにSPF/RFが起こる
  • E5  BにLFが起き、引き続きAにSPF/RFが起こる

まずE1ですが、AとBは同時に故障する確率はa.s.(almost surely; ほぼ確実に)0なので、このサブツリー以下は考える必要がありません。

次に{E2, E4}, {E3, E5}のペアで考えると、{E2, E4}は先にAに故障が起き、次にBに故障が起きるDPFを意味しています。その中で、Aの故障をさらにRFとLFに分解しています。

ここで、(書かれていませんが)AにSPFが起こらないのは正しいです。Aに故障が起きても必ず(従属故障が無い限り)Bが代替機能を果たすため、系(サブシステム)としてSPFにはなりません。

次にE2においてAにRFが起きるという記述が誤りです。AにRFが起きるということは、Aの1点故障によりSG侵害されるということなので、Aに故障が起きても必ず(従属故障が無い限り)Bが代替機能を果たすため、SG侵害は起きません。従って、Aの故障の場合はLFとなり、全てE4に集約されます。従って、E2は考慮する必要がありません。

E3も同様です。以上から、E1, E2, E3は不要で、E4, E5のみが残ることになります。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 14, 2020

書き換えたFTの評価

図202.1に対して図203.1の書き換えを適用したものが図204.1のFTです。このFTに対してカットセット分析を実施し、TOP事象の確率を求めます。

図%%.1
図204.1 弊社提案のEBDサブシステムのFT

同様にツールを用いてMCSを求めると、ミニマルカット数は$\img[-1.35em]{/images/withinseminar.png}$ となります。 図204.2中のC_DC_OL_MONは、1からオンラインモニタのDCを引いた定数であるため、これはエレメント故障数にカウントされません。

図%%.2
図204.2 図204.1のFTのMCS

このように、PMHF式を尊重せず、RFを見逃しDPFのみとすることで、2.6倍も故障確率を甘く(低く)見る事になります。保守的に(高く)見積もるのであれば安全側なのでOKですが、不稼働確率の過小評価は危険側のため、良くありません。

再度整理すると、正しい考え方は、

  1. 2つのエレメントにより冗長構成される(これを系とする)
  2. それぞれのエレメントは修理可能(つまり不信頼度$F(t)$ではなく、不稼働度$Q(t)$となる)
  3. 系として状態はマルコフ連鎖で表される(その理由は、1つのエレメントの故障が他方の状態に影響を与えるため。具体的には、1つのエレメントが故障すると、他方は非修理可能となる)
  4. PMHF式はこれらを全て考慮し、系の車両寿命における平均不稼働確率を表したものであり、 PMHF式に基づきFault Treeを構成する

ですが、参照論文はこのうち、2., 3., 4.が満足されていません。1.は当たり前のため、ほとんど間違いということになります。

弊社ではFTAに関する論文をRAMS 2021に投稿予定であり、そのため、ブログの一部一旦非開示としました。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 13, 2020

保守的なPMHF式

参照論文では不信頼度を $$F(t)=1-e^{-\lambda t}$$ という非修理系して扱っていますが、これはISO 26262の考え方と合いません。規格では主機能と安全機構のDPFまで考慮する必要があり、安全機構は修理可能として扱います。そのため2nd order SMが必要であり、周期的な検出(検出周期=$\tau$)と修理(検出カバレッジ=$K_\text{SM,MPF}$)が前提となります。修理系において不信頼度$F(t)$は不稼働度$Q(t)$となり、 $$\img[-1.35em]{/images/withinseminar.png}$$ これからPMHFを求めると、 $$\img[-1.35em]{/images/withinseminar.png}$$

ここでワーストケースを考え、2nd order SMが無い(カバレージがゼロ、$K_\text{SM,MPF}=0$として評価します。これは保守的な評価です。すると、上式のPMHFは、 $$\img[-1.35em]{/images/withinseminar.png}$$ 従って、基本的にFTはこの評価式を実装することになります。

FTの書き換え

参照論文ではRFを考慮せずに、単純にDPFとしていましたが、これは問題です。 上記のようにRF+DPFとして表す必要があります。これを確率式で表せば、 $$\img[-1.35em]{/images/withinseminar.png}$$ となり、図203.1のFTの書き換えのように構成します。図の左は参照論文のFTであり、右は変更後のFTです。

図%%.1

図203.1 DPFの書き換え(RFを追加)

FTAツールは確率で取り扱い、mission timeの計算は自動的に行われるため、明示的に$T_\text{lifetime}$を掛ける必要はありません。

弊社ではFTAに関する論文をRAMS 2021に投稿予定であり、そのため、ブログの一部一旦非開示としました。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 12, 2020

参照論文の問題点

参照論文では、EBDノードを含めた全体について、定量的にFault Treeを用いたMCS(Minimal Cut Set)分析を行っており、問題は2つあります。

  • ISO 26262規格のPMHF式を参照していない
  • On-lineモニタのカバレッジが参照されていない。すなわち、残余故障(RF)を無視しており、けた違いに小さい確率のMPFとして扱っている。

この2つは関連する問題ですが、特に2番目が問題です。MPFはRFより確率が小さいため、けた違いの過小評価となります。具体的に表202.1のとおり数値を入れてみてみます。On-lineモニタは参照論文に数値が無かったため、SMとして低めの数値を入れました。

表202.1
Subsystem Component Failure Rate [1/h]
EBD Node Brake ECU $3.3\times 10^{-7}$
Electronics Brake Module (EBM) $4.2\times 10^{-7}$
On-line monitor for EBM $1.1\times 10^{-7}$

この数値に基づき、参照論文のEBDサブシステムのFTをツール(SAPHIRE)により構成すれば、図202.1のようになります。

図%%.1
図202.1 参照論文のEBDサブシステムのFT

図202.1は論文のFTですが、このFTに対してカットセット分析を実施し、EBDサブシステムの故障確率を求めます。ツールを用いてMCSを求めると、図202.2のようにEBDサブシステムの故障確率は$6.481\times 10^{-3}$となります。

図%%.2
図202.2 EBDサブシステムのFTのMCS

ISO 26262では3つ以上のエレメント故障は安全故障としています。これは(書かれていませんが)確率が非常に低くなるためです。従って、3つ以上の故障を枝刈り(slice)すれば、図202.3のMCSを得、故障確率は$6.31\times 10^{-3}$となります。

図%%.3
図202.3 枝刈りをしたMCS


左矢前のブログ 次のブログ右矢

posted by sakurai on February 11, 2020

ISO 26262のFTA関連の2つの論文を紹介します。

最初に紹介するのは"ISO 26262 ASIL-Oriented Hardware Design Framework for Safety-Critical Automotive Systems"という論文$\dagger$で、 PMHFターゲットに対してシステムをFTAを用いて分析し、弱い部分を定量的に抽出し、そこにSMを追加し、最終的にPMHF目標を満たす設計手法を提案するという、大変興味深いものです。ただ、残念ながらこの論文にはランダムハードウェア故障の確率の評価値(いわゆるPMHF)について問題があるため、それを取り上げます。

この論文(以下参照論文と言う)は以下のところから取得できます。

この論文ではAEB(autonomous emergency braking system)を題材としています。以下にAEBシステムのFT(Fault Tree)を示します。

図%%.1
図201.1 AEBシステム

AEBはかなり大規模なシステムであるため、FTの一部を抜き出します。図201.2がその一部で、これにEBDサブシステムと名付けます。

図%%.2
図201.2 AEBシステムの一部(EBDサブシステム)

EBDサブシステムは図201.2のように、EBDノード4冗長で構成されます。参照論文では図201.3のように、EBDノード1チャネルのEBM(Electronic Brake Module)に対してOn-line Monitorを付加してPMHFを下げたと主張しています。

図%%.3
図201.3 EBDノード1チャネル


$\dagger$Chen, Yung-Yuan & Lu, Kuen-Long. (2019). ISO 26262 ASIL-Oriented Hardware Design Framework for Safety-Critical Automotive Systems. 10.1109/ICCVE45908.2019.8965235.


左矢前のブログ 次のブログ右矢

posted by sakurai on February 5, 2020

1st EditionのPMHF式

以下に1st EditionのPMHF第1式及び第3式を示します。第1式はIFによりSPFもしくはDPFが発生する場合のみを数え上げた式であり、第3式はそれに加えてSM1によるDPFも加えた式です。従って、全ての場合を考えるならば第3式を使うのが正しいと考えます。

図%%.1
図109.1 1st EditionのPMHF第1式

図%%.2
図109.2 1st EditionのPMHF第3式

1st EditionにおいてはIFがアンリペアラブル、SM1がリペアラブルという前提での計算に基づいていると考えらえます。その理由は、この前提で、前項のCTMCから平均PUDを求めると、正確に上2式と一致するためです。

2nd EditionのPMHF式

以下に2nd EditionのPMHF式を示します。

図%%.3
図109.3 2nd EditionのPMHF式

ISO 26262の2nd EditionのPMHF式は、1st Editionとpattern3、4が異なっており、対称性からみて前提が追加されていると考えます。2nd Editionでは1st Editionの前提(pattern 1, 2)に加えて、その反対の状態(pattern 3, 4)つまりIFがリペアラブル、SM1がアンリペアラブルの場合の両側についてPMHFを求めていると推測します。ただし、$T_{\mathrm{lifetime}}$項と$T_{\mathrm{service}}$項がなぜ2倍異なるのかの理由は判明していません。

しかしながら、弊社ではこの前提は誤りではないかと思います。初期状態、つまりフォールトが起きていない状態においては、IF、SM1の両方ともがリペアラブルが正しく、上記の仮定においては故障確率を過大に見積もりすぎています。

例えば、SM1がフォールトし、そのフォールトがSM2により検出され、検出周期の最後でリペアされる場合(pattern 2)を考えます。規格ではこの場合は最初にSM1がフォールトしてしまうと、最終的にはIFのフォールトによりDPFとなる場合のみがカウントされます。なぜなら、どちらかがリペアラブルだと他方はアンリペアラブルだからです。つまりこの場合、SM1がリペアラブルの場合は自動的にIFはアンリペアラブルという前提です。

ところが、実際にはSM1がリペアされた場合は初期状態と同じ状態に戻るため、$\img[-1.35em]{/images/withinseminar.png}$

従って、実際にはDPFは起きませんが、IFのフォールトでDPFとカウントされ、結論として$\img[-1.35em]{/images/withinseminar.png}$

弊社ではPMHFに関する論文をRAMS 2020に投稿中であり、そのため、最新の研究#103~108を一旦非開示としました。⇒ニュースリリースでお知らせしたように、論文が正式に採択されたため、RAMS 2020終了後に公開とします。ブログでお知らせしたように、RAMS 2020での発表が終了したため、当該記事を開示とさせて頂きます。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 5, 2020

SPFの再計算?

前記事ではDPF1に関する平均PUDを再計算しました。IFの条件がアンリペアラブルからリペアラブルに変更され、リペアすることにより(一部の)OPRの状態確率が上がったためです。

しかし、SPFの確率は上がりません。その理由は、リペアによってIF downからIF up状態に戻ったということは、元のdownした時にはVSG抑止されていたはずです。そのため、リペアはDPF確率のみに影響し、SPFは全く無関係となります。従って、

$$ \overline{\varphi_{\mathrm{SPF,IFR}}}=\overline{\varphi_{\mathrm{SPF,IFU}}}\tag{108.1} $$

よって、(108.1)、(107.7)、(106.4)を加え合わせて、 $$ M_{\mathrm{PMHF}}=\overline{\varphi_{\mathrm{SPF,IFU}}}+\overline{\varphi_{\mathrm{DPF1,IFR}}}+\overline{\varphi_{\mathrm{DPF2,IFR}}}\\ =(1-K_{\mathrm{IF,RF}})\lambda_{\mathrm{IF}}+\img[-1.35em]{/images/withinseminar.png}\\ ただし、K_{\mathrm{MPF}}=K_{\mathrm{IF,MPF}}+K_{\mathrm{SM,MPF}}-K_{\mathrm{IF,MPF}}K_{\mathrm{SM,MPF}} \tag{108.2} $$ 前記事と同じ結果が得られたので、2nd Editionの規格式とは異なるものの、これが正解と考えます。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 5, 2020

DPF1の再計算

ところがこの3.の場合は、DPF1について再計算する必要があります。その理由は、IFの条件がアンリペアラブルからリペアラブルに変更され、リペアすることによりOPRの状態確率が上がり、結果としてDPF1の確率が下がるためです。

(104.1)IFUをIFRに変更した上でそのまま用います。

IFRモデルではLAT2はIFの稼働状態でかつSM1の不稼働状態であるから、 $$ \Pr\{\mathrm{LAT2\ at\ }t\}=\Pr\{\mathrm{IF\ up\ at\ }t\cap\mathrm{SM\ down\ at\ }t\}\tag{107.1} $$ さらにIFとSM1の稼働状態は独立事象であり、IF、SM1共にリペアラブルであることから、上式は $$ (107.1)=\Pr\{\mathrm{IF\ up\ at\ }t\}\Pr\{\mathrm{SM\ down\ at\ }t\}\\ =A_{\mathrm{IF}}(t)Q_{\mathrm{SM}}(t)\tag{107.2} $$ と書けるように思われますが、誤りです。IFはもともとVSG non preventableとVSG preventableにわかれるので、 $$ \Pr\{\text{IF up at }t\}=\Pr\{(\overline{\text{VSG of IF preventable}}\cup\text{VSG of IF preventable})\cap\text{IF up at }t\}\\ =\Pr\{(\overline{\text{VSG of IF preventable}}\cap\text{IF up at }t)\cup(\text{VSG of IF preventable}\cap\text{IF up at }t)\}\tag{107.3} $$ ところが、$\overline{\text{VSG of IF preventable}}$の部分はSM1によりVSG抑止できないということは、一発VSGで修理が不可であるため、アンリペアラブルです。従って、(107.3)の後半のみがリペアラブルとなり、 $$ (107.3)=(1-K_{\text{IF,RF}})R_\text{IF}(t)+K_{\text{IF,RF}}A_\text{IF}(t)\tag{107.4} $$ となるため、(107.1)は、 $$ (107.2)=\left[(1-K_{\text{IF,RF}})R_\text{IF}(t)+K_{\text{IF,RF}}A_\text{IF}(t)\right]Q_{\mathrm{SM}}(t)\tag{107.5} $$

一方、(104.1)右辺積分中の条件付き確率式について、(107.1)、条件付き確率式(103.4)、及び微小ダウン確率形式(66.15)を用い、DPF時の2つ目のフォールトはIF、SM1共にアンリペアラブルとなるため、 $$ \Pr\{\mathrm{IF\ down\ in\ }(t, t+dt]\ |\ \mathrm{LAT2\ at\ }t\}\\ =\Pr\{\mathrm{IF\ down\ in\ }(t, t+dt]\ |\ \mathrm{IF\ up\ at\ }t\cap\mathrm{SM\ down\ at\ }t\}\\ =\Pr\{\mathrm{IF\ down\ in\ }(t, t+dt]\ |\ \mathrm{IF\ up\ at\ }t\}=\lambda_{\mathrm{IF}}dt\tag{107.6} $$

よって、(104.1)に(107.6)、(107.5)を適用した上で、PUA(59.8)、PA(59.7)故障率(66.6)及び積分公式を用いれば、 $$ \overline{\varphi_{\mathrm{DPF1,IFR}}}=\frac{1-K_{\mathrm{IF,RF}}}{T_\text{lifetime}}\int_0^{T_\text{lifetime}}Q_{\mathrm{SM}}(t)R_{\mathrm{IF}}(t)\lambda_{\mathrm{IF}}dt\\ +\frac{K_{\mathrm{IF,RF}}}{T_\text{lifetime}}\int_0^{T_\text{lifetime}}Q_{\mathrm{SM}}(t)A_{\mathrm{IF}}(t)\lambda_{\mathrm{IF}}dt\\ =\frac{1-K_{\mathrm{IF,RF}}}{T_\text{lifetime}}\int_0^{T_\text{lifetime}}[(1-K_{\mathrm{SM,MPF}})F_{\mathrm{SM}}(t)+K_{\mathrm{SM,MPF}}F_{\mathrm{SM}}(u)]f_{\mathrm{IF}}dt\\ +\frac{K_{\mathrm{IF,RF}}}{T_\text{lifetime}}\int_0^{T_\text{lifetime}}[(1-K_{\mathrm{SM,MPF}})F_{\mathrm{SM}}(t)+K_{\mathrm{SM,MPF}}F_{\mathrm{SM}}(u)]\\ \cdot[(1-K_{\mathrm{IF,RF}})f_{\mathrm{IF}}(t)+K_{\mathrm{IF,RF}}f_{\mathrm{IF}}(u)]dt,ただし、u\equiv t\mod\tau\\ \approx\img[-1.35em]{/images/withinseminar.png} \tag{107.7} $$


左矢前のブログ 次のブログ右矢

posted by sakurai on February 5, 2020

2. LAT1でのフォールトは周期の最後でリペアされ、そうでないものはDPF2に遷移する場合

ケース2.の場合の計算です。2nd Editionの中にPattern4が以下の図のように書かれています。IFが先にフォールトし、それが検出される場合についてはリペアされると推測されます。従って、この3.の場合であると推定されます。

図%%.1
図106.1 Pattern 4

従って、2nd EditionではIFRモデルを前提としており、本ケース2.が妥当と思われます。

図%%.2
図106.2 CTMCにおいてLAT1⇒DPF2の遷移

(105.1)のIFUをIFRに変更した上でそのまま用います。 ここで、LAT1はIFの不稼働状態でかつSM1によりVSGは抑止されるがSM2により検出されず、かつSM1の稼働状態であるから、 $$ \Pr\{\mathrm{LAT1\ at\ }t\}=\Pr\{\mathrm{IF\ down\ at\ }t\cap\text{VSG of IF preventable}\cap\mathrm{SM\ up\ at\ }t\}\tag{106.1} $$ さらにIFとSM1の稼働状態は独立事象であり、IF、SM1は共にリペアラブルです。SM1のVSG prevent能力はアーキテクチャ的に決定されるため、他の事象とは独立と考え、$K_\text{IF,RF}$(101.3)を用いると、上式は $$ (106.1)=\Pr\{\mathrm{IF\ down\ at\ }t\}\Pr\{\text{VSG of IF preventable}\}\Pr\{\mathrm{SM\ up\ at\ }t\}\\ =K_{\mathrm{IF,RF}}Q_{\mathrm{IF}}(t)A_{\mathrm{SM}}(t)\tag{106.2} $$ と書けます。ここで、(105.1)の右辺積分中の条件付き確率式について、(106.1)、条件付き確率式(103.4)、及び微小ダウン確率形式(66.15)を用い、DPF時の2つ目のフォールトはIF、SM1共にアンリペアラブルとなるため、 $$ \Pr\{\mathrm{SM\ down\ in\ }(t, t+dt]\ |\ \mathrm{LAT1\ at\ }t\}\\ =\Pr\{\mathrm{SM\ down\ in\ }(t, t+dt]\ |\ \mathrm{SM\ up\ at\ }t\cap\mathrm{IF\ down\ at\ }t\cap\text{VSG of IF preventable}\}\\ =\Pr\{\mathrm{SM\ down\ in\ }(t, t+dt]\ |\ \mathrm{SM\ up\ at\ }t\}=\lambda_{\mathrm{SM}}dt\tag{106.3} $$ よって、(105.1)に(106.3)、(106.2)を適用した上で、PUA(59.8)、PA(59.7)故障率(66.6)及び積分公式を用いれば、 $$ \overline{\varphi_{\mathrm{DPF2, IFR}}}=\frac{1}{T_\text{lifetime}}\int_0^{T_\text{lifetime}}K_{\mathrm{IF,RF}}Q_{\mathrm{IF}}(t)A_{\mathrm{SM}}(t)\lambda_{\mathrm{SM}}dt\\ =\frac{K_{\mathrm{IF,RF}}}{T_\text{lifetime}}\int_0^{T_\text{lifetime}}\left[(1-K_{\mathrm{IF,MPF}})F_{\mathrm{IF}}(t)+K_{\mathrm{IF,MPF}}F_{\mathrm{IF}}(u)\right]\\ \cdot\left[(1-K_\text{SM,MPF})f_\text{SM}(t)+K_\text{SM,MPF}f_\text{SM}(u)\right]dt,ただし、u\equiv t\mod\tau\\ \approx\img[-1.35em]{/images/withinseminar.png}\\ ただし、K_{\mathrm{MPF}}=K_{\mathrm{IF,MPF}}+K_{\mathrm{SM,MPF}}-K_{\mathrm{IF,MPF}}K_{\mathrm{SM,MPF}} \tag{106.4} $$


左矢前のブログ 次のブログ右矢


ページ: