Posts Tagged with "failure rate"

既に発行済みのブログであっても適宜修正・追加することがあります。
We may make changes and additions to blogs already published.
posted by sakurai on February 26, 2020 #209

再度図208.2を掲載します。

図%%.1
図209.1 図207.1の書き直し図(弊社作成)

本ブログではE1~E5までの事象では正当なのは事象E4, E5のみと判断しましたが、参照論文ではE4, E5は削除されると書かれているので、驚きます。原文を見てみましょう。

In Figure 7, A has a latent dual-point fault first, that is to say, the two faults’ combination will lead to the failure of A, but not be detected or perceived by the driver, then B has a single point/residual fault. That is, A’s latent dual-point fault combined with B’s single point/residual fault will lead to the violation of the safety goal, and they have a time sequence. The fault tree for the middle event E5 is the same as for E4. In this condition, there are three failures in a dual redundancy system, which is beyond the scope of the design, so when calculating the failure rate, the middle events E4 and E5 should be ignored.

Google翻訳したものを多少修正すると、

図7では、エレメントAに最初に潜在的なデュアルポイントフォールトレイテント故障があります。つまり、2つの故障の組み合わせはAの故障につながりますが、ドライバーによって検出または認識されず、エレメントBにSPF/RFが起こる場合です。 つまり、Aの潜在的なデュアルポイント故障とBのシングルポイント/残留故障を組み合わせることで、安全目標の違反が発生し、タイムシーケンスが発生します。 中間事象E5のフォールトツリーは、E4と同じです。 この状態では、二重冗長システムに3つの故障があり、これは設計の範囲を超えているため、故障率を計算するとき、中間事象E4およびE5は無視する必要があります。

ここで、参照論文の著者は「デュアルポイントフォールトレイテント」の意味を誤解しているようです。「デュアルポイントフォールトレイテント」は文字通りの2点の故障ではありません。1点の故障について、$\img[-1.35em]{/images/withinseminar.png}$ の故障のことを「デュアルポイントフォールトレイテント」もしくは短くレイテントフォールト(LF)と呼びます。

上記からすると、著者は事象E4においてAに2点故障が起き、さらにBにSPF/RFが起きるので3点と思っているのでしょうか(図209.2)?

図%%.2
図209.2 誤りの図

ところが、Aの2点目の可能性は、相手のエレメントであるBの故障を指すため、これは3点故障ではなく2点故障です。そもそもAとBはどちらも主機能、意図機能であり、それだけではSMではありませんが、AとBを並列に組み合わせることで冗長性が生まれ、その関係性によりお互いにSMとなる関係が生じます。

参照論文著者がエレメントAやB単独でSPF/RF/LFが起きると考えているため、E2~E5のような事象を考えついたようですが、上記の関係性からエレメントAやB単独では、RFやLFが起きるはずがありません。

この誤解は規格の故障のネーミングから来るようなので、最初からLFと名付けておけば誤解も無かったはずです。1点故障のことを「デュアルポイントフォールト」と呼ぶのはいかにも誤解を招きそうです。 このポイントは機能安全セミナーでも強調して説明しています。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 25, 2020 #208

ここで前稿の図207.1の左端の事象E1について、削除した理由を再度検討します。AとBの同時故障(フォールトですが、わかりやすく故障と表現します)とは2とおり考えられます。

 C1. AとBが時刻tで同時に故障する場合
 C2. AとBが時刻tまでに両方共故障している場合

ただし、事象に重なりが無いように、C2.を以下のように書き換えます。

 C2. AとBが時刻tまでに両方共故障している場合でC1(同時故障)の場合を除く

どちらもANDゲートを用いて図208.1(参照論文の図)のように表現されますが、

図%%.1
図208.1 DPFのFault Tree(参照論文の図)

前述のように、C1は誤りです。同時に故障するDPF確率はほぼ確実にゼロだからです。一方、C2の場合は妥当です。区間$[0, t)$においてAが故障し、それと独立に、区間$[0, t)$においてBが故障する確率はそれぞれの値を持ちます。時刻$t$においてその両方が起きているDPF確率は、(AとBの故障が独立に起こる場合)それらの確率の積で表される値だからです。

それでは、前稿の図207.1の左端の事象E1は上記のどちらの意味でしょうか?

図208.2に前稿の図207.1を弊社で書き直した図を示します。E1, E2, E3を削除しています。

図%%.2
図208.2 図207.1の書き直し図(弊社作成)

E1, E2, E3を削除しE4とE5が残ったのですが、E1をC1と判断し削除した理由を確認します。上記のC2の場合かもしれないので。

さて、E4, E5はそれぞれ、

  • E4: Aが故障してレイテントとなっており、次にBが故障した場合
  • E5: Bが故障してレイテントとなっており、次にAが故障した場合

まず、C2ならばE4 or E5が成り立つかを証明します。「AとBが時刻tまでに両方共故障している」ならば、C2の定義からAとBが同時に故障することは無いので、Aが先に故障するか、Bが先に故障するかのいずれかです。AがSPF/RFの場合はVSGとなるので、AとBのDPFとなる場合は、Aの故障はLFしかありません。Bも同様なので、E4又はE5が成立します。従って、 $$C2\to (E4\lor E5)\tag{208.1}$$

次に逆を証明します。E4の場合には当然C2が成り立ちます。またE5の場合にも当然C2が成り立ちます。これは同時に成り立つため、E4ならばC2かつE5ならばC2が成り立ち、 $$(E4\to C2)\land (E5\to C2)\tag{208.2}$$ ここで、$\to$(ならば)をwikipediaで調べると、論理包含に、以下の性質があるとあります。 $$P\to Q\Leftrightarrow\overline{P}\lor Q$$ これと分配則及びドモルガンの法則を用いて(208.2)式を書き換えれば、 $$(E4\to C2)\land (E5\to C2) \Leftrightarrow(\overline{E4}\lor C2)\land(\overline{E5}\lor C2)\\ \Leftrightarrow(\overline{E4}\land\overline{E5})\lor C2 \Leftrightarrow\overline{(E4\lor E5)}\lor C2\\ \Leftrightarrow(E4\lor E5)\to C2\tag{208.3} $$ 従って、(208.1)かつ(208.3)より、 $$C2\Leftrightarrow(E4\lor E5)$$

以上から、排中律を用いれば、$E4\lor E5$がC2と等価ならば、E1は$\overline{C2}=C1$と等価と証明されます。 従って、事象E1(図208.1)はAとBが同時に故障するC1の場合を指すと証明でき、かつそれは確率ゼロのため、削除可能と判断できます。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 24, 2020 #207

詳細を見れば誤りはさらに種々あります。まず、Fault TreeのTOPの図を示します。ここで、エレメントAやBは前々稿図205.1に示す、完全冗長を構成する2つのエレメントを指します。

図%%.1
図207.1 FT図(参照論文の図)
5つの場合分けをして考えています。
  • E1  A&Bに同時にSPFが起こる
  • E2  AにRFが起き、引き続きBにSPF/RFが起こる
  • E3  BにRFが起き、引き続きAにSPF/RFが起こる
  • E4  AにLFが起き、引き続きBにSPF/RFが起こる
  • E5  BにLFが起き、引き続きAにSPF/RFが起こる

まず事象E1ですが、エレメントAとBは同時に故障する確率はa.s.(almost surely; ほぼ確実に)0なので、これ以下のサブツリーは考える必要がありません。

次に{E2, E4}, {E3, E5}のペアで考えると、{E2, E4}はどちらも先にAに故障が起き、次にBに故障が起きるDPFを意味しています。その中で、Aの先故障をさらにRFとLFに分解しています。

ここで、(書かれていませんが)AにSPFが起こらないのは正しいです。Aに故障が起きても必ず(従属故障が無い限り)Bが代替機能を果たすため、系(サブシステム)としてSPFにはなりません。

次に事象E2においてAにRFが起きるという記述が誤りです。AにRFが起きるということは、Aの1点故障によりVSGが起きることなので、Aに故障が起きても必ず(従属故障が無い限り)Bが代替機能を果たすため、VSGは起きません。従って、Aの故障の場合はLFとなり、全て事象E4になります。従って、E2は考慮する必要がありません。

事象E3も同様です。以上から、E1, E2, E3は不要で、E4, E5のみが残ることになります。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 21, 2020 #206

この論文でも、ターゲットの目標値はPMHFとなっていますが、算出において規格のPMHF式を尊重していません。サブシステムの不信頼度を $$F(t)=1-e^{-\lambda t}$$ との式で計算しており、これは修理可能性を考慮していないことを表しています。ただし、前論文とは異なり図206.1の赤で示すように、$\lambda_{RF}=(1-DC)\lambda$は計算に入っているのでましです。ただし、RFと書かれていますが、後で説明するように、これはLFです。1点故障は全て冗長相手チャネルによりVSG抑止されるので、100%レイテントとなるためです。

図%%.1
図206.1 故障率

再度整理すると、正しい考え方は、

  1. E1及びE2の2つのエレメントにより構成される冗長系は、マルコフ連鎖で表される。
  2. E1、E2それぞれのエレメントは修理可能(つまり不信頼度$F(t)$ではなく、不稼働度$Q(t)$となる)
  3. PMHF式はこれらを考慮し、系の車両寿命における平均不稼働確率Q(T)を表したものであり、 PMHF式に基づきFault Treeを構成する

でなくてはなりませんが、参照論文はこのうち、2.及び3.が満足されていません。

このように専門家であっても同じような誤りを起こす原因は、規格が理解しやすく書かれていないためだと考えます。ただ、規格屋さんに言わせれば、「規格は論文でもなければ教科書でもない」とのことなので、分かりやすさは追究していないようです。そのためこのような解説ブログの存在意義があります。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 20, 2020 #205

次は前回紹介した論文も参照している論文$\dagger$です。本稿ではこれを参照論文といいます。 参照論文の対象は冗長構成のEPSですが、まず一般的な完全冗長サブシステムで議論します。

図%%.1
図205.1 完全冗長サブシステム

参照論文もPMHF式を使用していません。その代わりに定量FTAのそれぞれの基事象において確率が時間変化する、つまり確率過程であることをマルコフチェインを組み合わせて解いています。図205.2に参照論文の概念図を示します。これは論文中には無く、弊社が作成したものですが、前述の言葉で説明したものを図化したものです。

図%%.2
図205.2 論文の概念図

マルコフチェインを用いる考え方は概ね正しいものの、実はマルコフチェインを用いてPMHFを求めたものが、規格のPMHF式であり(ブログ記事#102~109を参照)、PMHF式に従えばこの定期検査修理を含む確率過程を織り込んだものとなっているため、再度基事象を確率過程として捉える必要はありません。

上で概ねと書いた部分ですが、本来マルコフチェインは修理を考慮する必要があります。SM1 (1st order SM)が先に故障する場合、SM2 (2nd order SM)により定期検査を受け、故障が検出された場合は直ちにゼロ時間で修理されるのが、ISO 26262の考え方です。ということは'1'の状態から'00'状態に戻る場合が存在します。


$\dagger$ https://www.researchgate.net/publication/323450274_A_mixed_model_to_evaluate_random_hardware_failures_of_whole-redundancy_system_in_ISO_26262_based_on_fault_tree_analysis_and_Markov_chain


左矢前のブログ 次のブログ右矢

posted by sakurai on February 14, 2020 #204

書き換えたFTの評価

図202.1に対して図203.1の書き換えを適用したものが図204.1のFTです。このFTに対してカットセット分析を実施し、TOP事象の確率を求めます。

図%%.1
図204.1 弊社提案のEBDサブシステムのFT(ワーストケース)

同様にツールを用いてMCSを求めると、MC数は42個に増加します。しかし前述のように、これには3個以上のエレメント故障が含まれるためツールで削除します。すると、表204.1のように24個のMCが得られ、TOP事象の確率は$4.35\times 10^{-5}$、PMHFは8.70[FIT]となります。表204.1中のC_DC_OL_MONは、1からオンラインモニタのDCを引いた定数であるため、これはエレメント故障数にカウントされません(青字で定数を表示)

表204.1 図204.1のFTのMCS
表%%.1

このように、PMHF式を尊重せず、LFを見逃しDPFのみとすることで、2.7倍も故障確率を甘く(低く)見る事になります。保守的に(高く)見積もるのであれば安全側なのでOKですが、不稼働確率の過小評価は危険側のため、良くありません。

再度整理すると、正しい考え方は、

  1. E1及びE2の2つのエレメントにより構成される冗長系は、マルコフ連鎖で表される。
  2. E1、E2それぞれのエレメントは修理可能(つまり不信頼度$F(t)$ではなく、不稼働度$Q(t)$となる)
  3. PMHF式はこれらを考慮し、系の車両寿命における平均不稼働確率Q(T)を表したものであり、 PMHF式に基づきFault Treeを構成する

ですが、参照論文はこのうち、2., 3.が満足されていません。1.は当然なので、ほとんどが間違いということになります。

RAMS 2021において、PMHF式に基づくFTA構築法の論文発表が終了したため、本記事を開示します。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 13, 2020 #203

保守的なPMHF式

さらに、参照論文では不信頼度 $$F(t)=1-e^{-\lambda t}$$ を用いた非修理系として扱っていますが、これはISO 26262の考え方と合いません。規格では主機能と安全機構のDPFまで考慮する必要があり、安全機構は修理可能として扱います。そのため2nd order SMが必要であり、周期的な検出(検出周期=$\tau$)と修理(検出カバレッジ=$K_\text{SM,MPF}$)が前提となります。修理系において不信頼度$F(t)$は不稼働度$Q(t)$となり、

$$Q(t)=(1-K_\text{SM,MPF})F(t)+K_\text{SM,MPF}F(t\bmod\tau)\\ =(1-K_\text{SM,MPF})(1-e^{-\lambda t})+K_\text{SM,MPF}(1-e^{-\lambda(t\bmod\tau)})$$ これからPMHFを求めると、

$$M_\text{PMHF}=(1-K_\text{IF,RF})\lambda_\text{IF}+K_\text{IF,RF}\lambda_\text{IF}\lambda_\text{SM}[(1-K_\text{SM,MPF})T_\text{lifetime}+K_\text{SM,MPF}\tau]$$

ここでワーストケースを考え、2nd order SMが無い(カバレージがゼロ、$K_\text{SM,MPF}=0$として評価します。これは保守的な評価です。すると、上式のPMHFは、

$$M_\text{PMHF}=(1-K_\text{IF,RF})\lambda_\text{IF}+K_\text{IF,RF}\lambda_\text{IF}\lambda_\text{SM}T_\text{lifetime}\\ =\lambda_\text{IF}[(1-K_\text{IF,RF})+K_\text{IF,RF}\lambda_\text{SM}T_\text{lifetime}]$$ 従って、基本的にFTはこの評価式を実装することになります。

FTの書き換え

参照論文ではLFを考慮せずに、単純にDPFとしていましたが、上記のようにLFを考慮したほうが正確です。これを確率式で表せば、

$$(\lambda_\text{IF}T_\text{lifetime})(\lambda_\text{SM}T_\text{lifetime})\to(\lambda_\text{IF}T_\text{lifetime})[(1-K_\text{IF,RF})+K_\text{IF,RF}(\lambda_\text{SM}T_\text{lifetime})]$$

となり、図203.1のFTの書き換えのように構成します。図の左は参照論文のFTであり、右は変更後のFTです。

図%%.1

図203.1 DPFの書き換え(LFを追加)

FTAツールは確率で取り扱い、ミッション時間の計算は自動的に行われるため、明示的に$T_\text{lifetime}$を掛ける必要はありません。

RAMS 2021において、PMHF式に基づくFTA構築法の論文発表が終了したため、本記事を開示します。


左矢前のブログ 次のブログ右矢

posted by sakurai on February 12, 2020 #202

参照論文の問題点

参照論文では、EBDノードを含めた全体について、定量的にFault Treeを用いたMCS(Minimal Cut Set)分析を行っており、問題は2つあります。

  • ISO 26262規格のPMHF式を参照していない
  • On-lineモニタのカバレッジが参照されていない。

この2つは関連する問題です。具体的に表202.1のとおり数値を入れてみてみます。On-lineモニタは参照論文に数値が無かったため、SMとして低めの数値を入れました。

表202.1
Subsystem Component Failure Rate [1/h]
EBD Node Brake ECU $3.3\times 10^{-7}$
Electronics Brake Module (EBM) $4.2\times 10^{-7}$
On-line monitor for EBM $1.1\times 10^{-7}$

誤ったFTA

この数値に基づき、参照論文のEBDサブシステムのFTをツール(SAPHIRE)により構成すれば、図202.1のようになります。

図%%.1
図202.1 参照論文のEBDサブシステムのFT

誤ったMCS

図202.1は論文のFTですが、このFTに対してカットセット分析を実施し、EBDサブシステムの故障確率を求めます。ツールを用いてMCSを求めると、表202.2のように24個の積項(Minimal Cut)が得られ、EBDサブシステムの故障確率は$1.63\times 10^{-5}$となります。参照論文ではミッション時間を5,000[H]としているため、"PMHF"(本当は車両故障確率の時間平均)は3.26[FIT]となります。

表202.2 EBDサブシステムのFTのMCS
表%%.2

ISO 26262では3つ以上のエレメント故障は安全故障としています。これは(規格には明確に書かれていませんが)確率が非常に低くなるためです。従って、3つ以上の故障を枝刈り(slice)すれば、表202.3のMCSとなります。積項数は6個に減少するものの、故障確率も"PMHF"も変わりません。

表202.3 枝刈りをしたMCS
表%%.3
便宜上、時間平均VSG確率を"PMHF"としましたが、本来PMHFと呼ぶためにはPMHF式を尊重しなければなりません。以上のように、本論文の手法では"PMHF"が非常に低く計算されます。その理由はon-lineモニタのカバレージをほぼ100%としているためです。

左矢前のブログ 次のブログ右矢

posted by sakurai on February 11, 2020 #201

ISO 26262のFTA関連の2つの論文を紹介します。

最初に紹介するのは"ISO 26262 ASIL-Oriented Hardware Design Framework for Safety-Critical Automotive Systems"という論文$\dagger$で、 PMHFターゲットに対してシステムをFTAを用いて分析し、弱い部分を定量的に抽出し、そこにSMを追加し、最終的にPMHF目標を満たす設計手法を提案するという、大変興味深いものです。ただ、残念ながらこの論文にはランダムハードウェア故障の確率の評価値(いわゆるPMHF)について問題があるため、それを取り上げます。

この論文(以下参照論文と言う)は以下のところから取得できます。

この論文ではAEB(autonomous emergency braking system)を題材としています。以下にAEBシステムのFT(Fault Tree)を示します。

図%%.1
図201.1 AEBシステム

AEBはかなり大規模なシステムであるため、FTの一部を抜き出します。図201.2がその一部で、これにEBDサブシステムと名付けます。

図%%.2
図201.2 AEBシステムの一部(EBDサブシステム)

EBDサブシステムは図201.2のように、EBDノード4冗長で構成されます。参照論文では図201.3のように、EBDノード1チャネルのEBM(Electronic Brake Module)に対してOn-line Monitorを付加してPMHFを下げたと主張しています。

図%%.3
図201.3 EBDノード1チャネル

$\dagger$Chen, Yung-Yuan & Lu, Kuen-Long. (2019). ISO 26262 ASIL-Oriented Hardware Design Framework for Safety-Critical Automotive Systems. 10.1109/ICCVE45908.2019.8965235.


左矢前のブログ 次のブログ右矢

posted by sakurai on February 5, 2020 #109

1st EditionのPMHF式

以下に1st EditionのPMHF第1式及び第3式を示します。第1式はIFによりSPFもしくはDPFが発生する場合のみを数え上げた式であり、第3式はそれに加えてSM1によるDPFも加えた式です。従って、全ての場合を考えるならば第3式を使うのが正しいと考えます。

図%%.1
図109.1 1st EditionのPMHF第1式

図%%.2
図109.2 1st EditionのPMHF第3式

1st EditionにおいてはIFがアンリペアラブル、SM1がリペアラブルという前提での計算に基づいていると考えらえます。その理由は、この前提で、前稿のCTMCから平均PUDを求めると、正確に上2式と一致するためです。

2nd EditionのPMHF式

以下に2nd EditionのPMHF式を示します。

図%%.3
図109.3 2nd EditionのPMHF式

ISO 26262の2nd EditionのPMHF式は、1st Editionとpattern3、4が異なっており、対称性からみて前提が追加されていると考えます。2nd Editionでは1st Editionの前提(pattern 1, 2)に加えて、その反対の状態(pattern 3, 4)つまりIFがリペアラブル、SM1がアンリペアラブルの場合の両側についてPMHFを求めていると推測します。ただし、$T_{\mathrm{lifetime}}$項と$T_{\mathrm{service}}$項がなぜ2倍異なるのかの理由は判明していません。追記:2年後に判明したのでこの記事に記載しました。

しかしながら、弊社ではこの前提は誤りではないかと思います。初期状態、つまりフォールトが起きていない状態においては、IF、SM1の両方ともがリペアラブルが正しく、上記の仮定においては故障確率を過大に見積もりすぎています。

例えば、SM1がフォールトし、そのフォールトがSM2により検出され、検出周期の最後でリペアされる場合(pattern 2)を考えます。規格ではこの場合は最初にSM1がフォールトしてしまうと、最終的にはIFのフォールトによりDPFとなる場合のみがカウントされます。なぜなら、どちらかがリペアラブルだと他方はアンリペアラブルだからです。つまりこの場合、SM1がリペアラブルの場合は自動的にIFはアンリペアラブルという前提です。

ところが、実際にはSM1がリペアされた場合は初期状態と同じ状態に戻るため、次にIFがフォールトし、SM1により検出されリペアされる場合(pattern 4)もありえます。典型的な例は、SM1がフォールトしリペアされ、次にIFがフォールトしリペアされるように、交互にリペアされる場合です。この場合はDPFが起きないにも関わらず、2nd EditionではSM1がフォールトから始まると、SM1はリペアラブルに固定されます。そしてIFはアンリペアラブルに固定されます。

従って、実際にはDPFは起きませんが、IFのフォールトでDPFとカウントされ、結論として過大にフォールト確率を見積もっています。

もしかすると、LAT2にいる状態ではSM1がフォールトしているので、IFはリペアされない(IFはアンリペアラブル)と考えたのではないでしょうか。ところが、IFのリペアラビリティはSM1ではなく、SM2にのみ依存し、かつSM2は故障しないため、IFはリペアラブルです。従って、本稿のほうが正しいと考えます。

RAMS 2020においてPMHF式の論文発表が終了したため、本記事を開示します。


左矢前のブログ 次のブログ右矢


ページ: