障害対策

第6章 システム導入

障害対策

システム障害とは、システム稼働に影響を与える事象のこと。自然災害が発生したときや、システムでバグが検知されたときもシステム障害は発生するため、幅広い施策を打つ必要がある。システムの信頼性という観点で、システムが提供するサービスの内容によって対策方法は変化することに注意しよう。

システムの信頼性を高める施策

 システムが正しく動作するものでなければ、システムを導入しても意味がなくなってしまう。根本的にシステムの信頼性を高めることはとても重要である。 

 システムの信頼性を高める2つの方式について説明する。


トレランスとアボイダンス

 システムの信頼性を高める方式は、フォールトトレランスとフォールトアボイダンスに大別できます。

●フォールトトレランス(耐故障、障害受容)

 障害や故障が起きる前提として、対策を用意しておく方式

●フォールトアボイダンス(故障回避、障害回避)

 障害や故障をリスクの最小限に抑えて、システム全体の信頼性を高める方式


信頼性向上の他の用語

 フォールトトレランスとフォールトアボイダンスの2つ以外にも様々な用語があります。

対策 特徴
フェールソフト 障害が発生した装置を切り離したり、被害を最小限に抑えて、機能が低下している状態でも処理を継続する方式
フェールセーフ 故障や誤作動が起きても、なるべく安全な状態に移行する方式。制御方式や動作原理などの設計に組み込むことが多い
フェールオーバー 障害や故障が起きた時に、自動で待機システムに処理を移行する方式のこと。
スイッチオーバ フェールオーバー方式では自動で待機システムに切り替わるが、スイッチオーバーはこれを手動で待機システムに切り替える方式
フェールバック フェールオーバ、スイッチオーバにおいて、待機システムに移行した後に、主系システムに再度戻すこと
フェールマスキング 障害やエラーが発生しても外部に影響が出ないようにする方式
完了して続く