ケイオスエンジニアリング:わざと障害を起こすことで、運用を含めたシステムの耐障害性を向上させる

 東証でサーバーのハードウエア障害が発生したときに、システムが切り替えられなかったという事例で象徴されるように、設計段階でいろんな障害を想定して手を打っていても、それがうまく動くとは限らない。
 実行中のワークロードに対してさまざまな障害を人為的/実験的に発生させ,障害に対するシステムの挙動を観察し,障害対策を強化していくというケイオスエンジニアリングという考え方があって、Netflixでは実際に数年前から取り組んでいるという。(すべてのユーザにケイオスエンジニアリングを ―AWS Fault Injection Simulatorが実現するマネージドな障害”実験”
 すごいの一言である。でも、実際の運用で、障害がないなどということがあり得ないということを考えると、こういう方法は実際的なのだと思う。でも、そこまで費用をかけられるのか、というのが課題であろう。そして、それは、そのビジネスにとって、信頼性がどれだけ重要で、かつ、障害対策に費用をかけられるだけ儲かるビジネスなのか、ということになる。日本でこれができるところは、ほとんどないだろうなあ。