(続)AWSのサービスダウンを受けて、クラウドについて再考してみる

IT

先日、AWSのサービスダウンの記事について書きました。

色々と書きましたが、更に情報が出てきたので、追記したいと思います。

まず、冗長構成を行っていても障害が発生したと書きましたが、その事象について書かれている記事がありました。

8月23日のAWSの大規模障害でMultiAZでも突然ALB(ELB)が特定条件で500エラーを返しはじめたという話

https://blog.hirokiky.org/entry/2019/08/23/200749

どうもロードバランサー(ALB)でエラーが発生して、障害が起きたようです。
ALBの設定の可能性もありますが、AZの組み合わせで冗長構成でも障害が発生したという声があるので、設定だけが悪いとも言い切れないです。

ネットでは、冗長構成をとっていないのが悪いとは言われますが、クラウドの大きなメリットは初期費用の低さと立ち上げの素早さです。このメリットを享受しようとすると小さなサービスでは、対策が取れていないのは仕方ないと思います。また、冗長構成を取っていても障害が発生したことを考えると一概に責められるものではないと思います。

今回の障害回避方法としては、マルチリージョンで構築することがあげられますが、こちらは、開発・運用費用が高くなります。もちろん、大規模やミッションクリティカルなシステムでは、BCPの関係で、複数拠点にサーバを構築するのは常識ですが、中小規模なサービスでそこまでの可用性を求めるのかという感じです。

ただし、Heroku が以前障害が発生したときの報告レポートにある教訓が載っていました。

可用性の点において複数リージョンへの分散を行うべき

https://gihyo.jp/dev/clip/01/orangenews/vol63/0005

3日間にも及ぶ障害が発生し、マルチAZでは、可用性を担保できなかったと述べられています。
このレポートが8年前にも書かれたことを考えると、先駆者の苦労を知り、生かしていくべきだと思いました。特に大規模システムでも障害が発生していたサービスがあったようなので・・・

まとめると、サービスの重要性を鑑みて、可用性を担保するかリスクを受容するかサービス責任者が決める必要があり、大規模システムでは、マルチリージョンで構築するというところでしょうか。(クラウドの話よりもシステム構築の一般論になってしまいましたが)

タイトルとURLをコピーしました