AWSのサービスダウンを受けて、クラウドについて再考してみる

巷でも話題になっていますが、2019年8月23日AWSのサービスがダウンしました。
IT系のニュースサイトによるとサーバ施設の空調設備が故障したことによるサーバダウンのようですね。
現在では、ほぼ復旧しているようで、1日で復旧できるのは流石だなと思います。

AWS障害、大部分の復旧完了　原因は「サーバの過熱」
https://www.itmedia.co.jp/news/articles/1908/23/news117.html

さて、今回の騒動を受けて、クラウドサービスについてもう一度考えてみたいと思います。

クラウドサービスというとIaaS,SaaS,PaaSの３つを指すことが多いと思います。
それぞれ、提供ベンダが請け負うサービス範囲が違うというのはありますが、全てに共通していることは、ハードのメンテナンスから開放されることと初期費用を抑えて導入できることです。

このメリットを享受できることを考えると、小さな投資で始められるのでスモールスタートがしやすい。保守の面倒から開放されることだと思います。
特にエンジニアにとっては、この保守から開放されることが一番得られるメリットですし、経営者側からみたら、初期費用を抑えてサービスを始められるという双方にとって大きなメリットがあります。

こうして書くとクラウドサービスは素晴らしい！となるわけですが、やはりデメリットがあるわけです。
特に基幹システムの場合には影響が大きいのではないでしょうか。
１つは、インターネットをまたぐことで、クライアントとクラウドサーバの経路で障害が起きた場合の想定をして設計を必要があるということです。
今までの、オンプレの場合は、経路上で障害が起きた場合の設計をすることは稀有だと思います。大体は専用線や社内LANで閉じてるため、経路に問題があるということをあまり想定しないわけですが、クラウドサービスの場合、インターネットを介することが多いので、経路上で問題が起きて、正しくクラウドサーバまでリクエストが送信されないことがあります。
これを考慮して、リトライするように設計する必要があるため、設計難易度が上がります。

次に特に今回のような大規模障害が起きるとサービスベンダ側で復旧が行われないといつまで経ってもサービスが再開できず、損失が大きくなることが挙げられます。
これはWebサービスでも稼働する時間が減るということは損失が出るということですが、基幹システムの場合は、業務が完全にSTOPする事態になります。
オンプレの場合は、障害が発生することを考慮して冗長構成化やBCP対策が行われていると思いますが、今回は冗長構成をしているシステムでも障害が発生していたようです。
こうなると、ただただ早く復旧してくれと祈るのみです。

次に情報管理が挙げられます。機密性が高い情報をクラウドにデータを上げる場合、盗聴や不適切な設定による情報流出の可能性が高まります。先日もHONDAの情報が世界中に公開されるという事態が有りました。

ホンダ社員の個人情報を含む1億3400万件ものデータがクラウド上でダダ漏れ状態にあったことが発覚
https://gigazine.net/news/20190802-honda-leaks-database-employee-data/

他にも大容量のデータを転送する場合、データ転送に課金がかかるサービスが多く、通信速度を担保することが困難ということがあります。

何より今回のような障害が発生しても営業損失を保証される可能性が少ないことです。
一部使用料金の減額があるようですが、サービスが動かなかったことによる営業損失については保証外のようです。この辺に関しては、個別フォローの可能性もありますが、自分は体験したことがないため、どうなるかは不明です。

企業目線で見るとこのあたりは大きな問題ではないでしょうか。基幹システムでSIerがシステムを構成し、運用する場合は、障害発生による損失を保証される契約が多いので、大きな違いです。

以上を踏まえると、現状のインターネットでは、クラウドを使うことを推奨していますが、何でもかんでもクラウドにのせるのではなく、障害発生の業務インパクトやシステムの性能設計を考慮して、オンプレで構築することも検討する必要があると思います。もしくは、ハイブリッドクラウド構成による費用を抑えつつ重要な部分は止まらないように設計することが良いと思います。