Amazon、入力ミスによりAWSの大規模障害へ

米国時間2017年3月1日にAmazonは、同社のWebサービスである「Amazon Web Service (AWS)」が2月28日に数時間に渡って、米国東部(US-EAST-1)リージョンにおけるストレージシステム(Amazon S3)にて大規模なシステム障害があったことを発表致しました。
- https://aws.amazon.com/jp/message/41926/
AWSのレポート
AWSは、今回のレポートにて以下のようにコメントしている。
Amazon S3チームは、S3の課金システムの動作が遅いという問題の原因の修復作業を行っておりました。
太平洋標準時間午前9時37分、権限を有するS3チームメンバーの1人が、S3の課金プロセスによって使用されている、S3サブシステム用のサーバの一部を切り離すために、確立された手順に従ってあるコマンドを実行しました。
このコマンドに引き渡す入力の1つが誤っており、想定していたよりも多くのサーバを切り離してしまった。
今回の入力ミスによって、US-EAST-1(米国東部:バージニア北部)リージョン(Amazonで最も古くから稼働している数多くのデータセンターを抱えるリージョン)における、すべてのストレージシステム(Amazon S3)が必要とする2つのサブシステムが停止しました。
この障害によりシステムの再起動が必要になり、再起動後も動作チェックなどを行ったことから復旧までに数時間かかってしまったようだ。
これに対しAWSは、「予想以上の時間がかかった」とレポートに記載しております。
障害の内容
障害復旧のために、2つのサブシステムを再起動が必要になっている間、S3はサービス要求を処理することができなかったようだ。
また、同じリージョンで、ストレージとしてS3と連携していた他のAWSも同様に影響を受けていたようだ。
なおAWSは、影響の受けなったサービスは以下のとおりとなる。
- Amazon S3コンソール
- Amazon Elastic Compute Cloud
- Amazon Elastic Block Store
- AWS Lambda
AWSの復旧時間
AWSによると、太平洋標準時間午後1時18分に完全にインデックスサブシステムを復旧し、プレイスメントサブシステムは午後1時54分に復旧したと報告している。
AWSは、再発防止策として誤った入力を防ぐ処置も含めてツール修正などの「複数の変更」を実施することを宣言している。
この他にも、インデックスサブシステムの操作を簡略化するために、操作を小分けにする対策も発表しており、すでにに着手しているようだ。
またAWSは、「AWS Service Health Dashboard」の管理コンソールに変更を加えて、AWSの複数リージョンをまたがって稼働する機能も追加するようだ。
なお2月28日の障害では、ダッシュボードにも影響が及んだため、AWSは問題に関する情報を顧客に随時伝える手段がないことから、Twitterを利用して連絡するしかなかったようだ。
出典元:AWS
お気軽にお書きください