日頃より、ジャストプレイヤーのインターネット関連サービスをご利用いただきまして誠にありがとうございます。
下記のとおり、弊社クラウドサービスにおいて障害が発生しておりました。現在は復旧しておりますが、下記の「システム安定化と増速に関するメンテナンスについて」に記載の通り、期間中、速度低下がしばしば発生する可能性があります。
ご利用のお客様には、ご迷惑をおかけいたしましたことを深くお詫び申し上げます。
記
発生日時 | 2018年10月11日(木)21:23頃 ~ 翌03:30 ※24時間表記 |
---|---|
影響範囲 | クラウドサービスにおけるXenServer系のすべて、VMware系の一部、Solaris系の一部、および、メールサービス、JPWS |
事象 | 弊社クラウドサービスが接続している一部のストレージサーバーにて、過負荷によると考えられる応答遅延が発生し、それに伴う連鎖障害が発生いたしました。 本障害は、9月4日に起きたストレージサーバのハードウェア障害に関連しています。この時に障害が発生した片系のハードウェア交換に時間を要したこと、また扱うデータサイズが極めて大きいことから、冗長構成に戻る復元にかかる時間が大変長くかかっておりました。 |
ご注意 |
|
タイムライン | 10/11 21:23 一部サーバの障害を検知・順次対応を開始 |
10/11 22:00前後 システムの連鎖的ダウンの発生開始 | |
10/11 23:00前後 一部サービスの復旧開始 | |
10/11 23:30頃 システムの連鎖的ダウンの原因が判明。負荷軽減のための対応開始 | |
10/12 01:30頃 負荷軽減のための対応終了 | |
10/12 01:30頃 全サービスの復旧作業開始 | |
10/12 03:30頃 全サービスの復旧完了 |
再発防止に関して
本システムは、設計思想としてデータの一貫性 (Consistency)を重視し、データロスが起きないよう最善を尽くして構築されておりますが、その代償として片系に比べ、二重化の同期書き込み時に応答レイテンシの低下などが発生します。
今回、低位のストレージ層にて冗長系への復元が行われるさなかに、複数のゲストOS層での復元も行われ、さらにアプリケーション層でのConsistencyチェックなど、複数のレイヤーで複数の自動修復処理、チェック処理が走ったことで、これらが積算され、通常の数十倍もの負荷がかかったことを確認しております。
これが応答不良を招き、連鎖障害がおき、上位層では再起動をしては復元が自動的に走ることを繰り返した結果だと考えられます。
これらの複数層での修復処理が重なる問題を回避する為には、今後、下位層でデータ一貫性担保を求めるシステムと、下位層では一貫性(冗長性)より応答速度や可用性(Availability)を求めるシステム等に分離し、お客様のニーズにあった形のサービスメニューを増やす必要があると考えております。
また、今回の障害におきましては、本来影響を及ぼさないはずの部分においてまで、連鎖した部分もあります。これについてはシステムのデータ連結によって、アプリケーション層で例外がおきたと考えられています。
今後は、関係するベンダや、お客様との協議の上で、速度を重視した可用性重視系と、データ保護を重視した一貫性重視系の分離を一層に進め、今回のような連鎖障害を起こさないよう最善を努めます。
システム安定化と増速に関するメンテナンスについて
上記の問題の再発を防ぐため、何社かのお客様にご協力をいただき、本システムからいくつかの処理系を分離、また、増速した新インフラへのマイグレーション、さらに速度と可用性を重視した新インフラへのマイグレーションなど、平行して継続して行っております。
これらの処理が、一部の関連するお客様にも若干の負荷をかける場合もありえますし、いずれにおいてもシステムの自動修復処理が平行で行われている以上、弊社にて負荷コントロールが難しい部分もあります。しかしながら今後の安定と増速のために、負荷状況の波を見つつ、これらの処理を進めております。この間、ご利用のシステムの応答性が低下する可能性がありますことをご留意ください。
ご利用のお客様におかれましてはご不便をおかけいたしますが、ご容赦の程よろしくお願い申し上げます。