日頃より、テラクラウド株式会社のクラウドサービスをご利用いただきまして誠にありがとうございます。
下記のとおり、当社ネットワークの一部におきまして障害が発生いたしました。現在は復旧しております。
ご利用のお客様にはご迷惑をおかけいたしましたことを深くお詫び申し上げます。
記
発生日時 | 2021年9月3日(金) 18:52頃 〜 20:18頃 ※24時間表記 |
---|---|
影響範囲 | 中部リージョンの一部エリアにおける、ネットワーク及び収容システムへのアクセス障害
※6G以降のプライベートクラウドサービス、及びハイレスポンスプライベートクラウド5Gは、本影響を受けておりません。 |
原因 | ネットワークコアスイッチの機器障害 |
経緯詳細 | 中部リージョン内における1つのエリアを統括するコアスイッチ機器において、ハングアップが認められ、且つアクティブ-スタンバイ構成のフェイルオーバーが失敗した事による問題。 当該エリアのコアスイッチは、単一機器故障によるサービス全断を避けるため、アクティブ-スタンバイによる冗長を行っております。コアスイッチは物理的に複数台のハードウェアで冗長化され、切り替わり時に通信断が発生しないよう、コントロールプレーン・CPUは冗長化機器間で同一のものを選出・使用する構成です。今回の障害においては、スタンバイCPUの昇格のプロセスの際に動作不全が発生したことが想定されます。 また、コアスイッチ正副両系の電源抜線による強制再起動にて、コアスイッチの通信が復旧し、サービスが復旧となりました。 |
タイムライン | 9月3日(金)
|
原因と対策について
今回の障害は、上位コアスイッチの冗長性を担保するために行われたアクティブ-スタンバイ機構において、「正常に切り替わらない」という障害です。コアスイッチのログにおいてハングアップ直前のログまでは回収できておりますが、有意なものは見られないため、原因究明は進めているものの根本的な原因究明は困難を極めると予想しております。
一般的に、こういったHAシステム(冗長系の切り替え)に起因した障害の場合、それらのHAシステムを上位レイヤーで跨ぐ分散をする方法で回避するしかありません。根本的な解決方法として推奨できるのは、当社サービスにおいては別リージョンに跨がった形でのサービス展開を行う事となります。
なお今回、中部リージョンにおいても当社6世代(6G)以降のエリアにおいては障害が発生しておりませんが、これは今回の障害が単一セット(アクティブ-スタンバイ)のコアスイッチ機器障害によるためにすぎません。当社6世代のインフラストラクチャは、アクティブ-アクティブにおける冗長系のネットワークスイッチ機構を用いているため、理論的には6世代システムに移設することで、確かに今回と同一の障害は回避可能となります。しかし、アクティブ-アクティブのスイッチ冗長化機構は、これとは異なる別の問題をもつ可能性もあり、技術的側面からは6世代のインフラストラクチャへの移設を根本的な解決策であるとは論じられません。
今後の対応について
今回、サービスの問題を告知するべく当社ウェブサイトが、たまたま当リージョン当エリア上のサーバに存在したため、情報の伝達を行う事が迅速にできず、お客様に不安を与えてしまう問題がありました。
このことは、重要な情報システムを扱うクラウドインフラストラクチャを提供する会社として、由々しき問題であると捉えており、今後は当社のウェブサーバの地域分散を検討・対応していきます。
今後とも当社サービスをよろしくお願い申し上げます。