障害発生のお知らせ(9月3日、復旧済み、2021年9月7日加筆修正)

Top / メンテナンス・障害情報 / 障害発生のお知らせ(9月3日、復旧済み、2021年9月7日加筆修正)

日頃より、テラクラウド株式会社のクラウドサービスをご利用いただきまして誠にありがとうございます。
下記のとおり、当社ネットワークの一部におきまして障害が発生いたしました。現在は復旧しております。
ご利用のお客様にはご迷惑をおかけいたしましたことを深くお詫び申し上げます。

発生日時2021年9月3日(金) 18:52頃 〜 20:18頃 ※24時間表記
影響範囲

中部リージョンの一部エリアにおける、ネットワーク及び収容システムへのアクセス障害

  • プライベートクラウドの5G世代までのインフラストラクチャ
    • VMware Private Cloud
    • Xen Private Cloud
    • SPARC Private Cloud
  • 5G世代と同時期に提供されたネットワークアプライアンスサービス
    • FortiGateサービス
    • FortiADCサービス
  • 5G世代と同時期に提供された中部リージョンのTCクラウドコネクトサービス
  • 5G世代の広域接続サービス(現インターリージョナルファブリック)
  • インターネット接続1Gbpsベストエフォート(共有)サービス
    • クラウド型リモートVPNサービス(100User/1Gbpsベストエフォートの為)
  • 当社ウェブサイト(5Gインフラに搭載されていたため)

※6G以降のプライベートクラウドサービス、及びハイレスポンスプライベートクラウド5Gは、本影響を受けておりません。
※当社ストレージ系サービスにおけるデータ欠損、プライベートクラウドにおけるダウン、再起動などの現象は発生しておりません。
※インターネット接続サービス(ギャランティタイプ)は、本影響を受けておりません。

原因ネットワークコアスイッチの機器障害
経緯詳細中部リージョン内における1つのエリアを統括するコアスイッチ機器において、ハングアップが認められ、且つアクティブ-スタンバイ構成のフェイルオーバーが失敗した事による問題。

当該エリアのコアスイッチは、単一機器故障によるサービス全断を避けるため、アクティブ-スタンバイによる冗長を行っております。コアスイッチは物理的に複数台のハードウェアで冗長化され、切り替わり時に通信断が発生しないよう、コントロールプレーン・CPUは冗長化機器間で同一のものを選出・使用する構成です。今回の障害においては、スタンバイCPUの昇格のプロセスの際に動作不全が発生したことが想定されます。

また、コアスイッチ正副両系の電源抜線による強制再起動にて、コアスイッチの通信が復旧し、サービスが復旧となりました。
タイムライン

9月3日(金)

  • 18:52 障害検知、対応エンジニアによる状況把握開始
  • 19:00〜19:05頃 対応エンジニアによるエンジニアDC派遣・リモートハンド操作等の対応検討〜エンジニアのデータセンタ派遣の平行手配開始。当社規定により障害対策本部立ち上げのエスカレーションを平行開始。
  • 19:10頃 対応エンジニアにより、当障害が中部リージョンの一部エリアのコアスイッチによるものと概ね推定。
  • 19:10頃 対応エンジニアにより、機器状況別に複数パターンDC内作業の検討
  • 19:15頃 エンジニアリング本部長指示のもと、障害対策本部立ち上げ
  • 19:20頃 データセンタ派遣エンジニアへ移動開始
  • 19:30頃〜19:50頃 当システム設計エンジニアへのエスカレーションにより、コアスイッチ障害であることが断定。修復方法の算定や、強制再起動による影響範囲の算定。現場にて取得ログなどの異常の記録がなされたあと、直ちに再起動による対応を取ることを確定。
  • 19:59 データセンタ派遣エンジニア、ラック前到着、作業開始
  • 20:10頃 データセンタ派遣エンジニアによる、コアスイッチログなどを取得を試みるが失敗。
  • 20:15 当該コアスイッチ電源抜線による強制再起動実施
  • 20:18 疎通再開、一次復旧報(後程、当該時刻をもって完了)

原因と対策について

今回の障害は、上位コアスイッチの冗長性を担保するために行われたアクティブ-スタンバイ機構において、「正常に切り替わらない」という障害です。コアスイッチのログにおいてハングアップ直前のログまでは回収できておりますが、有意なものは見られないため、原因究明は進めているものの根本的な原因究明は困難を極めると予想しております。

一般的に、こういったHAシステム(冗長系の切り替え)に起因した障害の場合、それらのHAシステムを上位レイヤーで跨ぐ分散をする方法で回避するしかありません。根本的な解決方法として推奨できるのは、当社サービスにおいては別リージョンに跨がった形でのサービス展開を行う事となります。

なお今回、中部リージョンにおいても当社6世代(6G)以降のエリアにおいては障害が発生しておりませんが、これは今回の障害が単一セット(アクティブ-スタンバイ)のコアスイッチ機器障害によるためにすぎません。当社6世代のインフラストラクチャは、アクティブ-アクティブにおける冗長系のネットワークスイッチ機構を用いているため、理論的には6世代システムに移設することで、確かに今回と同一の障害は回避可能となります。しかし、アクティブ-アクティブのスイッチ冗長化機構は、これとは異なる別の問題をもつ可能性もあり、技術的側面からは6世代のインフラストラクチャへの移設を根本的な解決策であるとは論じられません。

今後の対応について

今回、サービスの問題を告知するべく当社ウェブサイトが、たまたま当リージョン当エリア上のサーバに存在したため、情報の伝達を行う事が迅速にできず、お客様に不安を与えてしまう問題がありました。

このことは、重要な情報システムを扱うクラウドインフラストラクチャを提供する会社として、由々しき問題であると捉えており、今後は当社のウェブサーバの地域分散を検討・対応していきます。

今後とも当社サービスをよろしくお願い申し上げます。

Private CloudPrivate Cloud
StorageStorage
NetworkNetwork