障害発生のお知らせ(4月17日、復旧済み、4月18日 16:20追記)

Top / メンテナンス・障害情報 / 障害発生のお知らせ(4月17日、復旧済み、4月18日 16:20追記)

日頃より、テラクラウド株式会社のクラウドサービスをご利用いただきまして誠にありがとうございます。
下記のとおり、当社ネットワークの一部におきまして障害が発生いたしました。現在は復旧しております。
今回の障害におきましては、通信障害によりお客様に多大なご迷惑をおかけしましたことを深くお詫び申し上げます。

発生日時2022年4月17日(日) 02:30 〜 03:04 ※24時間表記
影響ネットワーク及び収容システムへの一部アクセス不可
影響範囲

中部リージョンの一部エリアにおける、ネットワーク及び収容システムへのアクセス障害

  • プライベートクラウドの5G世代までのインフラストラクチャ
    • VMware Private Cloud
    • Xen Private Cloud
    • SPARC Private Cloud
  • 5G世代と同時期に提供されたネットワークアプライアンスサービス
    • FortiGateサービス
    • FortiADCサービス
  • 5G世代と同時期に提供された中部リージョンのTCクラウドコネクトサービス
  • 5G世代の広域接続サービス(現インターリージョナルファブリック)
  • インターネット接続1Gbpsベストエフォート(共有)サービス
    • クラウド型リモートVPNサービス(100User/1Gbpsベストエフォートの為)
  • 当社ウェブサイト(5Gインフラに搭載されていたため)
  • TeraCLOUDサービスサイト

※6G以降のプライベートクラウドサービス、及びハイレスポンスプライベートクラウド5Gは、本影響を受けておりません。
※当社ストレージ系サービスにおけるデータ欠損、プライベートクラウドにおけるダウン、再起動などの現象は発生しておりません。
※インターネット接続サービス(ギャランティタイプ)は、本影響を受けておりません。

原因弊社ネットワーク内コアスイッチの通信障害
経緯詳細
(4/18 16:20追記)

本障害は、対応エンジニアがネットワークの異常を検知した段階では、コアスイッチ下のシステムへの断続的な通信断、つながりにくい状況にあり、調査に入りました。

中部リージョン一部エリアのコアスイッチのCPUリソースが高いレベルで推移しており、通信の不安定性からL2層での異常が発生していると判断し、コアスイッチの再起動手順に入りました。

コアスイッチ・コントロールプレーンの再起動をシリアルコンソールより実施したため、3:02~3:04においては影響範囲システムに関連するアクセススイッチとの間で全断が発生。再起動後はスイッチCPUリソース・通信量ともに正常値に復旧しました。

原因は、一部エリア・収容システムのL2層において、ブロードキャストストームを起こすような短絡が不具合によって生じたと考えられ、当該機器の管理ユーザ・ベンダーと再発防止の手段を検討してまいります。

タイムライン

04月17日(日)

  • 02:30 ネットワークの異常を検知、対応エンジニアによる状況把握開始
  • 02:45頃 対応エンジニアにより、当障害が中部リージョンの一部エリアのコアスイッチによるものと概ね推定。
  • 02:55頃 コアスイッチ障害であると判断し、復旧方法・強制再起動による影響範囲の算定。現場にて異常の記録取得後、直ちに再起動による対応を取ることを確定。
  • 03:02 当該コアスイッチ強制再起動。このため、上記影響範囲においてネットワーク断が発生。
  • 03:04 再起動終了により、疎通再開、一次復旧(後程、当該時刻をもって完了)
Private CloudPrivate Cloud
StorageStorage
NetworkNetwork