バックアップが失敗した際の原因と対処法

このページでは、バックアップやレプリケーションが失敗した際の原因と対処法をご案内しています。

仮想マシンのバックアップが失敗、またはスキップされた際にXen Orchestraのサーバーから「Backup report」メールが届きます。この状態が起きた場合でも仮想マシンのサービスは継続されますが、万一、Xenのホストに障害が発生しストレージの救出ができなくなった場合、復元ポイントがなくなる恐れがあります。

バックアップの失敗は、おもに3つの原因により発生します。

ローカルストレージの残り容量が足りないとき
仮想マシンのスナップショットが多いとき
仮想マシンの仮想ディスクサイズが大きくなりすぎた、更新分が多すぎたため、スケジュールによるRPOが守れない(間に合わない)とき。

下記は、エラー文ごとの原因と対処法となります。

記載している以外のエラーがでたり、対処をしてもすぐに元に戻ってしまうなどユーザーにて問題が解決しない場合は、当社サポートまたは担当営業へご連絡ください。また、上記3の場合、バックアップ対象を絞る、スケジューラを変更しRPO時間を延ばすなどという方法が根本的な対処となります。

Backup reportについて

送信元メールアドレスは「sysadmin@justplayer.com」、件名は「[Xen Orchestra] failure(or skipped) − Backup report for バックアップジョブ名」です。メール本文に、該当のバックアップジョブの情報と、エラー文が記載されていますのでご確認ください。

ストレージ容量不足から発生するエラー

バックアップ、レプリケーション先のストレージの必要容量は、全VMの利用量の2倍を基準とし、リテンション設定(Replication retention)により倍増していきます。

XCP-ngがスナップショットを作る事により、バックアップやレプリケーションを行いますが、この時に必要とするで必要とするストレージ容量は、現時点で利用しているストレージ容量だけでなく、差分、差分の合成用空き容量などになります。仮想マシン内部のデータ更新差分にも影響するため、一概に「何倍あればよい」とは言えません。空き容量の管理は極めて重要です。

参考≫ テクニカルノート/スナップショットとは？(StorageやPrivate CloudのSnapshot)
参考≫ サポート情報/マニュアル/HRPC - Xen Orchestra/仮想マシンのバックアップ、レプリケーションと復元/バックアップ・レプリケーションの設定

空き容量に関連するエラーは次に上げられるものが考えられます。

SR_BACKEND_FAILURE_44は純粋にストレージ容量に起因するエラーが多々あります。ホストのローカルストレージの空き容量を常に一定以上保つ必要があります。

SR_BACKEND_FAILURE_109はマージ処理後の削除作業中、ストレージがたりない為に失敗するなど、全てが概ねディスクの残り容量と関連していることに注意が必要です。

ストレージの節約は、不要な仮想マシンを消す、不要なバックアップを辞める、またはホストの全体的な負荷を平滑化するなどがあります。しかし、本システムによるインシデント時の復旧時間(RTO)が迅速であるメリットは大きいため、ストレージの容量計画は従業です。ストレージの増設が必要な場合は、お手数ですが当社サポート、または担当営業までご相談ください。

エラーの原因と対処

エラー文
Error: the job (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX ) is already running ※()内には、ユーザーごとに異なる文字列が入ります。
原因
バックアップジョブがすでに実行されているため、新しいジョブがスキップされた場合に発生します。ディスクの更新が多いなど、様々な要因で、バックアップに遅延しています。
一次対応者
バックアップメニューから、スケジュールの変更を行います。
対処法
バックアップするべきデータ量が多いため、その回だけスキップされたことを意味します。以後は正常終了すれば、特に気にすることはありません。頻発する場合、ディスク更新量に対して、バックアップ単位が短すぎる時間になっている場合があります。この場合、バックアップ単位を1時間、2時間、3時間と、徐々に長くする必要があります。同時にRPOが長くなるため、障害時の復旧時の最大巻戻り時間が増えることを意味します。

エラー文
Failure Error: SR_BACKEND_FAILURE_44(, There is insufficient space, )
原因
ストレージ容量がいっぱいになっている。
一次対応者
ユーザー
対処法
基本的にはデータを削除し、空き容量を確保する必要があります。無駄なVMを削除する。不要なスナップショットを消す不要なスナップショットの削除については、こちらをご参照ください。不要な仮想マシンのバックアップをしないようにする。バックアップ対象から除外する場合はこちらをご確認ください。

エラー文
Failure Error: SR_BACKEND_FAILURE_109(, The snapshot chain is too long, )
原因
対象の仮想マシンのスナップショット数が多い時に発生します。スナップショットは、不可視の物も含め、1つの仮想マシンで30個までしか作成ができません。また、スナップショット削除は時間がかかりますが、これらは遅延して行われます。この間でも同じエラーが出力する可能性があります。 Xen Orchestraの場合、レプリケーション処理はスナップショットを取得し、差分を転送する仕組みである為、仮想マシンの更新量に対してRPOが短すぎると、発生することがあります。これがいくつかの仮想マシンで発生する場合、RPOを長くする必要があります。
一次対応者
ユーザー
対処法
スナップショット一覧から不要なスナップショットを削除します。Xen Orchestraが自動的にバックアップ時に作成した無名のスナップショットが残っている場合もあります。不要なスナップショットの削除については、こちらをご参照ください。この状態が起きた場合、仮想マシンの更新分に対してRPOが短すぎることが考えられるため、頻繁に発生する場合は、弊社サポート、もしくは担当営業までお問い合わせ下さい。

エラー文
Skipped Reason: (unhealthy VDI chain) Job canceled to protect the VDI chain
原因
対象の仮想マシンのスナップショットの結合処理が必須となっている時に発生します。結合処理は自動的に行われるため、暫く待つ必要があります。スナップショットを削除した直後のジョブの時に発生することがあります。
一次対応者
ユーザー
対処法
記載の通り、Xenはスナップショット削除後に、遅延してディスクの結合処理が実行されます。スナップショットの削除ミスや途中停止がかかった事により、ディスクの結合状態が異常な場合にも発生します。基本的には、しばらく待つことで、Xenが自動的にディスクの結合処理を行うため、暫くすると解消します。数日過ぎてもエラーが解消しない場合稀に、内部的に何らかのエラーが発生し、結合処理ができないことがあります。この状態になってしまった場合、復帰を最も簡単に行うには、仮想マシンをクローンし、元の仮想マシンを削除する必要があります。仮想マシンのクローンはこちらを参照してください。

エラー文
could not find the base VM
原因
仮想マシンの前回のバックアップ点が見つからない、ないしは正常ではない時に発生します。前回のバックアップとの差分をマージするようにバックアップを行うため、前回のバックアップが見つからないとバックアップが失敗します。
一次対応者
ユーザー
対処法
スナップショット一覧から、過去のバックアップ点である[XO Backup dp4-xenpool・・・]を削除します。このことにより、その仮想マシンのバックアップは差分同期ではなく、全同期を始めます。この結果、しばらくの間、Error: the job (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX ) is already running が発生することがあります。また、スナップショットが多いときにも発生する事があります。その場合、不要なスナップショットが必要になります。削除についてはこちらをご参照ください。

バックアップが失敗した際の原因と対処法

Backup reportについて

ストレージ容量不足から発生するエラー

エラーの原因と対処

数日過ぎてもエラーが解消しない場合