Hyper-V クラスター環境にて、クラスター対応更新 (CAU) のライブマイグレーションがメモリ不足で失敗する

こんにちは。Windows プラットフォームサポートの加藤です。

本日は、Hyper-V クラスター環境で、クラスター対応更新 (CAU) の実行中にライブマイグレーションがメモリ不足で失敗し、クラスター対応更新が停止する事象についてご案内いたします。

クラスター対応更新では、更新プログラムの適用時に、役割のドレイン (他のノードに退避) やノードの再起動、再起動完了後のフェールバックを自動で実施しますが、Hyper-V クラスター環境では、このフェールバックのライブマイグレーションがメモリ不足で失敗する場合がございます。
これは、クラスター対応更新の実施時に、ドレインとフェールバックのライブマイグレーションが状況によっては、同時に実施される可能性があるためです。
ドレインでは、移動時に全ノードのメモリの空き容量を確認し、各ノードのメモリ使用率が均等になるように、各仮想マシンの移動先を決定するため、メモリ不足で失敗することはありませんが、フェールバックでは、ノードのメモリの空き容量は考慮せず、必ず元のノードに戻ろうとします。そのため、フェールバック先のノードのメモリがドレインで移動してきた仮想マシンによって全て使われてしまうと、フェールバックのライブマイグレーションがメモリ不足で失敗します。

以下に、この時のシナリオを記載します。
-----------------
1. ノード1が修正プログラムのインストールのために、ノード 1 の仮想マシンを他のノードに退避するためにドレインを開始します。ノード1上の仮想マシンはライブマイグレーションにて、各ノードに分散されます。

2. ノード1の修正プログラム適用が完了し、再起動も完了すると、各ノードに分散していた仮想マシンは、ライブマイグレーションにて、ノード1 へフェールバックを開始します。

3. 直後にノード2が修正プログラムのインストールのために、他のノードに退避するためにドレインを開始します。ノード 2 の仮想マシンはライブマイグレーションにて、各ノードのメモリ使用状況を確認し、分散を開始します。

4. この時、ノード2のライブマイグレーションのキューにはドレインによってノード 1 に移動する仮想マシンがいます。更にフェールバックでノード1 に移動する仮想マシンもライブマイグレーションのキューに入ります。

5. ライブマイグレーションのキューの処理順番は、ライブマイグレーションが開始された順番とは関係ないため、場合によってはドレインの仮想マシンが先に移動され、フェールバックの仮想マシンは後に回されることがあります。

6. フェールバックは、移動先のメモリの空き容量は考慮せず、必ず元のノードに戻ろうとするため、ドレインで移動した仮想マシンでノード1のメモリが使われてしまうと、フェールバックの仮想マシンがメモリ不足でライブマイグレーション失敗します。
-----------------

上記の事象は、一般的には、仮想マシンの数に対して、メモリの空き容量に余裕がない場合に発生します。
例えば、10 ノードクラスターの環境で、1 ノードを停止した際に、残りの 9 ノードのメモリをほぼ使い切ってしまう環境です。

上記事象は以下の 2 つの回避策があります。

1. クラスター対応更新でフェールバックを無効にする。
2. 指定時間 WAIT するスクリプトを作成し、クラスター対応更のPreUpdateScriptまたはPostUpdateScript に登録します。

1. フェールバックの無効化
===================
GUI で CAU を設定すると、フェールバックが有効となるため、フェールバックを無効にするためには、Set-CauClusterRole コマンドで設定する必要があります。

1) Get-CauClusterRole コマンドで現在の CAU の設定が確認できますので、まずは現在の設定を確認します。

2) Set-CauClusterRole のコマンドを 1) で確認した設定と -FailbackMode NoFailback を引数で指定して実行します。

Set-CauClusterRole -FailbackMode NoFailback -＜他の設定の引数＞

Set-CauClusterRole
https://docs.microsoft.com/ja-jp/previous-versions/windows/powershell-scripting/hh847234(v=wps.630)

--- 抜粋 ---
-FailbackMode

Specifies the method used to bring drained workloads back to the node, at the end of updating the node. Drained workloads are workloads that were previously running on the node, but were moved to another node.
The acceptable values for this parameter are: NoFailback, Immediate, and Policy. The default value is Immediate.
------

2. クラスター対応更のPreUpdateScriptまたはPostUpdateScript を使用する。
===================
クラスター対応更新の設定で、フェールバックとドレインの間にWAITを入れ、時間調整することでドレインとフェールバックの競合を避けます。
具体的には、PowerShellコマンドのStart-Sleepを使用して、指定時間 WAITするスクリプトを作成し、作成したスクリプトをCAUのオプションのPreUpdateScriptまたはPostUpdateScriptで設定します。

例：20分(1200秒)WAITする場合
テキストファイルに以下のコマンドを記載し、拡張し ps1 で保存します。

Start-Sleep -s 1200

作成したスクリプトを全ノードの同じパスに配置して、以下の PreUpdateScriptまたはPostUpdateScriptにてパスを指定します。

これにより、ノードの再起動完了から次のノードのドレインが開始されるまで、待ち時間を設定することができますので、ドレインとフェールバックのライブマイグレーションが重なる状況を防げます。
必要なWAIT時間は環境によって異なりますが、ドレイン時に各ノードに 10 台ずつ分散される環境の場合には、10 台のライブマイグレーションが完了する時間を計測して、その時間の 1.5倍で設定します。
足りない場合には、更に WAIT 時間を延長します。

このブログが皆様のお役に立てれば幸いです。

Hyper-V クラスター環境にて、クラスター対応更新 (CAU) のライブマイグレーションがメモリ不足で失敗する

Trending Articles

Practice Sheet of Right form of verbs for HSC Students

Download: FK ft Shenky – Nakuyewa ”Prod by: Shenky”

How to win at Markstrat (Markstrat Tips and Tricks) – Vodites

Ominde Commission Report and Recommendations – Ominde Report of 1964

Bureau of Internal Revenue: Regional Offices (Directory)

GO 53 on Enhancement of Ex-gratia upto 5 Lakhs Toddy Tappers in Telangana

Cakewalk CA-2A Leveling Amplifier v2.0.1.97 WiN, v2.0.1.96 OSX Incl Keygen

Mp3 Download: Mdu - Kunjenjenjena

How the kill the job , when DTP request running for long hours.

Microsoft Intune から展開しているアプリのアップデートについて

18-year-old girl was beaten for half an hour by two Northampton men in 'an...

Car crash in Dunton Bassett leaves driver in critical condition

Macky 2, Two Others In Road Accident

Application log 00000000000000089514: Could not convert queue DLVST90CLNT

Detroit mafia: D’Anna Brothers agree to plea deal

Delivery block field greyed out using VA02

Muloraki Au

【個人撮影】スマホのプライベート映像♪「中に出さないで///」カラオケ屋での生ハメ撮りが流出ｗ【リベンジポルノ】＠PornHub

BREAKING NEWS: Diamond Platnumz Is Reported Dead After Ghastly Car Accident

FIAT 500 B0111 B0112