CSCsx07438 network flapping fails clustermanager and causes replication failure
サーバとスイッチ間のネットワーク設定のミスマッチや、ネットワーク障害が原因で、CLM (Cluster Manager) プロセスによる各サーバ間の IP Sec 通信のコネクション断と復旧が頻発する環境での事例が報告されています。
CLM コネクションの確立は、サーバの起動時とサーバ間の一時的なコネクション断の復旧時に行われますが、この際に CLM の子プロセスがハングアップすることがあり、これを検出した ASR(Automatic Server Recovery)が復旧のためのリブートを実施します。
確認方法
リブート後に CUCM の CLI より、"file view system-management-log" コマンドを発行し、リブートが発生した時間に "ASR Detected by System ROM" が表示されるかを確認することで、ASR によるリブートであることが確認できます。 ----------------------------------------------------------------------------------------------------------- 0030 Critical 12:15 03/17/2009 12:15 03/17/2009 0001 LOG: ASR Detected by System ROM -----------------------------------------------------------------------------------------------------------
IPT Platform Cluster Manager Logs において、CLM 通信のコネクション断 (キープアライブタイムアウト) の発生を示すログが出力されます。 ASR によるリブートは、デフォルトでは異常検出の10分後であるため、リブートから10分遡った時間帯に以下ログが出力されます。 ----------------------------------------------------------------------------------------------------------- 03/17/2009 12:05:26.198 clm|non-keepalive received in policy injected state peer hostname(Sub002):|<NID::Pub001><LVL::Error><MASK::0001> 03/17/2009 12:05:36.183 clm|policy injected keepalive timer expired for hostname: Sub002|<NID::PISL005><LVL::Significant><MASK::0001> -----------------------------------------------------------------------------------------------------------