キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

[UCS B] 一定期間の後、ブレード管理に支障が発生する問題について

2011年12月 9日(初版)

 

TAC SR Collection
主な問題

バージョン 1.4(2b) で動作している UCS B シリーズでは、一定期間経過すると、以下のような問題が発生し得る状態になります。

 

-  ブレードサーバのディスカバリに失敗する

- Service Profile の割り当て、取り外しに失敗する

- VLAN の変更に失敗する

-  "No link between IOM port" という Fault イベントがクリアされない

 

問題が発生する状態にあるかどうかは、以下のいずれかの方法で確認可能です。

 

- show logging nvram コマンドで  "mts_do_msg_input() failing since no space available" や  "mts_is_q_space_available(): NO SPACE" というメッセージが出力されているかどうか

 

# connect nxos

(nxos)# show logging nvram

%KERN-2-SYSTEM_MSG:  mts_is_q_space_available(): NO SPACE sap=1439, sap_opt =  0x0

%KERN-2-SYSTEM_MSG: mts_do_msg_input() failing since no space  available

 

- show system internal mts buffer summary コマンドで 20 万を超えている recv_q があるかどうか

 

# connect nxos

(nxos)# show system internal mts buffer summary

node    sapno      recv_q      pers_q     npers_q       log_q

sup      1440           3           0           0           0

sup      1436           3           0           0           0

sup      1434      209700           0           0           0   < < < < <

sup       284           0           2           0           0

sup       396           0           0           4           0

sup       761           0           0           1           0

   
原因

ソフトウェア不具合 CSCtq03411 が原因です。

暫定対策

CSCtq03411にある Workaround で recv_q  をクリアできるので、定期的に Workaround を実施することで、本問題を回避可能です。

しかし、recv_q  カウンタの増加速度は、システム規模やオペレーションに依存するため、Workaround の実施のタイミングは、それぞれのシステムで異なっています。

 

また、一度問題が発生する状態になると、以下のいずれかの方法で復旧する必要があります。

- 両 Fabric Interconnect  の再起動

- PMON の再起動

 

PMON は UCS のプロセスをモニタしているプロセスで、以下のコマンドで再起動できます。

両方  のFabric Interconnect で実施してください。

 

# connect local-mgmt

(local-mgmt)# pmon stop

#### 約10秒後  ####

(local-mgmt)# pmon start

 

PMON の再起動によって、管理トラフィックが切断されるため、接続中の UCSM が切断されたり、UCSM の Failover  が発生しますが、データトラフィックには影響ありません。

解決策

CSCtq03411 の修正バージョンはリリース済みなので、そちらへバージョンアップすることで、対策可能です。

バージョン履歴
改訂番号
1/1
最終更新:
‎06-01-2012 06:42 PM
更新者:
 
タグ(2)