本件はUCS Fabric Interconnectの再起動や IOM の再起動をトリガーに稀な確率で発生する可能性がございます。
IOM の再起動等により、IOM とブレードサーバーの Mezzanine カード間の通信において、PFC(priority-based flow control)機能が稀に無効になってしまう事が原因です。
PFC は輻輳によるフレームロスを防ぐために、通信に負荷がかかるとPAUSEフレームを送信する事で、フローコントロールを行う機能となります。同一リンク内 で、プライオリティ毎にリンクを論理的に分割し、特定のプライオリティに属する通信のみをPAUSEフレームで制御する事で、PAUSEフレームによりリ ンク全体の通信が止まってしまう事を防ぎます。
通常はIOMとブレードサーバー間のリンク確立時にPFCは自動で有効になるのですが、以下の問題によりリンクはUPになるのですが、稀にPFCが有効とならないケースがございます。
CSCuq40256 PFC not enabled despite NXOS config
Fabric Interconnect や IOM のリブート後に、特定のブレードのI/Oの挙動が遅くなるという問題が発生した場合には、以下を参考に今回の問題に該当しているかどうかを確認する事ができます。
・大量のAbortコマンドが発行されている UCS Manager から該当のブレードのMezzanineカードの tech support ログをご取得頂き、obfl.tar.gz のファイルを展開して下さい。 展開後、obfl/syslog ファイルを確認すると以下のように大量のAbortが発生している事が確認できます。
# less obfl/syslog :: 150325-18:29:03.381554 fls.log ecpu2 : abort called for exch 51d9, status 3 rx_id 85ed s_stat 0x1 xmit_recvd 40000 burst_offset 40000 150325-18:29:03.381749 fls.log ecpu2 : abort called for exch 51e1, status 3 rx_id 8571 s_stat 0x1 xmit_recvd 40000 burst_offset 40000 150325-18:29:03.382355 fls.log ecpu2 : abort called for exch 51e7, status 3 rx_id 837a s_stat 0x1 xmit_recvd 40000 burst_offset 40000 # grep "abort called for exch" syslog|wc -l 781
・ブレードサーバーとIOM間のリンクがUPになっているにもかかわらず、PFCがOFFとなっている
UCS に ssh でログインして頂き、connect nxos a と b を実行していただき、両方の Fabric Interconnect から該当のインターフェースの状態を確認します。
# show interface brief -------------------------------------------------------------------------------- Vethernet VLAN Type Mode Status Reason Speed -------------------------------------------------------------------------------- :: Eth2/1/9 1 eth vntag up none 10G(D) 1309 <--- Interface UP Eth2/1/10 1 eth access down Administratively down 10G(D) -- Eth2/1/11 1 eth vntag up none 10G(D) 1309 Eth2/1/12 1 eth access down Administratively down 10G(D) --
# show interface priority-flow-control
============================================================ Port Mode Oper(VL bmap) RxPPP TxPPP ============================================================ :: Ethernet2/1/9 Auto Off 0 32593312 <---- PFC OFF Ethernet2/1/10 Auto Off 0 0 Ethernet2/1/11 Auto On (8) 0 32559734 Ethernet2/1/12 Auto Off 0 0 Ethernet2/1/13 Auto On (8) 0 52125838
上記の例では Eth2/1/9 のインターフェースがUPにもかかわらず PFC が OFF となっていることが確認できます。 このため、PFCが動作せず、I/Oの負荷がかかった際に輻輳が発生し、発行したI/OがAbortされ、結果として特定のブレード上で動作しているOSや仮想マシンの動作がスローダウンします。
|