отмена
Отображаются результаты для 
Вместо этого искать 
Вы имели в виду: 
Объявления
Добро пожаловать в Сообщество Технической поддержки Cisco. Мы рады получить обратную связь .
New Member

Catalyst 6880-X непонятная проблема с портом.

Доброго дня всем!

Несколько месяцев назад нашей фирмой был приобретен коммутатор Catalyst c6880-x. На замену 6509. В процессе переноса нагрузки на новый коммутатор возникла непредвиденная проблема: После переключения очередной группы портов упали в err-disable 4 порта. С вот такой руганью в логе:

Jul 28 14:21:06 c6880 217.13.214.5 184660: Jul 28 14:21:06: %CONST_DIAG-3-HM_PORT_TEST_FAIL: Module 5 TestNonDisruptiveLoopback Port(s)[1] failed. System operation continues.
Jul 28 14:22:17 c6880 217.13.214.5 184680: Jul 28 14:22:16: %MPLS_PACKET-4-NOLFDSB: MPLS packet received on non MPLS enabled interface Vlan701 L3 type 0x8847 label {1 0 1 0}
Jul 28 14:28:52 c6880 217.13.214.5 184718: Jul 28 14:28:51: %MPLS_PACKET-4-NOLFDSB: MPLS packet received on non MPLS enabled interface Vlan701 L3 type 0x8847 label {946177 0 1 0}
Jul 28 14:32:20 c6880 217.13.214.5 184734: Jul 28 14:32:20: %CONST_DIAG-3-HM_PORT_TEST_FAIL: Module 5 TestNonDisruptiveLoopback Port(s)[1,3,5,7] failed. System operation continues.
Jul 28 14:32:20 c6880 217.13.214.5 184735: Jul 28 14:32:20.157: %HA_EM-6-LOG: Mandatory.go_nondislp.tcl: GOLD EEM TCL policy for TestNonDisruptiveLoopback
Jul 28 14:32:20 c6880 217.13.214.5 184736: Jul 28 14:32:20: %PM-4-ERR_DISABLE: diagnostics error detected on Te5/1, putting Te5/1 in err-disable state
Jul 28 14:32:20 c6880 217.13.214.5 184737: Jul 28 14:32:20: %PM-4-ERR_DISABLE: diagnostics error detected on Te5/3, putting Te5/3 in err-disable state
Jul 28 14:32:20 c6880 217.13.214.5 184738: Jul 28 14:32:20: %PM-4-ERR_DISABLE: diagnostics error detected on Te5/5, putting Te5/5 in err-disable state
Jul 28 14:32:20 c6880 217.13.214.5 184739: Jul 28 14:32:20: %PM-4-ERR_DISABLE: diagnostics error detected on Te5/7, putting Te5/7 in err-disable state
Jul 28 14:32:20 c6880 217.13.214.5 184740: Jul 28 14:32:20: %LINK-3-UPDOWN: Interface TenGigabitEthernet5/1, changed state to down
Jul 28 14:32:20 c6880 217.13.214.5 184741: Jul 28 14:32:20: %LINEPROTO-5-UPDOWN: Line protocol on Interface TenGigabitEthernet5/1, changed state to down
Jul 28 14:32:20 c6880 217.13.214.5 184742: Jul 28 14:32:20: %LINEPROTO-5-UPDOWN: Line protocol on Interface TenGigabitEthernet5/2, changed state to down
Jul 28 14:32:20 c6880 217.13.214.5 184743: Jul 28 14:32:20: %LINK-3-UPDOWN: Interface TenGigabitEthernet5/2, changed state to down

 

Произошло это через 8 часов после того, как произошло переключение с 6509 на этот коммутатор в порты 3,5 и 7.

1 порт работал уже около месяца.

 

После перезагрузки порты поднялись нормально, но через 4 дня (1 августа) опять упали с тем же шумом.

я разгрузил эту группу, перенеся нагрузку в другие порты и так мы, с упавшими портами, проработали до сего дня. Сегодня, 11 августа мы вновь решились на перезагрузку с попыткой выяснить в чем, собственно проблема, а заодно и попробовать обновить  IOS.

Параллельно, до падения портов, наблюдалось очень странное подрезание пакетов на некоторых направлениях. Например, при маршрутизации через этот коммутатор могли не открыться страницы на веб управляемом оборудовании, при том что icmp ping любого размера нормально до этого оборудования проходил. Также пользователи начинали жаловаться на то, что в интернете( на коммутаторе 3х FullView BGP  аплинка) не открывается часть ресурсов. Хотя также и ICMP и UDP трафик нормально до этих ресурсов проходил. После второго падения, и перераспределения упавших портов по другим, эта проблема пропала.

После второй перезагрузки, уже с новым IOS, и подключении только 1 и 3 портов - проблема с доступом появилась вновь. Никакой ругани в логах пока не было. После отключения 3 порта(достаточно просто отключить оптический линк не вынимая SFP+ модуля) проблема пропала.

Подскажите, куда в этой ситуации можно рыть и что смотреть?

 

System image file is "bootdisk:c6880x-adventerprisek9-mz.SPA.152-1.SY0a.bin"
Last reload reason: Reload Command

Был, сменили на SY1.

 

Вывод команды sh diag result mod 5 через сразу после второго падения:

Current bootup diagnostic level: minimal

Module 5: 6880-X 16P SFP+ Multi-Rate (Active) SerialNo : SAL18464BDD

Overall Diagnostic Result for Module 5 : PASS
  Diagnostic level at card bootup: minimal

Test results: (. = Pass, F = Fail, U = Untested)

1) TestTransceiverIntegrity:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            .  .  .  .  U  .  .  .  .  .  .  .  .  U  .  .  U  U  U  U

2) TestLoopback:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  U  U  U  U

3) TestFexModeLoopback:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  U  U  U  U

4) TestL2CTSLoopback:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  U  U  U  U

5) TestL3CTSLoopback:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  U  U  U  U

6) TestScratchRegister -------------> .
    7) TestNewIndexLearn ---------------> .
    8) TestDontConditionalLearn --------> .
    9) TestBpduTrap --------------------> .
   10) TestMatchCapture ----------------> .
   11) TestProtocolMatchChannel --------> .
   12) TestPortSecurity ----------------> .
   13) TestIPv4FibShortcut -------------> .
   14) TestL3Capture2 ------------------> .
   15) TestIPv6FibShortcut -------------> .
   16) TestMPLSFibShortcut -------------> .
   17) TestNATFibShortcut --------------> .
   18) TestAclPermit -------------------> .
   19) TestAclDeny ---------------------> .
   20) TestAclRedirect -----------------> .
   21) TestRBAcl -----------------------> .
   22) TestQos -------------------------> .
   23) TestDQUP ------------------------> .
   24) TestL3VlanMet -------------------> .
   25) TestIngressSpan -----------------> .
   26) TestEgressSpan ------------------> .
   27) TestNetflowShortcut -------------> .
   28) TestInbandEdit ------------------> .
   29) TestFibTcam ---------------------> U
   30) TestAclQosTcam ------------------> U
   31) TestFabricInternalSnake ---------> .
   32) TestFabricExternalSnake ---------> .
   33) TestFabricVlanLoopback ----------> .
   34) TestTrafficStress ---------------> U
   35) TestPortTxMonitoring:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            .  .  .  .  U  .  .  .  .  .  .  .  .  U  .  U  U  U  U  U

36) TestAsicMemory ------------------> U
   37) TestMediaLoopback:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U

38) TestMicroburst:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  U  U  U  U

39) TestUnusedPortLoopback:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U  U

40) TestNonDisruptiveLoopback:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            U  .  U  .  U  .  U  .  .  .  .  .  .  .  .  U  U  U  U  U

41) TestEarlMemOnBootup -------------> .
   42) TestFirmwareDiagStatus ----------> .
   43) TestErrorCounterMonitor ---------> .
   44) TestNVRAMBatteryMonitor ---------> .
   45) TestCFRW:

Device  1
      ---------
              U

46) TestRwEngineOverSubscription ----> U
   47) TestLtlFpoeMemoryConsistency ----> .
   48) TestOBFL ------------------------> .
   49) TestL3TcamMonitoring ------------> .
   50) TestEARLInternalTables ----------> .

 

Детализированный вывод по 40 тесту:

40) TestNonDisruptiveLoopback:

Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
      ----------------------------------------------------------------
            U  .  U  .  U  .  U  .  .  .  .  .  .  .  .  U  U  U  U  U

Error code ------------------> 0 (DIAG_SUCCESS)
          Total run count -------------> 29950
          Last test testing type ------> Health Monitoring
          Last test execution time ----> Aug 01 2015 23:40:16
          First test failure time -----> Aug 01 2015 21:34:19
          Last test failure time ------> Aug 01 2015 22:05:41
          Last test pass time ---------> Aug 01 2015 23:40:16
          Total failure count ---------> 12
          Consecutive failure count ---> 0

 

Еще нашел вот такие ошибки в sh diagnostic events event-type error :

08/02 00:05:14.782 E [5] TestNonDisruptiveLoopback Failed
08/02 00:05:14.822 E [5] hm_ndl_analyze_result mod5: port(fail count) -
1(10)
08/02 00:05:14.894 I [5] TestUnusedPortLoopback Skipped
08/02 00:05:15.130 E [5] diag_test_failure_action: card/sub_card(5/-1), te
st_name(TestNonDisruptiveLoopback) flag=0
08/02 00:05:15.130 E [5] hm_ndl_analyze_result5: Port 1 failed 10 times
in a row. Err-disabling the port...
08/02 00:05:15.130 E [5] diag_const_test_action5: diag_test_failure_acti
on failed
08/02 00:05:25.558 E [5] check_bpdu_packet_core[5/3]: newpak is NULL!
08/02 00:05:28.778 E [5] check_bpdu_packet_core[5/3]: newpak is NULL!
08/02 00:05:32.334 E [5] check_bpdu_packet_core[5/3]: newpak is NULL!
08/02 00:05:39.999 E [5] TestNonDisruptiveLoopback Failed
08/02 00:05:51.607 E [5] check_bpdu_packet_core[5/3]: newpak is NULL!
08/02 00:05:54.839 E [5] check_bpdu_packet_core[5/3]: newpak is NULL!
08/02 00:05:58.219 E [5] check_bpdu_packet_core[5/3]: newpak is NULL!
08/02 00:06:05.860 E [5] TestNonDisruptiveLoopback Failed
08/02 00:06:14.896 I [5] TestUnusedPortLoopback Skipped


И до последнего момента в diagnostic events сыпалось следующее:

08/10 22:00:47.408 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:05:50.868 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:10:48.192 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:17:49.841 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:21:45.794 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:23:51.420 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:25:18.011 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:31:01.557 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:37:40.553 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:40:19.760 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:41:36.319 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0
08/10 22:42:42.393 E  [5]    diag_test_failure_action: card/sub_card(5/-1), test_name(TestMicroburst)  flag=0

 

 

6 ОТВЕТ.
Cisco Employee

Добрый день,До релиза 15.1(02


Добрый день,

До релиза 15.1(02)SY02 был внутренний дефект:
CSCul23437    TestNonDisruptiveLoopback failed with shaper config
У ваc в принципе линейка 15.2 и там фикс должен быть.

Запланируйте окно обслуживания и попробуйте сделать физический re-seat карты
(ее вытащить, посомотреть на предмет физических повреждений ее и пинов в слоту шасси,
и аккуратно/плотно поставить обратно и прикрутить).
Если не поможет, то лучше открыть TAC кейс для анализа.
Помимио дефетов ПО могут быть и аппаратные корни.

Спасибо,
Сергей

 

 

New Member

Добрый день!Запланировать

Добрый день!

Запланировать окно не сложно было бы. Только вот проблемы не на карте, а на процессорной группе портов 5/x. Насколько я понимаю - они несъемные.

Падение портов с 11 августа не повторялось.

Но, как я и писал, 11 числа, покуда использовался физический интерфейс 5/3, наблюдались непонятные проблемы с передачей пакетов. Причем это было как на старом релизе, так и на новом. После отключения порта проблема прекратилась. Интерфейс(и SFP+) из порта 5/3 я переключил в 5/5 (тоже был в упавшей группе). В такой конфигурации проблем нет.

Оставшаяся проблема не похожа на программную, но, как я понимаю, мне еще надо доказать, что проблема аппаратная.

Порт-то прднимается, пакеты через него ходят.. А вот то что сам факт подъема этого порта начинает каким-то загадочным образом портить часть пакетов, не имеющих отношения не только к этому порту, но и к данной группе портов - совсем не доказывает аппаратной проблемы.

 

После систематизации всего, что мне удалось насобирать за время проверок - я пришел к выводу, что портились пакеты, которые каки-либо образом попадали на выход коммутатора без тегов. А именно пакеты в VLAN1 и пакеты в один из апстримов, подключение к которому осуществляется с этого коммутатора ACCESS портом.

Cisco Employee

Группа проблемных поров на

Группа проблемных поров на карте в слоту 5 и для всех этиз портов не проходит периодически TestNonDisruptiveLoopback.

Аппаратные корни к компонетом на карте возможны.

Но чтобы исключить возможный плохой контакт карты 5 с шасси - предложение прежде всего сделать ее re-seat как описал выше.

Спасибо,

Сергей

 

New Member

В том то и дело, что в данный

В том то и дело, что в данный момент, с новым IOS, тест проходит, что видно из дывода результатов диагностики:

c6880#sh diagnostic result mod 5 test 40 detail

Current bootup diagnostic level: minimal


  Test results: (. = Pass, F = Fail, U = Untested)

  ___________________________________________________________________________

   40) TestNonDisruptiveLoopback:

      Port  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16
      ----------------------------------------------------
            .  .  U  .  .  .  .  .  .  .  .  .  .  .  .  U


          Error code ------------------> 0 (DIAG_SUCCESS)
          Total run count -------------> 150933
          Last test testing type ------> Health Monitoring
          Last test execution time ----> Sep 01 2015 19:29:54
          First test failure time -----> n/a
          Last test failure time ------> n/a
          Last test pass time ---------> Sep 01 2015 19:29:54
          Total failure count ---------> 0
          Consecutive failure count ---> 0
  ___________________________________________________________________________

 

С 11 августа ни одного неудачного результата. Но с 11 числа не включен порт 5/3.

И из за проблем с контактами может быть проблема с одним единственным портом из всей группы?

И второе - для описанной вами процедуры мне нужно будет разобрать весь коммутатор по винтику. Ибо в 6880-x 5й модуль встроен в SUP, который в свою очередь является встроенным в шасси коммутатора. Есть ли более подробное описание конструкции и креплений, чтобы не развинчивать все подряд?

Cisco Employee

Добрый день,Как видно из Рис

Добрый день,

Как видно из Рис.13 - блоки портов имеют общие компоненты (ASICs и MUX FPGA),
а так же индивидуальные Port-ASIC и внутренние линки между ними:
http://www.cisco.com/c/en/us/products/collateral/switches/catalyst-6880-x-switch/white_paper_c11-728540.html

Теоретичесики проблема может быть в каком-то из них.

Так же проблема может быть и в контакте/линке между Baseboard и port-complex.
Figure 11. Catalyst 6880-X Baseboard

Соответственно для локализации - возможные варианты дей-й:
- Reseat Baseboard в шасси + port-complex платы на baseboard.

Перед этим bootup диагностику выставить на complete.

- Не помогает - открывать кейс для детального анализа и/или RMA.

Спасибо,
Сергей

New Member

Спасибо за исчерпывающий

Спасибо за исчерпывающий ответ!
 

105
Просмотры
5
Полезный материал
6
Ответы