отмена
Отображаются результаты для 
Вместо этого искать 
Вы имели в виду: 
Объявления
Добро пожаловать в Сообщество Технической поддержки Cisco. Мы рады получить обратную связь .
New Member

Потеря пакетов Nexus 5548

Установлено два Nexus 5548 version 6.0(2)N1(1). Настроено несколько hsrp, часть работает стабильно, а на части пропадают пакеты на hsrp адресах, при этом это происходит с периодичностью, приблизительно в 25 минут, адреса интерфейсов vlan-ов пингуются без потерь.

Ниже настройки hsrp, на которых пропадают пакеты, остальные hsrp настроены идентично.

Nexus 1

interface Vlan90
  no shutdown
  ip address 10.20.90.2/24
  ip router eigrp 20
  hsrp 1
    preempt
    priority 150
    ip 10.20.90.1

interface port-channel1000
  switchport mode trunk
  spanning-tree port type network
  speed 10000
  vpc peer-link

Nexus 2

interface Vlan90
  no shutdown
  ip address 10.20.90.3/24
  ip router eigrp 20
  hsrp 1
    preempt
    priority 120
    ip 10.20.90.1

interface port-channel1000
  switchport mode trunk
  spanning-tree port type network
  speed 10000
  vpc peer-link
 

 

10 ОТВЕТ.

"Настроено несколько hsrp,

"Настроено несколько hsrp, часть работает стабильно, а на части пропадают пакеты на hsrp адресах"

"адреса интерфейсов vlan-ов пингуются без потерь."

Если я правильно понимаю: с конечного хоста "ping 10.20.90.2" и "ping 10.20.90.3" в порядке, а "ping 10.20.90.1" периодически показывает проблемы?

1) Когда началось, и были ли какие-либо изменения перед этим?

2) Сам HSRP между свитчами не разваливается, в логах чисто?

3) Как долго длятся проблемы, и нет ли в это время высокой нагрузки на ЦП?

4) Какие-нибудь закономерности в том, какие именно HSRP группы испытывают проблемы?

New Member

"Если я правильно понимаю: с

"Если я правильно понимаю: с конечного хоста "ping 10.20.90.2" и "ping 10.20.90.3" в порядке, а "ping 10.20.90.1" периодически показывает проблемы?"

Да, та и есть.

1. Проблема эта началась давно, после чего уже не определить, думали поможет обновление, но не помогло.

2. Да в логах чисто, переключения active/standbay не происходят

3. Проблема достаточно давняя. Во вложении результаты комманды "sh proc cpu hist"

4. Трудно сказать, но похоже проблемы с теми группами через которые идет наибольший поток трафика.

Как-то уж больно сильно

Как-то уж больно сильно загружены далеко не слабые процессоры на них. Сделайте "show proc cpu sorted | ex 0.00". Желательно - в момент, когда есть проблема. Если сложно поймать момент - можно попробовать костыль: EEM апплет на любом другом устройстве, который при обнаружении проблем с IP SLA автоматически логинится и собирает информацию.


Транзитный трафик теряется, или проблема только с пингом до VIP адреса? Потери 100%, или только части пакетов?

Можно полную конфигурацию посмотреть того свитча, который HSRP active для одной из проблемных групп? И назовите пример VLANа, с которым беда. CoPP донастраивался?

New Member

Во вложении результат "show

Во вложении результат "show proc cpu sort | ex 0.00", правда момент проблемы попасть очень тяжело, так как она бывает сразу не на всех hsrp(замечено пока только на двух vlan 10, 90), т.е. пропадает на 15 секунд, например, на vlan 10, а потом через минуту на 15 секунд на vlan 90 и так, приблизительно, каждые 25 минут. Попробую создать EEM апплет, если получиться выложу результат. 

Проблема была замечена на одном из серверов в vlan90, на него пакеты теряются хаотично.

Во вложении конфиг активного свича. Беда с vlan 90 и 10.

CoPP, не знаю, нашел в конфиге вот это:

"policy-map type control-plane copp-system-policy-customized 
  class copp-system-class-hsrp-vrrp
    police cir 1024 kbps bc 256000 bytes 
  class copp-system-class-l3dest-miss
    police cir 64 kbps bc 16000 bytes 
control-plane
  service-policy input copp-system-policy-customized "

New Member

"show proc cpu sort | ex 0.0"

"show proc cpu sort | ex 0.0" в момент проблемы

NEXUS1

PID    Runtime(ms)  Invoked   uSecs  1Sec    Process

-----  -----------  --------  -----  ------  -----------

 3467   1337973083  2147483647    455    6.8%  snmpd

 3549          321      3146    102    5.8%  netstack

 3338    687617909  195857582   3510    2.0%  pfma

 3440      8889490  161368339     55    0.9%  eth_dstats

 3443   1179243197  2147483647    357    0.9%  carmelusd

 3446      6789586  119280568     56    0.9%  bcm_usd

 3710     49891730  784286915     63    0.9%  stp

 3768    227209530  1356810916    167    0.9%  ethpm

25522          440      1728    255    0.9%  dcos_sshd

 

CPU util  :   15.2% user,   8.8% kernel,   76.0% idle

Please note that only processes from the requested vdc are shown above

NEXUS2

PID    Runtime(ms)  Invoked   uSecs  1Sec    Process

-----  -----------  --------  -----  ------  -----------

 3477   1186870410  2147483647    490   10.4%  snmpd

 3440   1183875414  2147483647    354    4.8%  carmelusd

 3502    898562753  602737173   1490    4.8%  statsclient

 3552          287      1351    212    3.8%  netstack

 3754    220331047  1307886630    168    3.8%  ethpm

 3338    688093358  196627557   3499    1.9%  pfma

 3547          150      1420    105    0.9%  arp

 3685     10150110  140117364     72    0.9%  hsrp_engine

CPU util  :   15.0% user,   4.5% kernel,   80.5% idle

Please note that only processes from the requested vdc are shown above

Если проблема с транзитным

Если проблема с транзитным трафиком, то перегрузку ЦП исключаем. Хотя все равно SNMP многовато для такой платформы, но ничего страшного.

Опишите точную топологию от отправителя пакета до получателя и обратно (лучше максимально сократить цепочку), покажите конфигурацию каждого устройства. Через какие интерфейсы/port-channel'ы проходит трафик? Нет ли на них перегрузок? На всей цепочке от инициатора пакета до получателя сделайте show interface с обеих сторон каждого линка (если port-channel, то всех линков бандла, если фекс, то интерфейсы фекса до сервера и аплинки самого фекса) в поисках ошибок. Замечу, что на этой платформе crc ошибки могут показываться где угодно кроме проблемного линка, так что заодно на всякий случай сделайте на обоих нексусах "show hardware internal carmel counters interrupt | in pkt_err|crc" (или приложите полный вывод без фильтра, там много всего будет).

 

В пределах одного VLAN'а проблема воспроизводится?

 

Если есть сервисный контракт, то лучше завести кейс.

New Member

Пингую с двух мест.1. ПК->WS

Пингую с двух мест.

1. ПК->WS-C3560-48PS->stack WS-C3750X-24S-S->Nexus

2. VM Server 2012 R2->Nexus

Результат одинаковый. Нужны ли конфиги с промежуточных устройств? Проблем нет только с vlan 255, кстати это vlan управления, т.е. в нем трафика практически нет. На остальных те же симптомы, с теми же интервалами.

"В пределах одного VLAN'а проблема воспроизводится?"

Не понял вопрос.

Сервисного контракта пока нет.

Пойдем по более короткому

Пойдем по более короткому пути - по "VM Server 2012 R2->Nexus". Полностью опишите физическую топологию с указанием портов на фексах. Сделайте show interface каждого с двух сторон по всей цепочке - как я говорил, не забывая про аплинки фексов.

 

Кстати, какой из нексусов HSRP active? Покажите show hsrp int vlan10 detail.

"Не понял вопрос"

Вы осуществляете маршрутизацию между VLANами при воспроизведении проблемы? Иначе говоря - у VIP для VLAN10 адрес 10.20.100.1. Доступность проверяется откуда-то из 10.20.100.0/24, или из других сетей?

New Member

VM Server 2012 R2 (HP Blade

VM Server 2012 R2 (HP Blade Server) -> Nexus (port-channel 2->eth1/8)

Во вложении show interface.

HSRP active - Nexus 1. show hsrp int vlan10 detail - во вложениях.

Если иду по цепочке ПК->WS-C3560-48PS->stack WS-C3750X-24S-S->WS-C6504-E->Nexus, то маршрутизация происходит на 3750, 6504 и nexus.

Если иду по цепочке VM Server 2012 R2->Nexus, то маршрутизация происходит на самом Nexus. В этом случае я пингую находясь в vlan 90, при этом пинги на vip адрес этого vlan не пропадают, а на все остальные, кроме 255 пропадают.

Беда... Боюсь, я толком не

Беда... Боюсь, я толком не умею траблшутить data plane у N5K, это не слишком хорошо документировано. Не уверен, что могу помочь. Может, сотрудник TAC заглянет? Хорошо бы еще переместиться в раздел форума "центры обработки данных".

 

Чтобы долго не переписываться (у меня нет возможности безвылазно тут сидеть), рекомендую изучить https://www.ciscolive.com/online/connect/sessionDetail.ww?SESSION_ID=7778 (если нет желания регистрироваться, то какое-то время презентация будет доступна по адресу http://d2zmdbbm9feqrf.cloudfront.net/2013/usa/pdf/BRKDCT-3145.pdf ), пробегитесь по основным моментам. Но их вроде уже проверили.

111
Просмотры
0
Полезный материал
10
Ответы