Форум русскоязычного сообщества Ubuntu


Автор Тема: HA Cluster Pacemaker+Corosync Ubuntu 22.04 по технологии Shared DAS  (Прочитано 4098 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн san4ez1008

  • Автор темы
  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля


Всем доброго времени суток! Собрал кластер на Ubuntu 22.04 pacemaker+corosync по следующему ману: https://www.pvsm.ru/linux/87042

Ubuntu развернута на виртуальных машинах кластера VMware из 2х хостов, по одной виртуалке на каждом хосте, внутрь проброшены HBA Broadcom LSI SAS3408, каждый по 2 порта. Хосты виртуализации подключены к дисковой полке к SAS-экспандерам, в самой полке находятся 4 диска по 1.7 Тб каждый.

Кластер собран, диски определяются, stonith и ресурсы настроены. Ресурсы и порядок следующие: ip-scsi - VIP таргета target-pool1 - таргет zfs-pool1 - пул zfs, собранный из 4х дисков в draid1 lun1-pool1 - сам LUN ip-pool1 - mgmt VIP.

Проблема следующая: при ручном перемещении ресурсов или штатном/нештатном отключении виртуалок в VMware теряется связь с хранилищем-LUN, который предоставляется кластером HA. При этом, кластер на виндовых машинах с такими же ресурсами ведет себя нормально, LUB не теряется, связь не прерывается. Я думал, проблема в каких-то таймаутах, уменьшил параметры cluster-recheck-interval сократил до 1 секунды, cluster-delay до 1 секунды, ничего не изменилось. Сначала порядок ресурсов был VIP таргета->mgmt VIP->zfs-pool1->target-pool1->lun1-pool1.

Изменил порядок запуска на тот, что описал выше, но это тоже не помогло. В логах ничего критичного нет, кроме пары ошибок и алертов:
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ cannot open 'pool1': no such pool ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ /usr/lib/ocf/resource.d/heartbeat/ZFS: 35: [: Illegal number:  ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ /usr/lib/ocf/resource.d/heartbeat/ZFS: 35: [: Illegal number:  ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-controld[1832]:  notice: Result of start operation for zfs-pool1 on labvnasubuntu-1-ext: ok

Mar 16 12:38:29 labvnasubuntu-1 systemd-udevd[32333]: zd0: Process '/usr/bin/unshare -m /usr/bin/snap auto-import --mount=/dev/zd0' failed with exit code 1.
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-controld[1832]:  notice: Result of monitor operation for zfs-pool1 on labvnasubuntu-1-ext: ok
Mar 16 12:38:29 labvnasubuntu-1 systemd-udevd[32333]: zd0p1: Process '/usr/bin/unshare -m /usr/bin/snap auto-import --mount=/dev/zd0p1' failed with exit code 1.

Но эти алерты меня очень сильно смущают, но по этому поводу ничего не гуглится. Есть ли те, кто сталкивался с этим? Гугление ничего не дало, ищу второй день. Более полный лог pacemaker положил на пастбин: https://pastebin.com/eLj8DdtY

 

Страница сгенерирована за 0.02 секунд. Запросов: 23.