Приветствую!
Возник вопрос касательно настроек файлового кластера на базе Samba DRBD+ocfs2+Heartbeat под управлением Ubuntu 12.04.4 LTS.
Имеется 2 сервера fs1 и fs2, на каждом по 2 сетевых интерфейса - eth0 (внутренняя сеть 192.168.9.73 и 74) и eth1 (10.20.70.1 и 2). На каждом настроены 3 DRBD-ресурса, для примера приведу 1, т.к. настройки мало чем отличаются:
cat /etc/drbd.d/data.res
resource data {
device /dev/drbd0;
disk /dev/vg00/data;
meta-disk internal;
protocol C;
net {
allow-two-primaries;
}
startup {
become-primary-on both;
}
on fs1 {
address 10.20.70.1:7789;
}
on fs2 {
address 10.20.70.2:7789;
}
DRBD работает без нареканий.
Возникла проблема именно с демоном hearbeat после перезагрузки серверов в виду их долгого аптайма и необходимости проверки на практике "отказоустойчивости кластера".
Файл /etc/ha.d/ha.cf
debugfile /var/log/ha-debug
logfile /var/log/ha-log
logfacility local0
keepalive 1
deadtime 15
warntime 5
initdead 30
udpport 694
bcast eth0 # Linux
auto_failback off
node fs1
node fs2
ping 192.168.9.150 # свич HP Pro Curve
respawn hacluster /usr/lib/heartbeat/ipfail
Файл /etc/ha.d/haresources (идентичный на обоих нодах)
fs2 192.168.9.72 drbddisk::data Filesystem::/dev/drbd0::/data::ocfs2 smbd
Изначально в haresourses была прописана одна строчка с с drbd-ресурсом и hearbeat работал без нареканий. Но после добавления дополнительно 2 других ресурсов я дописал 2 строки аналогично имеющейся. То как раз после добавления этих 2 строк демон и перестал работать. Вернул все назад, не помогло. Стало еще хуже, после перезапуска демона или перезагрузки сервера ресурс data переходит в состояние Slave/Slave иногда Slave/Primary. Виртуальный интерфейс eth0:1 с адресом 192.168.9.72 не поднимается на сервере fs2, который считается основным в паре.
Очень надеюсь, что кто-то имел дело с heartbeat и подобной ситуацией.
P.S. При необходимости могу выложить содержимое debug-log'а.