Добрый день.
Есть домашний сервак с Ubuntu Server 16.04. Transmision качалка, smb/nfs шара и KVM на пару тестовых машинок..
На днях скопом установил на него Java, Ippon WinPower и Munin.
(на текущий момент в обратном порядке все это удалил в поисках причины.. Munin позже вернул обратно. До установил NUT.)
Начались случайные загрузки одного ядра на 200-800% каким-либо процессом.
Нагрузка постепенно растет до полного зависания сервера.
Причем 3 часа сервак работает идеально. А потом в промежутке между 3 и 6 часами случается эта напасть.
В этом состоянии перезагрузить его командами уже не удается. Только хард ресет.
В log dmesg пишет:
[12715.697241] INFO: rcu_sched detected stalls on CPUs/tasks:
[12715.699669] 3-...: (2 GPs behind) idle=ca9/1/0 softirq=311023/311024 fqs=326225
[12715.702079] (detected by 1, t=690077 jiffies, g=300092, c=300091, q=1775014)
[12715.704491] Task dump for CPU 3:
[12715.704494] swapper/3 R running task 0 0 1 0x00000008
[12715.704503] 0000000000000246 ffff9d50dd6afe60 0000000000000018 ffff9d50dd6afe88
[12715.704511] ffffffff9ce37e60 0000000000000003 0000000000000000 0000000000000000
[12715.704517] ffff9d50dd6afea0 ffffffff9ce37f69 ffff9d50dd6b0000 ffff9d50dd6afeb0
[12715.704522] Call Trace:
[12715.704535] [<ffffffff9ce37e60>] ? default_idle+0x20/0xd0
[12715.704541] [<ffffffff9ce37f69>] ? amd_e400_idle+0x59/0xd0
[12715.704547] [<ffffffff9ce385cf>] ? arch_cpu_idle+0xf/0x20
[12715.704552] [<ffffffff9cec7a4a>] ? default_idle_call+0x2a/0x40
[12715.704557] [<ffffffff9cec7d4c>] ? cpu_startup_entry+0x2ec/0x350
[12715.704563] [<ffffffff9ce518a1>] ? start_secondary+0x151/0x190
[12739.840595] NMI watchdog: BUG: soft lockup - CPU#0 stuck for 22s! [ping:25978]
[12739.843102] Modules linked in: vhost_net vhost macvtap macvlan xt_CHECKSUM iptable_mangle ipt_MASQUERADE nf_nat_masquerade_ipv4 iptable_nat nf_nat_ipv4 nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 xt_conntrack nf_conntrack ipt_REJECT nf_reject_ipv4 xt_tcpudp bridge stp llc ebtable_filter ebtables ip6table_filter ip6_tables iptable_filter snd_hda_codec_hdmi ppdev kvm_amd kvm irqbypass snd_hda_codec_realtek snd_hda_codec_generic snd_hda_intel snd_hda_codec serio_raw k10temp snd_hda_core snd_hwdep snd_pcm snd_timer snd shpchp soundcore i2c_piix4 parport_pc mac_hid it87 nfsd hwmon_vid auth_rpcgss nfs_acl lockd lp grace sunrpc parport ip_tables x_tables autofs4 btrfs xor raid6_pq hid_generic usbhid nouveau hid mxm_wmi video i2c_algo_bit ttm drm_kms_helper pata_acpi syscopyarea sysfillrect sysimgblt fb_sys_fops
[12739.843180] firewire_ohci r8169 firewire_core pata_jmicron mii drm crc_itu_t ahci libahci wmi fjes
[12739.843196] CPU: 0 PID: 25978 Comm: ping Tainted: G L 4.8.0-22-generic #24-Ubuntu
[12739.843198] Hardware name: Gigabyte Technology Co., Ltd. GA-870A-UD3/GA-870A-UD3, BIOS F1 04/15/2010
[12739.843200] task: ffff9d4fc49d4100 task.stack: ffff9d4fc49f8000
[12739.843202] RIP: 0010:[<ffffffff9cf0b1b1>] [<ffffffff9cf0b1b1>] smp_call_function_many+0x1f1/0x250
[12739.843210] RSP: 0018:ffff9d4fc49fbd10 EFLAGS: 00000202
[12739.843212] RAX: 0000000000000003 RBX: 0000000000000100 RCX: 0000000000000003
[12739.843214] RDX: ffff9d50efcdcb28 RSI: 0000000000000100 RDI: ffff9d50efc1a188
[12739.843217] RBP: ffff9d4fc49fbd48 R08: fffffffffffffff8 R09: 000000000000000e
[12739.843219] R10: 0000000000000004 R11: 0000000000000246 R12: ffff9d50efc1a188
[12739.843221] R13: ffff9d50efc1a180 R14: ffffffff9ce34ee0 R15: 0000000000000000
[12739.843224] FS: 00007fdd06abe700(0000) GS:ffff9d50efc00000(0000) knlGS:0000000000000000
[12739.843227] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[12739.843229] CR2: 00007fdd06334600 CR3: 0000000304946000 CR4: 00000000000006f0
[12739.843231] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[12739.843233] DR3: 0000000000000000 DR6: 00000000ffff4ff0 DR7: 0000000000000400
[12739.843234] Stack:
[12739.843237] 000000000001a140 01ff9d4f00000001 ffffffff9d5830a0 ffffffff9ce34ee0
[12739.843243] 0000000000000000 ffffffff9d5830a1 0000000000000001 ffff9d4fc49fbd70
[12739.843248] ffffffff9cf0b2ed ffffffff9d5830a0 0000000000000005 ffff9d4fc49fbdc3
[12739.843253] Call Trace:
[12739.843259] [<ffffffff9d5830a0>] ? netif_receive_skb_internal+0x20/0xa0
[12739.843263] [<ffffffff9ce34ee0>] ? arch_unregister_cpu+0x30/0x30
[12739.843267] [<ffffffff9d5830a1>] ? netif_receive_skb_internal+0x21/0xa0
[12739.843271] [<ffffffff9cf0b2ed>] on_each_cpu+0x2d/0x60
[12739.843275] [<ffffffff9d5830a0>] ? netif_receive_skb_internal+0x20/0xa0
[12739.843279] [<ffffffff9ce35eea>] text_poke_bp+0x6a/0xf0
[12739.843283] [<ffffffff9d5830a0>] ? netif_receive_skb_internal+0x20/0xa0
[12739.843289] [<ffffffff9ce32b9b>] arch_jump_label_transform+0x9b/0x120
[12739.843293] [<ffffffff9cf9d307>] __jump_label_update+0x77/0x90
[12739.843297] [<ffffffff9cf9d3a8>] jump_label_update+0x88/0x90
[12739.843301] [<ffffffff9cf9d5b5>] static_key_slow_inc+0x95/0xa0
[12739.843306] [<ffffffff9d57d0e2>] net_enable_timestamp+0x42/0x50
[12739.843311] [<ffffffff9d56ad32>] sock_enable_timestamp+0x32/0x40
[12739.843316] [<ffffffff9d56b169>] sock_setsockopt+0x429/0x8f0
[12739.843322] [<ffffffff9d1bda32>] ? apparmor_socket_setsockopt+0x22/0x30
[12739.843326] [<ffffffff9d565d0d>] SyS_setsockopt+0xcd/0xe0
[12739.843332] [<ffffffff9d69f076>] entry_SYSCALL_64_fastpath+0x1e/0xa8
[12739.843334] Code: d2 e8 a4 a4 33 00 3b 05 32 06 e5 00 89 c1 0f 8d 99 fe ff ff 48 98 49 8b 55 00 48 03 14 c5 a0 96 d5 9d 8b 42 18 a8 01 74 09 f3 90 <8b> 42 18 a8 01 75 f7 eb bf 0f b6 4d d0 4c 89 fa 4c 89 f6 44 89
(номер ядра CPU и имя процесса каждый раз разное. В данном случае это процесс ping)
находил похожие ситуации на англоязычных форумах - там все грешат на ядро и systemd.
Обновил сервак до 16.10. Ядро 4.8 ..
Ничего не поменялось.
Следующим шагом будет переустановить систему "с нуля".
Но хотелось бы разобраться что случилось то. Как-то это не "linux way" - переустановкой непонятный глюк лечить.