Форум русскоязычного сообщества Ubuntu


Следите за новостями русскоязычного сообщества Ubuntu в Twitter-ленте @ubuntu_ru_loco

Автор Тема: Проблемы с диском или матерью?  (Прочитано 2083 раз)

0 Пользователей и 1 Гость просматривают эту тему.

xCubanoid

  • Автор темы
  • Гость
Проблемы с диском или матерью?
« : 22 Сентября 2020, 08:19:58 »
 Всем привет!
Имею ubuntu-сервер, несистемный диск подключен по SATA на нем cryptsetup и BTRFS. Примерно раз в месяц или даже чаще, в логах появляется следующее:
Sep 18 00:05:55 white kernel: [265985.854275] BTRFS error (device dm-1): invalid tree nritems, bytenr=4005273206784 nritems=0 expect >0
Sep 18 00:21:43 white kernel: [266934.470251] ata2.00: failed command: WRITE FPDMA QUEUED
Sep 18 00:21:43 white kernel: [266934.470259] ata2.00: cmd 61/80:00:40:db:1b/00:00:5b:01:00/40 tag 0 ncq dma 65536 out
Sep 18 00:21:43 white kernel: [266934.470259] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep 18 00:21:43 white kernel: [266934.470267] ata2.00: status: { DRDY }
Sep 18 00:21:43 white kernel: [266934.470270] ata2.00: failed command: WRITE FPDMA QUEUED
Sep 18 00:21:43 white kernel: [266934.470277] ata2.00: cmd 61/20:08:20:dc:1b/00:00:5b:01:00/40 tag 1 ncq dma 16384 out
Sep 18 00:21:43 white kernel: [266934.470277] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep 18 00:22:44 white kernel: [266995.066702] ata2: softreset failed (1st FIS failed)
Sep 18 00:22:44 white kernel: [266995.066714] ata2: limiting SATA link speed to 3.0 Gbps
Sep 18 00:22:44 white kernel: [266995.066716] ata2: hard resetting link
Sep 18 00:22:49 white kernel: [267000.067524] ata2: softreset failed (1st FIS failed)
Sep 18 00:22:49 white kernel: [267000.067549] ata2: reset failed, giving up
Sep 18 00:22:49 white kernel: [267000.067560] ata2.00: disabled
Sep 18 00:22:49 white kernel: [267000.067729] ata2: EH complete
Sep 18 00:22:49 white kernel: [267000.067828] sd 1:0:0:0: [sdb] tag#29 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 18 00:22:49 white kernel: [267000.067837] sd 1:0:0:0: [sdb] tag#29 CDB: Write(16) 8a 00 00 00 00 01 5b 1b db 00 00 00 00 20 00 00
Sep 18 00:22:49 white kernel: [267000.067842] print_req_error: I/O error, dev sdb, sector 5823519488
Sep 18 00:22:49 white kernel: [267000.067885] BTRFS error (device dm-1): bdev /dev/mapper/private errs: wr 1, rd 0, flush 0, corrupt 0, gen 0
Sep 18 00:22:49 white kernel: [267000.067955] sd 1:0:0:0: [sdb] tag#30 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 18 00:22:49 white kernel: [267000.067961] sd 1:0:0:0: [sdb] tag#30 CDB: Write(16) 8a 00 00 00 00 01 5b 1b 97 a0 00 00 00 a0 00 00
Sep 18 00:22:49 white kernel: [267000.067964] print_req_error: I/O error, dev sdb, sector 5823502240
Sep 18 00:22:49 white kernel: [267000.067990] BTRFS error (device dm-1): bdev /dev/mapper/private errs: wr 2, rd 0, flush 0, corrupt 0, gen 0
и раздел переходит в режим только чтение.
SMART диска ничего криминального не содержит. Шлейф поменял. BIOS обновил.
Менять материнку? Или диск?

Dzhoser

  • Автор темы
  • Гость
Re: Проблемы с диском или матерью?
« Ответ #1 : 22 Сентября 2020, 09:13:02 »
Протестируйте диск mhdd. Желательно на другой машине. Покажите SMART может криминал есть?

xCubanoid

  • Автор темы
  • Гость
Re: Проблемы с диском или матерью?
« Ответ #2 : 22 Сентября 2020, 09:38:44 »
Покажите SMART может криминал есть?

А ведь Вы правы. С тех пор как я прошлый раз смотрел SAMRT вывод несколько изменился. :
=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD60EFRX-68L0BN1
Serial Number:    WD-WX41DA57HECX
LU WWN Device Id: 5 0014ee 262d7f8da
Firmware Version: 82.00A82
User Capacity:    6,001,175,126,016 bytes [6.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5700 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Sep 22 09:21:32 2020 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 5744) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   2) minutes.
Extended self-test routine
recommended polling time: ( 711) minutes.
Conveyance self-test routine
recommended polling time: (   5) minutes.
SCT capabilities:        (0x303d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   215   197   021    Pre-fail  Always       -       8216
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       72
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   074   074   000    Old_age   Always       -       18998
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       72
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       38
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       372
194 Temperature_Celsius     0x0022   113   105   000    Old_age   Always       -       39
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
ATA Error Count: 1
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 14046 hours (585 days + 6 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 20 40 fe 2c e0  Error: IDNF at LBA = 0x002cfe40 = 2948672

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 20 40 fe 2c e0 08      00:04:51.775  WRITE DMA
  ca 00 20 80 fc 2c e0 08      00:04:51.775  WRITE DMA
  ca 00 60 e0 fb 2c e0 08      00:04:51.774  WRITE DMA
  ca 00 20 80 fb 2c e0 08      00:04:51.774  WRITE DMA
  ca 00 20 20 fb 2c e0 08      00:04:51.774  WRITE DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Interrupted (host reset)      10%     13772         -
# 2  Short offline       Completed without error       00%     13760         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute del

Оффлайн jura12

  • Старожил
  • *
  • Сообщений: 1418
  • 20.04
    • Просмотр профиля
Re: Проблемы с диском или матерью?
« Ответ #3 : 22 Сентября 2020, 10:55:13 »
старый и плохой диск у вас.
можно еще дать команду smartctl -t short /dev/sda
сопротивление бесполезно

Dzhoser

  • Автор темы
  • Гость
Re: Проблемы с диском или матерью?
« Ответ #4 : 22 Сентября 2020, 11:18:59 »
Как бы проблема локализована и она в диске

xCubanoid

  • Автор темы
  • Гость
Re: Проблемы с диском или матерью?
« Ответ #5 : 22 Сентября 2020, 16:24:08 »
Как бы проблема локализована и она в диске
Да всё так. Теперь это стало очевидно. Спасибо.

Пользователь добавил сообщение 22 Сентября 2020, 16:24:47:
можно еще дать команду smartctl -t short /dev/sda
Зачем? Там новая ssd под системой и с ней всё хорошо

Оффлайн ALiEN

  • Администратор
  • Старожил
  • *
  • Сообщений: 6725
  • 20% Cooler
    • Просмотр профиля
Re: Проблемы с диском или матерью?
« Ответ #6 : 22 Сентября 2020, 17:50:01 »
старый и плохой диск у вас.
Почему? Все показатели в норме. 19К часов наработки - ни о чём. Я бы БП попробовал заменить.

Хотя 39 градусов - для ЖД многовато. Корпус хорошо проветривается?
« Последнее редактирование: 22 Сентября 2020, 17:52:26 от ALiEN175 »
🖥 AsRock B550M Pro4 :: AMD Ryzen 5 3600 :: 16 GB DDR4 :: AMD Radeon RX 6600 :: XFCE
💻 ACER 5750G :: Intel Core i5-2450M :: 6 GB DDR3 :: GeForce GT 630M :: XFCE

xCubanoid

  • Автор темы
  • Гость
Re: Проблемы с диском или матерью?
« Ответ #7 : 23 Сентября 2020, 08:29:48 »
Поменял жесткий диск. Наблюдаю. Будут какие-то новости - сообщу здесь.

xCubanoid

  • Автор темы
  • Гость
Re: Проблемы с диском или матерью?
« Ответ #8 : 24 Сентября 2020, 16:24:25 »
: После замены диска началась какая-то лютая дичь.
Раз в сутки в логах выдает вот такое:
Sep 24 16:03:10 white kernel: [68836.536800] xhci_hcd 0000:00:10.0: WARN Cannot submit Set TR Deq Ptr
Sep 24 16:03:10 white kernel: [68836.536803] xhci_hcd 0000:00:10.0: A Set TR Deq Ptr command is pending.
Sep 24 16:03:10 white kernel: [68836.668526] usb 3-2: reset SuperSpeed Gen 1 USB device number 2 using xhci_hcd
Sep 24 16:03:41 white kernel: [68867.259600] xhci_hcd 0000:00:10.0: WARN Cannot submit Set TR Deq Ptr
Sep 24 16:03:41 white kernel: [68867.259603] xhci_hcd 0000:00:10.0: A Set TR Deq Ptr command is pending.
Sep 24 16:03:41 white kernel: [68867.388753] usb 3-2: reset SuperSpeed Gen 1 USB device number 2 using xhci_hcd
Sep 24 16:03:41 white kernel: [68867.411827] sd 9:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_TIME_OUT driverbyte=DRIVER_OK
Sep 24 16:03:41 white kernel: [68867.411833] sd 9:0:0:0: [sdb] tag#0 CDB: Read(10) 28 00 00 00 00 00 00 00 20 00
Sep 24 16:03:41 white kernel: [68867.411836] blk_update_request: I/O error, dev sdb, sector 0 op 0x0:(READ) flags 0x80700 phys_seg 4 prio class 0
Sep 24 16:04:12 white kernel: [68897.983997] xhci_hcd 0000:00:10.0: WARN Cannot submit Set TR Deq Ptr
Sep 24 16:04:12 white kernel: [68897.984004] xhci_hcd 0000:00:10.0: A Set TR Deq Ptr command is pending.
Sep 24 16:04:12 white kernel: [68898.113010] usb 3-2: reset SuperSpeed Gen 1 USB device number 2 using xhci_hcd
Sep 24 16:04:42 white kernel: [68928.696367] xhci_hcd 0000:00:10.0: WARN Cannot submit Set TR Deq Ptr
Sep 24 16:04:42 white kernel: [68928.696369] xhci_hcd 0000:00:10.0: A Set TR Deq Ptr command is pending.
Sep 24 16:04:42 white kernel: [68928.825433] usb 3-2: reset SuperSpeed Gen 1 USB device number 2 using xhci_hcd
После чего LA начинает неконтролируемо расти за счет роста iowait.
В USB при этом вставлена но не примонтирована флэшка (используется при загрузке).

Оффлайн ALiEN

  • Администратор
  • Старожил
  • *
  • Сообщений: 6725
  • 20% Cooler
    • Просмотр профиля
Re: Проблемы с диском или матерью?
« Ответ #9 : 24 Сентября 2020, 16:28:39 »
Я бы БП попробовал заменить.
🖥 AsRock B550M Pro4 :: AMD Ryzen 5 3600 :: 16 GB DDR4 :: AMD Radeon RX 6600 :: XFCE
💻 ACER 5750G :: Intel Core i5-2450M :: 6 GB DDR3 :: GeForce GT 630M :: XFCE

xCubanoid

  • Автор темы
  • Гость
Re: Проблемы с диском или матерью?
« Ответ #10 : 24 Сентября 2020, 17:38:58 »
Я бы БП попробовал заменить.
Это я уже делал на какой-то из предыдущих итераций.

Оффлайн snowin

  • Активист
  • *
  • Сообщений: 883
    • Просмотр профиля
Re: Проблемы с диском или матерью?
« Ответ #11 : 24 Сентября 2020, 23:43:06 »
xCubanoid, попробуй в биосе отключить этот xhci

 

Страница сгенерирована за 0.059 секунд. Запросов: 25.