Форум русскоязычного сообщества Ubuntu


Увидели сообщение с непонятной ссылкой, спам, непристойность или оскорбление?
Воспользуйтесь ссылкой «Сообщить модератору» рядом с сообщением!

Автор Тема: помогите поймать глюк.  (Прочитано 3986 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн дмитрий ц.

  • Автор темы
  • Любитель
  • *
  • Сообщений: 53
    • Просмотр профиля
помогите поймать глюк.
« : 06 Апреля 2010, 00:05:27 »
дано. мать intel 510mo.
к ней подключены два винта по 2 террабайта.
первый - seagatе. на нем находится / (ext4), swap, и /home (ext3).
в /home смонтирован второй винт - wd (о подобном идет речь тут https://forum.ubuntu.ru/index.php?topic=89900.0), отформатированный по умолчанию.
все это работает под ubuntu server 9.10.
на сервере - rtorrent, rutorrent, lighttpd, nfs, samba, ssh.
за сегодняшний день сервачек повис раз 5.
наглухо.
в это время сервер активно копировал файлы.
как поймать глюк?
первым делом обновлю биос. (как только пойму как)
что делать вторым делом?

Оффлайн Malamut

  • Ubuntu Member
  • Администратор
  • Старожил
  • *
  • Сообщений: 3337
  • Я добрый, честно!
    • Просмотр профиля
    • Моя страница на Launchpad
Re: помогите поймать глюк.
« Ответ #1 : 06 Апреля 2010, 00:21:09 »
первым делом курить логи, потом пытаться точно выяснить, при каких условиях виснет. А потом уже всякие обновления и проч))
"Носителем суверенитета и единственным источником власти в Российской Федерации является ее многонациональный народ" Конституция РФ

Оффлайн дмитрий ц.

  • Автор темы
  • Любитель
  • *
  • Сообщений: 53
    • Просмотр профиля
Re: помогите поймать глюк.
« Ответ #2 : 06 Апреля 2010, 00:28:02 »
какие логи? т.е. логи чего?

Оффлайн sht0rm

  • Старожил
  • *
  • Сообщений: 3397
    • Просмотр профиля
Re: помогите поймать глюк.
« Ответ #3 : 06 Апреля 2010, 01:09:43 »
/var/log/everything.log

Оффлайн дмитрий ц.

  • Автор темы
  • Любитель
  • *
  • Сообщений: 53
    • Просмотр профиля
Re: помогите поймать глюк.
« Ответ #4 : 06 Апреля 2010, 01:16:44 »
что, прям таки все????

Оффлайн sht0rm

  • Старожил
  • *
  • Сообщений: 3397
    • Просмотр профиля
Re: помогите поймать глюк.
« Ответ #5 : 06 Апреля 2010, 01:22:44 »
что, прям таки все????
5-ю 6-ю и 189ю строчки.  :tickedoff:

Оффлайн дмитрий ц.

  • Автор темы
  • Любитель
  • *
  • Сообщений: 53
    • Просмотр профиля
Re: помогите поймать глюк.
« Ответ #6 : 06 Апреля 2010, 08:26:23 »
в общем так.
на первом диске у меня система и /home.
на примонтированyом wd - лежат папки с blue-ray disk.
на /home у меня осталось лежать еще три фильма.
комп умирает 100% если в rtorrent я присоединяюсь к раздаче, лежащей на wd, при этом копируя что то с seagate на wd.
причем!
все те раздачи мелкие раздачи (до 14 гигов включительно), после ресета нормально себя чувствуют, а вот на крупных rtorrent так переглючивает, что приходится ВСЕ (!) раздачи перекешировать. (представляете, сколько это времени занимает, да?)
т.е. с большой долей вероятности можно говорить, что проблема кроется в работе с работе с дисками. ( с диском)
в /var/log/massages я ничего не заметил.




Оффлайн sht0rm

  • Старожил
  • *
  • Сообщений: 3397
    • Просмотр профиля
Re: помогите поймать глюк.
« Ответ #7 : 06 Апреля 2010, 09:22:17 »
wd в какой файловой системе отформатирован?
BIOS последний прошит?
smart винтов выложите.

Оффлайн дмитрий ц.

  • Автор темы
  • Любитель
  • *
  • Сообщений: 53
    • Просмотр профиля
Re: помогите поймать глюк.
« Ответ #8 : 06 Апреля 2010, 10:32:42 »
в ext 3.
еще нет. сейчас дохешируются раздачи... и прошью.

smart

media@media-server:~$ df -h
Файловая система            Разм  Исп  Дост  Исп% смонтирована на
/dev/sda1             2,8G  1,3G  1,4G  49% /
udev                  492M  164K  492M   1% /dev
none                  492M     0  492M   0% /dev/shm
none                  492M  320K  492M   1% /var/run
none                  492M     0  492M   0% /var/lock
none                  492M     0  492M   0% /lib/init/rw
/dev/sda3             1,8T  709G  1,1T  41% /home
/dev/sdb1             1,8T  713G  1,1T  41% /home/media/Blue-Ray_Disk
media@media-server:~$ sudo smartctl -a -d ata /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     ST32000542AS
Serial Number:    5XW02GN8
Firmware Version: CC32
User Capacity:    2 000 398 934 016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Tue Apr  6 11:31:46 2010 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 633) seconds.
Offline data collection
capabilities: (0x73) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x103f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   114   099   006    Pre-fail  Always       -       67955571
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       109
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   057   056   030    Pre-fail  Always       -       68728968261
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       778
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       73
183 Unknown_Attribute       0x0032   090   090   000    Old_age   Always       -       10
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   082   082   000    Old_age   Always       -       18
190 Airflow_Temperature_Cel 0x0022   064   047   045    Old_age   Always       -       36 (Lifetime Min/Max 36/37)
194 Temperature_Celsius     0x0022   036   053   000    Old_age   Always       -       36 (0 21 0 0)
195 Hardware_ECC_Recovered  0x001a   045   027   000    Old_age   Always       -       67955571
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       151500676399971
241 Unknown_Attribute       0x0000   100   253   000    Old_age   Offline      -       280812538
242 Unknown_Attribute       0x0000   100   253   000    Old_age   Offline      -       1508180037

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

media@media-server:~$ sudo smartctl -a -d ata /dev/sdb
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD20EARS-00S8B1
Serial Number:    WD-WCAVY2324975
Firmware Version: 80.00A80
User Capacity:    2 000 398 934 016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Apr  6 11:31:51 2010 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (43200) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   2) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: (   5) minutes.
SCT capabilities:        (0x3031) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   161   146   021    Pre-fail  Always       -       8933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       18
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       62
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       16
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       13
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       174
194 Temperature_Celsius     0x0022   114   112   000    Old_age   Always       -       38
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Пользователь решил продолжить мысль 06 Апреля 2010, 12:44:25:
биос обновил.
глюк в полный рост остался.

Пользователь решил продолжить мысль 06 Апреля 2010, 15:12:13:
в общем, глюк локализован полностью.
проблема в wd.
при записи на него система умирает.
при чтении -  все нормально.
теперь осталось понять, лечится ли это "правильным" форматированием.

(или глюк не в нем, а во втором контроллере sata)
« Последнее редактирование: 06 Апреля 2010, 15:12:13 от дмитрий ц. »

 

Страница сгенерирована за 0.057 секунд. Запросов: 23.