Самопроизвольный remount->ro на массиве mdadm

Автор PbI6A, 07 марта 2023, 05:52:55

« назад - далее »

0 Пользователи и 2 гостей просматривают эту тему.

PbI6A

Ребята, словил на запасном серваке такую вот проблему. Есть смонтированный для smb массив raid-10, который время от времени самопроизвольно переходит в ro. Командой mount его видно вот так:
/dev/md127 on /shares type ext4 (rw,relatime,noacl,errors=remount-ro,stripe=256)
Соответственно, монтируется, работает. Но через какое-то время (обычно около суток) перестаёт работать, смотрю - ro. В журнале пишет:
Mar  7 07:07:19 user kernel: [61363.716902] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #114556944: comm find: Directory block failed checksum
Mar  7 07:07:19 user kernel: [61363.779747] Aborting journal on device md127-8.
Mar  7 07:07:19 user kernel: [61363.801691] EXT4-fs (md127): Remounting filesystem read-only
LINUX means: Linux Is Not a UniX
Вернулся на Devuan. Счастлив!

dzhoser

Диски какие? Была такая проблема на WD с черепичной записью, он просто не успевал записывать данные и рейд разваливался.
https://xakep.ru/2020/04/29/hdd-smr/
Ubuntu->Linux mint->Astra Linux SE->Debian 12
Для новичков

PbI6A

Диски Seagate, емнип. Никогда такого не было. И вообще проблем не было до тех пор, пока контакт питания не прослаб. Там обычный блок питания с 4 sata и 2 molex, к одному из которых подключен раздвоитель на 2 дополнительных sata, всего винтов 6. Завис как-то сервер. Принёс его, включил, он винтами клацает. Думал, хана винтам, оказалось, плохо контачил переходник с молекса на раздвоитель sata. Поменял его - стало всё нормально. Очень долго и мучительно чекал, всё находил разные проблемы, накидывал горы мусора в lost+found, когда прочекался и перестал валить мусор, запустил ресинхронизацию с основного сервера. Она прошла успешно, но через сутки - ro. Отключил, прочекал, пара чего-то снова в lost+found, вроде, норм, включил в постоянную ресинхронизацию, но сегодня снова ro :( Сегодня перегрузил его, он загрузился "нормально", но вот в логе читаю - и снова:
Mar  7 08:33:30 user kernel: [   15.512979] EXT4-fs (md127): Mount option "noacl" will be removed by 3.5
Mar  7 08:33:46 user kernel: [   31.993340] EXT4-fs warning (device md127): ext4_clear_journal_err:5112: Filesystem error recorded from previous mount: IO failure
Mar  7 08:33:46 user kernel: [   31.993343] EXT4-fs warning (device md127): ext4_clear_journal_err:5113: Marking fs in need of filesystem check.
Mar  7 08:33:46 user kernel: [   32.040665] EXT4-fs (md127): warning: mounting fs with errors, running e2fsck is recommended
Mar  7 08:33:46 user kernel: [   32.106665] EXT4-fs (md127): recovery complete
Mar  7 08:33:46 user kernel: [   32.126244] EXT4-fs (md127): mounted filesystem with ordered data mode. Opts: noacl,errors=remount-ro
Mar  7 08:38:47 user kernel: [  333.151963] EXT4-fs (md127): error count since last fsck: 9
Mar  7 08:38:47 user kernel: [  333.151977] EXT4-fs (md127): initial error at time 1678147639: htree_dirblock_to_tree:1027: inode 114556944
Mar  7 08:38:47 user kernel: [  333.151981] EXT4-fs (md127): last error at time 1678152590: ext4_remount:5357: inode 114556945
Особенно не радует "error count since last fsck: 9". Это получается после корректного размонтирования и перезагрузки ошибки в ФС продолжаются :( Как ни печально, но, наверно, придётся форматировать всё и всё заново заливать.
LINUX means: Linux Is Not a UniX
Вернулся на Devuan. Счастлив!

yoric

Цитата: PbI6A от 07 марта 2023, 10:07:04Особенно не радует "error count since last fsck: 9". Это получается после корректного размонтирования и перезагрузки ошибки в ФС продолжаются
Логически (по структуре ФС) вроде не может такого быть, значит, это физика, диски сыпятся?

dzhoser

Raid железный или программный? На ошибки проверяли ФС?
Ubuntu->Linux mint->Astra Linux SE->Debian 12
Для новичков

PbI6A

#5
Raid софтовый, сделан с mdadm. Мне так кажется, что он должен бы развалиться прежде, чем эти бэды на что-то повлияют. А насчёт винтов - какие-то проблемы есть:

Mar  8 08:38:30 user smartd[687]: Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 25 to 24
Mar  8 08:38:30 user smartd[687]: Device: /dev/sdb [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 18 to 17
Mar  8 08:38:30 user smartd[687]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 83 to 78
Mar  8 08:38:30 user smartd[687]: Device: /dev/sdc [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 54 to 53
Mar  8 08:38:30 user smartd[687]: Device: /dev/sdc [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 46 to 47
Mar  8 08:38:30 user smartd[687]: Device: /dev/sdc [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 65 to 64
Mar  8 08:38:30 user smartd[687]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 78 to 81
Mar  8 08:38:31 user smartd[687]: Device: /dev/sde [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 81 to 67
Mar  8 08:38:31 user smartd[687]: Device: /dev/sde [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 63 to 64
Mar  8 08:38:31 user smartd[687]: Device: /dev/sdf [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 83 to 76
Mar  8 08:38:31 user smartd[687]: Device: /dev/sdf [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 61 to 63

Но они новые, у них даже 1000 часов наработки не будет :( Может, блоку питания хана?

08 марта 2023, 04:54:35
Цитата: dzhoser от 07 марта 2023, 17:21:17На ошибки проверяли ФС?
Проверял много раз, по итогу, проблемы все были вычищены.
LINUX means: Linux Is Not a UniX
Вернулся на Devuan. Счастлив!

yoric

Цитата: PbI6A от 08 марта 2023, 04:52:24Может, блоку питания хана?
А может и матери. Попробовать на чистом железе.

dzhoser

Ubuntu->Linux mint->Astra Linux SE->Debian 12
Для новичков

PbI6A

Ну вот, опять:
Mar  8 10:36:19 user kernel: [73681.404586] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #114556944: comm find: Directory block failed checksum
Mar  8 10:36:19 user kernel: [73681.538032] Aborting journal on device md127-8.
Mar  8 10:36:19 user kernel: [73681.593303] EXT4-fs (md127): Remounting filesystem read-only
Mar  8 10:36:19 user kernel: [73681.593562] EXT4-fs error (device md127): ext4_journal_check_start:61: Detected aborted journal
Mar  8 10:36:22 user kernel: [73685.095150] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #118827869: comm find: Directory block failed checksum
Mar  8 10:36:26 user kernel: [73688.669317] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #118827868: comm find: Directory block failed checksum
Mar  8 10:36:26 user kernel: [73688.832364] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #114556943: comm find: Directory block failed checksum
Mar  8 10:36:30 user kernel: [73692.809920] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #118827867: comm find: Directory block failed checksum
Mar  8 10:36:30 user kernel: [73692.906511] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #114556942: comm find: Directory block failed checksum
Mar  8 10:36:51 user kernel: [73713.363521] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #118827871: comm find: Directory block failed checksum
Mar  8 10:36:52 user kernel: [73714.393085] EXT4-fs error (device md127): htree_dirblock_to_tree:1027: inode #114556945: comm find: Directory block failed checksum

Ладно, буду перебирать железо. Попробую те же винты на всём остальном другом для начала...
LINUX means: Linux Is Not a UniX
Вернулся на Devuan. Счастлив!

PbI6A

#9
Вчера весь день тестировались винчестеры с помощью Victoria. Ничего особо плохого не нашлось. Время наработки у всех примерно 2200 часов. У одного есть некритичные ремапы. Повентилирую вопрос его замены и замены блока питания. Блок питания дадут почти наверняка, а винт - не факт.

10 марта 2023, 10:43:11
Всё, форматнул фс. Сначала перезагрузил, посмотрел, снова появились ошибки, потом перегрузил, чтобы службы отпустили фс и форматнул. Пока ошибок нет:
Mar 10 10:34:02 user kernel: [   17.369435] EXT4-fs (md127): Mount option "noacl" will be removed by 3.5
Mar 10 10:34:02 user kernel: [   17.482430] EXT4-fs (md127): warning: mounting fs with errors, running e2fsck is recommended
Mar 10 10:34:02 user kernel: [   17.609119] EXT4-fs (md127): mounted filesystem with ordered data mode. Opts: noacl,errors=remount-ro
Mar 10 10:43:55 user kernel: [  610.981127] EXT4-fs (md127): Mount option "noacl" will be removed by 3.5
Mar 10 10:43:55 user kernel: [  611.080570] EXT4-fs (md127): warning: mounting fs with errors, running e2fsck is recommended
Mar 10 10:43:55 user kernel: [  611.179578] EXT4-fs (md127): mounted filesystem with ordered data mode. Opts: noacl,errors=remount-ro
Mar 10 10:49:07 user kernel: [  922.546679] EXT4-fs (md127): error count since last fsck: 14
Mar 10 10:49:07 user kernel: [  922.546696] EXT4-fs (md127): initial error at time 1678246579: htree_dirblock_to_tree:1027: inode 114556944
Mar 10 10:49:07 user kernel: [  922.546700] EXT4-fs (md127): last error at time 1678313202: htree_dirblock_to_tree:1027: inode 114556945
Mar 10 10:50:25 user kernel: [    5.731997] md/raid10:md127: active with 4 out of 4 devices
Mar 10 10:50:25 user kernel: [    5.750505] md127: detected capacity change from 0 to 7937297743872
Mar 10 11:16:46 user kernel: [ 1591.281612] EXT4-fs (md127): Mount option "noacl" will be removed by 3.5
Mar 10 11:16:46 user kernel: [ 1591.506760] EXT4-fs (md127): mounted filesystem with ordered data mode. Opts: noacl,errors=remount-ro


10 марта 2023, 10:45:32
Надо как-то сказать самбе чтобы не пыталась сохранять acl-ы в файловую систему. А то есть у нас некоторые пользователи, которые умудрялись раздать такие права, что у root-а доступа не было :)
LINUX means: Linux Is Not a UniX
Вернулся на Devuan. Счастлив!

PbI6A

Сегодня проверил, в syslog-е никаких ошибок на файловую систему, последние события - после перегрузки сервера предупреждение насчёт noacl и всё. По поводу самих винтов в журнале, в основном, события по смене температуры +-2-3 градуса. Проблема, как я понял, была в ахинее, которую винты записали в произвольные участки файловой системы при пропадении контактов в разъёме питания. Сейчас установлен другой 600Вт блок питания без переходников и пропадания контактов в питании не ожидаются.
LINUX means: Linux Is Not a UniX
Вернулся на Devuan. Счастлив!

Aalexeey

Цитата: PbI6A от 13 марта 2023, 05:37:02пропадания контактов в питании не ожидаются
Хорошие люди советуют вешать поближе к входу питания в диски емкие кондёры. У меня это 6800мФ 25В, их ножки красиво втыкаются в разъём для флоппи. Там на картинке можно разглядеть, в центре внизу висят.
https://debianforum.ru/index.php?topic=6879 100% защиты от "Ааааа у меня всё поломалось"

PbI6A

Дополнительная фильтрация - это хорошо, но если в самом блоке питания кондёры живы, то и на выходе напруга хорошая.
LINUX means: Linux Is Not a UniX
Вернулся на Devuan. Счастлив!

dzhoser

Ну прогонка горячего воздуха от процессора, через БП такое себе инженерное решение. А что за красный сверток внизу?
Ubuntu->Linux mint->Astra Linux SE->Debian 12
Для новичков

Aalexeey

#14
Цитата: dzhoser от 16 марта 2023, 03:22:52Ну прогонка горячего воздуха от процессора, через БП такое себе инженерное решение. А что за красный сверток внизу?
Не горячего, не вводите людей в заблуждение, такое расположение бп проверено десятилетиями, одни преимущества, и болтовня о недостатках. https://forum.ixbt.com/topic.cgi?id=49:12090
Красный свёрток - вибро гаситель в нужном месте, этот комп супертихий, а бп noname OKTet больше 10-15ти лет (уже и не помню), c хорошим вентилятором уменьшенным на минимум. Над бп в зазоре стоит термопара "градусника" на переднюю панель с питанием 1.5В (берётся между 5 и 3.3, с 1кОм). Температура там 30'C круглый год.
https://debianforum.ru/index.php?topic=6879 100% защиты от "Ааааа у меня всё поломалось"