Сбой дебиан

Автор airatos, 11 марта 2018, 10:39:32

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

airatos

Всем привет!

Есть сервер на Debian 9 (kernel: 4.14).

Уже второй раз зависает. Первый раз было на прошлой неделе. Сервер полностью уходит в оффлайн. Ни ssh, ни ftp, ни сайты - недоступны. Даже подключали квм в дата-центре и он не мог подключиться. Помогает только перезагрузка.

В логах пусто. Никаких ошибок. Просто обычные записи в логах, которые идут ежедневно и ежечасно. И резко прерываются, дальше логи перезагрузки сервера. Что в kern.log, что в syslog, messages, debug - везде нет ничего странного.

Может кто-нибудь сталкивался с такой проблемой? У кого есть предложения куда глядеть? Может я не там смотрю.

vadd


ek-nfn

у меня висло по причине сильного проседания питания процессора (работа механизма vdroop). Так как в биосе моей платы нет его отключения, то пришлось поднять напряжение Vcore.
Debian 11 xfce

airatos

Проверили стресстестем и обнаружили превышение температуры CPU. Может сервер виснут так из-за температуры CPU? Обычно же при превышении порога срабатывает защита и сервер должен перезагрузиться, а тут наглухо виснет.

ek-nfn

Цитата: airatos от 11 марта 2018, 13:14:07Проверили стресстестем и обнаружили превышение температуры CPU
Насколько реальные условия работы соответствуют нагрузке стресстеста? Стресстест для того и предназначен, чтобы загнать систему (процессор) в максимально тяжелые условия работы, которые могут в реальной работе и не проявляться. И стресстест может не проявлять проблемы с питанием процессора (мой случай), так как не гоняет в режиме импульсной нагрузки.
Можно почитать и смарт данные HDD, возможно там проблема.
Debian 11 xfce

airatos

Цитата: ek-nfn от 11 марта 2018, 13:55:44
Насколько реальные условия работы соответствуют нагрузке стресстеста? Стресстест для того и предназначен, чтобы загнать систему (процессор) в максимально тяжелые условия работы, которые могут в реальной работе и не проявляться. И стресстест может не проявлять проблемы с питанием процессора (мой случай), так как не гоняет в режиме импульсной нагрузки.
Можно почитать и смарт данные HDD, возможно там проблема.
Если бы проблема была в питании процессора, она бы проявлялась сразу и чаще. У меня этот сервер больше года. До этого такого не было. В феврале этого года установили доп. оборудование сетевую карту intel i350 и переустановили всю стстему. Было дебиан 8, стало дебиан 9. Ошибок и проблем с сетевой не обнаружили. Попробуем решить проблему с температурой, если не поможет, то думать дальше.

ek-nfn

Цитата: airatos от 11 марта 2018, 15:05:10Если бы проблема была в питании процессора, она бы проявлялась сразу и чаще.
У меня стало проявляться спустя год и не регулярно. Примерно раз в неделю на пиковой короткой нагрузке, например - загрузка браузером "тяжелой" страницы. При этом стресс тесты как процессора, так и дисков проходили нормально.
Debian 11 xfce

airatos

Цитата: ek-nfn от 11 марта 2018, 15:19:25
У меня стало проявляться спустя год и не регулярно. Примерно раз в неделю на пиковой короткой нагрузке, например - загрузка браузером "тяжелой" страницы. При этом стресс тесты как процессора, так и дисков проходили нормально.
У тебя какой процессор? Сколько до этого было vcore?

ek-nfn

xeon 5440, работал нормально на 1,17. Сейчас постепенно поднял до 1,25.
Не в процессоре дело, а в качестве работы механизма vdroop. У меня он в bios  не отключается. надо с паяльником лезть в схему. Отключать на 100% его тоже нельзя, может сгореть проц.
Ты просто понаблюдай за поведением vcore. При нормально работающем vdroop не должно быть больших просадок под нагрузкой. Датчик vcore  выведи в панель и посматривай на него временами. Ну, или в терминале запустить задачу записи в лог нужного напряжения.
Debian 11 xfce

airatos

Цитата: ek-nfn от 11 марта 2018, 15:49:03
xeon 5440, работал нормально на 1,17. Сейчас постепенно поднял до 1,25.
Не в процессоре дело, а в качестве работы механизма vdroop. У меня он в bios  не отключается. надо с паяльником лезть в схему. Отключать на 100% его тоже нельзя, может сгореть проц.
Ты просто понаблюдай за поведением vcore. При нормально работающем vdroop не должно быть больших просадок под нагрузкой. Датчик vcore  выведи в панель и посматривай на него временами. Ну, или в терминале запустить задачу записи в лог нужного напряжения.
У меня i7-7700k и vcore можно посмотреть с помощью утилиты i7z. Сейчас в среднем 1.23.

ek-nfn

надо смотреть не среднее, нужно смотреть величину просадки. Например, в биосе у меня было выставлено 1,17. Под нагрузкой падало до 1,10. Это очень много, нормально было бы до 1,15. Надо лезть в плату в шим-контроллер питания процессора, но лень. Просто поднял напругу, чтобы не проседало ниже 1,17 В и все. Температура проца в стресс-тестах не выходит за границы допустимого. Так и оставил, глюк ушел.
Debian 11 xfce

airatos

Посмотрел во время стресстеста и ниже 1.22 не падало. Температура держалась на уровне 96-99

ek-nfn

Ну нормально, только температура какая-то дикая..  У моего по документации критической считается  67 °C при мощности 80 Вт. На стресс тестах даже на разогнанном не лезет выше 70-72 град
Debian 11 xfce

airatos

Пока займемся температурой. Я уже уверен в том, что проблема не в дебиан. Так как какой бы сбой в дебиан не был, квм должен подключиться. А тут завис наглухо.

vadd

Начните с ревизии системы охлаждения, включая замену пасты