Начал сам отключаться сервер.

Автор Juriy, 24 марта 2016, 22:20:48

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

Juriy

С месяца 2 назад (а может и раньше, в BIOS стоит функция старта при отключении) начал сам отключаться сервер. Иногда пару раз в месяц, а было и раз 5 в сутки.
uname -a
Linux mynas 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u4 x86_64 GNU/Linux
[свернуть]
Вот эти ошибки выдал при старте после сегодняшнего отключения.
/var/log/syslog
root@mynas:~# cat /var/log/syslog | egrep -i "(error|fail|warning)"
Mar 24 08:18:19 mynas cron-apt: W: GPG error: http://packages.omv-extras.org kralizec Release: The following signatures were invalid: BADSIG AAA3036B30B2308A Aaron Murray <aaron27@ryecoinc.com>
Mar 24 21:05:12 mynas kernel: [    0.548668]  pci0000:00: ACPI _OSC request failed (AE_ERROR), returned control mask: 0x1d
Mar 24 21:05:12 mynas kernel: [    1.379720] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Mar 24 21:05:12 mynas kernel: [    1.379725] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT4._GTF] (Node ffff880119699a88), AE_NOT_FOUND (20110623/psparse-536)
Mar 24 21:05:12 mynas kernel: [    1.379987] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Mar 24 21:05:12 mynas kernel: [    1.379992] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT0._GTF] (Node ffff880119685c68), AE_NOT_FOUND (20110623/psparse-536)
Mar 24 21:05:12 mynas kernel: [    1.380401] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Mar 24 21:05:12 mynas kernel: [    1.380406] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT3._GTF] (Node ffff880119685b00), AE_NOT_FOUND (20110623/psparse-536)
Mar 24 21:05:12 mynas kernel: [    1.380438] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Mar 24 21:05:12 mynas kernel: [    1.380443] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT4._GTF] (Node ffff880119699a88), AE_NOT_FOUND (20110623/psparse-536)
Mar 24 21:05:12 mynas kernel: [    1.381202] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Mar 24 21:05:12 mynas kernel: [    1.381210] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT0._GTF] (Node ffff880119685c68), AE_NOT_FOUND (20110623/psparse-536)
Mar 24 21:05:12 mynas kernel: [    1.381843] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Mar 24 21:05:12 mynas kernel: [    1.381846] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT3._GTF] (Node ffff880119685b00), AE_NOT_FOUND (20110623/psparse-536)
Mar 24 21:05:12 mynas kernel: [    1.382931] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Mar 24 21:05:12 mynas kernel: [    1.382937] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT2._GTF] (Node ffff880119685b78), AE_NOT_FOUND (20110623/psparse-536)
Mar 24 21:05:12 mynas kernel: [    1.387491] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Mar 24 21:05:12 mynas kernel: [    1.387497] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT2._GTF] (Node ffff880119685b78), AE_NOT_FOUND (20110623/psparse-536)
Mar 24 21:05:12 mynas kernel: [    6.206028] Error: Driver 'pcspkr' is already registered, aborting...
Mar 24 21:05:12 mynas kernel: [    6.451160] [drm] MTRR allocation failed.  Graphics performance may suffer.
Mar 24 21:05:12 mynas kernel: [    7.593673] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro
Mar 24 21:05:13 mynas rrdcached[2399]: Replayed 22250 entries (0 failures)
Mar 24 21:05:13 mynas rrdcached[2399]: Replayed 13319 entries (1 failures)
Mar 24 21:05:15 mynas collectd[2660]: rrdcached plugin: rrdc_stats_get failed with status 107.
Mar 24 21:05:15 mynas collectd[2660]: read-function of plugin `rrdcached' failed. Will suspend it for 20 seconds.
[свернуть]
Если требуется больше информации предоставлю, просто не знаю, что ещё показать.

ihammers

Когда отключается сервер какая температура процессора? Может перегрев? Насчёт ошибки, то на просторах инета советуют обновить BIOS.
Debian GNU/Linux Stretch, kernel 4.9.0-5-amd64,
LXQt/KDE/OpenBox AMD Phenon X4 / 16Gb RAM / ATI HD7750 Silent
_______________________________
Debian GNU/Linux Stretch, kernel 4.9.0-5-amd64, LXQt/KDE/OpenBox
Acer Aspire One 722 AMD C60 / 4Gb RAM / ATI HD6290

Juriy

Цитата: ihammers от 25 марта 2016, 03:25:01Когда отключается сервер какая температура процессора? Может перегрев?
Сервер домашний используется в основном как NAS и нагрузка не большая (хоть с полгода и делал upgrade матери с камнем на большую мощность). Перегрев не замечал и даже не думал на него. В syslog о температуре ни слова, есть smartd в логах ещё но он пустой. Если в логах температура ни где не пишется может есть программа которая перед отключением писала бы её. Или проще скрипт в крон добавить с периодичностью в минуту или пять, что бы отследить сей факт?
Во вложении syslog за вчерашние сутки, старт произошел в 21:05.

[вложение удалено администратором]

Juriy

Цитата: ihammers от 25 марта 2016, 03:25:01Когда отключается сервер какая температура процессора? Может перегрев?
В общем не перегрев, мистика какая то вчера до отключения отследить не успел, а потом скрипт мониторинга в крон добавил что бы каждую минуту лог велся.
ЦитироватьРаботает: 16:54
GPU Temperature: +27.8°C
CPU Temperature: +32.0°C
MB Temperature: +33.0°C
CPU FAN Speed: 2547 RPM
Hitachi HDS721010CLA330: 43°C
WDC WD20EARX-00PASB0: 46°C
TOSHIBA DT01ACA300: 45°C
WDC WD30EFRX-68EUZN0: 41°C
Судя по логу за 15 часов работы температура не поднималась выше CPU Temperature: +35.0°C и MB Temperature: +34.0°C. Выходит дело не в перегреве. Куда дальше копать не знаю.

alsoijw

Мало видеть нам начало - надо видеть и конец. Если видишь ты создание - значит где-то есть ТВОРЕЦ
Многие жалуются: геометрия в жизни не пригодилась. Ямб от хорея им приходится отличать ежедневно?

Juriy

#5
Цитата: alsoijw от 26 марта 2016, 18:12:40Память цела?
Тест прогоню, но симптомов замечено не было. Да ей и года нету.

Может вопрос глупый, а тест принципиально делать на том же оборудовании? Или можно планки подменить, что бы не простаивал?

yoric

Лучше на том же, цепи-мост-тайминги чтобы те же. А сдохнуть может вмиг, не то что за год ;D

Juriy

Цитата: yoric от 26 марта 2016, 20:24:40Лучше на том же, цепи-мост-тайминги чтобы те же. А сдохнуть может вмиг, не то что за год ;D
Простой в принципе ладно, 6 часов можно и книжку почитать и в инете полазить. Но если планку просто подменить на время проверки, то и без теста можно определить в памяти было дело или нет. (Ну это так моя теория) Так то я согласен с вами, что нужно проводить на том же железе.

vadd

Закономерности какие-нибудь поискать?   Определенные задачи на серваке,  повышенная нагрузка,  сварка по соседству?  Хорошо бы промоделировать всякие внешние влияния, слишком уж непросто ловить эффекты, которые бывают раз в месяц.    Если есть фонд комплектации - заменить планки, вернуть старый проц, заменить бп.

Juriy

Цитата: vadd от 27 марта 2016, 00:04:34Закономерности какие-нибудь поискать?
Искал закономерности, походу от фазы луны зависит. Да и нечему там напрягаться, самая большая нагрузка была от minidlna bdrip 50gb и то температура выше 35 не поднималась. Он и в простое ложился, раньше раз в месяц было, так бы забил, но теперь почти раз-два в сутки падает. Сейчас вынул amd на 4gb планку, подсунул 2-е по 2gb. Буду дальше мониторить.
Есть у меня подозрения на БП 550 ватт, может не справляется когда сразу на все 4 диска запись идёт (но раньше же всё нормально было).

Juriy

С 2-мя планкаими:
uptime
16:53:00 up 2 days, 19:41,  1 user,  load average: 0,16, 0,22, 0,19

Планку на 4gb memtest86+ мучил 14 часов ошибок не обнаружил, поставил её в основной рабочий комп-ер за 2-суток странностей не заметил. Что это было, аллергия на AMDешную память? А если падения продолжаться, то вообще не понятно, где причину искать?

vadd

Была у меня амдшная планка на 4 гига.   Мемтест в ней сутками ни одной ошибки не находил, а системы ложились максимум за три минуты.

Juriy

Цитата: vadd от 29 марта 2016, 22:37:10Мемтест в ней сутками ни одной ошибки не находил, а системы ложились максимум за три минуты.
Странно как то, на этом сервере менял мать пол года назад (подвернулся апгрейд перевести его на Core(TM) i5-3330) пару месяцев работало нормально, а потом пошло как по нарастающей сначала раз в месяц, потом раз в неделю и в итоге несколько раз в сутки. Но сейчас эта планка стоит в другом комп-ре и нормально работает. А на сервер я специально ставил 1 планку, так как там на матери всего 2 слота (а вот попробовать в другой слот поставить, что то я упустил момент :-\ :-[). Сомневаюсь, что всё это фазы луны, стечения обстоятельств или происки INTEL. ;D

Juriy

Испробовал разные планки и слоты. Максимум 3-е суток живёт потом shutdown. В мыслях попробовать другой б/п, но на руках только 500ватт, вытянет он Core(TM) i5-3330 и 4 диска? Или даже пробовать не стоит.

vadd

меняйте конечно.  нормального 500 ватт бп хватает на любую конфигурацию если нет распонтованной видеокарты в тяжелом режиме.
проц попробуйте тоже заменить на время