понедельник, 12 октября 2015 г.

HP Proliant. DL380p Gen8. Сам выключается.

Доброе время суток.
Хочу поделится с вами своей проблемой которая в итоге была успешно решена. Может кому нибудь пригодится.

Имеется у меня в серверном парке железка ProLiant DL380p Gen8. HP Smart Array P420i Controller с 8-ю SAS HDD 450 Gb (2 HDD for RAID 1 and 6 HDD for RAID 1+0). Четыре планки памяти по 4096 MB на борту. Один процессор Intel(R) Xeon(R) CPU E5-2640 0 @ 2.50GHz, 6/6 cores; 12 threads. Выполняет данная железяка роль сервера баз данных и сервера 1С. Установлена ОС Microsoft Windows Server 2008 R2 Standard, Microsoft SQL Server 2008R2 Standard Edition (64-bit) 10.50.2550.0 и сервер 1С 8.3. На SQL вертится порядком 22 баз 1С(размер самой большой из них 18163,25 МБ). Всё это хозяйство работало себе спокойно как часы весь гарантийный срок (3 года). Последний месяц гарантии был Август 2015 года. А в Сентябре месяце, когда гарантия как раз закончилась, сервак начал чудить.

Сервер попросту выключался сам по себе беспорядочно и хаотично не давая ни каких логов ни в системе, ни в IML logs, ни в iLO Event Log. Мог выключится за сутки раза три, а мог и не разу.

В системе были вот такие логи:

Имя журнала: System Источник: Microsoft-Windows-Kernel-Power Дата: 21.09.2015 14:33:18 Код события: 41 Категория задачи 63) Уровень: Критический Ключевые слова 2) Пользователь: система Компьютер: its-sql.its.lan Описание: Система перезагрузилась, не завершив полностью работу. Эта ошибка может быть результатом того, что система перестала отвечать, произошел критический сбой, или неожиданно отключилось питание. Xml события: 41 2 1 63 0 0x8000000000000002 100436 System its-sql.its.lan 0 0x0 0x0 0x0 0x0 false 0
Ну и соответсвующие этой ошибке дальнейшие крэши прочих служб.

В IML логе iLO4 на момент перезагрузки сервака есть критическая ошибка класса ASR (ASR Detected by System ROM) и больше ничего:
"764"," Critical","ASR","09/21/2015 14:31","09/21/2015 14:31","1","ASR Detected by System ROM",
ASR выключал - сервер тупо зависал с чёрным экраном, в логах ошибок еще меньше чем было.

В iLO Event Log:
"2524"," Caution","iLO 4","09/21/2015 14:30","09/21/2015 14:30","1","Server reset.",
До одурения гуглил. После чего пробовал менять кабели питания, подпихивал другие УПСы, подключал блоки питания сервера на прямую в розетку, обновлял фримвэре всего, что только мог скачать с Drivers for proliant DL380p Gen8, но сервер продолжал жить своей жизнью.

Отчаявшись я решил звонить в тех.поддержку HP.
Там проверили, что моя гарантия закончилась и предложили платную услугу. Составили заявку. Через некоторое время позвонил специалист HP, я ему рассказал в чём проблема и что я сделал для её решения. Специалист попросил выслать логи и предварительно вынес вердикт - "скорее всего замена материнской платы".
После изучения моих логов специалист HP позвонил и сказал, что для полной уверенности в замене материнской платы надо переустановить ОС. Хоть на мой взгляд эта процедура была излишней я покорно приступил к переносу SQL и баз.
Но на пол пути моих действий специалист HP вновь связался со мной и отложил переустановку ОС, заменив её на настройку параметров процессора в биосе. Настройки были таковы:
Выставите следующие настройки в биосе:
(1) Power Management Options - HP Power Profile - Maximum Performance
(2) Power Management Options - HP Power Regulator - HP Static High Performance Mode
(3) Power Management Options - Advanced Power Management Options - Collaborative Power Control - Disabled
(4) Power Management Options - Advanced Power Management Options - Minimum Processor Idle Power Core State - No C-States
(5) Power Management Options - Advanced Power Management Options - Minimum Processor Idle Power Package State - No Package State
После этих настроек сервер отлично работает уже почти два месяца и не выключается. ОС переустанавливать не стал. За помощь HP не взяла ни копейки.