Новая система мониторинга серверов HOSTLIFE

29.10.2011

Здравствуйте.

Как Вы знаете, основной нашей задачей является предоставление качественных услуг хостинга. Качество хостинг-услуг определяется тремя основными критериями:

– круглосуточная и квалифицированная поддержка клиентов;
– стабильность основных интернет-каналов;
– стабильность работы серверного оборудования;

Центр поддержки клиентов HOSTLIFE работает в режиме  24\7, мы сотрудничаем  с крупнейшими в регионе магистральными провайдерами, поэтому по первым двум пунктам вопросов не возникает, и рассказывать особо нечего – все уже изложено на нашем сайте, и подтверждено  нашими клиентами на многочисленных страницах отзывов о хостинг-провайдерах в сети.  В данной статье мы бы хотели рассказать о том, как мы отслеживаем состояние нашего серверного оборудования.

Как было раньше

Известный факт, лучшее лечение — это профилактика. Большинство системных администраторов, по крайней мере те, кому не безразлична стабильность работы серверов, предпочитают иметь полную информацию о том, что же происходит на серверах  и какие проблемы возникают. Конечно же, можно периодически подключаться к серверам по SSH, RDP, VNC, etc, и проверять работу серверов, но, это весьма затратно по времени, и не совсем оправдано, ведь для подобных задач существует множество специализированных скриптов и даже комплексных систем мониторинга. В самом начале пути нашей компании мы использовали на серверах скрипты собственной разработки, которые автоматически отслеживали нагрузку на сервере, проверяли состояние основных сервисов, и при возникновении проблем, отправляли на e-mail нашим администраторам соответствующие уведомления. Такая схема имеет как свои плюсы, так и серьезные недостатки. Основным преимуществом этого  подхода являлось то, что при выполнении подобных скриптов практически не использовались ресурсы сервера. В то же время, если на сервере резко возрастала нагрузка, и скрипт при этом не успевал уведомить администраторов о проблеме, письмо с уведомлением оставалось в очереди сервера и отправлялось только тогда, когда нагрузка на сервер уменьшалась и имелось достаточно ресурсов для отправки данного уведомления — т.е. являлось уже бесполезным. К тому же, не сохранялась история и статистика, которая бы позволяла более детально разобраться в причинах возникающих проблем.

Разумеется , нужны были резервные способы уведомлений о проблемах на сервере. В качестве такого инструмента был выбран всем известный сервис http://host-tracker.com/, одним из хостинг-партнеров которого мы и являемся до сих пор —  узел  проверки доступности HostTracker  из Донецка  размещен на нашем оборудовании).  Данный сервис, несмотря на свои преимущества, конечно же не может сообщить о нагрузке на сервере или остановке какого-либо сервиса, но, очень оперативно и довольно точно сообщает о недоступности сервера из различных точек мира.

Время идет…

Такая схема работы какое-то время себя оправдывала, серверов было сравнительно не много, и следить за ними было не проблематично. Но, с течением времени, мы развивались, разрастался парк серверов, появлялись новые технические площадки, и в один момент мониторинг начал становиться  проблемой. В связи с постоянным  повышением требований к качеству услуг, требовалось более детально и точно следить за оборудованием, — нужна была новая система мониторинга, которая  должна работать независимо от серверов, которые необходимо было отслеживать, должна отслеживать не только состояние основных сервисов, но и всех жизненно важных ресурсов, должна иметь несколько способов оповещения и хороший API для доработки функционала системы под свои задачи.

Рассмотрев множество всевозможных программных продуктов, мы остановили свой выбор на Zabbix, известной  системе мониторинга с открытым исходным кодом. Данная система мониторинга обладает серьезным функционалом «из коробки», удовлетворяющим практически всем нашим требованиям. К тому же, есть возможность отслеживать любые данные, передаваемые дополнительными скриптами, обрабатывать эти данные и анализировать. Среди основных возможностей данной системы, используемых нами, можно выделить:

— мониторинг производительности и доступности серверов различных платформ, ИБП, свитчей и многих других устройств;
— распределенная система, возможность создания нескольких независимых точек мониторинга (масштабируемость);
— визуализация отчетов, построение графиков, карт, диаграмм;
— различные способы уведомлений (e-mail, jabber, sms);
— выполнение удаленных команд (автоматический перезапуск сервисов при падениях);
— автообнаружение узлов сети;
— WEB-мониторинг узла сети (нечто схожее с http://host-tracker.com/);
— эскалация уведомлений;
— поддержка SNMP 1-3, IPMI, SSH, TELNET;

Как это работает?

Если говорить общедоступным языком  данная система имеет архитектуру Сервер — Клиент. Это означает, что сервер с указанной периодичностью (в нашем случае ежеминутно) опрашивает все подключенные узлы сети (клиенты) и обрабатывает эти данные.

Кроме этого, есть возможность настроить работу системы мониторинга с использованием фермы прокси серверов. В этом случае, сбором данных с клиентов занимаются прокси-серверы, после чего передают собранную информацию серверу для последующей обработки, разгружая сам сервер. К тому же, есть возможность настроить систему таким образом, чтобы не сервер опрашивал узлы сети, а сами узлы передавали информацию на сервер, не дожидаясь запроса от сервера, — возможности масштабирования поистине безграничны!

Что же нам дает подобная организация процесса мониторинга? Во-первых, мы получаем практически полную независимость мониторинга от общего состояния наблюдаемого сервера.  Даже если отдельный узел сети наблюдаемых серверов будет недоступен, мы  получим уведомление об этом без использования сторонних сервисов. Во-вторых, мы получаем распределенную систему мониторинга, возможность отслеживать доступность узлов сети из разных точек мира, что дает более точную и полную информацию о доступности узла. В-третьих, мы имеем сразу несколько способов оповещения, вплоть до SMS-уведомлений, что гарантирует доставку критически  важной информации техническим специалистам, которые смогут вовремя устранить возникшую проблему. В-четвертых, мы получаем очень мощный инструмент, который позволяет отслеживать практически все, что происходит на сервере, структурировать, хранить  и анализировать эти данные.

Таким образом, все наше оборудование в различных точках мира, используемое для предоставления хостинг-услуг и собственных нужд,  находится под полным контролем и имеет централизованную, независимую систему мониторинга. Но, даже на этом этапе мы не собираемся останавливаться, постоянно улучшаем свою инфраструктуру и делаем все возможное и невозможное, чтобы обеспечить стабильность работы своих серверов и серверов наших клиентов.

Если Вы арендуете или планируете арендовать у нас выделенный физический или виртуальный сервер  — однозначно рекомендуем воспользоваться нашими услугами администрирования, которое теперь включает в себя и Zabbix-мониторинг. Доверив нам наблюдение за Вашими серверами, Вы действительно сможете спать спокойно, зная, что мы следим за Вашим сервером, как за своим собственным, а при желании сможете получить детальный отчет о том, что происходило на сервере в любой момент времени. Не это ли и есть настоящая Стабильность?

Опубликовано в Новости | Нет комментариев »

Нет комментариев »

Нет комментариев

Оставить комментарий