ИТ-интегратор Смарт Текнолоджис реализовал проект по созданию и внедрению системы мониторинга вычислительного комплекса для научно-исследовательской организации. Инфраструктура предназначена для хранения и обработки больших массивов данных, а также выполнения высокопроизводительных вычислений (HPC).
В рамках проекта был развернут вычислительный комплекс на базе Ceph-кластера с использованием отечественного оборудования. Для обеспечения прозрачности и управляемости инфраструктуры внедрена система мониторинга и управления СТ.Монитор, разработанная дочерней компанией Смарт Текнолоджис Софт.
Решение обеспечило комплексный контроль за состоянием ключевых компонентов: вычислительных узлов, системы хранения данных, сетевой инфраструктуры и параметров выполнения задач. Организовано централизованное наблюдение за всеми уровнями системы, оперативно выявляющее отклонения в работе вычислительного комплекса заказчика.
В ходе эксплуатации система продемонстрировала свою эффективность. При запуске ресурсоёмкого расчёта СТ. Монитор зафиксировал рост нагрузки на вычислительные узлы и дисковую подсистему, а также увеличение времени отклика хранилища. На основе этих данных было автоматически сформировано критическое событие.
Анализ показал, что перегрузка части вычислительных узлов привела к росту задержек операций чтения и записи в Ceph-кластере и увеличению времени выполнения задач. Централизованный мониторинг вывел всю информацию одновременно всем участникам процесса: инженеры инфраструктуры увидели перегруженные серверы, специалисты по системам хранения — влияние нагрузки на Ceph-кластер, а операторы HPC — снижение эффективности выполнения задач. Это позволило оперативно принять решение: нагрузка была перераспределена между узлами, а часть задач перенаправлена на менее загруженные ресурсы. Как следствие показатели производительности быстро стабилизировались — время выполнения задач сократилось, а параметры системы хранения вернулись в допустимые значения. Руководитель смены в режиме реального времени зафиксировал, что инцидент локализован и не привёл к срыву выполнения вычислительных задач и потере данных.
«Ключевая задача подобных проектов — не просто фиксировать отклонения, а обеспечивать прозрачную связь между событиями в разных слоях инфраструктуры. СТ. Монитор позволяет видеть эту взаимосвязь и принимать решения до того, как инцидент повлияет на выполнение задач», — отметил Василий Халтурин, директор департамента сервисных проектов Смарт Текнолоджис Софт.
В рамках проекта был развернут вычислительный комплекс на базе Ceph-кластера с использованием отечественного оборудования. Для обеспечения прозрачности и управляемости инфраструктуры внедрена система мониторинга и управления СТ.Монитор, разработанная дочерней компанией Смарт Текнолоджис Софт.
Решение обеспечило комплексный контроль за состоянием ключевых компонентов: вычислительных узлов, системы хранения данных, сетевой инфраструктуры и параметров выполнения задач. Организовано централизованное наблюдение за всеми уровнями системы, оперативно выявляющее отклонения в работе вычислительного комплекса заказчика.
В ходе эксплуатации система продемонстрировала свою эффективность. При запуске ресурсоёмкого расчёта СТ. Монитор зафиксировал рост нагрузки на вычислительные узлы и дисковую подсистему, а также увеличение времени отклика хранилища. На основе этих данных было автоматически сформировано критическое событие.
Анализ показал, что перегрузка части вычислительных узлов привела к росту задержек операций чтения и записи в Ceph-кластере и увеличению времени выполнения задач. Централизованный мониторинг вывел всю информацию одновременно всем участникам процесса: инженеры инфраструктуры увидели перегруженные серверы, специалисты по системам хранения — влияние нагрузки на Ceph-кластер, а операторы HPC — снижение эффективности выполнения задач. Это позволило оперативно принять решение: нагрузка была перераспределена между узлами, а часть задач перенаправлена на менее загруженные ресурсы. Как следствие показатели производительности быстро стабилизировались — время выполнения задач сократилось, а параметры системы хранения вернулись в допустимые значения. Руководитель смены в режиме реального времени зафиксировал, что инцидент локализован и не привёл к срыву выполнения вычислительных задач и потере данных.
«Ключевая задача подобных проектов — не просто фиксировать отклонения, а обеспечивать прозрачную связь между событиями в разных слоях инфраструктуры. СТ. Монитор позволяет видеть эту взаимосвязь и принимать решения до того, как инцидент повлияет на выполнение задач», — отметил Василий Халтурин, директор департамента сервисных проектов Смарт Текнолоджис Софт.