и управления ИТ-ландшафтом предприятия
SLA, SLO и SLI: что такое и в чем разница
В статье рассмотрим, как настроить метрики для управления сервисами и как это связано с мониторингом
Что такое SLA, SLO и SLI
Мониторинг инфраструктуры и сервисное обслуживание взаимосвязаны: от ИТ зависит доступность и качество услуг. Для поддержки этих процессов можно настроить различные метрики, которые помогут соблюдать условия предоставления услуг, назначать приоритеты инцидентам и вовремя выявлять отклонения в работе
Service Level Agreement, или SLA — это документ, в котором зафиксированы договоренности организации предоставлять пользователям услуги на определенном уровне. Например, в соглашении может быть указано, что поставщик ПО обязуется отвечать на обращения в течение 10 минут после регистрации запроса и обеспечивать доступность корпоративного приложения 98% времени в месяц.
Service Level Objectives, или SLO — это целевые значения метрик, которые используются для внутреннего контроля работоспособности сервисов и услуг. Так, если в соответствии с условиями соглашения корпоративное приложение должно быть доступно 98% времени, то целевой показатель для внутреннего контроля должен быть выше — например, 98,5%.
Service Level Indicator, или SLI — это набор ключевых метрик для оценки качества сервиса. Обычно в набор включаются показатели, от которых зависит уровень удовлетворенности пользователей — время ожидания реакции на запрос, скорость решения запроса, количество обращений, решенных с первого раза. SLI показывает реальное значение метрик. Например, в определенном месяце корпоративное приложение было доступно для пользователей 99% времени. Это хороший показатель, так как SLI оказался выше целевого значения (98,5%), также были соблюдены условия SLA.
В чем разница между этими показателями
Метрики рассматриваются в разных плоскостях, благодаря чему появляется возможность настроить эффективный процесс управления качеством услуг и мониторинг
SLA | SLO | SLI | |
---|---|---|---|
Чем является | договоренность — внешнее соглашение с клиентами или внутри компании | цель — внутренние соглашение для сотрудников | результат — набор метрик и показателей |
Что показывает | уровень обслуживания | надежность сервиса | качество сервиса |
Что фиксирует | условия обслуживания | целевые значения метрик | реальные значения метрик |
Когда используется | для платных услуг клиентам или сервисов внутри компании | при организации процессов предоставления услуг | при оценке уровня сервиса и качества обслуживания |
Как помогают управлять качеством услуг
Определение условий обслуживания и пороговых значений метрик — нетривиальная задача. Необходимо учитывать множество аспектов, чтобы результат оказался реалистичным. Нередко условия обслуживания формулируется без учета специфики работы
Представим, в соглашении указано, что поставщик услуг обязуется решить инцидент за 48 часов. Сотрудник
Значения SLA и SLO всегда должны быть разными. Если в соответствии с соглашением значение
Отклонения от SLO — это сбои и неполадки, которые могут вызвать недовольство клиентов, даже если соблюдается SLA. Чтобы избежать этого, можно рассчитать показатель error budget, или право на ошибку — количество допустимых отклонений за определенный период. Например, если SLO определяет минимальное время работоспособности услуги, то error budget — допустимый период недоступности.
Для критичных услуг устанавливается минимальный error budget, чтобы клиентский опыт не ухудшился. Для менее востребованных услуг допустимое количество отклонений может быть выше.
Примеры использования SLA, SLO и SLI в работе
Метрики позволяют компании контролировать не только уровень сервиса. Также с их помощью можно определить, как должны работать компоненты ИТ, которые участвуют в предоставлении услуг.
Как это сделать? Допустим, поставщик предоставляет корпоративному клиенту высокий уровень обслуживания. Чтобы минимизировать риски нарушения соглашения, можно установить критичные приоритеты для инцидентов, которые затрагивают работу этого клиента. А также определить такие пороговые значения метрик для серверов клиента, чтобы фиксировались даже незначительные отклонения в работе оборудования.
Показатели позволяют:
- определять правила обработки событий и управлять качеством предоставления услуг;
- настраивать и оптимизировать
бизнес-процессы ; - устанавливать приоритеты и сроки решения запросов и инцидентов;
- назначать ключевые показатели эффективности сотрудников;
- настраивать мониторинг метрик компонентов
ИТ-инфраструктуры .
Рассмотрим на примерах, как это работает.
Пример 1. Поставщик
Проблемы с доступностью могут быть связаны со слишком частыми остановками в работе мобильного приложения по техническим причинам — из-за сбоев в самом ПО или в инфраструктуре, например, сервере, на котором хранятся данные
Также превышение показателя может быть связано с долгим процессом восстановления систем
Пример 2. Разработчик систем класса Service Desk может планировать изменения ПО, отслеживая SLI. Допустим, в этом месяце
Таким образом, с помощью метрик можно контролировать нужный уровень клиентского сервиса и поддержки собственной
Что еще интересного
Рассматриваем, как предиктивные модели помогают сократить число инцидентов и сбоев.
Разбираемся, как технологии ИИ помогают улучшить работу техподдержки и повысить уровень обслуживания клиентов.
Описываем уровни работы с инфраструктурными данными и задачи, которые решаются на каждом из них.