В России сложилась интересная ситуация с расследованием инцидентов в сфере информационной безопасности. Большинство инцидентов замалчивается - если, конечно, дело не касается банковских счетов и финансовых транзакций. Администраторы и служба ИБ (если она есть) пытаются предпринять какие-то меры, затем все отчитываются перед руководством и об инциденте забывают. О полноценном расследовании речи, как правило, не идет, потому что либо безопасностью заниматься в компании просто некому, либо есть отдел, который разработал политику безопасности, внедрил современные технические средства, но этим и ограничивается. Ликвидация последствий сводится к смене чувствительной информации, такой как пароли и ключи, переустановке пары-тройки операционных систем (не всегда тех, которые необходимо).

Если следовать букве закона, когда обнаруживается инцидент информационной безопасности, нужно обращаться в государственные органы правопорядка. Но коммерческие структуры редко на это идут: мало того что приходится открыто признаться в собственном косяке, так еще и возникает множество вопросов - лицензионный ли софт, обеспечиваются ли меры, требуемые регуляторами… Потому у плохих ребят складывается ложное ощущение абсолютной безопасности, особенно если эти ребята занимаются взломом ради морального удовлетворения, а не ради коммерческой выгоды. Об одном таком случае я и расскажу в этой статье.

ТТХ

Компания N достаточно прогрессивна в своей сфере, поэтому внутреннее обеспечение службы ИТ на высоте: хорошие средства коммуникации, современное оборудование, приличные зарплаты. В свое время была создана служба безопасности, курирующая вопросы информационной, экономической и физической безопасности. Приглашенный подрядчик помог построить защищенную ИТ-инфраструктуру и ввести режим коммерческой тайны.

IT-инфраструктура представляет собой следующее:

серверы располагаются в демилитаризованной зоне, доступ по сети в ДМЗ ограничивается межсетевыми экранами;
повсеместно введена виртуализация серверов;
присутствует сегментация сети с ограничением доступа между сегментами. Рабочие станции разнесены по VLAN’ам, с фильтрацией трафика между ними, в соответствии с внутренней иерархией;
права доступа пользователям выделяются по принципу минимальных привилегий;
централизовано софт обновляется только для продуктов Microsoft;
ведется централизованный мониторинг серверов, правда, в основном с позиции доступности.

Инцидент

В начале года костяк топ-менеджмента компании N отправился на корпоративный выезд в далекие страны. Поездка предполагала не только развлечения, но и рабочие моменты, однако им не суждено было состояться: материал, который планировали презентовать и обсудить по-современному - с мобильного планшета, был утерян.

Прекрасное солнечное утро омрачилось: смартфоны и планшеты всех собравшихся в отеле на берегу океана (и не только их) оказались девственно чисты.

Данная информация была доведена до службы безопасности, которая разумно предположила, что тут не обошлось без внешнего вмешательства. Очевидно, что у всех сразу аккаунты iCloud взломать не могли, и служба безопасности заподозрила, что угроза исходит из корпоративной сети. Удаленно очистить мобильные устройства можно только через соответствующий сервис, например через корпоративный сервер Microsoft Exchange. Команда, позволяющая очистить устройство пользователя с адресом [email protected], выглядит следующим образом:

Clear-MobileDevice -Identity WM_TonySmith -NotificationEmailAddresses "[email protected]"

ИТ-службе поставили задачу проверить журналы сервера OWA: не было ли подозрительной активности в отношении аккаунтов пострадавших и компрометации пароля администратора сервера MS Exchange. Администраторы обнаружили зацепку - доступ к аккаунтам пострадавших в предшествующие инциденту дни неоднократно осуществлялся с нескольких нетипичных для них IP-адресов. Как я позже выяснил, засвеченные IP-адреса были выходными Tor-нодами.

Анализ логов OWA

Логи OWA хранятся по умолчанию в %SystemRoot%\System32\logfiles\w3svc1 . Структура логов - обычные текстовые файлы, изучать которые без вспомогательного инструмента, особенно при большом количестве пользователей, утомительно. На помощь придет Log Parser - очень ценный инструмент, который пригодится не только в подобной ситуации.

Для удобства преобразуем все имеющиеся логи в один файл формата CSV:

C:\Program Files\Log Parser 2.2>LogParser.exe -i:iisw3c "select * into d:\temp\alllog.log from %SystemRoot%\System32\logfiles\w3svc1\*" -o:csv

После чего составим список событий, отражающих доступ пользователей к OWA:

C:\Program Files\Log Parser 2.2>LogParser.exe -i:csv "select cs-username, date,time, c-ip, cs-uri-stem, cs(User-Agent) FROM d:\temp\alllog.log to d:\temp\access.csv" -o:csv

Выясняем, кто обращался к функциям OWA, отвечающим за удаление данных с устройства:

C:\Program Files\Log Parser 2.2>LogParser.exe -i:csv "select cs-username, date, time, c-ip, cs-uri-stem, cs-uri-query, cs(User-Agent) FROM d:\temp\alllog.log to d:\temp\access2.csv WHERE cs-uri-query LIKE "%wipe%"" -o:csv

Судя по системным логам, аккаунт администратора сервера OWA скомпрометирован не был. Целый день админы читали логи серверов, а служба безопасности тем временем беседовала со всеми админами по очереди, предполагая, что диверсант внутри компании. Однако это ни к чему не привело. Тогда они обратились по старому знакомству ко мне.

Поставили они такие задачи:

установить источник угрозы - внутренний или внешний;
выяснить сценарий атаки;
определить последствия - скомпрометированные аккаунты и системы;
определить дальнейшие действия для ликвидации угрозы.

Оказавшись на месте, я опросил ИТ-персонал. По итогам составил схему сети, определил расположение серверов и сервисов, собрал информацию об используемых операционных системах, настройке межсетевых экранов, парольной политике, политике обновления софта, персональных зонах ответственности администраторов.

Перепроверил результаты анализа логов администраторами. С помощью ntfswalk проанализировал MFT на наличие удаленных в последнее время файлов. Сервер OWA был чист и нетронут.

Так как скомпрометированы были пароли нескольких сотрудников сразу, я решил, что начать надо с того места, где хранятся пароли. Любой хакер, попадая в корпоративную сеть, сперва спешит полакомиться хешиками. Вопрос этот избитый, и детали получения хешей, думаю, знают все. Такой сценарий надо отработать первым - как наиболее вероятный. В данном случае доменная авторизация была настроена почти на всех устройствах, за исключением сетевого оборудования и Linux-серверов. Исходя из этого, я решил обследовать контроллеры домена.

Первым делом настроил отдельный сервер, на который стали зеркалировать трафик с потенциально скомпрометированных узлов и трафик, циркулирующий через шлюзы, в интернет. Подобные данные могут пригодиться в дальнейшем для выявления несанкционированного доступа.

Я получил актуальные копии виртуальных машин и начал с ними разбираться. Подключив виртуальные жесткие диски к своей системе, запустил процесс восстановления данных - есть вероятность обнаружить удаленные логи файлов, которые использовал злоумышленник. Для этого можно взять любой удобный софт для восстановления данных, результат будет примерно одинаков. Я предпочитаю R-Studio.

Так как у меня в исследовании были только образы виртуальных машин, процедура несколько упрощалась - не нужно тратить время на снятие образов жесткого диска и оперативной памяти. Файлы жестких дисков виртуальных машин можно либо конвертировать в raw , либо монтировать как есть, с помощью соответствующих утилит. Образ RAM и файл сохраненного состояния можно сконвертировать в «сырой» образ. Не стоит забывать и про файлы подкачки - в них тоже порой находится много интересного. Volatility версии 2.3 умеет все это разбирать и конвертировать в случае необходимости.

Отличия работы с физической системой от виртуальной в том, что образ памяти заполучить сложнее - это связано с риском повредить текущее состояние и потерять данные, которые могут оказаться существенными. Также при исследовании физической системы необходимо применять дополнительные инструменты и методики для определения скрытых областей (например, Host Protected Area - HPA и Device Configuration Overlay - DCO).

Обследовать Windows-машины в моем случае я решил по следующему сценарию:

Помимо этого, можно извлечь содержимое процесса в файл для дальнейшего исследования.

След найден

В оперативной памяти одного из контроллеров домена обнаружились явные признаки компрометации:

процесс svchost.exe запущен из C:\Windows\WOW64 , а не из System32 , как ему полагается;
исходящие сетевые соединения, на IP-адрес частного хостинга в Штатах;
неизвестный процесс запущен с PPID , не отображающимся в списке процессов.

Процесс был идентифицирован с помощью утилиты vol.exe .

Vol.exe pslist -f image.vmem --profile=Win2008R2SP1x64 >pslist Offset(V) Name PID PPID 0xfffffa801996cb30 spintlx64.exe 2820 1388 ....

Но PID 1388 больше нигде не значился, что всегда очень подозрительно. В первую очередь необходимо было извлечь тело этого процесса и проверить хотя бы антивирусом.

vol.exe dumpfiles -r spintlx64 -f image.vmem —profile=Win2008R2SP1x64 -D ./

При проверке на VirusTotal показатель выявления был 34/50. При поверхностном анализе обнаружилось, что дата компиляции и сборки бинарника 1992-06-19 22:22:17 , а найденный при офлайн-анализе образа диска файл имел типичные для малвари изменения в атрибутах. Дата создания, изменения, последнего обращения были одинаковы и гораздо старше остальных системных файлов. Файл имел небольшой вес, создавал логи в зашифрованном виде и отправлял их по сети посредством HTTPS. С виду - типичный кейлоггер. Интересно, теперь предстоит разобраться, откуда и когда он попал в систему.

После восстановления данных все лог-файлы были загружены в Event Log Explorer для дальнейшего анализа. Штатные средства в такой ситуации не подходят: они не так поворотливы при поиске, а размеры логов очень большие (>30 Гб).

Отсортировав события по сетевому адресу источника, я получил несколько записей логов, показывающих, что осуществлялся сетевой вход (тип 3) одного из администраторов с сервера Zabbix . По событию входа была определена дата установки кейлоггера. Ее подтвердило время появления первых файлов, создаваемых кейлоггером, - они удалялись, но их получилось восстановить вместе с атрибутами. Больше ничего подозрительного ни в логах, ни в памяти, ни в реестре обнаружено не было. Дополнительно я проанализировал домашние каталоги пользователей сервера, но это не принесло новых результатов.
Завершив работу с контроллером домена, я переключил внимание на сервер Zabbix - именно с него осуществлялся доступ к контроллеру домена по сети.

Обследование Linux-системы концептуально не отличается от обследования Windows-системы. Ищем все то же самое: историю действий, производимых с системой. Если копнуть глубже, то исследовать можно все, от аппаратного уровня до истории запуска Microsoft Paint или набранных текстов. Но к счастью, обычно такой задачи не стоит. Зачастую задача достаточно конкретна и нет необходимости тратить время на то, что не принесет результата.

В данном случае предстояло обследовать Linux-систему на предмет несанкционированного доступа. О сервере предварительно было известно следующее: установлен Suse Linux , Apache + PHP + MySQL + Zabbix с сопутствующим программным обеспечением - всем знакомым LAMP . Выяснилось, что сотрудник, ответственный за сервер, с ОС Linux общается на «вы». Установил и обслуживал сервер его предшественник, который давно ушел из компании.

Для виртуального образа диска сервера был запущен поиск удаленных файлов. Стоит заметить, что, когда имеешь дело с образами, всегда лучше работать с копией, а полученный оригинал хранить отдельно. Естественно, желательно протестировать работоспособность любого программного обеспечения до того, как приступать к исследованию. Приходилось сталкиваться с тем, что образы памяти, созданные разными способами, выдавали при исследовании разный результат. Хотя не стоит исключать вариант, что в систему исследователя закрался вирус, - может быть и такое.

Изучать образ содержимого оперативной памяти системы Linux можно тем же комплектом Volatility, желательно последнего стабильного релиза, хотя после версии 2.0 он вполне справляется. Существует некоторая разница в сравнении с анализом образов RAM семейства Windows - в Volatility нет и в принципе не может быть шаблонов структуры памяти для каждого ядра. Поэтому шаблон придется создать. Для этого необходимо:

запустить копию исследуемой системы;
скопировать туда директорию volatility/tools/linux ;
собрать проект, получив в результате файл module.dwarf , и скопировать его вместе с актуальным /boot/System.map того ядра, на котором работала система при снятии образа RAM, обратно на систему исследователя;
упаковать оба файла, например в Linux.zip , и поместить архив в volatility/plugins/overlays/linux/ .

Теперь при запуске Volatility с ключом --info созданный тобой профайл будет виден в списке и с ним уже можно начать работу над образом. Без этого ничего не получится, потому что Volatility необходимо знать структуры данных ядра (module.dwarf) и иметь имена переменных, функций и их адреса в памяти (System.map).

Вернемся к исследованию. У меня было подозрение, что система, на которой установлен Zabbix, был скомпрометирована. Осталось понять, как и кто это сделал. Лишних ключей для SSH, посторонних учетных записей в системе не обнаружилось. Я предположил, что в системе есть backdoor , а возможно, и руткит. Для установки подобного рода софта зачастую требуются максимальные привилегии. Это очевидно, достаточно вспомнить основные принципы работы более-менее передовых руткитов в Linux-системах:

скрытие процессов, входов пользователей, модулей ядра, файлов, сетевых соединений;

подмена системных файлов.

В первую очередь необходимо было проверить самые простые вещи, а именно историю выполненных команд: vol -f image.vmem -profile=Linux,x86 linux_bash

История команд была совсем небольшой, и первое, что бросилось в глаза, - это insmod rt.ko . Кстати, в файле истории на диске, конечно, ничего подобного не было, более того, восстановить какие-либо данные из файла истории также не удалось - содержимое уже было перезаписано быстро генерирующимися логами. Так что без образа памяти эти данные были бы неизвестны. Далее предстояло найти упомянутый в истории команд модуль ядра. Модуль был обнаружен на диске в директории PHP-скриптов интерфейса Zabbix.

Последующий анализ этого файла показал, что он прячет сам себя, маскирует при необходимости файлы, предоставляет привилегии root по команде. Управление ведется через файловую систему /proc/rt . С сетью не взаимодействует.

Просмотр сетевых соединений в образе памяти показал, что веб-сервер с Zabbix доступен из интернета. Конечно, я об этом не спрашивал, но подразумевал, что систему мониторинга в сеть никто не выставляет. Позже я выяснил у администраторов, что они так следят за системой, когда находятся вне офиса (несмотря на наличие VPN-аккаунта у каждого). Удобно, ничего не скажешь.

Я обратил внимание на Zabbix и пожалел, что не присмотрелся к нему раньше, - версия была подозрительно старая - 1.8.4 . Поиск по exploit-db.com показал, что в данной версии в скрипте popup.php присутствует SQL-инъекция, позволяющая получить хеши пользователей (CVE: 2011-4674). Проверка уязвимости показала ее полную работоспособность.

Схема подключения злоумышленника стала очевидна: через веб-шелл запускался back connect , предоставляющий интерактивный шелл, после чего привилегии повышались с помощью руткита. При такой схеме злоумышленник использовал этот хост как промежуточный для передачи зловреда на контроллер домена, а также для передачи базы ntds.dit и SYSTEM . Для эффективного поиска с помощью утилиты md5deep была создана база MD5-хешей всех файлов, восстановленных с образа сервера, после чего среди них произведен поиск хеша кейлоггера. Как результат - искомый файл был найден (правда, не с тем именем), а рядом лежал psexec и другие сопутствующие утилиты, которые были удалены.

Теперь можно было точно сказать, как произошел инцидент: злоумышленник, воспользовавшись уязвимостью Zabbix, получил и подобрал хеш пароля администратора Zabbix. С помощью скриптов Zabbix был загружен и запущен вспомогательный инструмент, в частности ncat для создания обратного соединения, с помощью которого был загружен и запущен локальный эксплойт, - версия ядра была полуторагодовалой давности.

Кстати говоря, Zabbix хранит скрипты в БД, и их следы были обнаружены в файле ibdata1.

После повышения привилегий злоумышленник использовал данную систему и подобранные пароли, которые у одного из админов оказались одинаковыми как в домене, так и в Linux-системе, для проникновения на контроллер домена. Получив доступ к контроллеру домена с правами администратора домена, злоумышленник завладел базой данных хешей паролей пользователей. Так как правила генерации паролей пользователями были весьма простые, а пароли не менялись по несколько лет, они были подобраны без особого труда. Обладая учетными данными большинства пользователей, злоумышленник мог читать их почту.

Ради эксперимента я попробовал сбрутить хеши пользователей домена. Легко и непринужденно за пару часов были вскрыты 90% паролей.

По всей видимости, когда злоумышленнику надоело просто читать почту, он решил ее удалить - тем самым развлечься, или отомстить, или выполнить заказ конкурентов? Его мотивация мне неизвестна.

В итоге система Zabbix была переведена в изолированный сегмент, сетевой трафик поставлен на запись, настроена IDS. Я ждал подключений хулигана, но это уже совсем другая история…

Как защитить свой iDevice

Любой iDevice общается с корпоративным сервером Exchange при помощи протокола ActiveSync. С позиции пользователя - защититься по умолчанию никак нельзя. Политика сервера Exchange подразумевает, что если устройство подключено к корпоративной сети, то администратор должен иметь возможность когда угодно управлять этим устройством для прекращения доступа к конфиденциальной информации. Помимо этого, пользователь, в случае утери или кражи, может зайти в OWA через любой браузер и запустить процесс удаленной очистки.

Если в организации имеется понимающий администратор Exchange - обратиться к нему и попросить убрать права на выполнение данной операции, а еще лучше - убрать доступ к пункту «Мобильные устройства» из веб-интерфейса OWA.

Вердикт

Настало время подвести итоги. К сложившейся ситуации привели ошибки администрирования сети и систем:

слабая парольная политика - не установлена сложность пароля, не установлен срок действия пароля;
отсутствует патч-менеджмент - кроме продуктов Microsoft, завязанных на WSUS, системы и софт не обновляется;
не везде установлено антивирусное ПО - например, на контроллере домена антивирус, скорее всего, помог бы предупредить кражу хешей пользователей;
отсутствует единая политика по доступу в интернет, доступ разграничивается без внятных правил;
сеть не сегментирована;
не осуществляется лог-менеджмент;
лень.

Примеры авиационных происшествий и инцидентов.

Произошло несколько инцидентов высокого уровня и авиационных происшествий из-за человеческих факторов. Сайт интернета по Человеческим факторам при авиационном обслуживании и инспекциях (HFAMI) содержит 24 доклада NTSB об инцидентах, причинами которых стали человеческие факторы. В Великобритании произошло несколько происшествий и инцидентов. Подробности о них содержаться на сайте AAIB. Некоторые из этих инцидентов приведены ниже:

Инцидент с Боингом-737,(Алоха рейс 243), Мауи, Гавайи, Апрель 1988;
Инцидент с ВАС 1-11, G-BJRT (British Airways рейс 5390), Дидкот, Оксфордшир, 10 июня 1990.
Инцидент с А-320, G-KMAM в Лондонском аэропорту Гатвик 26 августа 1993;
Инцидент с Боингом-737, G-OBMM около Дэвинтри 23 февраля 1995.

Инцидент, произошедший с рейсом Алоха № 243 в апреле 1988 связан с тем, что 18 футов верхней обшивки кабины во время полета были сорваны. Самолет перед полетом проверялся согласно требованиям США двумя авиационными инспекторами. Один инспектор имел стаж работы 22 года, а второй, старший из них 33 года. Ни один не обнаружил трещин во время инспекции. Анализы, проведенные после инцидента обнаружили наличие свыше 240 трещин в обшивке этого самолета на время инспекции. Вытекающие из этого определили много проблем связанных с человеческими факторами ведущими к ненадлежащим инспекциям.

В результате инцидента с рейсом Алоха, в США была разработана программа исследования проблем связанных с человеческими факторами с акцентированием на проведение инспекций.

10 июня 1990г. в Великобритании самолет ВАС 1-11 (British Airways рейс 5390) вылетел из аэропорта Бирмингема. После набора высоты 17,300 футов в кабине пилотов было выдавлено давлением наружу левое лобовое стекло. Это стекло было заменено перед полетом. Оказалось, что из 90 крепящих болтов 84 оказались меньшего диаметра, чем необходимо. Командира корабля наполовину вытянуло из кабины через отверстие окна и его удерживали члены экипажа, пока второй пилот не произвел благополучную посадку в аэропорту Саутгэмптона.

Начальник смены (SMM) из-за недокомплекта людей во время ночной смены, решил провести замену лобового стекла самостоятельно. Он просмотрел Инструкцию (ММ) и пришел к выводу, что это простая работа. Он решил заменить крепежные болты и взяв один в качестве образца (7D)

стал подбирать другие для замены. Кладовщик сказал ему, что для замены требуются болты (8D), однако из-за их нехватки на складе, начальник смены решил, что подойдут болты (7D). (Так как они стояли на месте до этого). Тем не менее, он визуально сравнил болты и потрогал их и по ошибке выбрал болты 8С, которые длиннее и тоньше. Также он не заметил, что при установке, углубление для головки болта (потай) глубже, чем необходимо. Он сам выполнил работу и подписал сертификат выпуска. Процедура не требовала проведения углубленной или вторичной проверки. К этому инциденту имеют отношение несколько человеческих факторов, включающие неправильное определение размеров болтов начальником смены, плохое освещение на складе, не использование очков, практика проведения работ и возможные факторы конструкции и организации работы.

Самолет А-320 в Великобритании в августе 1993г. Во время первого полета после замены закрылка произошло резкое сваливание направо сразу же после взлета. Самолет вернулся в Гатвик и благополучно приземлился. Расследование показало, что во время обслуживания, для того, чтобы заменить правый закрылок, спойлеры были переведены в режим обслуживания и сдвинуты при незавершенной процедуре; соответственно отбортовки и флажки не были установлены. Назначение отбортовок и спойлеров инженерами недостаточно понималось.

Это непонимание частично было вызвано знакомство и привычка к самолету другого

типа (Боинг 757) и выразилось в недостаточном обозначении состояния спойлеров во время передачи смен. Запертый спойлер не был обнаружен во время проведения пилотом стандартных проверок.

В феврале 1995г. на самолете Боинг 757-400 обнаружилась потеря давления масла на обоих двигателях. Самолет развернулся и благополучно приземлился в аэропорту Лутона. Расследование показало, что предыдущей ночью на самолете проводилось бороскопическое исследование обоих двигателей и кожухи приводов роторов высокого давления, после выполнения работ не были установлены. В результате этого, во время полета было потеряно почти все масло из обоих двигателей. Инженер по линейному обслуживанию первоначально должен был выполнить эту работу, но по различным причинам он передал работу контролеру базового обслуживания. Контролер не имел при себе необходимых документов по работам. Контролер и слесарь выполнили работу, не смотря на многочисленные перерывы, но не установили кожухи роторов. На земле не были проведены испытания двигателей на холостых оборотах для обнаружения течей масла. Работа была расписана как выполненная.

Во всех трех инцидентах в Великобритании, инженеры, принимавшие участие в обслуживании оценивались компаниями как высоко квалифицированные, компетентные и надежные работники. Все инциденты характеризовались следующим:

отсутствовало достаточное количество персонала;
имелось давление по времени;
Все ошибки произошли ночью;
Проводилась передача смен;
Все задействованные лица выполняли долгие ручные работы;
Имелся элемент отношения «Могу значит делаю»;
Имелись перерывы в работе;
Не удалось использовать подтвержденную информацию или процедуры;
Инструкции были противоречивы;
Было сделано недостаточное предварительное планирование, оборудования и запчастей.

Инциденты и аварии – Нарушение человеческих факторов.

Во всех вышеуказанных примерах аварии или инциденты могли бы быть предотвращены, если одна из многих операций была бы сделана иначе. В некоторых случаях, при привлечении нескольких работников, результат их труда может быть улучшен, если один из них правильно отреагировал на конкретное действие или спросил о нем. В каждой конкретной ситуации, однако, работники не опознают и не реагируют на признаки потенциальной опасности, не реагируют на них, как от них ожидается, или позволяют себе отвлекаться на работы руками, оставляя себя открытыми для совершения ошибки.

Также как и при многих других инцидентах и авариях примеры указанные выше, включают в себя серии проблем человеческих факторов, которые формируют цепь ошибок (См. рис.3). Если одно из звеньев этой цепи будет разорвано принятием мер, которые могут предотвратить проблему в одной или нескольких стадиях ее развития, инцидент может быть предотвращен.

Рис 3. Цепь ошибок.

Привет всем хабражителям,
очень часто, по долгу процессной службы приходиться слышать от сотрудников больших и малых департаментов IT один очень популярный вопрос: в чем разница между запросом на обслуживание и инцидентом?

Дискуссии на эту тему стары, как все вместе взятые методологии управления IT, тем не менее, давайте обратимся к первоисточникам.

Что нам говорит ITIL (официальный перевод глоссария по третьей версии):

Запрос на обслуживание - запрос пользователя на информацию, или консультацию, или на стандартное изменение, доступ к ИТ-услуге.

Инцидент - незапланированное прерывание ИТ-услуги или снижение качества ИТ-услуги.

Как обычно методология не лезет в глубь вещей и очень не любит отвечать на предметные вопросы сотрудников любого Сервис-деска, классифицирующих обращения пользователей. А меж тем, вопросов таких масса, вот несколько примеров:

1) Христоматийный звонок пользователя с просьбой сбросить пароль - как его классифицировать, как запрос на обслуживание или как инцидент? Или, может быть, как инцидент информационной безопасности?

2) Звонок от пользователя, у которого не работает корпоративная почта. Беглый анализ обращения говорит о том, что пользователю необходимо провести первичную настройку почтового клиента. Тем не менее с его точки зрения это инцидент, т.к. сервис не доступен, а его никто не уведомил, что «сама почта не полетит»

Стоит ли говорить что первичная классификация очень важна, так как она определяет весь последующий жизненный цикл обращения, в т.ч. и сроки исполнения.

Мое понимание этого вопроса сводится к вопросу оценки прерывания сервиса для конечного потребителя, и таким образом:

Инцидент - это, в большинстве случаев, прерывание или частичное прерывание ИТ-услуги, которая ранее предоставлялась пользователю в утвержденном режиме (сервис доступен 24/7, либо 5/8).

Пример: у главного бухгалтера компании внезапно пропал доступ к системе финансовой отчетности. С одной стороны предоставление доступа это классический сервисный запрос, но в данном случае на лицо явное прерывание сервиса и, как следствие, частичная деградация бизнес-процесса.

Запрос на обслуживание - это обращение от пользователя, который заинтересован в подключении дополнительной услуги, либо доработке функционала существующих услуг.

Пример: особо любопытный пользователь попытался открыть один из модулей все той же системы финансовой отчетности, но получил сообщение об ошибке. С его т.з. это инцидент, так как он не достиг желаемой цели и не получил искомую информацию, но, с т.з. описанной выше - это классический запрос на обслуживание на предоставление доступа, требующий согласования и выполняемый по стандартной процедуре в согласованный срок.

При этом не стоит забывать про многообразие частных случаев которые вообще сложно поддаются классификации, точка зрения описанная выше не претендует на догму, а лишь стремиться помочь минимизировать количество неправильно классифицированных обращений и улучшить общее время реакции IT на потребности бизнеса.

Процесс управления инцидентами

К сожалению, мир не идеален. В равной степени это относится и к ИТ-услугам. При предоставлении ИТ-услуг могут происходить сбои: услуга может стать недоступна, работать с ошибками, может быть получен несанкционированный доступ к информации и т.д. Т.е. могут возникать негативные отклонения от нормального предоставления услуги. В ITIL эти отклонения называются инцидентами.

Инцидент - незапланированное прерывание или снижение качества ИТ-услуги. Сбой конфигурационной единицы,который еще не повлиял на услугу, также является инцидентом, как, например, сбой одного диска из массива зеркалирования.

В одних случаях инцидент может остаться незамеченным для пользователей, а в других - оказать существенное финансовое, репутационное и другое негативное влияние на бизнес. Если же инцидент все же произошел, то необходимо минимизировать его отрицательное влияние.

Каким образом это сделать? В одном случае - максимально быстро «починить», в другом - в кротчайшие сроки восстановить наиболее важные функции, в третьем - применить обходное решение, и т.д.

Обходное решение (workaround) - уменьшение или устранение влияния инцидента или проблемы, для которых в текущий момент недоступно полное разрешение.

Как правило, деятельность ИТ-подразделений, связанная с устранением инцидентов, оказывает существенно влияние на восприятие ИТ пользователями в целом. Для того, что эффективно управлять этой деятельностью, должен быть определен соответствующий порядок действий. В соответствии с рекомендациями ITIL для этого должен быть выстроен процесс управления инцидентами.

Управления инцидентами (Incident Management) - процесс, отвечающий за управление жизненным циклом всех инцидентов. Управление инцидентами обеспечивает минимизацию влияния на бизнес и восстановление нормального функционирования услуги наиболее быстрым способом.

В рамках достижения цели задачами процесса управления инцидентами являются:

Обеспечение использования стандартных методов и процедур эффективного и оперативного реагирования, анализа, документирования, текущего управления и отчетности в ходе решения инцидентов.
Повышение прозрачности и коммуникаций при решении инцидентов между бизнесом и ИТ.
Улучшение восприятия бизнесом ИТ через профессиональный подход к решению инцидентов.
Совмещение приоритетов в решении инцидентов с приоритетами бизнеса.
Поддержка удовлетворенности пользователей качеством ИТ-услуг.

Деятельность в рамках процесса управления инцидентами

Инциденты могут возникнуть в любой части инфраструктуры. Часто о них сообщают пользователи, но возможно их обнаружение и ИТ-сотрудниками, а на основании информации от систем мониторинга.

В большинстве случаев инциденты регистрируются Service Desk, куда поступают сообщения о них. Регистрация всех инцидентов должна производиться немедленно после поступления сообщения по следующим причинам:

трудно произвести точную регистрацию информации об инциденте, если это не сделано сразу;
мониторинг хода работ по решению инцидента возможен, только если инцидент зарегистрирован;
зарегистрированные инциденты помогают при диагностике новых инцидентов;
Управление проблемами может использовать зарегистрированные инциденты при работе над поиском корневых причин;
легче определить степень воздействия, если все сообщения (звонки) зарегистрированы;
без регистрации инцидентов невозможно контролировать исполнение договоренностей (SLA);
немедленная регистрация инцидентов предотвращает ситуации, когда или несколько человек работают над одним и тем же инцидентом, или никто ничего не делает для разрешения инцидента.

Вся значимая информация об инциденте должна быть зафиксирована и доступна группам поддержки.

Пример информации по инциденту:

При первоначальной регистрации инцидента должна быть проведена его категоризация.

Категория - именованная группа объектов, имеющих что-то общее. Категории используются для объединения похожих объектов. Например, типы затрат используются для группировки однотипных затрат, категории инцидентов - однотипных инцидентов, типы КЕ - однотипных конфигурационных единиц.

Правильная категоризация инцидентов помогает перенаправить их сразу в нужную группу и проводить анализ инцидентов в различных разрезах, а также формирует основу для поиска причин возникновения инцидентов и их устранения в рамках процесса управления проблемами.

Каждом инциденту присваивается определенный приоритет.

Приоритет основывается на влиянии и срочности и используется для определения требуемого времени обработки.

Срочность (urgency) - мера того, насколько быстро с момента своего появления инцидент, приобретет существенное влияние на бизнес.

Степень влияния (impact) - мера воздействия инцидента на бизнес-процесс.

Таким образом, фактически, приоритет — это номер, определяющийся срочностью (насколько быстро это должно быть исправлено) и степенью воздействия (какой ущерб будет нанесен, если не исправить быстро). Приоритет = Срочность х Степень воздействия. На основании приоритета определяется очередность устранения инцидентов.

Приоритет устанавливается с учетом следующих факторов:

Срочность
Влияние на бизнес
Риск для жизни или здоровья (risk to life or limb)
Число затронутых услуг
Финансовые потери
Влияние на репутацию бизнеса
Влияние на соответствие законам и другим нормами др.

С учетом установленного приоритета и существующих соглашений (SLA) пользователь информируется о максимальном расчетном времени разрешения инцидента (крайний срок). Эти сроки также фиксируются. Инциденту присваивается уникальный номер и пользователь информируется о номере инцидента для его точной идентификации при последующих обращениях.

Непосредственно при обращении пользователя специалистами Service Desk должна быть проведена предварительная диагностика инцидента для получения необходимой информации для установления причины инцидента, если это возможно, а также для корректной категоризации и передачу на следующую линию поддержки. Если решение инцидента находится в компетенции сотрудника Service Desk, то он может быть решен сразу. Служба Service Desk направляет инциденты, не имеющие готового решения или выходящие за пределы компетенции работающего с ним сотрудника, группе поддержки следующего уровня с большим опытом и знаниями. Эта группа исследует и разрешает инцидент или направляет его группе поддержки очередного уровня.

В процессе разрешения инцидента различные специалисты могут обновлять регистрационную запись о нем, изменяя текущий статус, информацию о выполненных действиях, пересматривая классификацию и обновляя время и код работавшего сотрудника.

В большинстве случаев ответственной за мониторинг хода решения является Служба Service Desk, как «владелец» всех инцидентов. Эта служба должна также информировать пользователя о состоянии инцидента. Обратная связь с пользователем может быть уместной после изменения статуса, например, направлении инцидента на следующую линию поддержки, изменении расчетного времени решения, эскалации и т. д. Во время мониторинга возможна функциональная эскалация к другим группам поддержки или иерархическая эскалация для принятия руководящих решений.

Эскалация - деятельность, направленная на получение дополнительных ресурсов, когда это необходимо для достижения целевых показателей уровня услуги или удовлетворения ожиданий заказчика. Эскалация может потребоваться в рамках любого процесса управления ИТ-услугами, но наиболее часто ассоциируется с управлением инцидентами, управлением проблемами и управлением жалобами заказчика. Существует два типа эскалации: функциональная эскалация и иерархическая эскалация.

После успешного завершения анализа и разрешения инцидента сотрудник фиксирует информацию о примененном решении. Если на определенных момент времени невозможно полное разрешение инцидента, его влияние, если возможно, должно быть снижено применением обходного решения. В наихудшем случае, если не найдено никакого решения, инцидент остается открытым.

После реализации решения, удовлетворяющего пользователя, группа поддержки направляет инцидент обратно в Service Desk. Service Desk связывается с сотрудником, сообщившим об инциденте, целью получения подтверждения об успешном решении вопроса. Если он это подтверждает, то инцидент может быть закрыт; в противном случае процесс возобновляется на соответствующем уровне. При закрытии инцидента необходимо обновить данные об окончательной категории, приоритете, сервисах, подвергшихся воздействию инцидента и конфигурационной единице, вызвавшей сбой.

Политики и базовые принципы процесса управления инцидентами

Политики процесса управления инцидентами должны выполняться для обеспечения результативности и эффективности процесса, и могут включать следующие аспекты:

Хорошая координация между пользователями и специалистами по решению инцидентов
Решение инцидентов должно происходить в сроки, согласованные с бизнесом
Удовлетворенность пользователей должна обеспечиваться на всех этапах решения инцидентов
Деятельность по управлению инцидентами должна быть согласована с уровнем услуг и задачами поддержки на основе реальных потребностей бизнеса
Все инциденты управляются, а их данные сохраняются в единой системе управления
Все инциденты должны иметь стандартную схему классификации, которая соответствует бизнес процессам предприятия
Записи инцидентов должны регулярно проверяться на предмет правильного ввода и их корректной классификации
Все записи инцидентов по мере возможности должны иметь общие формат и набор информационных полей
Должен быть общий и согласованный с бизнесом набор критериев для определения приоритетов и эскалации инцидентов

Ниже описаны базовые принципы, которые должны быть приняты во внимание при внедрении управления инцидентами.

Временные рамки (Timescales) - для всех этапов обработки инцидентов должны быть согласованы временные рамки (они будут различаться в зависимости от уровня приоритета инцидента). Все группы поддержки должны быть в полной мере осведомлены об этих временных рамках.

Многие инциденты не новы - они связаны с чем-то, что уже произошло ранее и может повториться. По этой причине, будет целесообразно заранее определить «стандартные» модели инцидента и применить их при возникновении соответствующих инцидентов.

Модель инцидента - это предопределенный способ обработки определенного типа инцидентов.

Модель инцидентов может включать следующие аспекты:

Предопределенная последовательность действий по обработке определенного типа инцидентов
Предопределенная ответственность
Меры предосторожности до решения инцидента
Временные рамки и процедуры эскалации
Доказательства деятельности (записи, логи)

В рамках процесса управления инцидента выделяются значительные инциденты.

Значительный инцидент вызывает существенные потери для бизнеса и должны иметь отдельные процедуры обработки.

Инциденты должны отслеживаться на протяжении всего их жизненного цикла, чтобы обеспечить их правильную обработку и отчетность относительно состояния инцидентов. В системе управления инцидентами коды статусов могут быть соединены с инцидентами, чтобы указать, где они относительно жизненного цикла. Примеры их могли бы включать:

На положение инцидента в процессе обработки указывает статус. Примерами статусов могут быть:

новый;
принят;
запланирован;
назначен;
активный;
отложен;
разрешен;
закрыт.

Показатели процесса управления инцидентами

Для управления и оценки эффективности процесса управления инцидентами, а также для обеспечения обратной связи с другими процессами управления, ITIL предлагает использовать следующие основные показатели (CSF и KPI):

CSF Быстрое решение инцидентов, минимизации их влияния на бизнес

KPI Среднее время, затраченное на решение инцидента
KPI Распределение инцидентов по статусам
KPI Процент инцидентов, решенных первой линией поддержки
KPI Процент инцидентов, решенных дистанционно
KPI Количество решенных инцидентов, не повлиявших на бизнес

CSF Поддержка качества ИТ-услуг

KPI Общее количество инцидентов (контрольный показатель)
KPI Размер очереди нерешенных инцидентов по каждой услуге
KPI Количество и процент значительных (major) инцидентов по каждой услуге

CSF Поддержка удовлетворенности пользователей

KPI Средний балл опроса по пользователям /заказчикам
KPI Процент удовлетворенности ответивших по сравнению с общим числом участвующих в опросе

CSF Улучшение прозрачности и коммуникаций при решении инцидентов между бизнесом и персоналом поддержки ИТ

KPI Среднее количество обращений в службу поддержки или других контактов с пользователями по поводу инцидентов, по которым уже было извещение
KPI Количество претензий и проблем по поводу содержания и качества коммуникаций при решении инцидентов

CSF Совмещение приоритетов деятельности по управлению инцидентами с приоритетами бизнеса

KPI Процент инцидентов, решенных без нарушения целей SLA
KPI Средняя стоимость одного инцидента

CSF Обеспечение использования стандартных методов и процедур при решении инцидентов

KPI Количество и процент неправильно назначенных инцидентов
KPI Количество и процент неправильно классифицированных инцидентов
KPI Количество и процент инцидентов, обработанных сотрудниками Service Desk
KPI Количество и процент инцидентов, связанных с изменениями и релизами

Риски и сложности

При внедрении управления инцидентами необходимо учитывать следующие возможные риски и сложности:

Необходимость раннего обнаружения инцидентов - потребуется конфигурацию инструментов управления событиями (мониторинга), а также обучение пользователей информированию об инцидентах
Необходимость тотальной регистрации инцидентов
Необходимость внедрения адекватной автоматизированной системы управления и обеспечения интеграции ее с различными системами управления ИТ (например, CMS)
Необходимость обеспечения высокой доступности единой точки контакта
Необходимость обеспечения следования процессу и выявление случаев обхода процедур процесса — если пользователи будут устранять возникающие ошибки сами или напрямую связываться со специалистами, не следуя установленным процедурам, ИТ-организация не получит информацию о реально предоставляемом уровне услуг, числе ошибок и многое другое. Отчеты руководству также не будут адекватно отражать ситуацию.
Нехватка ресурсов при решении инцидентов, перегруженность инцидентами и откладывание «на потом» — при неожиданном росте количества инцидентов для правильной регистрации может не оказаться достаточно времени, т. к. до окончания ввода информации об инциденте от одного пользователя возникает необходимость обслуживать следующего. В этом случае ввод описания инцидентов может производиться недостаточно точно и процедуры по распределению инцидентов по трупам поддержки не будут выполняться должным образом. В результате решения получаются некачественными и рабочая нагрузка увеличивается еще больше. В случаях, если число открытых инцидентов начинает интенсивно расти процедура экстренного выделения дополнительных ресурсов внутри организации может предотвратить перегрузку персонала.
Отсутствие каталога услуг и соглашений об уровне сервисов (SLA) — если поддерживаемы услуги и продукты недостаточно точно определены, тогда специалистам, вовлеченным в управление инцидентами, бывает трудно обоснованно отказать пользователям в помощи.
Недостаточная приверженность процессному подходу со стороны руководства и персонала - решение инцидентов с помощью процессного подхода обычно требует изменения культуры и более высокого уровня ответственности за свою работу со стороны персонала. Это может вызвать серьезное сопротивление внутри организации. Эффективное управление инцидентами требует от сотрудников понимания и реальной приверженности процессному подходу, а не просто участия.

Ценность для бизнеса

Внедрив процесс управления инцидентами в соответствии с рекомендациями ITIL и решив все сложности, которые могут возникнуть при внедрении, может быть получена следующая ценность для бизнеса в целом:

Возможность снизить незапланированные работы и затраты для бизнеса и ИТ, вызванные инцидентами
Возможность обнаруживать и устранять инциденты, сокращая время простоя и повышая доступность бизнес услуг
Возможность выделять ресурсы ИТ в соответствии с их приоритетом для бизнеса
Возможность инициировать улучшение услуг на основании знания природы инцидентов
Возможность идентифицировать потребности в дополнительном обучении персонала

Процесс управления инцидентами является значительно «заметным» для бизнеса и позволяет относительно быстро увидеть результаты после его внедрения. Поэтому управление инцидентами часто - один из первых процессов, внедряемых при переходе к процессной организации управления ИТ. Дополнительным преимуществом этого является тот факт, что управление инцидентами позволяет «подсветить» другие области при управления ИТ, требующие внимания - тем самым обеспечивая выделение необходимых ресурсов для реализации других процессов ИТ-управления.

Со временем может возникнуть потребность изменения ИТ инфраструктуры. Это может быть вызвано рядом причин - необходимостью устранения проблемы, желанием повысить качество ИТ сервисов, старением инфраструктуры или изменением законодательства.

Опыт показывает, что если изменения должны образом не контролируются, то часто в результате их проведения могут возникать инциденты: сбои в нормальном предоставлении услуг. Причины таких инцидентов могут быть различными: халатность сотрудников, недостаток ресурсов, недостаточная подготовка, слабый анализ воздействия изменения, несовершенство тестирование и т.д. Число инцидентов может увеличиваться, каждый из них будет требовать принятия срочных мер, что в свою очередь может привести к возникновению новых инцидентов. Ежедневное планирование часто не в состоянии учитывать увеличивающуюся рабочую нагрузку.

Изменение - добавление, модификация или удаление чего-либо, способного оказать влияние на ИТ-услуги. В эти рамки необходимо включать все изменения в архитектурах, процессах, инструментах, метриках и документации, а также изменения в ИТ-услугах и других конфигурационных единицах.

За обеспечение контроля над изменениями в ITIL отвечает ряд процессов преобразования услуг (Service Transition): Управление изменениями, Управление сервисными активами и конфигурациями и управления релизами и развертыванием.

Управление изменениями - процесс, отвечающий за управление жизненным циклом всех изменений, способствующий реализации полезных изменений с минимальным прерыванием ИТ-услуг.

В рамках достижения цели задачами процесса управления изменениями являются:

Реагировать на изменяющиеся бизнес-требования заказчика, максимизируя ценность для бизнеса и уменьшая количество инцидентов, сбоев и повторных работ
Реагировать на запросы на изменение со стороны бизнеса и ИТ для обеспечения гарантии соответствия услуг нуждам бизнеса
Гарантировать, что все изменения зарегистрированы, оценены, авторизованы, приоритизированы, запланированы, протестированы, внедрены, документированы, а также проведен их обзор контролируемым образом
Гарантировать, что все изменения конфигурационных единиц регистрируются в системе управления конфигурациями (CMS)
Оптимизировать бизнес-риски

В охват процесса управления изменениями попадают изменения в ИТ-инфраструктуре, процессах, инструментах, метриках и документации, а также изменениях в ИТ-услугах и других конфигурационных единицах.

Деятельность в рамках процесса управления изменениями

На рисунке приведена общая схема процесса управления изменениями. Для обеспечения контроля изменений все изменения должны быть зарегистрированы. При необходимости внесения изменения, входящего в охват процесса, должен быть подан запрос на изменение (request for change, RFC).

Запрос на изменение - формальное предложение на выполнение изменения. Запрос на изменение включает в себя детали предложенного изменения и может быть записан в бумажном или электронном виде. Термин «запрос на изменение» часто неверно употребляется в значениях «запись об изменении» или «изменение» само по себе.

В рамках процесса управления изменения в ITIL выделяется три типа изменений:

Стандартное изменение - предавторизованное изменение, с низким риском, относительно обычное и следующее какой-либо процедуре или рабочей инструкции. Например, сброс пароля или обеспечение нового сотрудника стандартным оборудованием. Для внедрения стандартных изменений RFC не требуется, они записываются и отслеживаются с использованием другого механизма, такого как запросы на обслуживание.

Экстренное изменение - изменение, которое должно быть внедрено как можно быстрее, например, для разрешения значительного инцидента или установки обновления безопасности. Процесс управления изменениями обычно предусматривает специальную процедуру для управления экстренными изменениями.

Нормальное изменение - изменение, не являющееся срочным или стандартным. Нормальные изменения обрабатываются по определённым шагам процесса управления изменениями.

Таким образом, если изменение попадает в категорию стандартных, то оно должно управляться в рамках процесса управления запросами на обслуживание. Является ли определенное изменение стандартным или нормальным устанавливается для каждой организации самостоятельно. Для экстренных изменений обычные процедуры не используются, так как необходимые ресурсы предоставляются незамедлительно.

Ниже приведен пример информации, которая может включаться в запросы на изменение (RFC):

идентификационный номер запроса;
номер проблемы/известной ошибки (если имеется), связанной с запросом;
описание и определение соответствующих конфигурационных единиц;
причина изменения, включая обоснование и ожидаемый бизнес-результат;
текущая и новая версия изменяемой конфигурационной единицы;
имя, адрес и номер телефона лица, направляющего запрос;
дата подачи;
предварительная оценка необходимых ресурсов и времени;
и т.д.

Запрос на изменение создается инициатором, в качестве которого может выступать отдельный человек или группа людей. Если требуется значительное изменение, может потребоваться предложение об изменении (change proposal).

Предложение об изменении - документ, содержащий высокоуровневое описание потенциальной услуги или значительного изменения, соответствующее экономическое обоснование и ожидаемый график внедрения. Предложения об изменениях обычно создаются в рамках процесса управления портфелем услуг и передаются в процесс управления изменениями для авторизации. В рамках процесса управления изменениями оценивается потенциальное влияние на другие услуги, совместно используемые ресурсы и на общий план изменений.

Все полученные запросы на изменения должны быть зарегистрирован и для каждого изменения должна быть создана запись об изменении (change record).

Запись об изменении - запись, содержащая детальную информацию об изменении. Каждая запись об изменении документирует жизненный цикл одного изменения. Запись об изменении создается для каждого полученного запроса на изменение, даже если он впоследствии будет отклонён.

После регистрации запроса на изменение (RFC) Управление изменениями делает первичную проверку, нет ли среди них неясных, нелогичных, непрактичных или ненужных запросов. Такие запросы отклоняются с объяснением причин. Сотруднику, направившему запрос, всегда должна быть предоставлена возможность для защиты своего запроса.

Для того чтобы оценить изменение ITIL предлагает ответить на 7 вопросов (7 ‘R’s):

Кто инициатор? (RAISED) (Who RAISED the change?)
Какова причина? (REASON) (What is the REASON for the change?)
Какой требуется результат? (RETURN) (What is the RETURN required from the change?)
Какие риски связаны с изменением? (RISKS) (What are the RISKS involved in the change?)
Какие ресурсы требуются для проведения изменения? (RESOURCES) (What RESOURCES are required to deliver the change?)
Кто отвечает за построение, тестирование и внедрение изменения? (RESPONSIBLE) (Who is RESPONSIBLE for the build, test and implementation of the change?)
Какие взаимоотношения между этим и другими изменениями? (RELATIONSHIP) (What is the RELATIONSHIP between this change and other changes?)

Если запрос на изменения (RFC) принимается в работу, в запись об изменении включается информация, необходимая для дальнейшей обработки изменения.

Позднее к записи может добавляться следующая информация:

назначенный приоритет;
оценка степени воздействия и требующихся затрат;
категория;
рекомендации руководителя процесса управления изменениями;
дата и время авторизации изменения;
запланированная дата проведения;
план возврата к исходному состоянию;
требования по поддержке;
план проведения изменения;
информация о разработчике и сотрудниках, ответственных за проведение изменения;
фактическая дата и время проведения изменения;
дата проведения оценки результатов;
результаты испытания и обнаруженные проблемы;
причины отклонения запроса (если необходимо);
оценка результатов.

После приема запроса на изменение (RFC) определяются его приоритет и категория. Приоритет показывает, насколько важным является данный запрос по сравнению с другими. Это, в свою очередь, определяется его срочностью и степенью воздействия.

Пример системы кодирования приоритетов:

Низкий приоритет — изменение желательно, но его внедрение может быть отложено до более удобного времени (например, до следующего релиза или планового обслуживания).
Обычный приоритет — нет особой срочности и высокой степени воздействия, но изменение не следует откладывать.
Высокий приоритет — изменение касается серьезной ошибки, затрагивающей ряд пользователей, или новой нетипичной ошибки, затрагивающей большую группу пользователей, или связано с другими срочными вопросами.
Наивысший приоритет — запрос на изменение (RFC) касается проблемы, серьезно влияющей на важнейший для заказчиков сервис. Изменения с таким приоритетом классифицируются как «экстренные».

Низкая степень воздействия — изменение, требующее выполнения небольшого объема работ.
Существенная степень воздействия — изменение, требующее значительных усилий и оказывающее существенное воздействие на ИТ-услуги. Эти изменения обсуждаются на совете по изменениям (CAB) для определения необходимых усилий (ресурсов и др.) и потенциального воздействия.
Наивысшая степень воздействия — изменение, требующее значительных усилий. руководителю процесса необходимо предварительно получить авторизацию на выполнение изменения руководства ИТ или руководящего комитета ИТ, после чего изменение представляется на рассмотрение совета по изменениям (CAB).

Совет по изменениям - группа людей, помогающая осуществлять оценку, приоритизацию, авторизацию и составление графика изменений. В состав совета по изменениям обычно входят представители поставщика ИТ-услуг, бизнеса и третьих сторон (например, подрядчики).

Эти коды могут быть представлены в цифрах, например: низкая степень=1/ высшая степень = 3

Большинство изменений относятся к двум первым категориям. На основании оценки влияния изменения должен быть определён уровень авторизации изменения (полномочные лица, change authority), например, как это показано на рисунке.

В добавление к классификации должны быть также определены группы, участвующие в работе над техническим решением, и услуги, затрагиваемые изменением.

Если соответствующими полномочными лицами принято положительное решения в отношении изменения, об утвержденных изменениях сообщают соответствующим техническим специалистам, которые будут разрабатывать и внедрять эти изменения. В рамках процесса управления изменениями осуществляется координация внедрения. Непосредственная же разработка, тестирование и внедрение осуществляется в рамках процесса управления реализмами и развертыванием. Внедрение изменения происходит после одобрения результатов тестирования в рамках процесса управления изменениями.

В рамках процесса управления изменениями осуществляется ведение графика изменений.

График изменений - документ с перечнем всех утвержденных изменений и плановых дат их реализации, а также с примерными сроками реализации более поздних изменений.

Члены совета по изменениям (CAB) дают рекомендации по планированию изменений, так как необходимо учитывать наличие персонала, ресурсов, затраты, различные аспекты задействованных услуг, а также мнение заказчиков. Совет по изменениям (CAB) играет роль консультативного органа и собирается на регулярной основе. Информация о планировании изменений должна распространяться заранее до совещания совета по изменениям. Соответствующая документация и информация о пунктах повестки дня также должны рассылаться до совещания.

Повестка дня совещания совета по изменениям должна включать ряд постоянных пунктов, в том числе:

Неуспешные или неавторизованные изменения
Запросы на изменения (RFC), предложенные на рассмотрение членам совета по изменениям в порядке приоритетов
Запросы на изменения (RFC), рассмотренные советом по изменениям
Планирование изменения и обновление графика изменений
Оценки проведенных изменений
Процесс управления изменениями, дополнения и изменения процесса
Достижения процесса и выгоды для бизнеса, полученные с помощью процесса управления изменениями
Незавершенные изменения и изменения в процессе обработки
Планирование запросов на изменение к рассмотрению на следующем совете по изменениям
Проверка неавторизованных изменений, обнаруженных процессом управления сервисными активами и конфигурациями

Как часть общей схемы проведения изменения должна разрабатываться процедура возврата к исходному состоянию на случай, если изменение не обеспечивает достижение необходимого результата. Управление изменениями не должно одобрять проведение изменения при отсутствии процедуры возврата.

Необходимо давать оценку произведенным изменениям, за возможным исключением стандартных изменений. При необходимости совет по изменениям (CAB) принимает решение о проведении последующих дополнительных мероприятий. Должны быть рассмотрены следующие вопросы:

Изменение достигло поставленных целей?
Пользователи и заказчики удовлетворены?
Не возникло побочных эффектов?
Объем ресурсов, использованных для внедрения изменения, соответствовал запланированному?
Изменение было внедрено своевременно и без превышения затрат?
План внедрения функционировал корректно?
План восстановления функционировал корректно, если это было необходимо?
И т.д.

Если изменение осуществлено успешно, запрос на изменение (RFC) может быть закрыт. Это происходит на этапе оценки результатов внедрения (PIR). Если же изменение закончилось неудачно, процесс возобновляется с того места, где он вызвал сбой, с использованием нового подхода. Иногда бывает лучше сделать возврат назад и создать новый или модифицированный запрос на изменение (RFC). Продолжение работы с неудачным изменением часто приводит к ухудшению ситуации.

Оценка результатов внедрения (PIR) - обзор, выполняемый после внедрения изменения или проекта. Оценка результатов внедрения определяет успешность изменения или проекта и выявляет возможности для улучшения.

В зависимости от природы изменения оценку можно проводить или через несколько дней, или через несколько месяцев. Например, оценка изменения в использующемся ежедневно персональном компьютере может быть совершена через несколько дней, а изменение в системе, использующейся раз в неделю, может быть сделана только через три месяца.

Проведение экстренных изменений

Как бы хорошо ни проводилось планирование, могут быть изменения, требующие наивысшего приоритета. Экстренные изменения очень важны для компании и они должны осуществляться как можно скорее. Они требуют отдельных процедур для срочной обработки, но с сохранением общего контроля со стороны процесса управления изменениями. В случае возникновения такой ситуации может быть организовано совещание совета по экстренным изменениям (eCAB).

Совет по экстренным изменениям (еСAB) - группа людей в составе совета по изменениям, которые принимают решения по экстренным изменениям. Решение о составе участников совета по экстренным изменениям может быть принято непосредственно при организации совещания. Необходимость участия определяется исходя из сути срочного изменения.

Если для этого нет времени или если запрос поступил в нерабочее время, должен существовать альтернативный способ получения авторизации изменения. Это не обязательно должна быть встреча «лицом к лицу», вместо нее можно провести телефонную конференцию.

Политики и базовые принципы процесса управления изменениями

Политики процесса управления изменениями должны выполняться для обеспечения результативности и эффективности процесса, и могут включать следующие аспекты:

Абсолютная недопустимость неавторизованных изменений, создание культуры изменений
Соответствие управления изменениями процессам управления изменениями и проектами заказчиков
Категоризация изменений, например инновационные, исследовательские, превентивные, корректирующие изменения
Определение ответственности за изменения на всех стадиях жизненного цикла услуги
Разделение ответственности за управление
Создание единой точки ответственности за изменения для уменьшения вероятности конфликтующих изменений и риска сбоев в продуктивной среде

Показатели процесса управления изменениями

Для управления и оценки эффективности процесса управления изменениями, а также для обеспечения обратной связи с другими процессами управления, ITIL предлагает использовать следующие основные показатели:

Процент изменений, удовлетворивших требованиям заказчика
Польза от изменения, выраженная как «ценность сделанных улучшений» + «предотвращенное негативное воздействие» по сравнению с затратами на проведение изменения
Уменьшение количества нарушений услуг, дефектов и переделок, вызванных неточными спецификациями или недостаточной оценкой влияния
Уменьшение количества неавторизованных изменений
Уменьшение очереди запросов на изменения, процента незапланированных изменений и срочных исправлений
Уменьшение количества изменений, потребовавших восстановления
Уменьшение количества неуспешных изменений
Среднее время исполнения по срочности/приоритету/типу
Количество инцидентов, связанных с изменением
Точность оценки изменений

Ценность для бизнеса

Внедрив процесс управления изменениями в соответствии с рекомендациями ITIL и решив все сложности, которые могут возникнуть при внедрении, может быть полученна следующая ценность для бизнеса в целом:

Выставление приоритетов запросам на изменение от бизнеса и заказчиков и реакция на них
Внедрение изменений, соответствующих согласованным требованиям к услугам оптимально по затратам
Уменьшение количества неуспешных изменений, приводящих к прерыванию услуги, дефектам и переделкам
Проведение изменений в соответствии с временными рамками, определенными бизнесом
Отслеживание изменений в рамках жизненного цикла услуги и активов своих заказчиков
Лучшая оценка качества, времени и стоимости изменений
Оценка рисков, связанных с изменениями услуг (вводом или выводом из эксплуатации)
Увеличение производительности персонала за счет минимизации количества незапланированных или «срочных» изменений, и, как следствие, увеличение доступности услуг
Сокращение среднего времени восстановления за счет более быстрого и успешного внедрения корректирующих изменений
Поддержка связи с процессом изменений бизнеса для выявления возможностей совершенствования бизнеса

Хотели бы Вы, чтобы предоставляемые вам услуги была качественными? Думаю, да. Одной из основных задач ITSM, и ITIL в том числе, является предоставление качественных ИТ-услуг.

Управление ИТ- услугами (IT service management, ITSM) - внедрение и управление качественными ИТ-услугами, которые соответствуют потребностям бизнеса.

Не всегда мнение провайдеров ИТ-услуг и заказчиков в отношении качества услуг сходится.

Качество - способность продукта, услуги, или процесса предоставлять ожидаемую потребителем ценность. Например, качество компонента может считаться высоким, если его работа оправдывает ожидания и обеспечивает требуемую надежность.

Выше приведено определение качества в соответствии с ITIL. Т.е. если мы хотим предоставлять качественные услуги, необходимо чтобы они соответствовали ожиданиям заказчика.

Как гласит известно утверждение: «Нельзя управлять тем, что нельзя измерить». Таким образом, чтобы обеспечить предоставление качественных услуг, необходимо сначала ожидания заказчика в отношении ИТ-услуг выяснить, согласовать, возможно в чем-то ограничить, например, если требование заказчика нереализуемо, и представить в измеримом виде. Дальше остается обеспечивать соответствие фактических параметров услуги ожиданиям заказчика и подтверждать это предоставлением соответствующей отчетности.

В соответствии с ITIL за согласование и документирование целевых показателей уровня услуги и ответственностей в соглашении об уровне услуги (SLA) и требованиях к уровню услуг (SLR) для каждой услуги и связанной с ней ИТ-деятельностью отвечает процесс управления уровнем услуг, который является жизненно важным процессом для каждой организации-поставщика ИТ-услуг.

Управление уровнем услуг (service level management) - процесс, отвечающий за обсуждение и заключение выполнимых соглашений об уровне услуг, и обеспечивающий их выполнение. Управление уровнем услуг отвечает за соответствие процессов управления ИТ-услугами, соглашений операционного уровня и внешних договоров согласованным целевым показателям уровня услуги. Управление уровнем услуг отслеживает и предоставляет отчётность по уровням услуг, проводит регулярную оценку услуг совместно с заказчиками и определяет необходимые улучшения.

Соглашении об уровне услуги (service level agreement, SLA) - cоглашение между поставщиком ИТ-услуг и заказчиком. Соглашение об уровне услуг описывает ИТ-услугу, документирует целевые показатели уровня услуги, указывает зоны ответственности сторон - поставщика ИТ- услуг и заказчика. Одно соглашение об уровне услуг может распространяться на множество ИТ-услуг или множество заказчиков.

Требование к уровню услуг (service level requirement, SLR) - требование заказчика к ИТ-услуге. Требования к уровню услуг основаны на бизнес-целях и используются для переговоров и согласования целевых показателей уровня услуги.

Через формирование целевых значений уровня услуг управление уровнем услуг задает требования и параметры работы для ряда других операционных и тактических процессов ITIL, таких как: управление инцидентами, управления запросами на обслуживание, управление проблемами, управление изменениями, управление релизами, управление доступностью и др.

Целевой показатель уровня услуги (service level target) - обязательства, зафиксированные в соглашении об уровне услуг. Целевые показатели уровня услуги основываются на требованиях к уровню услуг и нужны для обеспечения того, чтобы ИТ-услуга соответствовала бизнес-целям. Целевые показатели уровня услуги должны соответствовать критерию SMART, и обычно основаны на ключевых показателях эффективности.

Если эти целевые значения уровня услуг соответствуют и точно отображают требования бизнеса, тогда услуга, предоставляемая поставщиками услуг, будет вровень с требованиями бизнеса и удовлетворит ожидания заказчиков и пользователей в отношении качества услуги. Если цели не соответствуют бизнес-нуждам, тогда деятельность поставщиков услуг и уровень услуг не будет соответствовать бизнес-ожиданиям и могут появиться проблемы. Соглашению об уровне услуги - уровень гарантии или заверения относительно уровню качества услуги, предоставляемой поставщиком услуг для каждой услуги, предоставляемой бизнесом.

Управление уровнем услуг — это процесс, который связывает поставщика ИТ-услуг и заказчика. Этот процесс имеет следующие задачи:

Определять, документировать, согласовывать, осуществлять мониторинг, готовить отчетность и проводить оценку в отношении уровня предоставляемых ИТ услуг
Обеспечивать и улучшать отношения и коммуникации с бизнесом и заказчиками
Обеспечивать наличие точных и измеримых целей для всех ИТ услуг
Осуществлять мониторинг и повышать удовлетворенность заказчиков качеством услуг
Обеспечивать ясность и недвусмысленность ожиданий в отношении уровня услуг со стороны ИТ и заказчиков
Обеспечивать внедрение проактивных улучшений уровня услуг в случаях, когда это оправдано и рационально.

Управление уровнем услуги должен обеспечивать постоянную связь и коммуникацию менеджеров организаций заказчиков и бизнеса. Это должно давать представление бизнесу о поставщике услуг и поставщику ИТ-услуг о бизнесе.

В охват процесса управления уровнем услуг должно быть включено:

Организация отношений с бизнесом
Обсуждение и согласование текущих требований и целей, документирование и сопровождение SLA для предоставляемых услуг
Обсуждение и согласование требований и целей, документирование и сопровождение SLR для планируемых новых и изменяемых услуг.
Формирование и сопровождение соглашений операционного уровня (OLA) для поддержки целей SLA.
Оценка и согласование с целями SLA всех внешних договоров (UC) - совместно с управлением поставщиками.
Предупреждение сбоев, снижение рисков и внедрение улучшений услуг совместно тс другими процессами.
Предоставление отчетности и оценку в отношении всех услуг и анализ всех отклонений от целей SLA.
Инициация и координация плана совершенствования услуг (SIP).

Соглашение операционного уровня (operational level agreement, OLA) - соглашение между поставщиком ИТ-услуг и другой частью той же организации.

Внешний договор (underpinning contract, UC) - договор между поставщиком ИТ-услуг и третьей стороной. Третья сторона предоставляет товары или услуги, поддерживающие предоставление ИТ-услуг для заказчика. Внешний договор определяет предмет и зоны ответственности, необходимые для достижения согласованных целевых показателей уровня услуги в одном или нескольких соглашениях об уровнях услуги.

План совершенствования услуг (service improvement plan, SIP) - формальный план для внедрения улучшений в процессе или ИТ-услуге.

Деятельность в рамках процесса управления уровнем услуг

На рисунке приведена общая схема процесса управления уровнем услуг.

По мере усиления зависимости бизнеса от ИТ-сервисов возрастает спрос на высококачественные ИТ-услуги. Как было определено выше, качество услуги определяется ожиданиями заказчика, а также постоянным управлением этими ожиданиями, стабильностью услуги и приемлемостью уровня расходов. Поэтому самый лучший способ обеспечить соответствующий уровень качества — обсуждение этого вопроса с самим заказчиком.

Требования заказчиков должны быть представлены в поддающихся измерению значениях, с тем чтобы можно было их использовать при разработке и мониторинге ИТ-услуг. Если метрики не согласованы с заказчиком, то нельзя будет проверить, насколько услуги соответствуют достигнутым договоренностям.

Первым шагом к заключению соглашения о предоставляемых в настоящий момент или в будущем ИТ-услугах должны стать идентификация и определение потребностей заказчика в виде требований к уровню услуг (SLR). Помимо выполнения этого вида деятельности в самом начале данного процесса, рекомендуется делать это регулярно по запросам заказчика или по инициативе самой ИТ-организации и охватывать ею как новые, так и уже существующие услуги.

Первичное определение того, что следует включать в требования к уровню услуги и соглашения об уровне услуг - очень непростая задача. Следует учитывать возможности и ограничения всех процессов в отношении измеримости и достижимости тех или иных целей услуги.

Если существуют какие-либо сомнения в достижимости целей услуги, затребованной бизнесом, то можно включить соответствующие цели в пилотное соглашение для мониторинга и оценки в течение контрольного гарантийного периода. Это поможет получить необходимую статистику и провести необходимые коррекции.

Хотя многие организации стремятся в первую очередь документировать предоставляемые услуги, заключив соответствующие соглашения об уровне услуг, согласование требований к уровню услуги для новых разрабатываемых или приобретаемых услуг также является очень важной задачей.

Требования к уровню услуги должны быть интегральной частью критериев проектирования услуг, в которые входят также функциональные спецификации. Они должны с самых ранних стадий проектирования определять критерии тестирования и обкатки для различных стадий проектирования и разработки или закупки. Требования к уровню услуги будет постепенно уточняться на каждом этапе жизненного цикла, становясь пилотным соглашение об уровне услуг на этапе начальной поддержки. Проект соглашения об уровне услуг должен быть подписан и формализован перед передачей услуги в эксплуатацию и использование.

Опыт показывает, что часто заказчики сами не могут четко определить свои ожидания, они просто предполагают, что им будут предоставлены некоторые услуги без каких-либо определенных договоренностей. Заказчику может понадобиться помощь в понимании и формулировании требований, особенно в отношении мощностей, безопасности, доступности и непрерывности. Будьте готовы к тому, что первичные требования не будут тут же согласованы и утверждены. Может потребоваться несколько итераций в обсуждении требований до того, как приемлемый баланс между желаниями и возможностями будет достигнут. Эти итерации могут требовать перепроектирования сервисного решения.

Следует заметить, что для поддержки новых услуг могут потребоваться дополнительные ресурсы. Часто имеют место ожидания, согласно которым и так уже перегруженный персонал волшебным образом справится с дополнительной нагрузкой, вызванной новыми услугами.

Используя проект соглашения как основу, можно вести переговоры с заказчиками или их представителями, чтобы завершить определение содержания соглашений об уровне услуг и начальные цели уровня услуги, и с поставщиками, чтобы обеспечить уверенность в достижимости этих целей.

Управление уровнем услуги должно проектировать подходящую структуру соглашений об уровне услуги для гарантии того, что все услуги и все заказчики охвачены в нужном объеме относительно нужд организации. Существует ряд возможных вариантов структур, включая нижеследующие:

соглашения об уровне услуги, основанные на одной услуге;
соглашения об уровне услуги, базирующиеся на заказчиках;
многоуровневые соглашения об уровне услуг.

Соглашения об уровне услуги, основанные на одной услуге - это когда соглашение об уровне услуги затрагивает одну услугу для всех заказчиков этой услуги. Например, Соглашение об уровне услуги может быть заключено для услуги электронной почты, затрагивая всех заказчиков этой услуги. Тем не менее, могут возникнуть трудности, если появятся отличия в требованиях различных заказчиков одной услуги, или если характеристики инфраструктуры означают, что различные уровни услуг неизбежны.

Например: персонал головного офиса может связываться с помощью быстрой локальной сети, тогда как локальные офисы должны использоваться медленной линией глобальной сетью. В таких случаях могут быть даны отдельные цели в одном соглашении. Тем не менее, до тех пор, пока предоставляется общий уровень услуг во всех областях бизнеса, например для услуги электронной почты, соглашения об уровне услуг, основанные на одной услуге, могут служить примером эффективного подхода. В одном соглашении могут быть несколько уровней услуг, например золотой, серебряный или бронзовый.

Соглашения об уровне услуги, базирующиеся на заказчиках - соглашение с индивидуальной группой заказчиков, покрывающее все услуги, которые они используют. Например, соглашения могут быть достигнуты путем покрытия финансовым отделом организации финансовых систем, бухгалтерских систем, расчетных систем, систем счетов, систем закупок и любых других ИТ-систем, которые они используют. Заказчики часто предпочитают такие соглашения, так как все их требования в этом случае покрываются одним документом. Как правило, достаточно одной подписи со стороны заказчика, что упрощает согласование.

Комбинация любых вариантов структуры возможна при условии отсутствия дублирований.

Некоторые организации используют многоуровневую структуру соглашений об уровне услуг. Она может включать в себя, например, три уровня:

корпоративный уровень покрывает все общие вопросы управления уровнем услуг, применимые ко всем заказчикам в организации, как правило, эти разделы не требуют частого пересмотра;
уровень заказчиков описывает особенности предоставления услуг конкретным заказчикам или группам бизнес единиц, характерные для всех предоставляемых им услуг;
уровень услуг описывает специфику отдельных услуг, предоставляемых определенному заказчику или группе заказчиков.

Такая структура позволяет размеру моглашения об уровне услуги оставаться в управляемых пределах, предупреждает ненужное дублирование и снижает потребность в частых обновлениях. Однако это предполагает дополнительные усилия для поддержания целостности связей в каталоге услуг и в системе управления конфигурациями .

Многоуровневые соглашения об уровне услуг увеличивают управляемость и уменьшают дублирование документации в организации. Это означает, что обновления происходят только когда требуется. В пределах организации могут быть изменены названия уровней, например: корпоративный, отдел и сервис или группа, бизнес-область и сервис.

Необходимо убедиться, что администрирование многоуровневых SLA контролируется, так как любое введенное изменение будет иметь влияние на других уровнях. Это касается любых изменений, сделанных в корпоративном SLA - они должны быть сообщены другим уровням. Администрирование многоуровневых SLA сложное, но оно проще, чем администрирование большого количества SLA, не объединенных в такую иерархию.

Многие организации считают необходимым использовать стандарты и/или шаблоны соглашений, которые используются как основа при подготовке конкретных соглашений об уровне услуг. Такие шаблоны могут быть использованы для разработки набросков (проектов) соглашений.

Разработка стандартов и образцов обеспечивает последовательную разработку всех соглашений, что в свою очередь облегчает их последующие использование, управление и эксплуатацию.

Определение ролей и ответственностей - часть соглашения об уровне услуги. Следует рассматривать три перспективы - ИТ-поставщик, ИТ-заказчик и фактический пользователь.

Формулирование соглашения должно быть ясным и кратким и не должно оставлять место для неясностей. Как правило, не требуется написание соглашений в правовой терминологии, и простой язык помогает обычному пониманию. Полезно привлекать независимых лиц для финальной вычитки, которые не были вовлечены в создание проектов соглашений.

Важно, чтобы задокументированные и согласованные цели были разъяснены, специфичны и недвусмысленны, так как они предоставляют базу для отношений и обеспечения качества предоставляемой услуги.

Не следует включать в соглашение об уровне услуг требования, будущее предоставление которых не может мониториться и измеряться на согласованном уровне. Важность этого не может быть переоценена, также как включение пунктов, которые не могут эффективно мониториться, почти всегда приводит к спорам и возможной потере доверия со стороны заказчика. Немало организаций поняли это на своих ошибках и как результат получили огромные издержки как в финансовом плане, как и в собственном имидже. Совершенно необходимо, чтобы были определены обстоятельства, препятствующие выполнению соглашений и действия в случае возникновения таких обстоятельств.

Следует оценить и при необходимости обновить существующие возможности в области мониторинга. В идеальном варианте это должно быть сделано до или одновременно с проектированием соглашения об уровне услуг, что поможет использовать мониторинг при утверждении предлагаемых целей.

Крайне важно, чтобы мониторинг соответствовал восприятию услуги заказчиком. К сожалению, часто этого очень непросто достичь. Например, мониторинг отдельных компонентов, таких как сеть или сервер, не гарантирует, что услуга будет доступна заказчику так, как он этого ожидает. Заказчик часто тревожится только об услуге, которую не может получить, хотя сбой может касаться и других услуг. Полную картину невозможно получить, не обеспечивая мониторинга всех компонентов и услуги в целом, а это сложно и дорого. Соответственно, пользователи должны знать, что им следует сообщать об инцидентах немедленно, особенно - об инцидентах, связанных с производительностью, чтобы помочь работе поставщика по мониторингу.

Существует ряд важных параметров, которые невозможно померить с помощью средств мониторинга, таких, как восприятие услуг заказчиками (и оно не обязательно совпадает с результатами мониторинга). Например, даже в случае, когда произошел ряд инцидентов, заказчик может сохранять позитивное восприятие услуги благодаря заметным и правильным действиям по исправлению ситуации. Разумеется, возможна и обратная картина, когда заказчик остается неудовлетворенным в отсутствие нарушений соглашения об уровне услуг.

Для начала стоит попробовать управлять ожиданиями заказчиков. Это значит сформировать верные ожидания и цели, а затем систематически проактивно их корректировать, помня, что «удовлетворенность = восприятие - ожидания» (при значении большем или равном нулю заказчик удовлетворен). Соглашение об уровне услуг - это просто документы, и сами по себе не заменяют качество предоставляемой услуги (хотя и могут влиять не поведение и могут способствовать развитию должной культуры услуги, что даст и кратко- , и долгосрочный положительный эффект). Определенная степень терпения должна быть проявлена и быть частью ожиданий.

Там, где предоставляемые услуги оплачиваются заказчиком, цены можно использовать для управления спросом. (Заказчики могут получить все, что могут обосновать - при условии соответствия стратегии предприятия - и имеют на это авторизованный бюджет, который ограничен.) Там, где взаиморасчетов нет, необходимо заручится поддержкой высшего руководства, ограничивающей нереалистичные ожидания заказчиков.

периодическое анкетирование и опросы заказчиков;
обратная связь на встречах по оценке услуг;
обратная связь при проведении оценки проведенных изменений;
телефонные опросы, проводимые службой Service Desk;
анкеты удовлетворенности, раздаваемые при выполнении обслуживания и др. контактах;
общение с группами пользователей (на форумах и т.п.);
анализ жалоб и благодарностей.

Там, где возможно, стоит определить целевые значения удовлетворенности и контролировать их как часть соглашения об уровне услуг. Обеспечьте наличие ответа на любое проявление обратной связи со стороны пользователей, демонстрируя им, что их комментарии были включены в ваш план действий (План улучшения услуг). Все измерения удовлетворенности должны оцениваться, отклонения - анализироваться, по результатам анализа должны планироваться корректировки.

Поставщики услуг зависят от собственных команд поддержки и внешних партнеров или поставщиков. Они не могут гарантировать выполнение соглашений об уровне услуг, если внутренние и внешние зависимости не поддерживают те же цели. Контракты с внешними поставщиками - обязательны, но многие организации находят полезным также формирование простых соглашений между внутренними группами, обычно именуемых соглашениями операционного уровня. «Поддерживающие соглашения» - общий термин для всех поддерживающих соглашений операционного уровня, соглашений об уровне услуг и контрактов.

Соглашения операционного уровня не должны быть слишком сложными, но должны устанавливать четкие цели для групп поддержки, обеспечивающие исполнение целей соглашения об уровне услуг. Например, если соглашение об уровне услуг требует устранять инциденты за определенное время, Соглашение операционного уровня должны включать соответствующие ограничения для каждого элемента в цепочке поддержки. Очевидно, что цели в соглашение об уровне услуг в этом случае не должны совпадать с целями в поддерживающих соглашениях, так как соглашения об уровне услуг определяют общее время, включающее в себя работу нескольких групп, для каждой из которой может быть согласовано поддерживающее соглашение.

В Соглашения об уровне услуг следует включить время ответа на обращения, время эскалации инцидентов техническим специалистам, время их реакции. Также должны быть определены часы поддержки для каждой поддерживающей группы. Если существуют специальные процедуры контакта для персонала (телефонная линия для обращений в нерабочее время и т.п.), это также следует документировать.

Соглашение операционного уровня следует контролировать на соответствие установленным в соглашениях об уровне услуг и поддерживающих контрактах целям, формировать соответствующую отчетность и доводить ее до менеджеров команд поддержки. Это может помочь выявить потенциальные проблемные области, требующие корректировок в работе или в соглашениях. Серьезное внимание следует уделить разработке формальных соглашений операционного уровня для всех внутренних команд, участвующих в поддержке и предоставлении операционных услуг.

Соответственно, перед подписанием нового или пересмотренного соглашения об уровне услуг важно проанализировать существующие контрактные соглашения и, где необходимо, обновить их. Это может потребовать дополнительных затрат, со стороны ИТ или заказчика. В последнем случае требуется согласование этих затрат с заказчиком, или в контракты следует включить более мягкие цели. Эту проверку надо проводить совместно с управлением поставщиками, чтобы обеспечить не только исполнение требований процесса управления уровнем услуг, но и соответствие другим ограничениям, в частности - контрактным политикам и стандартам.

Как только соглашение об уровне услуг согласовано и принято, следует обеспечить мониторинг и формирование отчетности о достигаемом уровне услуг. Операционная отчетность должна формироваться часто (не реже, чем еженедельно), и, если возможно, отчеты об отклонениях должны формироваться по факту отклонений (или угрозы отклонений) от соглашения об уровне услуг. Часто выполнение соглашения об уровне услуг на начальном этапе эксплуатации новой услуги затруднено из-за большого количества поступающих запросов на изменение. Рекомендуется ограничить разрешенное число запросов на изменение на этом этапе.

Механизмы формирования отчетности, интервалы и формат предоставления отчетов должны быть согласованы с заказчиками. То же касается частоты и формата встреч по оценке услуг. Рекомендуются регулярные интервалы, синхронизированные с предоставлением регулярной отчетности.

Периодическая отчетность должна формироваться и направляться заказчикам или их представителям и соответствующим ИТ менеджерам за несколько дней до встреч по оценке услуг, чтобы возможные сложности и несогласия были устранены до встречи и не мешали оценивать услуги.

Периодическая отчетность должна содержать детали производительности в сравнении с целями соглашений об уровне услуг, а также описание тенденций и действий по улучшению качества услуг. Удобно бывает включать в отчеты соглашений об уровне услуг таблицы на первой странице отчета, чтобы можно было составить быстрое представление о соответствии услуги целям. Менеджеры ИТ могут запросить промежуточную отчетность для оценки исполнения соглашения операционного уровня и контрактов. Формирование отчетности - это развивающийся процесс, первый результат вряд ли будет финальным.

Процесс управления уровнем услуг должен определить потребности в отчетности и автоматизировать ее подготовку, насколько это возможно. Вариативность, точность и простота распространения отчетов - важная часть критериев выбора средства автоматизации. Сервисная отчетность должна не только включать в себя подробности о производительности услуг, но также предоставлять историческую информацию о прошлых значениях и тенденциях, что позволит оценить результативность мер по совершенствованию услуг и спланировать их.

Следует организовать периодические встречи с заказчиками для совместной оценки услуг по итогам прошедшего периода и случившихся отклонений и трудностей. Обычно это встречи ежемесячные или, по крайней мере, ежеквартальные.

На этих встречах должны планироваться меры по исправлению слабых мест в предоставлении и потреблении услуг. Решения должны протоколироваться, а их исполнение - отслеживаться и проверяться на следующих встречах.

Особое внимание следует уделить прерываниям услуг; должны быть выяснены причины и возможные меры по предотвращению повторов таких инцидентов. Если решено, что установленные ранее цели недостижимы, может быть принято решение об оценке, повторном обсуждении и согласовании целей услуги. Если прерывание услуги было связано с зависимостью от третьих сторон, может возникнуть необходимость в пересмотре поддерживающих соглашений. Анализ потерь, связанных с прерыванием услуги, дает важную информацию для планирования рациональных улучшений. Постоянное стремление к совершенствованию должно учитывать интересы бизнеса, концентрируя усилия в наиболее важных и выгодных областях.

О ходе и результатах исполнения плана улучшения услуг должна формироваться отчетность для оценки соблюдения плана и результативности предпринятых мер.

Все виды соглашений должны поддерживаться в актуальном состоянии. Они должны находиться под контролем управления изменениями и конфигурациями и периодически проверяться, не реже одного раза в год, для обеспечения актуальности, полноты и соответствия бизнес нуждам и стратегии.

Эти проверки должны обеспечивать актуальность соглашений с точки зрения охвата и установленных целей, подтверждая, что соглашения не утратили валидность (пригодность) вследствие каких-либо изменений в инфраструктуре, бизнесе, поставщиках и т.д. При обновлении соглашений вносимые изменения должны проводиться под контролем управления изменениями. Если соглашения отражены в системе управления конфигурациями как КЕ, этот контроль осуществлять легче, а его результаты достовернее.

Проверки должны также касаться общих стратегических документов, чтобы можно было быть уверенными в соответствии соглашений стратегии ИТ и бизнеса и политикам.

Очень важно, чтобы процесс управления уровнем услуг сформировал отношения доверия и уважения с бизнесом, особенно с ключевыми его представителями. Для того, чтобы это было возможным, процесс управления уровнем услуг должен выполнять следующие виды деятельности:

подтверждать списки заинтересованных сторон, заказчиков, бизнес руководителей и пользователей;
содействовать поддержанию точных данных в портфеле и каталоге услуг;
обеспечивать гибкость и готовность отвечать на нужды бизнеса, заказчиков и пользователей, понимание текущих и планируемых бизнес процессов и их требований к новым и изменяемым услугам, документирование и обсуждение этих требований с бизнесом, заказчиками и пользователями, формируя долгосрочные отношения;
обеспечивать полное понимание стратегии, планов, потребностей и задач бизнеса, заказчиков и пользователей, развивая партнерство между ними и ИТ;
регулярно проводить обзор работы и изучение опыта заказчиков - внутренних и внешних - и передавать соответствующую информацию в ИТ;
обеспечивать наличие и результативность процедур взаимодействия и их постоянное улучшение;
организовывать и проводить исследования удовлетворенности заказчиков, обеспечивая их анализ и действия по результатам;
представлять поставщика услуг на встречах групп пользователей;
проактивно исследовать рынок, анализируя использование услуг и влияя на портфель и каталог услуг;
работать с бизнесом, заказчиками и пользователями для того, чтобы обеспечить, что ИТ обеспечивает уровень услуг, соответствующий текущим и будущим нуждам бизнеса;
способствовать осведомленности о услугах и пониманию услуг;
повышать осведомленность о бизнес выгодах от использования новых технологий;
способствовать определению и обсуждению корректных, достижимых и реалистичных требований к уровню услуги и соглашений об уровне услуг между ИТ и бизнесом;
обеспечивать понимание бизнесом, заказчиками и пользователями их отношений с ИТ и зависимостей;
способствовать учету улучшений и совершенствований.

Процесс управления уровнем услуг также должен включать действия и процедуры по регистрации и управлению жалобами и благодарностями. Регистрация часто выполняется службой Service Desk и выполняется подобно регистрации инцидентов и запросов на обслуживание. Определения жалобы и благодарности должны быть согласованы с заказчиками вместе с точками и процедурами контакта. Все жалобы и благодарности должны регистрироваться и передаваться соответствующим сторонам. По всем жалобам также должны предприниматься действия и решения, удовлетворяющие инициатора. На случай, когда этого не происходит, должны быть определены контакты и процедуры эскалации. Все серьезные жалобы должны анализироваться и доводиться до сведения руководства. По статистике, тенденциям, действиям и результатам в области обработки жалоб и благодарностей должна формироваться отчетность.

Показатели процесса управления уровнем услуг

CSF Важно обеспечить управление качеством сервисов в целом, включая охват и уровень предоставления:

KPI Доля снижения несоответствий целям SLA
KPI Доля снижения угроз несоответствий
KPI Доля улучшений в восприятии и удовлетворенности заказчиков достижениями SLA на основании встреч по оценке сервисов и опросов удовлетворенности
KPI Доля снижения несоответствий, связанных с зависимостью от третьих сторон (UC)
KPI Доля снижения несоответствий, связанных с зависимостью от внутренних подрядчиков (OLA)

CSF Предоставление сервисов в соответствии с договоренностями за приемлемые деньги:

KPI Число и доля повышения числа полностью документированных SLA
KPI Доля улучшений в SLA, направленных на совершенствование уже предоставляемых сервисов
KPI Доля снижения стоимости предоставления сервисов
KPI Доля снижения стоимости мониторинга и отчетности по SLA
KPI Доля повышения скорости разработки и согласования SLA
KPI Частота встреч по оценке сервисов

CSF Управление интерфейсом между бизнесом и пользователями:

KPI Повышение числа сервисов, покрытых SLA
KPI Документирование и согласование процесса и процедур SLM
KPI Снижение времени ответа и исполнения для запросов на SLA
KPI Повышение доли SLA, пересматриваемых вовремя
KPI Снижение доли невыполненных SLA, подлежащих пересмотру
KPI Снижение доли SLA, требующих корректировки
KPI Повышение охвата OLA и UC при снижении числа соглашений за счет их консолидации и централизации
KPI Наличие документальных свидетельств улучшений по выявленным отклонениям от SLA
KPI Снижение числа и тяжести несоответствий целям SLA
KPI Эффективная оценка и обработка всех отклонений и несоответствий от SLA, OLA, UC

ITIL выделяет субъективные и объективные показатели эффективности управления уровнем услуг. Объективные:

Число или доля достигнутых целей услуги
Число и степень (тяжесть) отклонений и нарушений
Число актуальных SLA (up-to-date)
Число услуг, по которым своевременное предоставляется отчетность и проводится оценка

Субъективные:

Улучшения удовлетворенности заказчиков

Риски и сложности

При внедрении управления уровнем услуг необходимо учитывать следующие возможные риски и сложности:

Недостаток точных входных данных, вовлеченности и заинтересованности со стороны бизнеса и заказчиков
Потребность в ресурсах и инструментарии для согласования, документирования, мониторинга, отчетности и оценки соглашений и уровней услуг
Процесс может стать излишне бюрократичным, ориентированным на административные процедуры, а не на фактическое проактивное улучшение услуг
Доступ и поддержка корректных и актуальных CMS и SKMS
Неисполнение процедур SLM
Бизнес ориентированные метрики слишком сложно мерить и улучшать, поэтому они не собираются
Несоответствующий задачам уровень контакта и согласования
Высокие ожидания и низкая удовлетворенность заказчиков
Неэффективные коммуникации с бизнесом

Процесс управления проблемами

При предоставлении ИТ-услуг так или иначе случаются инциденты (сбои). И если у вас должным образом организован процесс управления инцидентами и процесс управления событиями, то негативное влияние от возникающих инцидентов будет минимизировано. Если происходят инциденты, значит для этого существует какая-то неизвестная причина. Процесс управления инцидентами начинает действовать с появлением инцидента и прекращает свою работу после исправления ситуации. Это означает, что корневая причина возникновения инцидента не всегда бывает установлена и инцидент может повториться снова. В ITIL эта причина называется проблемой.

Проблема - причина одного или нескольких инцидентов. Обычно при создании записи о проблеме причина неизвестна, и за дальнейшее её расследование отвечает процесс управления проблемами.

Для выяснения корневых причин возникновения как существующих, так и потенциальных ошибок в предоставлении услуг, в рамках процесса управления проблемами производится изучение инфраструктуры и имеющейся информации, включая базу данных инцидентов.

Управление проблемами - процесс, отвечающий за управление жизненным циклом всех проблем. Управление проблемами проактивно предотвращает возникновение инцидентов и минимизирует влияние тех инцидентов, которые не могут быть предотвращены.

Управление проблемами включает в себя проактивные (упреждающие) и реактивные виды деятельности. Задачей реактивных составляющих процесса управления проблемами является выяснение корневой причины прошлых инцидентов и подготовка предложения по ее ликвидации. Проактивное управление проблемами помогает предотвратить инциденты путем определения слабых мест в инфраструктуре и подготовки предложений по ее усовершенствованию.

Таким образом, задачами процесса управления проблемами являются:

Предотвращение возникновения проблем и связанных с ними инцидентов
Прекращение повторения инцидентов
Снижение влияния инцидентов, которые не могут быть предотвращены

Деятельность в рамках процесса управления проблемами

В принципе, любой инцидент, возникший по неизвестной причине, может быть связан с проблемой. На практике инициировать проблему имеет смысл делать только тогда, когда инцидент повторяется, возможно его повторение или если это единичный, но серьезный инцидент.

Деятельность по «идентификации проблем» часто выполняют координаторы проблем. Однако бывает так, что персонал, изначально не вовлеченный в эту работу, например, специалисты по управлению мощностями, тоже может выявлять проблемы. Такие «находки» также следует регистрировать как проблемы.

Регистрационные детали проблем схожи с деталями инцидентов, но в случае проблемы не нужно включать в описание информацию о пользователе и т. д. Однако инциденты, связанные с конкретной проблемой, следует идентифицировать и соответствующим образом регистрировать. Ниже даются примеры случаев, когда могут быть идентифицированы проблемы:

Управление инцидентами не может привязать (match) инцидент к существующим проблемам или известным ошибкам
Анализ тенденций инцидентов показывает, что может существовать проблема
Необходим анализ причины значительного (major) инцидента
Другие ИТ-функции определили, что возможна проблема
Персонал Service Desk не смог определить причину инцидента и есть подозрение, что этот инцидент может повториться
Анализ инцидента группой поддержки показал, что есть (или может существовать) проблема
Уведомление от поставщика о существовании проблемы, которую нужно решить

Возможными признаками проблем могут быть:

Инциденты, повторяющиеся в:

Один и тот же временной промежуток
В одной предметной области (категории)
В одном и том же CI или группе однотипных CI
В одних и тех же локации, заказе, подразделении

Объем однотипных инцидентов превышает некий уровень
Для решения инцидента применено обходное решение
Превышение предельного срока обработки инцидента(ов)

Анализ тенденций позволяет обнаружить области, которым требуется особое внимание. Независимо от метода обнаружения проблемы, все значимые данные о проблеме должны быть зафиксированы в записи о проблеме (problem record):

Информация о пользователе(-ях)
Информация об услуге(-ах)
Информация об оборудовании
Время регистрации
Приоритет, категория
Описание связанных инцидентов
Предпринятые для диагностики и решения действия

Запись о проблеме - запись, содержащая детальное описание проблемы. Каждая запись о проблеме документирует жизненный цикл одной проблемы.

Также, как и инциденты, проблемы должны быть классифицированы. Проблемы можно классифицировать по областям (категориям). Классификация проблемы выполняется одновременного с анализом степени ее воздействия, т. е. уровня серьезности проблемы и ее влияния на услуги (срочность и степень воздействия). Вслед за этим проблеме присваивается приоритет, точно так же, как в процессе управления инцидентами. Затем на основе результатов классификации за проблемой закрепляются ресурсы и персонал и определяется время, необходимое для ее решения.

Классификация проблемы включает в себя следующее:

Известная ошибка - проблема, имеющая задокументированные корневую причину и обходное решение. Известные ошибки создаются и управляются на протяжении их жизненного цикла в рамках процесса управления проблемами. Известные ошибки также могут быть выявлены разработчиками или подрядчиками.

Классификация не является статичной, она может меняться на протяжении жизненного цикла проблемы. Например, наличие обходного решения или быстрого решения поможет снизить срочность проблемы, в то время как новые инциденты могут привести к усилению степени воздействия проблемы.

Расследование и диагностика являются итеративными фазами процесса, они неоднократно повторяются, каждый раз приближаясь все ближе к намеченному результату. Часто делаются попытки воспроизвести инцидент в условиях тестирования. Для решения проблемы могут потребоваться дополнительные знания, например, для анализа и диагностики проблемы можно привлечь специалистов из группы поддержки.

После определения причины проблемы и обходного решения, проблеме присваивается статус «Известной ошибки». Во многих случаях обходное решение для проблемы уже имеется изначально, даже если ошибка найдена самими разработчиками. Но в некоторых случаях обходное решение нужно найти, а затем передать его в процесс управления инцидентами.

Обходное решение - уменьшение или устранение влияния инцидента или проблемы, для которых в текущий момент недоступно полное разрешение. Например, перезапуск отказавшей конфигурационной единицы. Обходные решения для проблем документируются в записях об известных ошибках.

Персонал, участвующий в управлении проблемами, определяет, что необходимо сделать для решения проблемы. Специалисты сравнивают различные решения, принимая во внимание соглашения об уровне услуг (SLA), возможные издержки и выгоды. Все работы по выработке решения должны быть зафиксированы в системе, у персонала должны быть средства для мониторинга проблем и определения их статуса.

На предыдущих этапах происходит выбор оптимального решения. Однако может быть принято решение не исправлять известную ошибку, например, по причине экономической нецелесообразности.

После окончания этапа выбора существует достаточно информации для подачи запроса на изменение. Далее исправление проблемы (известной ошибки) будет произведено под контролем процесса управления изменениями.

Изменение, предназначенное для решения проблемы, должно быть рассмотрено при оценке результатов внедрения до закрытия проблемы. Если изменение дало ожидаемый результат, проблема может быть закрыта, и в базе данных о проблемах ее статус будет изменен на статус «решена». Управление инцидентами будет проинформировано об этом и инциденты, связанные с этой проблемой, тоже могут быть закрыты.

Оценка результатов внедрения - обзор, выполняемый после внедрения изменения или проекта. Оценка результатов внедрения определяет успешность изменения или проекта и выявляет возможности для улучшения.

В течение всего процесса информация об обходных решениях и быстрых исправлениях передается в управление инцидентами. Пользователи также могут информироваться об этом.

Политики и показатели процесса управления проблемами

Политики процесса управления проблемами должны выполняться для обеспечения результативности и эффективности процесса, и могут включать следующие аспекты:

Проблемы должны отслеживаться отдельно от инцидентов
Все проблемы должны храниться и управляться единой системой управления
Все проблемы должны иметь стандартную схему классификации, которая соответствует бизнес процессам предприятия

Для управления и оценки эффективности процесса управления уровнем услуг, а также для обеспечения обратной связи с другими процессами управления, ITIL предлагает использовать следующие основные показатели (CSF и KPI):

CSF Минимизация влияния на бизнес инцидентов, которые не могут быть предотвращены

KPI Количество известных ошибок добавляется KEDB
KPI Процент актуальности KEDB (по аудиту базы данных)
KPI Процент инцидентов, закрытых службой поддержки («первой точкой контакта»)
KPI Среднее время решения инцидентов, по которым открыта проблема

CSF Поддержка качества ИТ-услуг путем устранения повторяющихся инцидентов

KPI Общее количество проблем (как контрольный параметр)
KPI Размер очереди по проблемам для каждой ИТ-услуги
KPI Количество повторно случившихся инцидентов для каждой ИТ-услуги

CSF Обеспечение качества и профессионализма в решении проблем для поддержания уверенности бизнеса в возможностях ИТ

KPI Количество значительных проблем (открытых, закрытых и очередь)
KPI Процент успешно выполненных обзоров значительных проблем
KPI Процент обзоров значительных проблем, завершенных успешно и в срок
KPI Количество и процент проблем, назначенных неправильно
KPI Количество и процент проблем с неверной категоризацией
KPI Очередь накопившихся нерешенных проблем и её тенденция
KPI Количество и процент проблем, превысивших сроки решения
KPI Процент проблем, решенных в рамках целей SLA целей
KPI Средняя стоимость решения одной проблемы

Ценность для бизнеса

Внедрив процесс управления инцидентами в соответствии с рекомендациями ITIL и решив все сложности, которые могут возникнуть при внедрении, может быть полученная следующая ценность для бизнеса в целом:

Повышение качества ИТ сервисов посредством контроля, документирования и/или исключения ошибок в инфраструктуре.
Сокращение количества инцидентов.
Повышение продуктивности персонала
Применение постоянных решений вместо непрерывного «латания дыр».
Систематическая деятельность по накоплению знаний.
Возможность разрешать большее количество инцидентов на первой линии поддержки.
Снижение стоимости усилий при тушении пожаров или разрешения повторных инцидентов

Процесс управления сервисными активами и конфигурациями

В каждой организации имеется информация об ИТ-инфраструктуре. Часто для структурирования и обобщения имеющейся информации разрабатываются различные схемы, которые вешаются на стену. Этот способ действительно позволяет в определенных случаях оперативно получать информацию о конфигурации компонентов инфраструктуры и их взаимосвязях, но при этом имеет ряд недостатков:

сложность актуализации: при внесении каждого изменения схему необходимо перерисовать и печатать заново, в противном случае на нее нельзя полагаться в случае необходимости
ограниченный охват: компоненты инфраструктуры могут быть очень тесно переплетены между собой и не всегда все элементы могут быть отражены на схеме
ограниченность информации: как правило, для каждого элемента указывается только самая важная информация, например, доменное имя или IP-адрес
сложность анализа: при большом охвате схемы и при наличии различных сложных взаимосвязей между компонентами, анализ таких схем затруднителен

Выстроенный в соответствии с рекомендациями ITIL процесс управления сервисными активами и конфигурациями позволяет использовать имеющиеся данных об ИТ-инфраструктуре наиболее эффективным образом, избежав при этом указанных недостатков и получив дополнительные преимущества.

Управление сервисными активами и конфигурациями (SACM) - процесс, отвечающий за обеспечение того, что все активы, необходимые для предоставления услуг, контролируются, а точная достоверная информация о них доступна, когда это необходимо. Эта информация включает в себя конфигурацию активов и взаимоотношения между ними.

Управления сервисными активами и конфигурациями включает в себя два подпроцесса:

Управление активами (Asset Management) - деятельность или процесс, отвечающий за отслеживание и предоставление отчётности о ценности и владении активами на всём протяжении их жизненного цикла
Управление конфигурациями (Configuration Management) - деятельность или процесс, отвечающий за управление информацией о конфигурационных единицах, необходимой для предоставления ИТ-услуг, включая их взаимоотношения.

Задачи процесса управления сервисными активами и конфигурациями:

Идентифицировать, контролировать, документировать, предоставлять отчеты и проверять сервисные активы и конфигурационные единицы, включая версии, базовые конфигурации, компоненты, их атрибуты и взаимосвязи
Отвечать за управление и защиту и защищать целостность сервисных активов и конфигурационных единиц (и, где уместно, принадлежащих заказчику) в течение жизненного цикла услуги, гарантируя, что используются только авторизованные компоненты и проводятся только авторизованные изменения
Обеспечивать целостность активов и конфигураций, требуемую для управления услугами и ИТ инфраструктурой, создавая и поддерживая точную и полную систему управления конфигурациями

Ядром процесса является система управления конфигурациями (CMS). CMS позволяет обеспечить хранение всей необходимой конфигурационной информации, ее анализ и представление в различных разрезах.

Система управления конфигурациями (configuration management system, CMS) - набор инструментов, данных и информации, которые используются для поддержки процесса управления сервисными активами и конфигурациями. CMS - часть общей системы управления знаниями по услугам, включает в себя инструменты для сбора, хранения, управления, обновления, анализа и представления информации обо всех конфигурационных единицах и их взаимоотношениях. CMS может также включать в себя информацию об инцидентах, проблемах, известных ошибках, изменениях и релизах. CMS поддерживается процессом управления сервисными активами и конфигурациями и используется всеми процессами управления ИТ-услугами.

Конфигурационная единица (КЕ) - любой компонент или другой сервисный актив, которым необходимо управлять для того, чтобы предоставлять ИТ-услугу. Информация о каждой конфигурационной единице регистрируется в форме конфигурационной записи в системе управления конфигурациями и поддерживается актуальной в течение всего жизненного цикла процессом управления сервисными активами и конфигурациями. Конфигурационные единицы находятся под контролем процесса управления изменениями. Обычно они включают в себя ИТ-услуги, оборудование, программное обеспечение, здания, людей и документы, такие как процессная документация и соглашения об уровне услуг.

Конфигурационными единицами могут быть технические средства, все виды программного обеспечения, активные и пассивные сетевые элементы, серверы, системные блоки, документация, процедуры, услуги и все другие ИТ-компоненты, контролируемые ИТ-организацией, и т.д. В CMS хранятся следующие типы объектов:

записи о конфигурационных единицах, включающие соответствующие им атрибуты
взаимоотношения (связи) между конфигурационными единицами

Атрибуты позволяют учитывать информацию, необходимую для определённого типа конфигурационных единиц. Например, для серверов и ноутбуков может быть интересна такая информация, как производитель, доменное имя, срок гарантии и т.д. При этом для программного обеспечения эта информация скорее всего будет отличаться.

Атрибут - часть информации о конфигурационной единице. Например, наименование, местоположение, номер версии и стоимость. Атрибуты КЕ записываются в базу данных управления конфигурациями (CMDB) и поддерживаются как часть системы управления конфигурациями (CMS).

Таким образом, каждая конфигурационная единица должна относится к определенному типу (классу), определяющей единые атрибуты для всех КЕ этого типа (класса) и перечень возможных взаимосвязей КЕ данного типа с КЕ другого типа.

Тип КЕ - категория, которая используется для классификации конфигурационных единиц. Тип КЕ определяет, какие атрибуты и взаимоотношения требуются для конфигурационной записи. Обычные типы КЕ - оборудование, документация, пользователь и т.п.

Совокупность КЕ и их взаимоотношений фактически представляют собой конфигурационную модель. На рисунке представлен пример конфигурационной модели.
CMS позволяет эффективным образом учитывать необходимую конфигурационную информацию, анализировать и представлять в различном виде, включая графический. CMS предоставляет информацию другим процессам управления услугами:

для оценки влияния инцидентов и проблем
для оценки влияния изменений
для планирования и проектирования новых и изменяемых услуг
для планирования обновления технологий и ПО
для планирования пакетов релиза и тиражирования услуг
для оптимизации использования активов и затрат

Таким образом, в случае если управление сервисными активами и конфигурациями реализовано эффективно, то этот процесс может дать, например, информацию о следующем:

Финансовая информация и политика компании в отношении продуктов

Какие ИТ-компоненты используются в настоящее время по каждой модели (версии) и на протяжении какого времени?
Какие тенденции существуют в разных группах продуктов?
Какова текущая и остаточная стоимость ИТ-компонентов?
Какие ИТ-компоненты нужно выводить из операционной среды и какие требуют модернизации?
Сколько будет стоить замена определенных компонентов?
Какие имеются лицензии и достаточно ли их?
Какие контракты на сопровождение следует пересмотреть?
Какова степень стандартизации инфраструктуры?

Выявление неисправностей и оценка результатов

Какие ИТ-компоненты необходимы для поддержки процесса восстановления в случае чрезвычайной ситуации?
Будет ли работать план восстановления на случай чрезвычайных обстоятельств, если была изменена конфигурация инфраструктуры?
Какие ИТ-компоненты будут затронуты при развертывании новых сервисов?
Как оборудование подключено к сети?
Какие программные модули входят в каждый из комплектов программного обеспечения?
Какие ИТ-компоненты затрагиваются изменениями?
Какие запросы на изменение (RFC) конкретных ИТ-компонентов находятся на рассмотрении и какие инциденты и проблемы произошли в прошлом и сейчас продолжают оставаться актуальными?
Какие ИТ-компоненты вызывают известные ошибки?
Какие ИТ-компоненты были закуплены у конкретного поставщика в течение определённого периода?

Предоставление услуг и выставление счетов

Какие конфигурации ИТ-компонентов являются существенными для определенных услуг?
Какие ИТ-компоненты используются в том или ином месте и кем?
Какие стандартные ИТ-компоненты может заказать пользователь и какие из них поддерживаются (каталог продуктов)?

Деятельность в рамках процесса управления сервисными активами и конфигурациями

На рисунке приведена схема типовых деятельностей по управлению конфигурациями.

В материалах ITIL «планирование» означает деятельность по организации самого процесса управления конфигурациями. Управление и планирование как вид деятельности, применяется как на этапе создания, так и на этапе совершенствования процесса. Основным результатом планирования является «План управления конфигурациями».

План управления конфигурациями содержит.

Описание процесса управления конфигурациями
Высокоуровневое описание системной архитектуры
План значительных мероприятий (идентификации, крупных релизов и проч.)

План является «живым» документом и подлежит регулярному пересмотру. За актуализацию плана отвечает менеджер процесса управления конфигурациями.

Деятельность по идентификации конфигураций включает:

Определение и документирование критериев по выбору конфигурационных единиц и составляющих их компонентов
Выбор конфигурационных единиц и компонентов на основе документированных критериев
Присвоение уникальных идентификаторов
Определение атрибутов для каждой КЕ
Определение момента, когда КЕ берется под контроль процесса
Определение владельца, ответственного за каждую КЕ

В зависимости от масштаба ИТ инфраструктуры и сложности правил учета, идентификация может занимать много времени и требовать значительное количество ресурсов. Поэтому работы по идентификации должны тщательно планироваться.

Деятельность по управлению КЕ включает следующие аспекты:

Поддержание данных CMDB в актуальном состоянии
Обеспечение целостности данных CMDB (понятны происхождение и история изменений каждой КЕ)
- Ограничение доступа на изменение данных CMDB
- Обеспечение антивирусной защиты средств управления CMDB
- Обеспечение резервного копирования и возможности восстановления данных
Правила контроля должны быть разработаны на этапе планирования процесса
Правила передачи контроля от проектов или поставщиков
Процедуры контроля должны соответствовать типам КЕ

В деятельность по учету статуса конфигураций и отчетности входит:

Поддержка конфигурационных записей в ходе жизненного цикла услуги и архивация их в соответствии с соглашениями, внешними требованиями, передовым опытом и стандартами (например ISO 9001)
Управление документированием, получением и консолидацией текущего статуса конфигурации и статусов всех предшествующих конфигураций для обеспечения корректности, своевременности, целостности и безопасности информации
Обеспечение доступности информации о статусе в течение жизненного цикла услуги
Документирование изменений CI от приемки до вывода из эксплуатации
Обеспечение правильного документирования базовых конфигураций

Верификация и аудит:

Верификация - проверка КЕ на соответствие стандартам или функциональным требованиям:

При первичной регистрации в CMDB
При получении оборудования или ПО от поставщика
При вводе в эксплуатацию

Аудит - проверка соответствия между актуальным состоянием КЕ (как есть) и описанием КЕ в CMDB (как должно быть)

Стандартный аудит
Упрощенный аудит
Текущий (операционный) аудит

Спустя небольшой промежуток времени после внедрения новой системы / процесса управления конфигурациями
Перед и после крупных изменений в ИТ инфраструктуре
Перед развертыванием нового ПО для проверки готовности продуктивной среды
После восстановления от крупного сбоя (чрезвычайной ситуации)
По факту обнаружения большого количества расхождений (например, в рамках операционного аудита)
Регулярно (с заранее определенной периодичностью)
Время от времени («внезапные» проверки)

Показатели процесса управления сервисными активами и конфигурациями

Для управления и оценки эффективности процесса управления изменениями, а также для обеспечения обратной связи с другими процессами управления, ITIL предлагает использовать такие основные показатели, как например:

Процент улучшения поддержки жизненного цикла актива по принципу: не слишком много, не слишком поздно
Степень соответствия поддержки потребностям бизнеса
Активы, идентифицированные как причина сбоев в предоставлении услуг
Увеличение скорости решения инцидентов и восстановления услуг через более быстрое определение сбойных КЕ
Выявление связей между специфическими типами КЕ, инцидентами и проблемами
Более эффективное использование сервисных активов
Более эффективное использование закупленных лицензий, средняя стоимость лицензии на одного пользователя
Более точные бюджет и оплата за использование активов
Более эффективные аудиты активов
Улучшение качества и точности информации об активах
Меньше ошибок, вызванных работой с устаревшими данными
Уменьшение количества и объемов аудита
Уменьшение использования неавторизованного оборудования и ПО, что ведет к уменьшению стоимости и рисков в поддержке услуг
Уменьшение времени и снижение стоимости при диагностике и решении инцидентов и проблем
Уменьшение времени идентификации активов, проблемных по производительности
Уменьшение количества неуспешных изменений, причиной чего явилась неверная оценки влияния, некорректные данные в CMS или плохой контроль версий
Снижение рисков благодаря раннему обнаружению несанкционированных изменений

Сложности

При внедрении управления сервисными активами и конфигурациями необходимо учитывать следующие возможные сложности:

Убеждение персонала технической поддержки соблюдать политики учета, что часто воспринимается как препятствие в быстрой поддержке услуг.
Привлечение и обоснование выделения фондов для процесса, так как, обычно, процесс не виден подразделениям заказчика, обладающим полномочиями по выделению фондов. Обычно финансируется как «невидимый» элемент управления изменениями и других более «заметных» процессов
Подход: «собираем все данные, которые возможно», что ведет к перегрузке процесса, а также к невозможности его поддерживать
Недостаток приверженности и поддержки руководства, не понимающего ключевую роль процесса

Управление инцидентами (Incident Management) - процесс, отвечающий за управление жизненным циклом всех инцидентов. Основная цель Управления инцидентами - скорейшее восстановление услуги для пользователей.

Инцидент (Incident) - незапланированное прерывание услуги или снижение качества услуги. Сбой конфигурационной единицы, который еще не повлиял на услугу, также является инцидентом. Например, сбой одного диска из массива зеркалирования.

Как видно из определения процесса, Управление инцидентами предназначено для максимально быстрого восстановления нормальной эксплуатации услуги и минимизации неблагоприятного влияния на бизнес в случае возникновения инцидента. Под "нормальной эксплуатацией услуги" здесь понимается эксплуатация в соответствии с SLA . Процесс рассматривает все события, которые нарушают или могут нарушить нормальную эксплуатацию услуги. Информация о таких событиях может поступать из разных источников, основными из которых являются звонки пользователей и технического персонала в сервис-деск и процесс Управления событиями.

Ценность Управления инцидентами для бизнеса более очевидна, чем у других процессов этапа Внедрения. Часто именно этот процесс является основой для формирования обоснования бизнесу о необходимости остальных процессов этапа Внедрения. В частности, Управление инцидентами помогает бизнесу тем, что:

быстро находит и разрешает инциденты, в результате чего снижается время простоя услуг, что в целом увеличивает показатели доступности услуг;
выравнивает деятельности IT в соответствии с приоритетами бизнеса;
увеличивает способность выявления возможностей для улучшения услуг в результате расследования инцидентов;
сервис-деск, разрешая инциденты, определяет дополнительные требования IT и бизнеса к услугам и обучению.

Время разрешения инцидента обычно формализовано в рамках SLA , OLA и других базовых соглашений. Команды поддержки должны быть готовы к соблюдению временных ограничений.

ITIL вводит также понятие Модель инцидентов, которая включает в себя:

шаги, которые необходимо предпринять для того, чтобы разрешить инцидент;
хронологический порядок шагов;
распределение ответственностей - кто и что делает;
временные рамки и пороговые величины для завершения каждого действия;
вопросы того, с кем необходимо связать и на каком этапе;

Таким образом, Модель инцидентов описывает последовательность действий при возникновении определенного типа инцидентов. Использование моделей инцидентов позволяет стандартизовать процесс Управления инцидентами и ускорить его. Этот подход применим в отношении часто возникающих "стандартных" инцидентов. "Нестандартные" случаи обрабатываются отдельно, например, инциденты, связанные с информационной безопасностью. В отдельную категорию выделяются "значительные инциденты", которые должны разрешаться максимально быстро. Значительный инцидент (Major Incident ) наивысшая категория влияния для инцидента. Значительный инцидент означает значительные потери для бизнеса. То, какие инциденты будут считаться значительными, каждая организация решает индивидуально.

Для того чтобы разрешить инцидент, его необходимо сначала обнаружить, то есть идентифицировать. С точки зрения непрерывности бизнеса неприемлемо ждать обращений пользователей или технического персонала в сервис-деск. Все ключевые компоненты должны контролироваться, чтобы своевременно обнаруживать сбои или возможности их возникновения.

После того, как инцидент обнаружен, информацию о нем необходимо занести в лог. В логе должно быть отображено время обнаружения инцидента, вне зависимости от того, как он был обнаружен - по звонку в сервис-деск или в результате работы автоматических агентов. В логе также необходимо записать всю связанную с инцидентом информацию. Запись об инциденте должна послужить базой для его разрешения соответствующей командой поддержки.

Запись об инциденте должна включать:

уникальный идентификатор инцидента;
категорию инцидента;
срочность инцидента. Срочность (Urgency) - мера того, насколько быстро с момента своего появления инцидент, проблема или изменение приобретет существенное влияние на бизнес. Например, инцидент с высоким уровнем влияния может иметь низкую срочность до тех пор, пока это влияние не затрагивает бизнес в период закрытия финансового года. Влияние и срочность используются для назначения приоритета.
влияние инцидента;
приоритет инцидента;
дата и время записи;
Имя/ID человека или группы, сделавшей запись об инциденте;
метод уведомления;
имя/отдел/номер/расположение пользователя;
метод обратной связи;
описание симптомов;
статус инцидента;
связанные конфигурационные единицы;
группа поддержки/сотрудник, к кому переадресован инцидент;
связанная с инцидентом проблема/известная ошибка;
деятельности, осуществленные для разрешения инцидента;
время и дата разрешения инцидента;
категория закрытия;
время и дата закрытия.

Следующий этап разрешения инцидента - категорирование . Оно необходимо для дальнейших работ , в частности, поиска известных ошибок и проблем, которые могли послужить причиной для возникновения инцидента. Обычно используется три-четыре уровня категорирования (рис. 12.3).

Рис. 12.3.

Нет стандартных методов для категорирования инцидентов, каждая организация сама определяет, какие категории будет использовать.

Приоритет инцидента определяется исходя из двух понятий - срочности и влияния. Влияние в отношении инцидентов чаще всего определяется на основе количества пользователей, которые он затронул. Тем не менее, этот показатель не всегда является объективным. В некоторых случаях влияние инцидента даже на одного единственного пользователя может оказать значительное негативное влияние на бизнес в целом.

Другие факторы, которые можно использовать для оценки влияния:

риск для жизни или сегмента;
количество услуг, которые затрагивает инцидент;
уровень финансовых потерь;
влияние на бизнес-репутацию;
возникновение нарушений законодательства и требований регуляторов.

В таблицах 12.1 и 12.2 приведен пример матриц для определения приоритета инцидента и времени, в течение которого его необходимо разрешить.

Таблица 12.1.

		Влияние
		Высокое	Среднее	Низкое
Срочность	Высокая	1	2	3
	Средняя	2	3	4
	Низкая	3	4	5

Таблица 12.2.

Приоритет	Характеристика	Время разрешения
1	Критичный	1 час
2	Высокий	8 часов
3	Средний	24 часа
4	Низкий	48 часов
5	Планируемый	Запланировать

Для персонала поддержки необходимо разработать четкие инструкции определения приоритета инцидента на основе срочности и влияния на бизнес. Необходимо отметить, что приоритет инцидента может меняться в зависимости от изменения окружающих условий и требований бизнеса.

Далее следует этап начальной диагностики. В первую очередь он относится к инцидентам, поступившим в сервис-деск. Специалист службы сервис-деск должен попытаться найти причину, вызвавшую инцидент, понять, что именно работает некорректно и выявить максимальное количество характеристик инцидента во время связи с пользователем, например, по телефону. Другими словами, специалист должен попытаться решить инцидент и закрыть его. Если это невозможно, он сообщает пользователю идентификационный номер инцидента.

Если сервис-деск не может разрешить инцидент или сроки первой ступени разрешения инцидентов истекли, инцидент должен быть немедленно передан дальше.

Эскалация (Escalation) - деятельность , направленная на получение дополнительных ресурсов, когда это необходимо для достижения Целевых показателей уровня услуги или ожиданий заказчиков. Эскалация может потребоваться в рамках любого процесса Управления услугами, но наиболее часто ассоциируется с Управлением инцидентами, Управлением проблемами и управлением жалобами заказчика. Существует два типа эскалации: функциональная эскалация и Иерархическая эскалация.

функциональная эскалация. Функциональная эскалация подразумевает передачу инцидента в группу поддержки с более высокой квалификацией и компетенцией. При этом если очевидно, что второй уровень поддержки не сможет разрешить инцидент, его можно сразу передать на третий уровень поддержки . Третий уровень поддержки может включать в себя не только сотрудников организации, но и поставщиков, вендоров и т.п. При этом ответственность за уведомление пользователя о ходе разрешения инцидента остается на сервис-деске, вне зависимости от того, где инцидент рассматривается на данный момент.
иерархическая эскалация. Иерархическая эскалация подразумевает вовлечение или просто информирование руководителей более высокого уровня о возникновении инцидента. Она способствует своевременному принятию решений относительно выделения дополнительных ресурсов и вовлечения внешних организаций в процесс разрешения инцидента.

Следующий этап разрешения инцидентов называется исследование и диагностика . В случаях, когда пользователи обращаются только для поиска информации, сервис-деск должен предоставить ее в минимальные сроки. Но если сообщается о наличии сбоя, это требует определенных действий по исследованию и диагностике инцидента. При этом все предпринятые действия должны быть отображены в записи об инциденте. Действия чаще всего включают в себя:

установление того, что именно не работает или что именно ищет пользователь;
определение хронологии событий;
оценка влияния инцидента, в том числе количества пользователей, которых он затронул;
поиск в базе знаний аналогичных случаев в прошлом.

Когда потенциальное разрешение инцидента определено, необходимо провести тестирование того, что действия по восстановлению завершены, и услуга полностью восстановлена для пользователей. Группа , разрешившая инцидент, должна передать его на закрытие сервис-деску.

Сервис-деск, в свою очередь проверяет, что все действия, необходимые для разрешения инцидента, выполнены, пользователи удовлетворены и согласны закрыть инцидент. Это включает в себя следующее:

закрытие категорирования - производится проверка корректности изначально установленной категории инцидента. Если она оказалось неправильной, ее исправление и занесение изменений в запись об инциденте;
опрос удовлетворенности пользователей - - осуществляется по звонку или электронной почте для статистики и отображения эффективности работы сервис-деска;
проверка полноты записи об инциденте;
определение того, какая проблема вызвала инцидент, является она постоянной или периодически повторяющейся. Сюда относится также определение проактивных действий по предотвращению инцидентов этого типа в дальнейшем и формирование записи о проблеме, если она новая;
формальное закрытие инцидента - формальное закрытие записи об инциденте.

В некоторых случаях инцидент может быть повторно открыт даже после формального закрытия. Правильным будет заранее определить правила о том, как, когда и при каких условиях инцидент может быть повторно открыт. Это используется, в частности, когда в один и тот же день возникают одинаковые инциденты. Для нового инцидента, тем не менее, необходимо сформировать новую запись со ссылкой на предыдущий инцидент. Запись о предыдущем инциденте может быть использована для разрешения нового.

Метриками эффективности процесса Управления инцидентами могут быть:

общее количество инцидентов;
количество инцидентов, находящихся на разных стадиях - закрыт, в работе, передан и т.п.
размер текущего лога об инцидентах;
количество значительных инцидентов;
среднее время разрешения инцидентов;
процент инцидентов, разрешенных в согласованное время разрешения инцидентов;
средние затраты на инцидент;
количество повторно открытых инцидентов и их процентное соотношение к общему количеству инцидентов;
количество инцидентов, неправильно назначенных в команды поддержки;
количество инцидентов, для которых были неправильно определены категории;
количество удаленно разрешенных инцидентов (без персонального присутствия);
количество инцидентов, разрешенных с использованием каждой Модели инцидентов;
количество инцидентов в разрезе определенных интервалов дня.

Для эффективного Управления инцидентами необходимо обеспечить следующее:

способность обнаруживать инциденты как можно раньше. Это включает в себя обучение пользователей немедленно сообщать об инцидентах и конфигурирование инструментов Управления событиями;
убедить персонал в том, что все инциденты должны быть занесены в журнал;
доступность информации об известных проблемах и ошибках. Это позволит персоналу использовать опыт предыдущих инцидентов;
взаимодействие с CMS для определения взаимосвязей конфигурационных единиц и обращения к их истории для поддержки первого уровня;
взаимодействие с SLM для корректной оценки инцидентов, расстановки приоритетов и выполнения процедур Эскалации. SLM в свою очередь может использовать информацию от Управления инцидентами для определения того, что целевые уровни производительности реалистичны и могут быть достигнуты.

Основные риски для процесса Управления инцидентами:

большое количество инцидентов, которые не могут быть разрешены в установленные сроки в связи с недостатком ресурсов или их недостаточной подготовкой;
приостановка разрешения инцидентов из-за некорректной работы поддерживающих инструментов;
недостаточность или несвоевременность информации из-за некорректной работы поддерживающих инструментов или плохой взаимосвязи с другими процессами;
несоответствия с основными контрактами и соглашениями, которые возникают вследствие их плохой проработки и нереалистичности согласованных целевых показателей.