W celu zapewnienia wysokiej jakości usług i serwisów w portalu Onet.pl wdrożony został proces obsługi awarii (Incident Management – IM), który ma za zadanie możliwie jak najszybciej przywrócić do normalnego działania usługi nim objęte, dodatkowo minimalizując negatywny wpływ ich niedostępności. Proces ten ma także za zadanie zapewnić najwyższy z możliwych do osiągnięcia poziom dostępności i jakości usług.

ITIL to jedno z najpowszechniej akceptowanych na świecie podejść do zarządzania usługami informatycznymi (IT Service Management), które w ostatnich kilkunastu latach stało się niepodważalnym światowym standardem w tej dziedzinie. Ogólna koncepcja procesu została przedstawiona na obrazku poniżej.


Źródło: http://itsm.itlife.pl/

W DreamLabie korzystamy z doświadczenia i wiedzy czołowych dostawców produktów wspomagających proces od strony narzędziowej takich jak HP i IBM. Przy pomocy ich narzędzi jesteśmy w stanie sprawnie i dokładnie mierzyć i kontrolować jakość naszej pracy jak i samego procesu.

Trzymając się dobrych praktyk ITIL nasz proces dzieli się na:

  • Rozpoznanie i udokumentowanie awarii
    Ta część procesu nie zawsze znajduje się po naszej stronie. Awarie zgłaszane są także przez użytkowników za pomocą formularzy na stronach Portalu lub za pośrednictwem Działu Obsługi Klienta (DOK). Bardzo ważne jest, aby na temat każdej zgłaszanej awarii zostały zamieszczone wyczerpujące informacje w celu jej szybkiej identyfikacji i naprawy.
  • Klasyfikacja oraz wstępna pomoc
    Incydenty należy podzielić ze względu na ich priorytet, obszar jaki dotknęły oraz rodzaj. W większości przypadków już pierwsza linia wsparcia jest w stanie pomóc naszym użytkownikom dostarczając im rozwiązanie proste i w przystępnej formie. Poważniejsze awarie kierowane są dalszych linii wsparcia w celu dokładniejszej analizy. Dbamy o to aby w ramach procesu usuwania awarii zespół powołany do obsługi zgłoszeń awaryjnych nie realizował zadań innych od tych, do których został przewidziany i stworzony.
  • Analiza problemu i znalezienie przyczyny
    Na tym etapie zarówno programiści jak i administratorzy analizują incydent w celu znalezienia przyczyny jego wystąpienia. Ten etap bywa często bardziej pracochłonny niż wszystkie pozostałe razem wzięte. Zdarza się, że źródłem pojedynczej awarii jest kilka przyczyn co dodatkowo utrudnia analizę.
  • Implementacja rozwiązania
    Po znalezieniu przyczyny wystąpienia awarii przychodzi czas na naprawę. Ważne jest aby podczas naprawy jednego systemu nie popsuć drugiego, a wszyscy wiemy, że takie przypadki się zdarzają. Aby zminimalizować takie ryzyko wdrażanie poprawek odbywa się za pomocą specjalnych ujednoliconych procedur i mechanizmów.
  • Zamkniecie incydentu
    Etap najczęściej szybki i przyjemny. Sprawdzamy, testujemy czy nasze poprawki usunęły awarię. W nielicznych przypadkach, gdy nasze rozwiązanie okazuje się niewystarczające, awaria trafia z powrotem do analizy.
  • Monitoring, śledzenie i komunikacja
    Po wykonaniu niezbędnych prac i usunięciu awarii powiadamiamy zlecającego o jej usunięciu. Wdrożone rozwiązanie jest przez nas śledzone i monitorowane. Każdy incydent jest zapamiętywany i stanowi wiedzę przy rozwiązywaniu podobnych awarii.

Coraz większa liczba jak i stopień skomplikowania serwisów wspieranych przez DreamLab oraz wzrastająca oglądalność sprawiały, że na naprawę błędów poświęcaliśmy coraz więcej czasu. Nagrodzeni Godłem Jakości Obsługi w 2009 roku nie mogliśmy spocząć na laurach. Jednym z działań podjętych w celu polepszenia jakości naszych usług było stworzenie Zespołu IM (Incident Management), którego celem jest kompleksowa i sprawna obsługa zgłaszanych do nas awarii.

W skład zespołu wchodzą programiści pracujący w całym DreamLabie. Zespół ma charakter rotacyjny, więc każdy ma okazję przyczynić się do poprawy jakości naszych serwisów. Takie rozwiązanie ma na celu także zwiększenie świadomości kosztów naprawy awarii wśród deweloperów realizujących nowe projekty. Rozwiązanie mobilizuje do takiego tworzenia aplikacji i serwisów aby zawierały one jak najmniejszą liczbę defektów, a w razie ich wykrycia, by usuwanie awarii było jak najprostsze.

Dzięki narzędziom wpierającym proces potrafimy precyzyjnie i na bieżąco kontrolować koszty obsługi awarii. Analiza dodatkowych danych jakie udało się nam zgromadzić w procesie przy pomocy wcześniej wspomnianych narzędzi, pozwoliła na wyciągnięcie niezbędnych wniosków, aby powstrzymać wzrostowy trend kosztów i lepiej nimi zarządzać w przyszłości.

Dzięki tym wnioskom oraz powstaniu Zespołu IM udało nam się w drugim kwartale zredukować koszty obsługi awarii o ok. 30% w stosunku do czwartego kwartału roku poprzedniego przy jednoczesnym zachowaniu jakości procesu na niezmiennym poziomie.

Fakt, że utrzymujemy coraz większą liczbę serwisów, sprawia, że szybka obsługa awarii będzie dla nas wyzwaniem w najbliższej przyszłości. Użytkownicy, których także nam przybywa, oczekują od nas niezawodności i szybkiej reakcji na najmniejsze niedociągnięcia z naszej strony. Mam nadzieję, że nasze działania zostaną zauważone, a nasze usługi będą na najwyższym poziomie.

Michał Molenda
Koordynator Procesu Obsługi Zgłoszeń