Jak utrzymać ciągłość działania systemów IT – case study na przykładzie własnym

Będąc firmą IT zarządzamy infrastrukturą i systemami IT u kilkuset naszych klientów. Aby zapewnić sprawne działanie systemów IT u naszych klientów, musimy samy posiadać sprawną i działającą w trybie ciągłym infrastrukturę IT. Odpowiedzialność za zapewnienie sprawnego działania systemów IT u naszych klientów ponosi dział Serwisu i to o jego utrzymaniu będzie dzisiaj. Serwis dzielimy na wychodzący (czyli wszystkie te działania, które są podjęte z naszej inicjatywy, albo na podstawie zgłoszeń automatycznych, czy też pochodzących z systemu monitorowania oraz działań planowanych), oraz na HelpDesk przychodzący (czyli zgłoszenia telefoniczne i e-mail).

Pierwszym krokiem na drodze zapewnienia ciągłości działania jest Plan Ciągłości Działania – (Business Continuity Plan). W planie tym zawarta jest polityka zachowania ciągłości działania.

1. Identyfikacja kluczowych usług i infrastruktury

Kluczowymi zasobami dla naszego działu serwisu są

  • Ludzie – czyli konsultanci, specjaliści i kierownik serwisu, dostępni głównie w trybie 8×5, a także 24/365 dla takich umów utrzymania
  • Komputery konsultantów – podstawowe narzędzie pracy, muszą działać wtedy kiedy pracują ww.
  • Infrastruktura sieciowa i łącze internetowe – 99% obsługi jest zdalnej, więc 24/365
  • System monitorowania infrastruktury klienta – staramy się wiedzieć o potencjalnej awarii przed użytkownikiem danego systemu, więc 24/365
  • System obsługi zgłoszeń – dający konsultantom i specjalistom informację o poziomie obsługi klienta, a także prowadzący rejestr wszystkich prac, 24/365
  • Narzędzia do komunikacji (infrastruktura telefoniczna i e-mail) – 24/365

Sporo pozycji wymaga 24/365, ale tak naprawdę dla trybu 8×5 wymagana jest dostępność 99,9%, a dla 24/365 wystarczy 97%

2. Analiza zagrożeń które mogą wystąpić i strategia działania wobec nich

  • Ludzie – Wszystkie zdarzenia planowe (urlopy, szkolenia itp) w planie ciągłości pomijamy. Na głowie kierownika spoczywa odpowiednie ich zaplanowanie . W przypadku zdarzeń nieplanowych (L4, urlopy okolicznościowe, i inne), posiadamy „redundancję” ludzi, czyli każdym tematem muszą być w stanie zająć się minimum 2 osoby. W kluczowych obszarach jest to sporo więcej.
  • Komputery, a także całą naszą infrastrukturę sprzętową, w przypadku awarii możemy w ciągu kilku minut zorganizować sprzęt zastępczy, do maksymalnie 1 dnia roboczego całkowicie zastąpić. W najgorszym przypadku, 1 roboczodzień, to czas dostawy nowego sprzętu i jego wdrożenie.
  • Systemy i zawarte w nich dane – wszystkie systemy są backupowane w czasie rzeczywistym na macierzy RAID (odporność na awarię pojedynczego dysku), dodatkowo kilka razy dziennie wykonywana jest szyfrowana kopia na serwer NAS znajdujący się off-site. Awaria dysku jest dla nas niestraszna, w przypadku większej awarii jesteśmy w stanie przywrócić systemy z backupu w czasie od kilku minut (z kopii migawkowej systemu) do kilku godzin gdy dany system wymaga pełnej reinstalacji i odtworzenia danych zdalnych
  • Łącza internetowe, łącza telefoniczne – posiadamy 2 niezależne łącza internetowe. W trakcie normalnego dnia pracy wykorzystujemy oba, z automatycznym równoważeniem obciążenia. Gdy nasza brama wykryję awarie któregokolwiek, to przełącza 100% ruchu na 2-gie łącze. Tak więc, o ile nie zdarzy się sytuacja, w której koparka wykopie jednocześnie światłowody obu dostawców – jesteśmy bezpieczny. Jednak, gdyby i to się miało zdarzyć – dysponujemy internetem via GSM.
  • Narzędzia do komunikacji – ponieważ serwery e-mail oraz główny numer dostępowy do firmy są udostępniane przez firmy zewnętrzne (tu konkretnie NetArt oraz PTC ERA) – musimy polegać na ich utrzymaniu ciągłości pracy. W ciągu ostatnich 12 miesięcy ich działy utrzymania pracowały tak:
  • NetArt przydarzyła się jedna poważniejsza (zauważalna dla nas, nie tylko dla systemu monitorowania) awaria, w trakcie której nie działała nasza www przez 1h, a poczta przez 3h (standardowego czasu biurowego).  Brakowało nam trochę informacji, o której będzie przywrócone działanie, niemniej już tego samego dnia wieczorem wszystko było OK.
  • PTC Era, natomiast zawiodła nas bardzo, przez jakiś błąd w upgrade systemu (jak zrozumieliśmy menedżera sieci firmowej), wykasowana została całkowicie konfiguracja naszych linii miejskich i wirtualnej centrali, a telefoniczne, stacjonarne linie dostępowe do naszej firmy nie działały przez 4 dni. Co więcej linie miejskie zostały skasowane, (tak, jak gdybyśmy rozwiązali umowę). Oczywiście momentalnie dokonaliśmy zgłoszenia, ale Era nie była w stanie przekazać nam żadnego jasnego komunikatu kiedy zostanie przywrócone działanie. O całej sytuacji można zrobić osobny wpis, więc dodam tylko, że gdyby nie nasze codzienne, wielokrotne telefony do BOK i „Opiekuna biznesowego”, czekalibyśmy ok 30 dni na rozpatrzenie reklamacji. Całość została niespodziewanie przywrócona po 4 dniach, gdy byliśmy już w trakcie podpisywania umowy z nowym dostawcą.

3. Plan awaryjny

Dla wszystkich zagrożeń, mamy przyjęte plany działania. Zakładamy jednak, że nasze działania mogą trwać pewien czas (jak np dostawa nowego routera), albo może się okazać, że plan taki się nie powiedzie (czyli np ERA, która zakładaliśmy że naprawi się w ciągu 1 dnia, jednak przez 4 dni będzie nie działać). Zakładamy również, że mimo starań, aby zidentyfikować zagrożenia, mogliśmy coś pominąć. Tak więc mamy plan awaryjny. Przykładowo planem takim, w przypadku konieczności wymiany routera jest zastosowanie przez okres przejściowy innego, o gorszych parametrach, a w przypadku awarii w PTC ERA było rozesłanie mailowej informacji do wszystkich naszych klientów z umowami utrzymania o awaryjnych numerach telefonicznych, pod którymi mogli się klienci do nas dodzwonić. Ta sama informacja została powtórzona na naszej stronie WWW w sekcji kontakt i w aktualnościach.

4. Ciągłe doskonalenie

Każdy plan z czasem się dezaktualizuje, pojawiają się nowe narzędzia, zmienia się zakres wykorzystania innych, tak więc regularnie trzeba Plan Ciągłości Działania analizować i aktualizować. Wzrost umów utrzymania z 1 kwartału 2011, spowodował, że obecnie chcemy być w stanie przywrócić każdy system w przypadku awarii w ciągu max 30 minut, więc wdrażamy pełną wirtualizację naszych systemów. Na podstawie awarii z PTC w pierwszym kroku spróbowaliśmy podpisać dodatkową umowę serwisową, aby zostać potraktowanym priorytetowo, i mieć gwarantowane przywrócenie usługi. Niestety ERA nie może zapewnić nam takiej usługi (tak więc uważamy że całkiem fajna usługa VPABX jest nieprzystająca do zastosowań profesjonalnych), tak więc obecnie analizujemy innych dostawców, a także zastanawiamy się nad innymi technologiami.

5. Słowo końcowe

Z tego case wyciągnęliśmy dwa wnioski

1. Znany, ale zawsze się powtarzający – cały system jest na tyle sprawny, na ile jest jego najsłabsze ogniwo. Obecnie w naszej infrastrukturze jest nim VPABX z ERY.
2. Niewielką awarię, którą Twój dostawca może usunąć w ciągu minut, maksymalnie kilku godzin, od poważnej awarii, w której kluczowe usługi nie działają przez 4 dni odróżnia podejście Twojego dostawcy do Twojego problemu. Dlatego dla systemów, które muszą działać w trybie ciągłym, należy posiadać pisemne umowy utrzymania z  gwarantowanymi czasami reakcji. Nasi klienci z aktywnymi umowami utrzymania, mogą być pewni, że zostaną potraktowani priorytetowo, oraz że dołożymy wszelkich starań, aby awarię ich systemów usunąć w możliwie najkrótszym czasie.  Jeżeli będzie to awaria na 1h, to nie przerodzi ona się w 4dzienny paraliż.

Zobacz również

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *