Technologia Lockstep

W systemach ftServer wyeliminowano punkty podatności na awarie przez zastosowanie nadmiarowych elementów, które podtrzymują nieprzerwane działanie nawet w przypadku awarii jednego z nich. Zepsuty element jest automatycznie odłączany bez jakiegokolwiek opóźnienia w przełączaniu w tryb pracy awaryjnej ani utraty danych. Zespoły procesora i pamięci, w które są wyposażone systemy ftServer, są precyzyjnie synchronizowane przy użyciu technologii Lockstep. Dzięki temu wykonują te same rozkazy dokładnie w tym samym takcie zegara. W ten sposób każdy błąd – nawet przejściowy – zostanie wykryty, a żaden błąd w zespole procesora i pamięci nie spowoduje utraty danych ani przerwania funkcjonowania systemu. Podczas gdy inne serwery zawierają nadmiarowe zasilacze, wentylatory i dyski twarde, to tylko Stratus dba o ochronę najważniejszych elementów, jak płyty główne, procesory, pamięć, magistrale we-wy i karty we-we. Ponadto serwer ftServer pracuje jako jeden system, wykorzystując po jednym egzemplarzu każdej aplikacji, co znacznie upraszcza jego obsługę, a także oznacza niższe koszty licencji w porównaniu z wielowęzłowymi klastrami.

Rysunek 2 Schemat działania technologii Lockstep systemów ftServer


Odporny na uszkodzenia podsystem we-wy (moduł I/O) jest logicznie oddzielony od podsystemu procesora i pamięci (moduł CPU). Funkcję mostu PCI między zaspołem procesorów i pamięci a podsystemem we-wy pełni sprzętowy układ logiczny ftSwitch w postaci specjalnie skonstruowanych układów scalonych, który oferuje dodatkowo takie funkcje, jak wykrywanie, izolowanie, eliminowanie z systemu wszelkich awarii oraz błędów przejściowych, ponadto synchronizuje operacje architektury Lockstep. Awarie sprzętowe oraz błędy przejściowe są niewidoczne dla systemu operacyjnego i aplikacji.

Odporny na uszkodzenia podsystem we-wy (moduł I/O) składa się z replikowanych magistral PCI, replikowanych kart we-wy oraz replikowanych urządzeń. Podstawowe konfiguracje systemów ftServer zawierają dwie niezależne magistrale PCI (z możliwością zainstalowania dwóch dodatkowych). Nadmiarowe są także karty PCI (SCSI, SAS/SATA, Ethernet, zdalne zarządzanie oraz Fibre Channel). Wewnętrzne dyski są zabezpieczone przez zapis lustrzany (RAID 1), a każdy dysk jest podłączony do dwóch niezależnych magistral PCI.
System udostępnia zatem wiele ścieżek do dowolnej operacji logicznej we-wy, w tym także do operacji na wewnętrznej i zewnętrznej pamięci masowej. Każda nieudana operacja we-wy jest ponawiana przy użyciu alternatywnej ścieżki, co gwarantuje pomyślne jej wykonanie.

Podwójna modułowa nadmiarowość (DMR).
Systemy ftServer  wyposażone w podwójną modułową nadmiarowość (DMR ), czyli zawierają dwa zespoły procesora i pamięci (płyty główne). Poziomem dostępności systemy te znacznie przewyższają konkurencyjne systemy klastrowe. Systemy DMR projektowano z myślą o osiągnięciu dostępności na poziomie 99,999%, a w rzeczywistości przekraczają one te założenia, czego dowodzą dane zbierane od użytkowników.

Jak już było wspomniane, płyty główne działają w trybie Lockstep. Specjalny układ logiczny ftSwitch do izolacji i wykrywania błędów porównuje dane wyjściowe płyt głównych. Jakakolwiek różnica oznacza błąd. W systemach DMR na każdej płycie głównej są układy logiczne wykrywające błędy i wskazujące, na której płycie wystąpił błąd. Jeżeli żaden błąd płyty głównej nie jest sygnalizowany, wybór płyty, która ma zostać wyłączona, jest dokonywany za pomocą algorytmu oprogramowania.
W produktach z serii ftServer z powodzeniem wykorzystano standardową architekturę i elementy serwerów Intela. Najważniejszą różnicę w porównaniu z klasycznymi serwerami jest oddzielenie w serwerach ftServer podsystemu we-wy PCI od płyty głównej, a także wprowadzenie dodatkowo specjalnych układów logicznych wykrywających błędy, które stanowią podstawowy element technologii Lockstep i odpowiadają za efektywne wykrywanie i izolowanie błędów.