Wiemy już, że Wielki Zderzacz Hadronów (LHC) będzie największym, najdroższym eksperymentem fizyki przeprowadzonym kiedykolwiek przez ludzkość. Zderzenie cząstek relatywistycznych przy energiach wcześniej niewyobrażalnych (do końca 14 TeV do końca dekady) wygeneruje miliony cząstek (znanych i jeszcze nie odkrytych), które muszą być śledzone i charakteryzowane przez ogromne detektory cząstek. Ten historyczny eksperyment będzie wymagał ogromnego wysiłku w zakresie gromadzenia i przechowywania danych, ponownego napisania zasad przetwarzania danych. Co pięć sekund kolizje LHC generują równowartość danych DVD, czyli szybkość produkcji danych wynoszącą jeden gigabajt na sekundę. Mówiąc inaczej, przeciętny komputer domowy z bardzo dobrym połączeniem może być w stanie pobierać dane z prędkością jednego lub dwóch megabajtów na sekundę (jeśli masz szczęście! Dostaję 500 kilobajtów / sekundę). Inżynierowie LHC zaprojektowali nowy rodzaj metody przetwarzania danych, która może przechowywać i rozpowszechniać petabajty (milion gigabajtów) danych dla współpracowników LHC na całym świecie (bez starzenia się i szarości podczas oczekiwania na pobranie).
W 1990 r. Europejska Organizacja Badań Jądrowych (CERN) zrewolucjonizowała sposób naszego życia. W ubiegłym roku Tim Berners-Lee, fizyk z CERN, napisał propozycję elektronicznego zarządzania informacjami. Przedstawił ideę, że informacje można łatwo przesyłać przez Internet za pomocą czegoś zwanego „hipertekstem”. Z biegiem czasu Berners-Lee i współpracownik Robert Cailliau, inżynier systemów również w CERN, utworzyli jedną sieć informacyjną, aby pomóc naukowcom z CERN współpracować i dzielić się informacjami z ich komputerów osobistych bez konieczności zapisywania ich na uciążliwych urządzeniach pamięci. Hipertekst umożliwia użytkownikom przeglądanie i udostępnianie tekstu za pomocą stron internetowych przy użyciu hiperłącza. Następnie Berners-Lee stworzył edytor przeglądarki i wkrótce zdał sobie sprawę, że ta nowa forma komunikacji może być dzielona przez wiele osób. Do maja 1990 r. Naukowcy z CERN nazwali tę nową sieć współpracy mianem Internet. W rzeczywistości CERN był odpowiedzialny za pierwszą na świecie stronę internetową: http://info.cern.ch/, a wczesny przykład tego, jak ta strona wyglądała, można znaleźć na stronie internetowej konsorcjum World Wide Web.
Tak więc CERN nie jest obcy w zarządzaniu danymi przez Internet, ale zupełnie nowy LHC będzie wymagał specjalnego traktowania. Jak podkreślił David Bader, dyrektor wykonawczy ds. Obliczeń o wysokiej wydajności w Georgia Institute of Technology, obecna przepustowość dozwolona przez Internet stanowi ogromne wąskie gardło, przez co inne formy udostępniania danych są bardziej pożądane. „Jeśli spojrzę na LHC i to, co robi na przyszłość, jedyną rzeczą, której Internet nie był w stanie zrobić, jest zarządzanie fenomenalnym bogactwem danych”- powiedział, co oznacza, że łatwiej jest zapisywać duże zbiory danych na terabajtowych dyskach twardych, a następnie wysyłać je pocztą do współpracowników. Chociaż CERN zajął się współpracującym charakterem udostępniania danych w sieci WWW, dane wygenerowane przez LHC z łatwością przeciążą obecnie dostępne małe pasma.
Właśnie dlatego zaprojektowano siatkę obliczeniową LHC. Siatka obsługuje produkcję dużych zbiorów danych LHC na poziomach, pierwszy (Poziom 0) znajduje się na miejscu w CERN koło Genewy w Szwajcarii. Poziom 0 składa się z ogromnej równoległej sieci komputerowej zawierającej 100 000 zaawansowanych procesorów, które zostały skonfigurowane do natychmiastowego przechowywania surowych danych (1 i 0 kodu binarnego) i zarządzania nimi wypompowywanych przez LHC. Warto w tym miejscu zauważyć, że nie wszystkie kolizje cząstek zostaną wykryte przez czujniki, tylko bardzo niewielka część może zostać wychwycona. Chociaż można wykryć tylko stosunkowo niewielką liczbę cząstek, nadal przekłada się to na ogromną wydajność.
Poziom 0 zarządza częściami danych wyjściowych, wysyłając je przez dedykowane linie światłowodowe 10 gigabitów na sekundę do 11 Poziom 1 witryny w Ameryce Północnej, Azji i Europie. Pozwala to współpracownikom, takim jak Relativistic Heavy Ion Collider (RHIC) w Brookhaven National Laboratory w Nowym Jorku, analizować dane z eksperymentu ALICE, porównując wyniki zderzeń jonów ołowiu LHC z ich własnymi wynikami zderzeń ciężkich jonów.
Z międzynarodowych komputerów poziomu 1 zestawy danych są pakowane i wysyłane do 140 Poziom 2 sieci komputerowe zlokalizowane na uniwersytetach, laboratoriach i prywatnych firmach na całym świecie. W tym momencie naukowcy będą mieli dostęp do zestawów danych w celu przeprowadzenia konwersji surowego kodu binarnego na użyteczną informację o energii i trajektoriach cząstek.
System poziomów jest dobry i dobry, ale nie działałby bez wysoce wydajnego typu oprogramowania zwanego „oprogramowaniem pośrednim”. Podczas próby uzyskania dostępu do danych użytkownik może chcieć informacji rozpowszechnianych w petabajtach danych na różnych serwerach w różnych formatach. Platforma oprogramowania pośredniego typu open source o nazwie Globus będzie ponosić ogromną odpowiedzialność za bezproblemowe zebranie wymaganych informacji, tak jakby informacje te już znajdowały się w komputerze naukowca.
Jest to połączenie systemu poziomów, szybkiego połączenia i genialnego oprogramowania, które można rozszerzyć poza projekt LHC. W świecie, w którym wszystko staje się „na żądanie”, ten rodzaj technologii może stworzyć Internet przezroczysty do użytkownika końcowego. Byłby natychmiastowy dostęp do wszystkiego, od danych uzyskanych w wyniku eksperymentów po drugiej stronie planety, po oglądanie filmów w wysokiej rozdzielczości bez czekania na pasek postępu pobierania. LHC Computing Grid, podobnie jak wynalazek HTML-a Bernersa Lee, może zrewolucjonizować sposób korzystania z Internetu.
Źródła: Scientific American, CERN