Pamięć masowa dla archiwów cyfrowych

Netgear

NetgearW miarę wzrostu wykorzystania cyfowego zapisu informacji, archiwa zaczynaja przywiązywać coraz większą wagę do mediów w postaci elektronicznej. Dotyczy to zarówno archiwów klasycznych które digitalizują swoje zasoby, jak i instytucji ktore archiwizuja dokumenty i zapisy powstałe w ostatnich dekadach, które sa w coraz większym stopniu cyfrowe od początku ich powstania (‘born digital’).

Zapis cyfrowy wymaga zupełnie innego podejścia do problemu zachowania i zabezpieczenia zasobów archiwalnych. W jednym z poprzednich blogów rozważaliśmy oprogramowanie do inwentaryzacji zasobów, tutaj chciałbym przedyskutować problem pojemności pamięci cyfrowej, potrzebnej do przechowywania zasobów.

Zapis informacji w postaci cyfrowej poprzedza oczywiście powstanie komputerów. Karty dziurkowane były uzywane od poczatku 19 wieku – w krosnach (Joseph Jacquard), w przetwarzaniu informacji (Siemion Korsakow), w opracowywaniu danych spisu powszechnego (Herman Hollerith). Jeszcze niedawno maszyny cyfrowe Odra używaly (za IBM) kart dziurkowanych do zapisu programów i danych. Wkrótce zostały one zastąpione papierową taśmą perforowaną, ale prawdziwe przyspieszenie spowodowało dopiero użycie zapisu magnetycznego. Rewolucja komputerowa to pamięc dyskowa: najpierw mainframe, potem stacje robocze, komputery osobiste, laptopy – to wszystko istniało dzieki możliwości zapisu informacji na dyskach twardych i przenośnych dyskietkach. Dysk twardy ma chyba najdłuższa historię rozwoju technologicznego, i jest do dziś podstawowym medium zapisu danych w Internecie oraz w większości komputerów stacjonarych i laptopów.

Historia dysku twardego jest fascynującą podróżą po kolejnych, rewolucyjnych zmianach technologii, które owocowały urządzeniami coraz lepszymi, o coraz większej gęstości zapisu, coraz większej niezawodności. Napędy z wymienialnymi dyskami zostały zastąpione zintegrowanymi napędami, rozmiary to kolejno standardy 14-calowe, 8-calowe, 5.25 calowe, 3.5 calowe, 2.5 calowe itp. Wielkość dysku mierzy się jednak przede wszystkim liczbą bajtów które można na nim zapisać, gdzie bajt to liczba 8-bitowa, (0 do 11111111 w formacie dwójkowym, 0 do 255 w dziesiętnym). Kolejne przedrostki pokazują rosnącą pojemność – megabajt (MB) to milion bajtów, gigabajt (GB) to tysiąc milionów, terabajt (TB) to milion milionów bajtów.

Jeden MB to w przybliżeniu obraz o rozmiarze 1024×1024 pixli (bitmap) lub 4 megapixlowe zdjęcie skompresowane w formacie jpg; około 1 minuty muzyki w formacie mp3, albo typowa książka bez ilustracji (500 stron, 2000 znaków na stronę). W Instytucie Piłsudskiego połączony katalog bibliotek polonijnych (IJP, PIASA i PCF) zajmuje 20 MB w formacie MARC.

Jeden GB mieści jednogodzinny film o standardowej rozdzielczości, 700 dyskietek 3.5 calowych, tysiąc zdjęć o średnim rozmiarze 3-4 megapixli, 20 tomow encyklopedii, cały ludzki genom. W Instytucie Piłsudskiego zdigitalizowane nagrania wideo wywiadów z osobami wywiezionymi do łagrów w Rosji Sowieckiej zajmują ok. 200 GB.

Jeden TB mieści 17 tysięcy godzin (prawie dwa lata) muzyki w postaci mp3, tysiąc godzin (40 dni) filmu, tysiąc milionów stron tekstu, 1500 dysków CD, 40 dysków Blue Ray, 50 tysięcy drzew przerobionych na papier i zadrukowanych. W Instytucie zdigitalizowany zespół Józefa Piłsudskiego, zawierający oryginalne skany kolorowe w rozdzielczości 600 dpi, kopie skompresowane o zmniejszonej rozdzielczości oraz wszystkie metadane zajmuje 2 terabajty objętości.

Gdzie to wszystko pomieścić?

Czy archiwa stać na terabajty pamięci dyskowej? Czy nie lepiej zostac przy mniejszej rozdzielczości i zapisywać wszystko na złotych CD o przedłużonej trwałości? Aby odpowiedzieć sobie na takie pytania, spróbujmy przyjrzeć się kosztom przechowywania informacji na dyskach magnetycznych.

Wykres poniżej pokazuje historyczne ceny pamięci dyskowej w dolarach US na terabajt. Widzimy tu bardzo regularny trend obejmujący 3 dekady produkcji twardych dysków, od 1985 roku. Jeszcze w 2000 roku terabajt kosztował $10,000, dziś kosztuje poniżej $50.Ceny_pamieci_dyskowej

Ceny pamięci dysków twardych, w dolarch amerykańskich nie korygowanych inflacyjnie, za John M. McCallum, http://www.jcmit.com/diskprice.htm

Możemy więc z dużym prawdopodobieństawem przewidzieć, że ceny pamięci magnetycznej będą dalej spadać. Trendy pamięci masowej w ostatnich latach przedstawione są na kolejnym wykresie:

ceny_pamieci_cyfrowych

Ceny pamięci: dyskowej (HD), półprzewodnikowej(SSD) i taśmowej (LTO). Dane za John M. McCallum (HD) i z różnych żródeł sieciowych.

Dla porównania pokazane sa również ceny pamięci pólprzewodnikowej (SSD) i najbardziej popularnych taśm magnetycznych stosowanych do przechowywania długoterminowego i do kopii zapasowych (LTO). Pojemność którą można nabyć za określona sumę podwaja się średnio co póltora roku. (od 16 do 20 miesięcy dla trzech rodzajów pamięci przedstawionych na tym wykresie). Ciekawym zjawiskiem jest chwilowa podwyżka cen twardych dysków na początku 2012 roku: spowodowane ono zostało masowymi powodziami w Tajlandii, gdzie mieści sie ok 25% światowej produkcji dysków. Zdumiewający jest nie sam skok, wynikający z braków na rynku, ale szybki powrót do tego samego trendu. Pamięć półprzewodnikowa jest droższa od dyskowej, a taśmowa jest tańsza, ale wszystkie trzy wykazuja podobny trend spadkowy. W 2015 roku możemy spodziewać się cen pamięci taśmowej na poziomie $10 za terabajt i dyskowej rzędu $20 za terabajt.

Widzimy więc, że koszt pamięci jest stosunkowo nieduży i malejący z czasem, szczególnie w porównaniu z wydatkami na pracę ludzi. Instalacja i utrzymanie pamięci cyfrowej wymaga pewnego wysiłku, ale urządzenia są coraz łatwiejsze w obsłudze i instalacji. W Instytucie używamy napędów dysków (ReadyNAS firmy Netgear) podłaczonych bezpośrednio do sieci wewnętrznej (NAS – Network Attached Storage). Napęd taki pozwala na dodawanie dysków w miarę potrzeby, wymianę (‘na żywo’) uszkodzonego dysku, ma rozbudowana diagnostykę  i interfejs webowy. Skrzynka, kosztująca tyle co przeciętny komputer biurowy i  zajmująca na półce tyle miejsca co 4 tomy słownika (patrz ilustracja obok) mieści 6 dysków. Używając popularnych już 3 terabajtowych dysków i nadmiarowego zapisu (RAID) możemy zmieścić w niej 15 TB zasobów cyfrowych. Kopie zapasowe robione są w Instytucie na taśmach LTO (Linear Tape-Open) o pojemności 1.5 TB (LTO5). Kaseta z taśmą jest lżejsza i trwalsza od dysku o podobnej pojemności.

Koszt przechowywania archiwów cyfrowych jest więc porównywalny z kosztem przechowywania papieru i będzie dalej malał. Instalacja urządzeń wymaga początkowego wysiłku, i pomocy informatyków, ale bieżąca ich eksploatacja jest nie trudniejsza niż obsługa komputerów biurowych. Nie ma więc żadnego powodu, aby oszczędzać na pamięci cyfrowej. Ponieważ w archiwach bardzo rzadko jest możliwość powrotu do digitalizacji raz już opracowanych archiwów, należy digitalizować w najlepszej możliwej jakości.

1 października 2014: Uzupełnienie. Cena pamęci taśmowej wynosi dziś ok $14 za terabajt, a dyskowej ok $35 za terabajt. Załaczone powyżej wykresy zostały poprawione i uzupełnione, odzwierciedlając dane do końca września 2014.

Marek Zieliński

Artykuł ukazał się 20 kwietnia 2013 (uzupełniony 1 październia 2014) w Blogu archiwistów i bibliotekarzy Instytutu Piłsudskiego

Może Cię też zainteresować: