Marek Zieliński – Strona 3

Humanistyka Cyfrowa w New York City

Na niedawnej konferencji METRO (Metropolitan New York Library Council) miała miejsce prezentacja przedstawicieli grupy ‘Humanistyka Cyfrowa w New York City’ (NYCDH). Grupa ta działa od połowy 2011, i zrzesza zainteresowanych Humanistyką Cyfrową z Nowego Jorku i okolic. Dostarcza ona forum wielu różnym organizacjom i małym grupom osób które pracują nad jakimiś problemami związanymi z humanistyką cyfrową. Uczelnie, w których pracują członkowie komisji sterującej grupy (takie jak NYU, CUNY, Columbia, Pratt i inne) udzielają miejsca na spotkania. Kalendarz grupy jest pełny, często jest kilka wydarzeń lub spotkań w tygodniu. Grupa jest otwarta, i po zarejestrowaniu się każdy członek może wpisać w kalendarz imprezę jaka organizuje i wziąć udział w już ogłoszonej.

Na stronie NYCDH można znaleźć grupy dyskusyjne o wielu tematach takich jak “Pedagogika Cyfrowa”, “Grupa OMEKA”, “Bibliotekarze w Humanistyce Cyfrowej”, “Grupa analizy tekstu”, “Grupa eksperymentów cyfrowych”, “Antyki i techniki cyfrowe” i inne. Planowane na najbliższy okres i niedawno zakończone imprezy dobrze obrazują działalność grupy.

Własność intelektualna w naukach humanistycznych – panel dyskusyjny z udziałem administratora uczelni, prawnika, bibliotekarza i studenta o napięciach pomiędzy egzekwowaniem praw a uczelnianą tradycją otwartego zdobywania wiedzy.

Muzeum po-cyfrowe – wykład Ross Perry z University of Leicester.

Czytaj dalej „Humanistyka Cyfrowa w New York City”

Standardy metadanych dla archiwów: płaskie czy hierarchiczne? (Cz. 1)

Część 1

Przy planowaniu procedur i etapów pracy projektu digitalizacji zasobów archiwalnych Instytutu zastanawialiśmy się nad tym, jakiego standardu użyć przy opisie digitalizowanych dokumentów. Po wykonaniu skanu czyli zapisu obrazu dokumentu, niezbędnym jest jego opisanie tak, aby możliwe było znalezienie interesującej czytelnika informacji. Idealnie byłoby dokonać transkrypcji całości materiału, ale przy dużej ilości ręcznie pisanych dokumentów były to tylko marzenia. Proces znajdywania i organizowania informacji o tekście, zdjęciu itp. czyli tak zwanych metadanych (danych o danych) oraz zapisywania ich w odpowiedniej bazie danych jest najważniejszyma (i najbardziej czasochłonnym) etapem digitalzacji.

Jest wiele schematów i standardów zapisu i transportu metadanych, więcej niż można łatwo ogarnąć ciekawie brzmiących skrótów: DC, EAD, MARC, MODS, TEI, AACR2, CCO, CDWA, DACS, FOAF, ISAD(G), METS, OAI-PMH, OAIS, OWL, POWDER, PREMIS, RDA, RDF, SWORD itp. Nawet ograniczając się do standartów opisu metadanych zawartości dokumentów, mieliśmy do wyboru DC, EAD, MARC i TEI. Przy testach pojawił się problem hierarchizacji informacji, który w zasadzie ciągle jest z nami, mimo prób jego oswojenia.

Czytaj dalej „Standardy metadanych dla archiwów: płaskie czy hierarchiczne? (Cz. 1)”

Archiwa i Wikipedia

Ilustracja wykonana z użyciem „Wikipedia logo bronce” by User:Nohat [CC-BY-SA-3.0], via Wikimedia Commons”

Archiwa to repozytoria dziedzictwa kulturowego człowieka które, zachowując oryginalne dokumenty i artefakty z przeszłości, odzwierciedlają wspólną historię. Ich zadaniem jest chronić te zasoby i udostępniać je wszystkim. Misją Wikipedii jest jest dostarczyć podstawową wiedzę, udostępniając ją swobodnie i bez ograniczeń. Archiwa są więc naturalnym kandydatem do współpracy z Wikipedią, do wykorzystania zasobów i możliwości obu z nich. Artykuł ten jest częściowo oparty na doświadczeniach układu partnerskiego Instytutu Piłsudskiego z Wikipedią w ciągu ostatniego półtora roku.

Dlaczego Wikipedia?

Wikipedia jest największą encyklopedią, dostępną dla wszystkich. Każdy, kto ma dostęp do Internetu może korzystać z niej korzystać. Wikpedia ma około pół miliarda odsłon miesięcznie, 250 wersji językowych i zawiera około 20 milionów artykułów. (Polska wersja ma ponad milion artykułów i jest w pierwszej dziesiątce na świecie). Użytkownicy coraz częściej sięgają po Wikipedię dla uzyskania podstawowych informacji na każdy temat, zwłaszcza dotyczy to młodszego pokolenia, dla którego komputer i internet to narzędzia codziennego użytku.

Czytaj dalej „Archiwa i Wikipedia”

Czy umiemy pisac daty?

Zegar w katerdrze Santiago de Compostela. By Luis Miguel Bugallo Sánchez (Lmbuga Commons) [CC-BY-SA-2.5-es], via Wikimedia Commons

Nic tak dobrze nie ilustruje trudności, jakie napotyka tłumaczenie języka ludzkiego na język komputerowy, jak zapis jednostek czasu. Kalendarz którym się posługujemy pochodzi z roku 46 BC (wprowadzony przez Juliusza Cezara) z późniejszymi poprawkami z roku z 1582 (papieża Grzegorza VIII). Jest to najpopularniejszy, ale nie jedyny kalendarz, są inne w szerokim zastosowaniu jak Hijri, Hindu, kalendarz chiński czy hebrajski. W kalendarzu gregoriańskim podajemy dzień, miesiąc i rok, i wydaje nam się, że komputery powinny te ‘proste dane’ zawsze zrozumieć. Niestety, prostota ta jest bardzo pozorna.

Pierwszym problemem jest zapis daty. Po polsku zapisujemy 2 VI 1945 albo 11 września 1950 albo 3.4.23. Po angielsku zapisujemy 3/4/23 co może znaczyć 3 kwietnia 1923 roku albo 4 marca 2023 roku, zależnie od kraju i domyślnego wieku. Do niedawna komputer nie umiał zrobić nawet tak prostej konwersji, dziś próbuje odgadnąć język, którym się posługujemy, i czasem udaje się zgadnąć (a czasem nie) właściwą datę z zapisu.

Drugim problemem jest zapis czasu. W USA doba jest podzielona na godziny ‘ranne’ oznaczane AM i ‘popołudniowe’ – PM. Ale nikt nie chce się umawiać w poniedziałek o 12 AM ani we wtorek o 12 PM, gdyż te zapisy nie są jednoznaczne. Zegar 24 godzinny usuwa przynajmniej tę jednoznaczność (godzina 24:00 w poniedziałek i 0:00 we wtorek to ten sam moment w czasie, ale należący do innego dnia).

Kolejny problem to zapis z okresloną dokładnością. Ktokolwiek pracował z arkuszem rozliczeniowym, nawet tym najnowszym, wie, że można zapisać dzień (bez określenia czasu) albo czas co do minuty. Możemy więc zapisać wydarzenie które ma miejsce danego dnia, albo w danej minucie, ale nie można zapisać roku (bez określenia miesiąca), roku i miesiąca (bez określenia tygodnia), roku, miesiąca i tygodnia (bez określenia dnia), ani też tylko godziny, godziny i minuty, itp. (inaczej niż przez opisanie tego słownie, co całkowicie zbija z tropu komputer)…. i tak dalej.

Czytaj dalej „Czy umiemy pisac daty?”

Crowdsourcing

Crowdsourcing jest relatywnie nowym pomysłem, polegającym na powierzeniu jakiegoś zadania, tradycyjnie wykonywanego przez pracowników organizacji, grupie osób czy społeczności (crowd = tłum) poza tą organizacją. Różnica w stosunku do techniki outsourcing polega na tym, że zadanie powierzone jest nieznanej grupie jako publiczny apel, a nie jakiemuś konkretnemu ciału. Crowdsourcing, dzięki technologii Web. 2.0, uważany jest za narzędzie z dużymi perspektywami tak w przypadku komercyjnych organizacji jak i non-profit, jakimi są biblioteki i archiwa. Najbardziej znanym przykładem wykorzystania techniki crowdsourcing jest Wikipedia, czyli cyfrowa, powszechnie dostępna encyklopedia, tworzona przez internetowych wolontariuszy. Projekt ten w bardzo krótkim czasie i przy minimalnym koszcie doprowadził do powstania blisko 4 milionów artykułów w przypadku anlogjęzycznej wersji!

Czytaj dalej „Crowdsourcing”

Jak digitalizować mapy nie wydając fortuny

Fragment mapy z kolekcji Instytutu Piłsudskiego w Ameryce: Rozmieszczenie wojsk w okolicy Stęszew z raportu Francuskiej Misji Wojskowej w Polsce, 1920

Fragment mapy z kolekcji Instytutu Piłsudskiego: Rozmieszczenie wojsk w okolicy Stęszewa z raportu Francuskiej Misji Wojskowej w Polsce, 1920 r.

Skanowanie dużych obiektów stanowiło zawsze wyzwanie dla archiwistów. Mapy, plakaty, i inne materiały o dużych formatach nie mieszczą się na stołach typowych skanerów o formacie A-3. Jednocześnie cena skanera rośnie eksponencjalnie ze wzrostem wielkości powierzchni skanowanej i często kupno skanera wielkoformatowego przekracza możliwości budżetowe instytucji. Jedną z opcji którą można zastosować zamiast skanera jest fotografia cyfrowa. Wymaga ona spełnienia wielu warunków, jak równomiernego oświetlenia, odpowiedniego systemu montowania kamery, płaskiego utrzymywania obiektu, korekcji na aberracje sferyczną i chromatyczną obiektywu itp. Największym ograniczeniem jest jednak ciągle nie wystarczająca rozdzielczość czujnika aparatów cyfrowych.

Jeszcze kilka lat temu braliśmy pod uwagę wynajęcie firmy profesjonalnej lub wysłanie archiwalnych map do archiwum posiadającego skaner wielkoformatowy. Jednakże postępy w oprogramowaniu do tworzenia panoram pozwoliło nam na opracowanie techniki, która kosztuje niewiele a pozwala na udostępnienie archiwalnych map w ich całej wspaniałości. Daje ona z możliwość podziwiania kunsztu grafików wojskowych i oglądania najmniejszych detali mapy. Technika ta polega na skanowaniu mapy w sekcjach a następnie sklejania ich, ale nie ręcznie a automatycznie, z użyciem odpowiedniego programu.

Czytaj dalej „Jak digitalizować mapy nie wydając fortuny”

Co jest na odwrocie zdjęcia cyfrowego?

Kiedy oglądamy stare zdjęcie, na odwrocie często możemy znaleźć stempelek fotografa, notatkę na temat miejsca i daty zdjęcia, a nawet kto na nim jest. Ale gdzie jest “odwrotna strona” zdjęcia cyfrowego?

Nazwa pliku nie jest dobrym miejscem na zapisanie tych informacji. Okazuje się jednak, że obrazy cyfrowe mają “odwrotną stronę”, informacje o zdjęciu lub skanie, zapisaną wewnątrz pliku. Zapis ten nie zmienia samego obrazu, a do jego odczytania (i zapisania) potrzebujemy odpowiedniego narzędzia – programu.

Informacje są różnego typu. Kamera cyfrowa zapisuje wiele danych technicznych takich jak czas naświetlania, przesłona, liczba pixli i dane samej kamery. Te metadane zapisywane są w standardzie zwanym Exif. Przy przesyłaniu zdjęć przydatna jest informacja o tym, co jest na zdjęciu przedstawione, kto je zrobił, tytuł zdjęcia, autor, dane o prawach autorskich itp. Te dane zapisywane są w standardzie o nazwie IPTC. Zarówno Exif jak i IPTC zostały wprowadzone około 1995 roku, a więc są dość stare. Ma to swoje zalety – większość programów odczytujących zdjęcia potrafi odczytać te etykiety, a więc dane te są łatwo dostępne. Ale standardy te mają wiele wad:

Nie wszystkie formaty plików cyfrowych mogą je zmieścić (np. obrazy w formacie png nie zawierają danych Exif).
Liczba etykiet jest ograniczona bez możliwości dodania nowych – brakuje ważnych pól, np. osoby na zdjęciu.
Zapis jest ograniczony w wielkości tekstu (mała liczba znaków), brak jest kodowania unicode (brak wsparcia dla polskich liter), brak możliwości zapisu w różnych językach i wiele innych.

Czytaj dalej „Co jest na odwrocie zdjęcia cyfrowego?”

Standardy metadanych: EAD

Ten blog jest trzecim w serii poświęconej standardom metadanych używanym w archiwach.

EAD (Encoded Archival Description) jest standardem stworzonym specjalnie w celu zakodowania pomocy archiwalnych. Z tego powodu jest on pewnego rodzaju hybrydą. Z jednej strony stara się odzwierciedlić sposób, w jaki pracują archiwiści tworząc pomoce archiwalne, z drugiej stara się wprowadzić dyscyplinę i dokładność niezbędną do elektronicznej obróbki dokumentu. W wyniku mamy sporo dowolności w umiejscowieniu danych, co ułatwia pracę archiwiście a jednocześnie utrudnia wymianę danych. W nowej wersji EAD (EAD3), która jest w przygotowaniu od kilku lat, spodziewane jest zmniejszenie tych dowolności.

Reguły i zasady tworzenia pomocy archiwalnych zawarte są w osobnych dokumentach. Oprócz zasad międzynarodowych – ISAD(G) – są również zasady tworzone w różnych krajach, jak np. DACS w USA, które są podobne ale posiadają często subtelne różnice. EAD jest formą zapisu tych danych w postaci zrozumiałej przez człowieka ale także nadającej się do obróbki komputerowej. Jak wszystkie nowoczesne standardy metadanych, wyrażony jest w XML i składa się z serii etykiet, takich jak <ead>, które mieszczą się w innych, wraz z regułami ich umieszczania i regułami dotyczącymi ich zawartości.

Czytaj dalej „Standardy metadanych: EAD”

Osobiste archiwa cyfrowe

Archiwa osobiste nie sa niczym nowym. U mojej babci lezały na stoliku dwa piękne albumy, jeden z drewnianą okładką z płaskorzeźbą górala na tle Tatr. Albumy zawierały zdjęcia z młodości moich dziadków i pradziadków, z początków 20 wieku, w domu, w górach, na Powszechnej Wystawie Krajowej w Poznaniu (1929). Takie albumy były często zabierane jako jedyny dobytek, kiedy wojna zmuszała rodziny do opuszczenia domu i wędrówki w nieznane.

Dziś, kiedy nowe pokolenie żyje dniem dzisiejszym Internetu w Facebooku, Flickr-rze, Pintereście czy w Naszej Klasie, warto przypomnieć o tej tradycji. Archiwa instytucjonalne zajmuja się tylko ‘ważnymi’ sprawami lub osobami, ale w każym prawie domu są materiały które potencjalnie mogą kiedyś stać się ważne dla badacza historii. Albo nawet bezcenne.

Jak przenieśc tradycję robienia albumów, zbierania listów czy innych dokumentów w sferę elektroniczną? Zapisy sprzed 15 lat na dyskietkach są już często nie do odczytania, jeśli nawet potrafimy odcyfrować tekst w egzotycznym formacie z ubiegłego wieku. Trzeba się do tego zabrać inaczej, używając nowych narzędzi i tworząc nowa tradycję.

Czytaj dalej „Osobiste archiwa cyfrowe”

Otwarte czasopisma naukowe a prawa autorskie

Prawo autorskie ma ogromne znaczenie dla rozpowszechniania dóbr kultury i nauki, w tym zasobów archiwalnych. Jednocześnie trudno znaleźć prawo, które byłoby bardziej zawiłe, niejasne, wewnętrznie sprzeczne i działające wstecz. Prawo autorskie w większości krajów coraz bardziej rozchodzi sie z rzeczywistością i powszechnym użyciem Internetu jako medium dostępu do dóbr kultury.

Problemy z prawem autorskim są wielorakie, to jest temat na większą rozprawę, tutaj tylko kilka przykładów dla ilustracji zakresu problemu. Biblioteki i archiwa mogą legalnie udostępniać każdemu zasoby – książki, dokumenty, czasopisma … ale tylko na miejscu. Zdalne oglądanie tego samego dokumentu jest zabronione przez prawo (chyba, że dokument ma ponad 120 lub więcej lat). Prawo autorskie nie zabrania dostępu, tylko ten dostęp utrudnia, stanowi równoważnik piasku sypanego w tryby maszyny przepływu informacji

Podobnie jest z domowym użyciem mediów. Każdy (w USA) może sobie legalnie zrobić kopie zapasową filmu (np. kupionego DVD), ale nie może legalnie wykonać kopii pliku zawierającego ten film na DVD (Digital Millennium Copyright Act).

Sytuacja jest szczególnie tragiczna w dziedzinie publikacji naukowych. Aby dostać kopię (elektroniczną) artykułu który sam napisałem, muszę zapłacić wydawcy średnio $30, sporo więcej niż za przeciętną książkę w księgarni. W dobie powszechniej dostępności wiadomości gazetowych w Internecie, bariery w dostępie do wiedzy naukowej są ogromne, i stan ten budzi rosnący sprzeciw. Jest to sprzeciw tym bardziej uzasadniony, że praca naukowców jest w dużej części finansowana przez państwo, uczelnie albo przez prywatne fundacje z założeniem, ze będą służyły całemu społeczeństwu. Coraz więcej naukowców domaga się publicznej dostępności swojej pracy. Wydawcy tradycyjnych publikacji naukowych próbują obronić się przed tym trendem i zachować stary model oferując publiczna dostępność artykułu za określoną opłatą z góry przy publikacji. Wydawcy argumentują, że potrzebują pieniędzy na opracowanie, skład, itp. Na przykład Elsevier, wydawca wielu czasopism naukowych, wycenia publikację otwartego artykułu na $3000.

Czytaj dalej „Otwarte czasopisma naukowe a prawa autorskie”