Internet gnije: Czy tracimy naszą pamięć cyfrową?

Każdego dnia tysiące stron internetowych znikają bez śladu. Wraz z nimi znikają wspomnienia, wiedza i fragmenty naszej historii. Kiedy wszystko wydaje się na wyciągnięcie ręki, paradoksem jest, że sieć WWW (WWW), którą nazywamy Internetem – to ogromne cyfrowe archiwum naszej globalnej cywilizacji – po cichu znika.
Prawie 4000 lat temu kupiec napisał na glinianej tabliczce skargę dotyczącą wadliwych sztabek miedzi. Ta skarga przetrwała do dziś. Jednak blogi, fora i strony internetowe opublikowane zaledwie piętnaście lat temu zniknęły. Jak to możliwe, że skarga z epoki brązu jest trwalsza niż post z 2009 roku?
Klucz leży w kruchości internetu. Treści cyfrowe, jeśli nie są aktywnie przechowywane, są z natury ulotne.
W przeciwieństwie do nośników fizycznych, takich jak glina, papirus czy papier, strony internetowe zależą od serwerów wymagających konserwacji, domen, które trzeba odnawiać, i formatów, które prędzej czy później stają się przestarzałe.
Gdy serwer znika, domena wygasa, przekierowania są źle zarządzane lub witryna internetowa opiera się na przestarzałych technologiach, skutek jest ten sam: treść staje się niedostępna, a gdy ostatecznie znika, nikt tego nie zauważa.
Zjawisko to nazywa się gniciem linków i jest zjawiskiem ciągłym. Analiza tweetów, które opublikowałem w latach 2007–2023, wykazała, że 13% linków było nieaktywnych, a jeśli tweet miał ponad dziesięć lat, odsetek ten wzrastał do 30%. Innymi słowy, prawie jedna trzecia treści, do których linkowano dekadę temu, stała się niedostępna… a może nawet całkowicie zniknęła.
Ciche zaciemnienie W filmie „Blade Runner 2049” masowa awaria spowodowana przez replikantów-aktywistów kasuje wszystkie cyfrowe zapisy. Nie potrzeba jednak aż tak ekstremalnego scenariusza, aby ogromne ilości informacji zniknęły w mgnieniu oka. Jednak, podobnie jak w filmie, te wymazywania są wynikiem świadomych decyzji, zazwyczaj podejmowanych przez prywatne firmy. Na przykład zamknięcie platform takich jak Yahoo! Answers, Geocities, Tuenti czy forów Meristation oznaczało utratę milionów tekstów, zdjęć i rozmów, które dokumentowały część naszego życia i naszej kultury cyfrowej.
Z drugiej strony, w przeciwieństwie do poprzednich administracji, które wdrażały politykę mającą na celu zachowanie informacji dostępnych na stronach internetowych rządowych, administracja Donalda Trumpa systematycznie usuwała tysiące stron i oficjalnych danych z takich agencji jak Centra Kontroli i Zapobiegania Chorobom (CDC), Narodowa Agencja ds. Oceanów i Atmosfery (NOAA) i Agencja Ochrony Środowiska (EPA).
Te usunięcia dotyczyły przede wszystkim treści związanych ze zdrowiem publicznym, zmianami klimatu, różnorodnością i prawami socjalnymi. Doprowadziły one do znacznej utraty informacji publicznej i naukowej oraz wywołały niepokój, szczególnie wśród społeczności naukowej.
Paradoks jest oczywisty: nasza cywilizacja produkuje więcej treści niż kiedykolwiek wcześniej, ale robi to w niestabilnych formatach i co więcej, traci je szybciej, niż sobie wyobrażamy.
Wszystko to dzieje się w czasie, gdy coraz więcej informacji (protokoły posiedzeń parlamentarnych, oficjalne biuletyny, artykuły naukowe i instrukcje techniczne itp.) jest publikowanych w formacie cyfrowym, często bez kopii fizycznej.
Paradoks jest oczywisty: nasza cywilizacja produkuje więcej treści niż kiedykolwiek wcześniej, ale robi to w niestabilnych formatach i co więcej, traci je szybciej, niż sobie wyobrażamy.
Pomimo tej sytuacji, podejmowane są wysiłki mające na celu zachowanie naszej cyfrowej pamięci. Najbardziej znanym przykładem jest Wayback Machine, narzędzie Internet Archive, które od 1996 roku zarchiwizowało miliardy stron internetowych . Na poziomie krajowym instytucje takie jak Biblioteka Narodowa Hiszpanii czy jej odpowiedniki w Wielkiej Brytanii i Australii również pracują nad zachowaniem części naszego dziedzictwa cyfrowego.
Co jest robione? Podobnie, w obliczu masowych i celowych usunięć, takich jak te przeprowadzane przez administrację Trumpa, różne organizacje współpracują ze sobą w celu archiwizacji usuniętych informacji. Inicjatywy te mają na celu zapewnienie w przyszłości dostępu do danych publicznych, nie tylko do celów badawczych, ale także w celu zachowania dokumentacji historycznej.
Oczywiście, nie jest to proste zadanie. Dzisiejsza sieć WWW jest znacznie bardziej złożona niż w latach 90.: treść jest dynamiczna i interaktywna, nie jest już prostymi dokumentami HTML. Co więcej, archiwizacja treści z mediów społecznościowych lub multimediów stanowi nie tylko ogromne wyzwanie techniczne, potęgowane przez przeszkody narzucane przez same platformy, ale także rodzi dylematy etyczne i prawne związane z prywatnością i zgodą użytkownika. Innymi słowy, nie wszystko może lub powinno zostać zachowane.
Mimo wszystko możemy się włączyć: narzędzia takie jak Save Page Now, Wayback Machine czy Archive.today pozwalają każdemu zarchiwizować kopię dowolnej strony internetowej, po prostu wprowadzając jej adres URL.
Być może za 4000 lat nikt nie znajdzie naszych skarg na wadliwe sztabki, ale znajdzie nasze przepisy, memy i dyskusje na forach, a wraz z nimi wgląd w to, kim byliśmy.
Ostatecznie stwierdzenie, że WWW gnije, jest jak stwierdzenie, że las gnije: coś zawsze umiera, ale coś się rodzi , ponieważ sieć nieustannie się zmienia. Ważne jest, aby wiedzieć, że możemy uchwycić fragmenty, zachować to, co istotne, i zbudować trwalszą pamięć cyfrową, mniej podatną na wahania technologiczne lub decyzje kilku firm czy rządów.
Być może za 4000 lat nikt nie znajdzie naszych skarg na wadliwe sztabki, ale znajdzie nasze przepisy, memy i dyskusje na forach, a wraz z nimi wgląd w to, kim byliśmy.
(*) Profesor zwyczajny na Wydziale Informatyki Uniwersytetu w Oviedo.
(**) Jest to organizacja non-profit, której celem jest dzielenie się pomysłami i wiedzą akademicką z opinią publiczną. Niniejszy artykuł jest udostępniany na licencji Creative Commons.
Cztery z dziesięciu stron internetowych z 2013 roku już nie istnieją 
Zdjęcie: iStock
1 stycznia tego roku internet, jaki znamy, obchodził 42. urodziny. W ciągu tych ponad czterech dekad użytkownicy wygenerowali w sieci ogromną ilość informacji: w samym 2023 roku istniało 120 zettabajtów (ZB) danych, a w tym roku liczba ta ma wzrosnąć o 150%, osiągając 181 ZB, według danych zebranych przez Statista. Dla porównania, jeden ZB odpowiada miliardowi terabajtów (TB), a największe karty pamięci SDUC dostępne obecnie na rynku osiągają pojemność zaledwie 128 TB.
Jednak to, co jest publikowane w sieci, nie zawsze jest trwałe. Prawdopodobnie kliknąłeś link więcej niż raz i napotkałeś komunikat „404 Not Found”, który nie prowadzi do tego, czego szukałeś. Raport Pew Research Center z 2024 roku ujawnił, że niektóre treści cyfrowe z czasem ulegają utracie, nawet w witrynach uważanych za wiarygodne, takich jak portale rządowe, serwisy informacyjne, media społecznościowe i Wikipedia.
„Internet to niewyobrażalnie ogromne repozytorium współczesnego życia, z setkami miliardów zindeksowanych stron internetowych. Jednak podczas gdy użytkownicy na całym świecie szukają w sieci dostępu do książek, obrazów, wiadomości i innych zasobów, treści te czasami znikają” – czytamy w dokumencie.
W badaniu przeanalizowano próbkę prawie miliona stron internetowych zapisanych w latach 2013–2023 za pomocą Common Crawl, usługi archiwizującej, która okresowo tworzy migawki internetu w różnych momentach. Wyniki wskazały, że do października 2023 roku 25% wszystkich analizowanych stron było niedostępnych . W ujęciu ogólnym liczba ta obejmuje 16% stron, które były niedostępne, ale pochodziły z domeny głównej, która nadal była aktywna, oraz 9% witryn, które były niedostępne, ponieważ ich domena główna przestała działać.
Analiza wykazała również, że im starsza strona, tym większe prawdopodobieństwo jej zniknięcia: 38% próbek zebranych w 2013 r. nie było już dostępnych w 2023 r .; ale nawet w przypadku stron zebranych w 2021 r. mniej więcej jedna na pięć nie nadawała się już do użytku dwa lata później.
Cyfrowy rozkład nie dotyczy tylko stron osobistych i witryn o niskim ruchu. Pew Research Center przeanalizowało 500 000 lokalnych, stanowych i federalnych stron internetowych rządowych w Stanach Zjednoczonych, korzystając z raportu Common Crawl z marca/kwietnia 2023 roku, i stwierdziło, że do października 2023 roku 21% tych stron zawierało co najmniej jeden uszkodzony link, a 16% linków na stronach internetowych przekierowywało do adresów URL innych niż ten, do którego pierwotnie prowadziły.
W przypadku serwisów informacyjnych próba obejmowała również 500 000 stron z raportu Common Crawl z marca/kwietnia 2023 roku. Strony pochodziły z 2063 witryn sklasyfikowanych jako „Wiadomości/Informacje” przez firmę comScore, zajmującą się pomiarami oglądalności. Stwierdzono, że w momencie badania, w październiku 2023 roku, 23% stron zawierało niedziałające linki.
Nawet Wikipedia, jedna z najchętniej odwiedzanych witryn na świecie, ma ten problem: w przypadku 50 000 anglojęzycznych stron, 54% zawierało w sekcji „Źródła” co najmniej jeden link przekierowujący do strony, która już nie istnieje.
eltiempo