Интернет часто воспринимают как место, где контент хранится вечно. Но, как показало новое исследование, огромные объемы информации теряются при удалении или перемещении страниц.
Исследование под названием «Когда онлайн-контент исчезает» опубликовано на сайте Pew Research Center.
В интернете насчитываются сотни миллиардов проиндексированных веб-страниц. Как показал анализ, онлайн-контент не вечен.
По состоянию на октябрь 2023 года четверть всех веб-страниц, существовавших в период с 2013 по 2023 год, больше не доступны. Причем чем старее контент, тем меньше шансов у него сохраниться: около 38% веб-страниц, существовавших в 2013 году, сегодня недоступны, по сравнению с 8% страниц, существовавших в 2023 году.
Этот «цифровой распад» происходит во многих онлайн-пространствах: на правительственных и новостных сайтах, в разделе «Ссылки» на Википедии, в соцсетях.
Также анализ показал следующее:
23% новостных веб-страниц содержат хотя бы одну неработающую ссылку;
21% веб-страниц правительственных сайтов содержат хотя бы одну неработающую ссылку;
новостные сайты с высоким и низким уровнями посещаемости примерно с одинаковой вероятностью содержат неработающие ссылки;
веб-страницы местных органов власти особенно часто имеют неработающие ссылки;
54% страниц Википедии содержат хотя бы одну ссылку в разделе «Ссылки», указывающую на страницу, которая больше не существует;
почти каждый пятый твит не виден всего через несколько месяцев после публикации (в 60% случаев из-за закрытия, удаления или блокировки учетной записи, в 40% — из-за удаления твита владельцем, чья учетная запись продолжает существовать).
Причем некоторые типы твитов имеют тенденцию исчезать чаще, чем другие. Более 40% твитов на турецком и арабском языках перестают быть видны на сайте в течение трех месяцев после публикации.
Для проведения анализа была собрана случайная выборка в почти миллион веб-страниц из архивов интернет-службы Common Crawl. Исследователи отбирали страницы, собираемые Common Crawl каждый год с 2013 по 2023 год (приблизительно 90 000 страниц в год), и проверяли, существуют ли они сегодня.
Добавим, в Госдепе США сообщили, что Украина ввела цензуру на онлайн-контент под предлогом военного времени: заблокированы более 1000 сайтов.