Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → internet archive

Архивировать интернет становится всё сложнее: Wayback Machine и Wikimedia страдают от дефицита HDD

Архивирование данных интернета оказывается всё более неподъёмной задачей из-за дефицита накопителей и роста цен на них. Жёсткие диски подорожали втрое, потому что оказались востребованными крупными компаниями. Это сильно осложняет работу таких проектов как Wayback Machine и Wikimedia.

 Источник изображения: Patrick Lindenberg / unsplash.com

Источник изображения: Patrick Lindenberg / unsplash.com

Некоммерческая организация Internet Archive, которая ставит своей целью обеспечить «доступ ко всем знаниям для всех», оказалась одной из организаций, пострадавших от кризиса. В её распоряжении хранилище объёмом около 210 Пбайт, и ещё 100 Тбайт ежедневно требует сервис Wayback Machine. Бум искусственного интеллекта превратил этот проект в «проблему, отнимающую у нас время и деньги», признаются его руководители. Для этой задачи идеально подходят жёсткие диски объёмом 28–30 Тбайт, но они часто отсутствуют на складах или продаются по сильно завышенным ценам. Отчасти эти проблемы помогают смягчить спонсоры проекта и сообщество — последнее, правда, только советами.

Ответственный за «Википедию» некоммерческий фонд Wikimedia испытывает сложные проблемы: 65 млн статей на платформе требует внушительных ресурсов, а главное — тщательно спланированного распределения бюджета, и текущая ситуация лишь усугубила эту проблему. Организация ощутила кризис при «закупке памяти и жёстких дисков, а также в отношении сроков поставки серверов и нашей способности размещать будущие заказы».

Ещё одна проблема состоит в том, что усложнились механизмы архивирования информации. Большие языковые модели ИИ обучаются на огромных массивах данных, которые подчас добываются незаконным путём — из-за этого владельцы многих сайтов блокируют доступ для средств сбора данных, не проводя различия между ИИ-ботами и добросовестными сервисами, которые собирают эту информацию в образовательных целях. Из-за подобных блокировок и роста цен на накопители не только крупные некоммерческие организации, но и одиночные энтузиасты вынуждены либо сокращать масштабы деятельности, либо вообще приостанавливать её — в ожидании, когда ситуация стабилизируется.

Активность архива интернета Wayback Machine резко рухнула в этом году, но скоро всё придёт в норму

Служба Wayback Machine проекта Internet Archive, занимающаяся созданием и хранением копий интернет-страниц, сейчас переживает своего рода спад — за последний год число создаваемых копий резко сократилось, обнаружили в Niemen Lab.

 Источник изображения: archive.org

Источник изображения: archive.org

С 1 января по 15 мая 2025 года сервис Wayback Machine сохранил 1,2 млн страниц со 100 крупных новостных сайтов, а с 17 мая по 1 октября текущего года с тех же 100 сайтов были сохранены всего 148 628 копий страниц, что соответствует сокращению на 87 %. Причиной тому стал «сбой у ряда отдельных проектов архивирования, из-за которого было создано меньше архивов для некоторых сайтов», сообщил директор сервиса Wayback Machine Марк Грэм (Mark Graham). Он добавил, что некоторые сохранённые после 16 мая материалы пока не появились на сайте, «поскольку ещё не созданы соответствующие индексы».

В подробности господин Грэм предпочёл не вдаваться, ограничившись упоминанием «различных операционных причин», связанных с «распределением ресурсов». Но причина сбоя, по его словам уже устранена, и скоро сайт продолжит работать в прежнем режиме. За последние несколько лет у проекта Internet Archive возникали проблемы и юридического характера: некоммерческая организация проиграла апелляцию в судебном разбирательстве, связанном с оцифровкой книг; а звукозаписывающие компании потребовали у неё $700 млн за проект, в рамках которого в открытый доступ выкладывались оцифровки старых виниловых пластинок.

Архив интернета вновь оштрафовали за неудаление запрещённого контента — на 3,5 млн рублей

В Москве прошло заседание Таганского суда, который признал некоммерческую организацию Internet Archive виновной в административном правонарушении, выразившемся в неудалении запрещённого российским законодательством контента, в связи с чем назначил ей штраф в размере 3,5 млн рублей.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Internet Archive признана виновной в административном правонарушении, предусмотренном ч.2 ст. 13.41 КоАП (неудаление запрещённого контента), организации назначен штраф в размере 3,5 млн рублей», — сообщили корреспонденту агентства «Интерфакс» в пресс-службе суда.

До этого Internet Archive уже штрафовали несколько раз на 800 тысяч рублей за неудаление запрещённого в России контента, в том числе страниц с описанием рецепта изготовления «коктейля Молотова» и взрывных устройств, а также статей, признанных экстремистскими, с контентом, направленным на разжигание ненависти, страниц с экстремистской литературой и антисемитскими материалами.

На прошлой неделе её сервис Wayback Machine подвергся мощной DDoS-атаке, а также был взломан хакерами, которым удалось похитить данные 31 млн пользователей. Ответственность за DDoS-атаку на платформу взяла на себя хакерская группировка SN_Blackmeta. Как утверждает ресурс xakep.ru, за взломом платформы и DDoS-атакой стоят разные злоумышленники.

Internet Archive всё ещё не работает после взлома — на восстановление уйдёт ещё несколько дней

На этой неделе хакеры взломали сервис Wayback Machine, который принадлежит некоммерческой организации Internet Archive и позволяет пользователям просматривать сохранённые когда-то в прошлом страницы веб-сайтов. Во время DDoS-атаки на платформу злоумышленникам удалось похитить данные 31 млн пользователей сервиса, включая логины, адреса электронной почты и пароли в зашифрованном виде. Работоспособность Internet Archive будет восстановлена в течение нескольких дней.

 Источник изображения: pexels.com

Источник изображения: pexels.com

«Данные в безопасности. Сервисы отключены от сети, пока мы их изучаем и совершенствуем. Извините, но это необходимо. Сотрудники @internetarchive работают не покладая рук. Ориентировочные сроки: дни, а не недели», — заявил основатель платформы Брюстер Кейл (Brewster Kahle).

О взломе Internet Archive стало известно в середине недели. Посетители сайта archive.org обратили внимание на появление уведомления, которое оставили злоумышленники и в котором говорилось о взломе площадки. Позднее основатель Have I Been Pwned Трой Хант (Troy Hunt) сообщил, что в его распоряжение попал файл с украденными данными пользователей. Согласно имеющимся данным, последняя запись в украденной базе данных датирована 28 сентября 2024 года. Зарегистрированные на сайте Ханта пользователи могут получить предупреждение, если связанная с ними информация присутствует в украденной базе данных.


window-new
Soft
Hard
Тренды 🔥
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 4 ч.
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 5 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 7 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 8 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 8 ч.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 8 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 8 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 9 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 9 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 9 ч.