Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Bandai Namco подтвердила цену DLC с новым контентом из версии Elden Ring для Switch 2 — мнения игроков разделились 8 мин.
Cloudflare объявила войну ИИ-ботам — теперь они будут блокироваться по умолчанию 37 мин.
Microsoft создала подразделение Frontier Company для предоставления услуг по внедрению ИИ 57 мин.
Встраиваемые системы становятся главным фронтом ИТ-суверенитета России 2 ч.
Meta без лишнего шума выпустила мобильное приложение Pocket для вайб-кодинга игр на ходу 2 ч.
Улучшения производительности, меньше вылетов и никаких телепортирующихся NPC: для ремейка «Готики» вышло обновление 1.0.3 2 ч.
Meta вложила миллиарды в ИИ, но Цукерберг признал: агенты не спешат умнеть 3 ч.
Сливший iOS 26 до анонса блогер свалил вину на своего сообщника 3 ч.
«Время — это конструкт»: научно-фантастический триллер Ontos от создателей Amnesia и Soma перенесли на 2027 год 3 ч.
Citrix анонсировала XenServer 9 — альтернативу решениям VMware 3 ч.
Предел терпения достигнут: цены на память продолжат расти и в третьем квартале, но не так быстро 33 мин.
До встречи в августе: Starship зажёг все шесть двигателей при подготовке к 13-му тестовому полёту 37 мин.
Российские двигатели в последний раз доставили на орбиту пакет спутников Amazon Leo на ракете Atlas V 40 мин.
Самым популярным смартфоном в российской рознице в этом году стал iPhone 17 3 ч.
Учёные вдохновились пустельгой и разработают дрон, противостоящий порывам ветра 4 ч.
2 июля начали принимать работы для участия в фотоконкурсе «Снято на Camon» компании Tecno 4 ч.
Квартальные продажи Ethernet-коммутаторов взлетели на 40 %, а NVIDIA выбилась в лидеры в ЦОД-сегменте 5 ч.
Илон Маск признался, что объёмы выпуска роботов Tesla Optimus на первых порах будут скромными 6 ч.
Kioxia начала поставлять образцы передовой 332-слойной памяти 3D NAND десятого поколения 7 ч.
Новая статья: Снято в Голливуде? Почему Стэнли Кубрик физически не смог бы подделать лунную походку 12 ч.