Пока загружены материалы английской и французской Википедий
- 21 апреля 2025
- просмотров 40

Wikimedia Enterprise — дочерняя компания Фонда Викимедиа (англ. Wikimedia Foundation) для использования её информационных массивов сторонними структурами и разработчиками — выпустил бета-версию набора данных [1]
1 специально для обучения моделей искусственного интеллекта (ИИ; англ. artificial intelligence, AI) [2]
2, сообщают Wikimedia Enterprise [3]
3, блог Google [4]
4 и другие ресурсы.
На момент публикации дата-сайентистам (англ. data scientist) — специалистам науки о данных (англ. data science) — в формате JSON [5]
5 доступен структурированный контент Википедии (англ. Wikipedia) на английском [6]
6 и французском языках [7]
7, который можно сразу же использовать для моделирования, сравнительного анализа и прочих направлений исследования.
По состоянию на 15 апреля 2025 года загрузка набора данных включала такие элементы, как аннотации, краткие описания, данные в стиле «ключ-значение» в стиле инфобокса, ссылки на изображения и чётко сегментированные разделы статей.
Новости предшествовало заключение партнёрского соглашения Фонда Викимедиа с Kaggle [8]
8 — принадлежащей Google платформой сообщества науки о данных, где размещаются материалы для машинного обучения (англ. machine learning, ML) [9]
9. Там же — среди свыше
461 тыс. свободно распространяемых наборов данных — теперь публикуются материалы из Википедии.
Как ресурс, куда специалисты по машинному обучению обращаются за инструментами и тестами, Kaggle очень рад стать местом для размещения данных Фонда Викимедиа. Kaggle уже является популярной площадкой, куда обращаются за наборами данных, причём есть несколько, которые заметно популярнее представленных Фондом Викимедиа. Kaggle рада внести свой вклад в обеспечение доступа и использование этих данных. Бренда Флинн (англ. Brenda Flynn), руководитель по взаимоотношениям с партнёрами в Kaggle
Стоит напомнить, что проект Wikimedia Enterprise
стартовал в 2021 году. C 2022 года Wikimedia Enterprise
предоставляет доступ к данным Викимедии в реальном времени для Google и некоммерческой организации «Архив Интернета» (АИ; англ. Internet Archive).
Литература
- Wikipedia structured contents. — Текст: электронный// Kaggle: Your machine learning and data science community. — URL: https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents (дата обращения: 21.04.2025).
- Искусственный интеллект. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Искусственный_интеллект (дата обращения: 21.04.2025).
- Wikipedia Kaggle dataset using structured contents snapshot/ Wikimedia Enterprise team. — Текст: электронный// Wikimedia Enterprise — APIs for AI, search & knowledge graphs. — 2025. — 16 апреля. — URL: https://enterprise.wikimedia.com/blog/kaggle-dataset/ (дата обращения: 21.04.2025).
- Flynn B. Kaggle and the Wikimedia Foundation are partnering on open data/ Brenda Flynn. — Текст: электронный// The Keyword: Google product and technology news and stories. — 2025. — 16 апреля. — URL: https://blog.google/technology/developers/kaggle-wikimedia/ (дата обращения: 21.04.2025).
- JSON. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/JSON (дата обращения: 21.04.2025).
- Английская Википедия. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Английская_Википедия (дата обращения: 21.04.2025).
- Французская Википедия. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Французская_Википедия (дата обращения: 21.04.2025).
- Kaggle: Your machine learning and data science community: [сайт]. — URL: https://www.kaggle.com/ (дата обращения: 21.04.2025).
- Машинное обучение. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Машинное_обучение (дата обращения: 21.04.2025).
Упомянутые персоны, псевдонимы и персонажи