- 12 апреля 2012
- новость года
- просмотров 9417
Фонд Викимедиа (Wikimedia Foundation), управляющий Википедией (Wikipedia) и рядом других вики-проектов,
объявил о запуске своего первого крупного проекта с 2006 года — Wikidata, единой базы для хранения
структурированных данных, которые будут использоваться во всех статьях свободной энциклопедии вне зависимости от языковой версии (статистические, хронологические данные, имена известных личностей и т. д.). Проект представил председатель правления Wikimedia Deutschland
Павел Рихтер (Pavel Richter) на международной конференции Викимедии, проходившей 30 марта в Берлине.
Например, в Wikidata могут храниться данные по численности населения определённого города. Все статьи Википедии, в которых упоминаются эти данные, будут содержать специальный ключ с названием города и атрибутом, ассоциированным с численностью населения. Чтобы подкорректировать статистику, будет достаточно изменить только одну запись в Wikidata, что отразится на всех соответствующих статьях Википедии. Это же относится к связанным с городом географическим, политическим и прочим сведениям (имя мэра, телефонный код, города-спутники, известные граждане и т. п.).
Структурирование данных в Wikidata позволит автоматически отвечать на запросы типа «десять крупнейших городов мира, где мэром является женщина». На данный момент ответы на такие вопросы можно находить в так называемых
списках Википедии, которые составляются вручную. Wikidata поможет формировать их автоматически,
считает TechCrunch.
Функционально Wikidata можно сравнить с
Викискладом (Wikimedia Commons), только последний выступает в роли общего хранилища мультимедиа файлов, а Wikidata будет содержать
единые представления фактов для всех языковых версий Википедии. При этом проект будет включать гибкие средства локализации. Так, даже если статья ранее не была переведена на тот или иной язык, для любой языковой версии можно будет вывести все соответствующие факты из Wikidata.
Данные будут доступны как для правки человеком, так и программой, то есть Wikidata может быть задействована и в разнообразных сторонних приложениях, таких как системы аннотирования научных статей.
Поначалу Wikidata будет охватывать
40 различных версий Википедии из более чем
280. При этом разработка разделена на
3 фазы. Первую фазу планируется завершить в августе нынешнего года. На данной стадии будет проведена работа по централизации ссылок между разными языковыми разделами Википедии. На второй стадии, результаты которой планируется представить в декабре 2012 года, редакторы получат возможность добавления и использования данных в Wikidata. Финальная фаза ознаменует собой появление средств для автоматического создания списков и схем, основанных на данных в Wikidata.
Стартовую работу по созданию Wikidata ведет германское отделение Фонда Википедиа Wikimedia Deutschland — команда из
восьми разработчиков под руководством доктора
Денни Врандечича (Denny Vrandečić), выходца из Технологического института Карлсруэ (Karlsruhe Institute of Technology (KIT)), соучредителя проекта
Semantic MediaWiki. В дальнейшем планируется передача полномочий по управлению и обслуживанию международной штаб-квартире Викимедии.
Данные как Wikidata, так и Википедии будут предоставляться на условиях лицензии Creative Commons.
На разработку начального прототипа проекта выделено
€ 1,3 млн, половина из которых пожертвована Институтом решения проблем искусственного интеллекта (Institute for Artifical Intelligence, AI²), созданного
Полом Алленом (Paul G. Allen), соучредителем корпорации Майкрософт. Остальную часть финансирования предоставили компания Google и фонд Гордона и Бетти Мур (Gordon and Betty Moore Foundation).
По мнению вице-президента института AI²
Марка Гривза (Mark Greaves), проект Wikidata является следующим шагом эволюции Википедии, трансформируя способ размещения энциклопедических данных, делая их доступными более широкой аудитории. Семантические технологии, на которых будет основан проект, позволят упростить выявление нужных сведений.
Эндрю Ли (Andrew Lih), автор книги
The Wikipedia Revolution,
отметил в комментарии CNet, что проект Wikidata является логическим развитием проекта энциклопедии. С другой стороны, Wikidata — это все-таки техническое решение, которое требует понимания организации энциклопедии и определённых навыков, что может отпугнуть некоторых технически неподкованных редакторов.
С точки зрения английского географа
Марка Грэхэма (Mark Graham), которая
изложена на сайте The Atlantic, Wikidata подразумевает существенное и чрезвычайно важное изменение принципов функционирования Википедии. Ранее не было задачи сделать так, чтобы статья из одной языковой версии Вики не противоречила другой (например, публикации о памятнике «Бронзовый солдат» в русском и эстонском разделах). При этом каждое сообщество может формировать и воспроизводить разные взгляды на одну и ту же проблему, создавая свою «правду», свое мировоззрение. Безусловно, существуют общепринятые факты, с которыми никто не спорит (Токио — столица Японии и т. д.), но так бывает далеко не всегда... Например, включать ли в состав населения Израиля жителей с оккупированных и спорных территорий, и как уживется этот единый вики-факт в ивритском и арабском языковых разделах?
Обзор этих и других точек зрения на новацию Фонда Викимедиа содержится в статье с сайта The Wikipedian, название которой можно дословно перевести как «
Агония и экстаз Wikidata» (The Agony and Ecstasy of Wikidata).
Стоит напомнить, что попытки превратить огромную библиотеку знаний Википедии в структурированный источник данных —
семантическую вики — уже предпринимались. Например, проект
DBpedia пытался создать такую систему, однако она была односторонней: клиенты-машины не могли вносить в нее свои правки.
Упомянутые персоны, псевдонимы и персонажи