- 22 мая 2012
- просмотров 3218
Проект «
Омнипедия» (Omnipedia), который позволяет ознакомиться с информацией сразу из
25 языковых версий Википедии (Wikipedia), включая русскую, был
представлен 8 мая на конференции CHI (Сomputer-Human Interaction), организованной одной из групп Ассоциации вычислительной техники (Association for Computing Machinery, ACM). Ежегодное мероприятие, посвящённое взаимодействию компьютера и человека, роли человеческого фактора в компьютерных системах, проходило в техасском городе Остин.
Префикс «omni» в названии проекта является латинским словом, которое означает «всё», «целиком», что подчёркивает главную цель «Омнипедии» — обеспечить полный доступ к разным, а в итоге — ко всем языковым версиям Википедии.
Как известно, Википедия — это около
280 языковых версий, каждая из которых порой включает статьи об одних и тех предметах. Чём же различаются такие публикации, только ли языком? — Далеко не всегда. Некоторые статьи содержат не только больше информации, но и отражают особые культурные точки зрения, которые присущи публикации только в одной конкретной языковой версии Вики,
отмечается в материалах авторов «Омнипедии», подготовленных для конференции.
Как же преодолеть языковые барьеры? — Для этого в рамках проекта «Омнипедия» была разработана специальная программа, которая позволяет получать информацию сразу из 25 языковых версий Википедии, но это не переводчик, хотя без перевода, конечно, не обошлось. Новая разработка анализирует ссылки с боковой панели статьи Википедии на аналогичные публикации в других языковых версиях (в русской версии — блок «На других языках»), затем проходит по ним, определяет «основной язык» для всех статей заданной тематики, одновременно отмечая различия, и формирует обобщенную информацию. Разумеется, учитываются и ссылки на другие статьи в рамках одной и той же языковой версии.
В любом случае сервис способен разобраться, какая тема является универсальной, то есть встречается в разных языковых версиях, а какая специфична для отдельного языка или страны. Разница может быть, например, в исторических событиях, праздниках, культурном наследии или национальных различиях.
Однако данный метод анализа пока нельзя признать надёжным. Например, во многих языковых версиях статья «Теория заговора» связана со публикацией об НЛО, но в
испанской статье такая ссылка отсутствует, однако
статья об НЛО по-прежнему есть. Вот почему разработчикам приходится применять дополнительные алгоритмы, которые отлавливают «недостающие звенья».
Каждую тему «Омнипедия» формирует в виде круговой диаграммы, которая разделена на цветные сегменты. Каждый цвет представляет собой определённый язык, и щелчок по сегменту открывает определённый фрагмент статьи. Текст переводится автоматически с помощью сервиса Bing Translator от Microsoft.
Система была опробована фокус-группой, состоявшей из
27 добровольцев-лингвистов. В итоге большинство заявило, что они и не предполагали, как много информации по одной и той же статье может быть в Википедии. Например, оказалось, что
японская статья о регги содержит даже больше информации, чем версия на английском. Более того, благодаря данной системе читатель получает возможность взглянуть на одну и ту же проблему под разным углом.
Авторами «Омнипедии» стали учёные из Северо-Западного университета (Northwestern University), расположенного в американском штате Иллинойс.
Стоит отметить, что пока разработка недоступна для публичного использования: сайт «Омнипедии» содержит лишь скриншоты с примерами работы сервиса.