- 1 ноября 2013
- просмотров 3649
Сянюй Цинь (Xiangju Qin) и
Падрег Каннигем (Pádraig Cunningham) из Дублинского университетского колледжа (University College Dublin, UCD) разработали алгоритм для оценки статей
английской Википедии (Wikipedia) на основании авторитетности авторов и долговечности их правок,
сообщает MIT Technology Review со ссылкой на
публикацию исследования на сайте Библиотеки Корнелльского университета (Cornell University Library).
Учёные исходят из предположения, что страницы, в редактирование которых был внесён значимый вклад от авторитетных авторов, должны быть относительно хорошего качества. В итоге, зная об этом, читатели смогут объективнее оценивать качество статей. Но как это вычислить? — Поначалу стандартно.
Дело в том, что Цинь и Каннингем — не первые, кто взялись разрабатывать инструмент для анализа качества статей Википедии. И начинают они с известного способа — измерения продолжительности «жизни» (longevity) правок. Идея проста: чем выше качество редактирования, тем больше у текста шансов «выжить» при следующей редакции.
Однако значимой проблемой Википедии по-прежнему является является
вандализм. Чтобы уменьшить этот «шум», который мог повлиять на качество исследования, Цинь и Каннингем игнорировали все анонимные правки.
Затем были разработаны правила измерения авторитетности каждого редактора. Данный показатель учёные определяют как по продолжительности пребывания автора в сообществе википедистов, так и по количеству его связей с коллегами через совместное редактирование статей. Соответственно, чем опытнее редактор, тем больше у него связей. Применялся и алгоритм Google Pagerank (веб-страница считается тем «важнее», чем больше на неё ссылаются другие «важные» страницы).
В результате «долговечность» правок и авторитетность авторов позволяют вычислить качество статьи.
Эффективность разработанного алгоритма была проверена на примере 9000 статей, качество которых ранее оценили редакторы Википедии.
При этом у данного подхода имеются некоторые ограничения. К примеру, такой тип редактирования, как
отмена правки (revert), возвращает страницу к предыдущей версии, полностью удаляя соответствующий текст. Этот метод часто используется при борьбе с вандализмом. Что же будет, если учитывать «откаты»? — Долговечность такого изменения может оказаться высокой. Между тем автор не добавил новый контент, а всего лишь отменил чужую правку. Цинь и Каннингем считают, что эта задача для их дальнейших исследований.
В любом случае, учёные полагают, что новый подход может стать полезным инструментом в арсенале редактора Википедии. Разработанный алгоритм поможет определять статьи как относительно хорошего качества, так и низкого, а значит своевременно обращать на них внимание редакторов.
Упомянутые персоны, псевдонимы и персонажи