Группа исследователей из Университета Айовы (University of Iowa, UI), США, разработала инструмент для проверки статей Википедии (Wikipedia) на вандализм, сообщается в новостях учебного заведения. Суть алгоритма проста: программа сравнивает слова из новых правок со всей записью, указывая на подозрительные места.
Как сказано в документе группы «Определение вандализма в Википедии при помощи активного обучения и статистических языковых моделей» (Detecting Wikipedia Vandalism with Active Learning and Statistical Language Models), программа ищет слова или образцы лексики по всех редакциях статьи, начиная с момента написания, определяя вероятность появления в ней тех или иных слов. Например, фраза «Пит любит блины» в статье о 16-м президенте США Аврааме Линкольне будет оценена как вероятный вандализм.
Новый алгоритм уже проверен на статьях об Аврааме Линкольне и Microsoft — двух страницах английской Википедии, которые чаще всего подвергаются злонамеренным правкам. В результате анализа нескольких тысяч правок была успешно определена большая часть незначительных умышленных искажений текста.
Однако разработка была бессильна в противодействии ссылочному спаму или замене изображений. Так, алгоритм не смог определить замену изображения Линкольна на фотографию красного дерева, изменение, которое продержалось около двух лет и выдержало 4000 правок. Но это неудивительно: новый инструмент не способен распознавать изображения, а уместность той или иной ссылки можно определить как правило только после клика по ней.
Главное, что новый алгоритм способен противостоять будущим, еще даже не придуманным формам вандализма, так как при создании инструмента использовались принципы разработки искусственного интеллекта.
Участник исследовательской группы Ник Стрит (Nick Street), профессор науки управления бизнес-колледжа Типпи (Tippie College of Business) отметил, что их программа похожа на антивирус: «Она учится распознавать изменения, то есть опережает вандалов на один шаг».
Стоит отметить, что Вики уже включает инструменты для определения непристойностей или злонамеренных правок, например, удаления целых разделов. Однако нецензурные слова вносятся в стоплист вручную, то есть являются преградой, которую можно обойти. Более того, применяемая система противодействия вандализму плохо определяет небольшие умышленные повреждения вики-статей.
(Голосов: 1, Рейтинг: 3.3) |
их программа похожа на антивирус: «Она учится распознавать изменения, то есть опережает вандалов на один шаг».
Pete loves PANCAKES
It determines the probability of each word appearing, and because the word ‘pancakes’ didn’t turn up anywhere else in the history of Lincoln’s entry, the algorithm saw it as something new and possible graffiti,” Chin said.