В английской Википедии создали проект по борьбе с недостоверными порождениями искусственного интеллекта

9 октября 2024
выбор редакции
просмотров 2918
комментариев 5

Главная страница проекта английской Википедии AI Cleanup (15 октября 2024 года)

Группа редакторов английской Википедии (Wikipedia) [1]¹ создала проект AI Cleanup [2]² для совместной борьбы с растущей проблемой — недостоверными материалами-результатами применения искусственного интеллекта (ИИ), пишут 404 Media [3]³ и другие ресурсы.

Сооснователь группы Ильяс Леблу (Ilyas Lebleu) сказал, что как правило паттерны для поиска сомнительных фрагментов предоставляет сам ИИ.Некоторые из нас обнаружили много примеров необычного текста, который был явно создан с помощью ИИ, и нам удалось воспроизвести похожие «стили» при помощи ChatGPT.

Ильяс Леблу, сооснователь вики-проекта AI Cleanup

Например, статья о Честерском центре психического здоровья (Chester Mental Health Center) в ноябре 2023 года включала фразу «На момент моего последнего обновления знаний в январе 2022 года...» [4]⁴, что относилось к модификации Большой языковой модели (БЯМ)⁵.

Однако встречаются ситуации посложнее, отмечает другой участник группы под ником Queen of Hearts.

Так, активистов особенно впечатлила статья об османской крепости Амберлисихар (Amberlisihar) [5]⁶.Крепость Амберлихисар была построена в 1466 году Мехмедом Завоевателем в Трабзоне, Турция. Крепость была спроектирована армянским архитектором Остадом Крикором Багсараджяном. Строительство крепости было завершено с использованием материалов из камня и кирпича, а для работы над проектом были привлечены мастера и строители из региона Румелия. Древесина для крепости была собрана в лесах на побережье Чёрного моря. Продолжительность строительства не уточняется, но известно, что строительство крепости было завершено в 1466 году. Вполне вероятно, что на завершение строительства ушло несколько лет.

Из удалённой статьи английской Википедии «Амберлисихар»

Публикация объёмом более 2000 слов включает множество абзацев, разделена на подразделы, информирует не только об истории строительства, но и о различных осадах, которым подверглась крепость, а также о восстановительных работах после того, как «получила значительные повреждения в результате бомбардировок русскими войсками во время Первой мировой войны».

Однако такой крепости никогда не было. Правда, некоторые факты подтверждаются. Например, Мехмед Завоеватель или Мехмед Второй действительно существовал.Всё это было мистификацией, созданной ИИ, с хорошо отформатированными цитатами, ссылающимися на совершенно несуществующие работы.

Ильяс Леблу

По словам Леблу, фейковые цитаты являются более серьёзной проблемой, поскольку могут оставаться незамеченными в течение нескольких месяцев. БЯМ, обученная работе с массивом данных Википедии, действительно может сгенерировать текст, который внешне стилистически безупречен, с корректно отформатированными цитатами из реальных источников, только вот даже тематика «исходных» публикаций может не иметь ничего общего с изложением в справочной статье. Так, в публикации Википедии о малоизвестном виде жуков цитировалась настоящая журнальная статья на французском языке [6]⁷, однако...Единственное, что речь в той статье шла о совершенно неродственном виде крабов, и в ней вообще не упоминался жук. Это создаёт дополнительные сложности, если источники не на английском языке, поскольку большинству читателей и редакторов тяжелее выявить проблему.

Ильяс Леблу

Отклонённое вики-сообществом генеративное изображение к статье про Дар уль-Улюм Деобанд

Сказанное относится не только к тексту, но и к изображениям. Так, в справке о реально существующем в Индии религиозном и академическом центре исламского мира Дар уль-Улюм Деобанд (Darul Uloom Deoband) [7]⁸ в какой-то момент появилась сформированная ИИ картинка, которая как бы соответствует эпохе возникновения учреждения и тематически связана. Однако при внимательном рассмотрении у людей можно заметить признаки полидактилии — порока развития, который характеризуется бо́льшим, чем в норме, количеством пальцев, а также искалеченные конечности [8]⁹. В итоге изображение было удалено, поскольку «мало что добавляет к статье, может быть ошибочно принято за современное художественное произведение и является анатомически некорректным».

В других случаях программно сгенерированные иллюстрации вполне могут быть одобрены сообществом, если тематика как минимум отчасти связана с ИИ или корректно, с точки зрения постановщика задания, визуализирует изложенные в тексте идеи.

В публикации на 404 Media отмечается, что Facebook, Google, Amazon и другие крупные платформы обычно удаляют дезинформирующий ИИ-контент только в ответ на обращения или жалобы пользователей, в то время как Википедия обнаруживает его гораздо лучше — и автоматизированно, и вручную, на уровне волонтёров и читателей [3]¹⁰.Статьи в Википедии имеют более специфический формат (не только с точки зрения представления, но и содержания), чем результаты поиска в Google, и не знакомая с ним БЭМ, скорее всего, создаст что-то, что будет гораздо легче обнаружить.

Ильяс Леблу

Часто помогает проверка ссылок.Поскольку Википедия стремится быть третичным источником [9]¹¹ (синтезирующим другие источники без добавления оригинальных исследований), теоретически должна быть возможность проверить, соответствует ли написанное источникам.

Ильяс Леблу

Редакторы также пробовали применять GPTZero (программу для определения, был ли материал создан человеком или ИИ) [10]¹², однако универсальность и, соответственно, эффективность её применения оказались под вопросом.В конечном счёте, не существует «машины-оракула», которая могла бы идеально отличить текст с ИИ от варианта без него. Эти инструменты обнаружения с помощью ИИ часто неточны и эффективны только на старых моделях, таких как GPT-2. Кроме того, как и сами БЯМы, детекторы БЯМов не были специально обучены на основе статей Википедии, корпус которых гораздо однороднее, чем более крупный обучающий набор, и, следовательно, их легче отличить от результатов моделей, обученных на бо́льшем наборе. Из-за этого люди, знакомые как с рекомендациями по написанию текстов в Википедии, так и с распространёнными «ключевыми словами» БЯМов, часто лучше распознают контент с использованием ИИ в данном конкретном контексте.

Ильяс Леблу

Примечания

Большая языковая модель (БЯМ; англ. large language model, LLM) — языковая модель на основе нейронной сети со множеством параметров, которая проанализировала большой объём неразмеченного текста с обучением без учителя (без вмешательства экспериментатора).

Литература

Английская Википедия. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Английская_Википедия (дата обращения: 15.10.2024).
Wikipedia:WikiProject AI Cleanup. — Текст: электронный// Wikipedia, the free encyclopedia. — URL: https://en.wikipedia.org/wiki/Wikipedia:WikiProject_AI_Cleanup (дата обращения: 15.10.2024).
Maiberg E. The editors protecting Wikipedia from AI hoaxes/ Emanuel Maiberg. — Текст: электронный// 404 Media. — 2024. — 9 октября. — URL: https://www.404media.co/the-editors-protecting-wikipedia-from-ai-hoaxes/ (дата обращения: 15.10.2024).
Chester Mental Health Center: Difference between revisions: Revision as of 12:13, 25 November 2023. — Текст: электронный// Wikipedia, the free encyclopedia. — URL: https://en.wikipedia.org/w/index.php?diff=1186779926 (дата обращения: 15.10.2024).
Wikipedia:List of hoaxes on Wikipedia/Amberlihisar. — Текст: электронный// Wikipedia, the free encyclopedia. — URL: https://en.wikipedia.org/wiki/Wikipedia:List_of_hoaxes_on_Wikipedia/Amberlihisar (дата обращения: 15.10.2024).
Estola albosignata: Difference between revisions: Revision as of 16:46, 30 April 2023. — Текст: электронный// Wikipedia, the free encyclopedia. — URL: https://en.wikipedia.org/w/index.php?title=Estola_albosignata&diff=prev&oldid=1152503574 (дата обращения: 15.10.2024).
Darul Uloom Deoband. — Текст: электронный// Wikipedia, the free encyclopedia. — URL: https://en.wikipedia.org/wiki/Darul_Uloom_Deoband (дата обращения: 15.10.2024).
File:Start of Darul Uloom Deoband under a pomegranate tree (by AI).png. — Текст: электронный// Wikimedia Commons. — URL: https://commons.wikimedia.org/wiki/File:Start_of_Darul_Uloom_Deoband_under_a_pomegranate_tree_(by_AI).png (дата обращения: 15.10.2024).
Tertiary source. — Текст: электронный// Wikipedia, the free encyclopedia. — URL: https://en.wikipedia.org/wiki/Tertiary_source (дата обращения: 15.10.2024).
AI Detector — the original AI checker for ChatGPT & more: [сайт]. — URL: https://gptzero.me/ (дата обращения: 15.10.2024).

Персоны

Упомянутые персоны, псевдонимы и персонажи

Теги
AI
AI Cleanup
ChatGPT
en.wikipedia.org
LLM
Wikipedia
WikiProject
БЯМ
Википедия
ИИ
английская Википедия
английский язык
вики-проект
генеративные изображения
генеративный текст
недостоверность статей
проверка на достоверность
фейки

(Голосов: 2, Рейтинг: 3.44)

Евгений Шапиро 15 октября 2024Ссылка на комментарий
Мы уже говорили о важности контроля за «порождениями искусственного интеллекта». Упомянутый проект борется с недостоверными порождениями. Из приведенных в статье примеров видно, с какой легкостью формируются участки параллельной реальности, и как трудно будет выявлять эти «фантомы». Мне в этой теме кажутся важными вопросы о том, через сколько этапов верификации должны пройти текст или изображение, и где в проверку должен включаться человек, чтобы результат мог быть признан достоверным? Вопрос
- 0 /0
Александр Красногорский 18 октября 2024Ссылка на комментарий
Эта история прекрасно показывает, почему нам по-прежнему нужны традиционные «авторизованные» энциклопедии — такие как «Британника» или БРЭ. Ведь сама проблема стала возможной благодаря тому, что пополнять Википедию может любой, а это означает отсутствие ответственности. В своё время такая свобода дала Википедии огромный импульс в развитии и сделала ее лидером по объему. В «народности» Википедии ее сила и в этом же оказалась ее слабость.
- 0 /0
Лилия Тумина 19 октября 2024Ссылка на комментарий
Александр Красногорский написал:
Ведь сама проблема стала возможной благодаря тому, что пополнять Википедию может любой, а это означает отсутствие ответственности.
Когда человек сам дополняет статьи Википедии или пишет новые, это ещё не проблема, ведь всегда найдутся люди, которые смогут исправить чужие глупости. А вот искусственный интеллект действительно способен стать проблемой: простые люди далеко не всегда могут написать для энциклопедии грамотный связный текст, состоящий из нескольких абзацев, зато ИИ его легко напишет. Вот прочитала я про ту самую упомянутую османскую крепость — а ведь отлично написано. И веришь, что всё это правда, что такая крепость есть. Но выясняется, что её на самом деле не существует. И ведь ИИ такую статью может написать за минуту, а простому человеку понадобилось бы несколько часов — он бы просто пожалел тратить время впустую. Вот и задумываешься ненароком: от ИИ больше пользы или вреда? Вопрос
- 0 /0
Clemansae Dunuae 7 ноября 2024Ссылка на комментарий
ИИ — уже часть нашей жизни. И нам ещё долго предстоит учиться отличать сгенерированные видео, картинки, тексты от реальных. На данной стадии развития цивилизации не очень хорошо, что при помощи ИИ создаются энциклопедические труды. В самой Википедии и без ИИ было много ляпов. Появление и существование сгенерированных статей и изображений может полностью лишить Википедию справочной и научной ценности. Хорошо, что хоть где-то об этом задумались.
- 0 /0
Марина Павловская 7 ноября 2024Ссылка на комментарий
Искусственный интеллект возник совсем недавно. Он молодой и хулиганит как ребёнок. Ученные постоянно работают над его усовершенствованием, и потому остается только надеяться, что его научат находить им же созданные фейки, обращать внимание людей на недостоверную, порождённую им информацию или даже самостоятельно удалять всё ненужное.
- 0 /0
На форуме

Мир энциклопедий