Э

Мир энциклопедий

encyclopedia.ru

Разработка системы для построения семантических графов на базе научных энциклопедий

Научная статья

  • 29 сентября 2023
  • выбор редакции
  • просмотров 5521
  • комментариев 2
В работе описаны принципы проектирования системы для формирования семантического графа1 на основе неразмеченного текста научной энциклопедии. Рассмотрены различные способы обработки исходного текста и его автоматической разметки. С помощью реализованной системы был получен семантический граф для математической энциклопедии.

Введение

С ростом объема текстов на естественном языке увеличивается потребность в автоматизации их обработки. Эта проблема актуальна для широкого спектра прикладных задач: от машинного перевода до поисковых систем. Для их решения необходимо представление текста в виде некоторой модели, отражающей структуру и содержимое текста или домена — языковой терминологической) модели предметной области, к которой относится анализируемый текст.

Особый интерес представляет семантический анализ, направленный на извлечение смыслового содержимого текста или его частей. При этом коллекция текстов представляется в виде семантического графа — взвешенного графа, в котором вершины представляют выражения или термины, а ребра — связи между ними. Связи могут быть разнообразны и отображать, например, отношения синонимии или определения [1]2. Поэтому данная модель применима на практике для автоматизации тематического анализа текстов, их аннотирования, реферирования или рубрикации [2]3. Данные задачи актуальны и при анализе научных текстов. Однако при их обработке необходимо учитывать терминологию соответствующего домена. Целью данной работы является разработка системы для автоматического построения семантического графа на основе неразмеченной коллекции научных энциклопедий.

Принцип формирования семантического графа

Особенностью энциклопедических материалов является четкая структурированность их содержимого. Структура документа зачастую описывается авторами на первых страницах энциклопедии. Как правило, энциклопедии состоят из перечня статей. Статья имеет заголовок, соответствующий термину из предметной области, и содержимое — текстовое описание данного термина.

В семантическом графе вершинами будем считать совокупность терминов энциклопедии. Если в описании одного термина будет указан другой — это означает, что они имеют семантическую связь внутри домена и должны быть связаны ребром. Для более корректной оценки условимся за каждое вхождение увеличивать вес связи между терминами на единицу.

Извлечение информации из энциклопедий

В качестве объекта исследования была взята пятитомная «Математическая энциклопедия» И. М. Виноградова. Структура энциклопедии соответствует принципам, описанным выше: термины выделены в тексте полужирным шрифтом и прописным регистром. Была предпринята попытка извлечь термины из текста по шаблону <термин в прописном регистре> <уточнение строчным регистром> — <определение строчным регистром до следующего термина>. Такой подход позволил выделить основные термины документа. Однако, полученный результат обладал большой погрешностью: ошибочно были выделены такие слова как «являются», «всюду», «или» и т. д. Такие неточности возникли в результате ошибок при конвертации файла в txt-формат. После нее же в верстке текста появились новые закономерности. Например, перед каждым термином обязательно была указана пустая строка, тире случайным образом заменялось на дефис и так далее.

Регулярные выражения позволяют искать подстроки в тексте, задавая некоторую маску контекста. Была предпринята попытка создать регулярное выражение, которое выделяло бы в термины в тексте, учитывая ошибки конвертации:
\r?\n\r?\n([А-Я]{3,}(?:[—\-\s,.]{1,5} (?:[А-Я]{3,}|[\d]+))*) (?:[^а-я0-9][а-яA-Za-z,.;()\-\s\d]*)?—[\s]*[а-я\d] (1)
Выражение (1) ищет термин как группу слов в прописном регистре, которые могут быть разделены пробелом, тире (для терминов с дефисом) или символом, не являющимся буквой алфавита в строчном регистре (ошибкой конвертации). После термина и возможной последовательности прописных букв (уточнения термина) должно быть тире, после которого указана любая последовательность букв (определение термина). При этом на каждом этапе учитывается возможность подмены тире дефисом, наличие лишних пробелов и переходов на новую строку (ошибок конвертации).

Текст энциклопедии был обработан повторно, количество обнаруженных терминов сократилось с 6,5 тыс. до 5 тыс. При этом качество графа улучшилось: сократилось количество лишних слов и появилось больше осмысленных терминов.

Рисунок 1. Семантический граф в окрестности термина «программа», построенный на основе текста, размеченного с помощью регулярного выражения

Рисунок 1. Семантический граф в окрестности термина «программа», построенный на основе текста, размеченного с помощью регулярного выражения
Анализ структуры связей в полученном графе, представлен на рисунке 2. Максимальное число связей не превышает 300, что для графа почти с 5000 вершин довольно маленькая величина. Однако для анализа семантических связей это большое число: связь с редко употребляемым термином должна быть сильнее. Поэтому для реализации дальнейших алгоритмов на основе данного семантического графа следует ввести дополнительные метрики частотности для вершин, например TF*IDF4.

Рисунок2. Анализ структуры связей в семантическом графе

Рисунок 2. Анализ структуры связей в семантическом графе

Заключение

В результате работы на основании энциклопедии был сформирован взвешенный семантический граф, представляющий домен определенной научной области. Данная модель сохраняет как структурную, так и статистическую информацию об исходной коллекции, поэтому граф может быть использован для анализа самого домена или текстов, тематически связанных с ним.

Реализованная система [3]5 позволяет создавать семантические графы для неразмеченных энциклопедий. Алгоритмы применимы и к энциклопедиям другой структуры: правила разметки задаются с помощью регулярных выражений, что делает систему гибкой. Данный подход показал свою перспективность и может быть использован в сфере автоматической разметки текстов на естественном языке.

Примечания («Мир энциклопедий»)

  1. Семантический граф — структурированное представление информации, которое отражает семантические отношения (связи) между смысловыми единицами (узлами). Позволяет описывать и исследовать сложные информационные структуры.
  2. TF*IDF (также tf–idf, TFIDF, TF–IDF, Tf–idf) — формула для оценки важности слова в контексте документа.

Список использованных источников

  1. Korney A. Information Retrieval Approach Using Semiotic Models Based on Multi-Layered Semantic Graphs/ A. Korney, E. Kryuchkova, V. Savchenko// High-Performance Computing Systems and Technologies in Scientific Research, Automation of Control and Production. HPCST 2020. Communications in Computer and Information Science. — 2020. — Vol. 1304. — P. 162-177.
  2. Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие/ У. И. Большакова, К. В. Воронцов, Н. Э. Ефремова [и др.]. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
  3. ThematicAnalysis// github.com/ GitHub, Inc. — [S.l.], 2022. — URL: https://github.com/bachisheo/ThematicAnalysis (last accessed date: 23.05.2022).
Бачище Ольга Игоревна, студент кафедры прикладной математики (ПМ),
Крючкова Елена Николаевна, к.ф.-м.н., профессор кафедры ПМ,
Алтайский государственный технический университет им. И. И. Ползунова, г. Барнаул, Россия

  • Теги
  • automatic text processing
  • graph
  • programming
  • regexp
  • regular expressions
  • scientific encyclopedias
  • semantic analysis
  • автоматическая обработка текста
  • граф
  • научные энциклопедии
  • программирование
  • регулярные выражения
  • семантический анализ
  • Библиографическое описание ссылки Бачище О. И., Крючкова Е. Н. Разработка системы для построения семантических графов на базе научных энциклопедий/ Ольга Игоревна Бачище, Елена Николаевна Крючкова// Современные цифровые технологии: Материалы I Всерос. науч.-практ. конф. (01 июня 2022 г.). — Барнаул: АлтГТУ, 2022. — С. 107-109. — URL: https://journal.altstu.ru/konf_2022/2022_1/102/release.pdf (дата обращения: 29.09.2023).

(Голосов: 1, Рейтинг: 3.3)

Комментарии

Предупреждение Для добавления комментариев требуется авторизация
  • Ссылка на комментарий
    Мне кажется, в автоматическом режиме выделить ключевые понятия пятитомной энциклопедии, причём так, чтобы ошибок не было, попросту невозможно. Тут нужна кропотливая работа нескольких человек. Понимаю, что таких неразмеченных энциклопедий много, но всё-таки, на мой взгляд, лучше доверить эту деятельность людям, а не искусственному интеллекту. Тем более всё равно результат работы компьютерных программ придётся этим самым людям проверять. Лучше сделать с нуля хорошо самому, чем переделывать потом плохо сделанную работу.
    • 0/0
  • Ссылка на комментарий
    Лилия Тумина написала:
    Мне кажется, в автоматическом режиме выделить ключевые понятия пятитомной энциклопедии, причём так, чтобы ошибок не было, попросту невозможно.
    Ошибки, конечно, возможны, но основной массив нужных данных будет извлечён корректно. Да, без выборочной проверки результатов человеком не обойтись, но об этом и не идёт речь. Так или иначе, но предложенная методика позволяет человеку больше внимания уделять другим, более творческим задачам, оставив рутину программе с применением регулярных выражений.
    • 0/0