<<
>>

Сравнение текстов в алгоритме смыслового анализа

Расположить по порядку применения этапы подготовки к смысловому анализу текстов в полнотекстовой базе данных можно следующим образом:

1. Поиск текста по вторичному описанию текста.

2. Поиск по словам извлеченным из текста, как дополнение к 1-му виду поиска. Этот поиск дает возможность уменьшить количество найденных

текстов за счет отбора тех, в которых встречаются нужные узкоспециализированные термины. Появляется возможность использовать запрос на естественном языке, что важно для интерфейсов находящихся в обще пользовательском режиме и ориентированном на “средне продвинутого” пользователя.

3. Сравнение найденных текстов в выбранном контексте. На этом этапе используется дополнительная информация о словах, извлеченных из текстов. Слова делятся на группы значимых и ключевых слов. Значимые слова образуют предметно-ориентированные словари ПОС, которые в принципе могут пересекаться между собой, то есть иметь общие слова. Всему массиву текстов в целом ставится в соответствие словарь ПОС “нулевой рубрики”. Этот ПОС включает значимые слова, которые необходимы для устойчивого выделения различных естественно­тематических групп текстов. Каждой группе текстов ставится в соответствие свой ПОС, слова из которого образуют контекст данной тематической группы. Используя пространство слов из заданного контекста, становится возможным сравнение независимых текстов как внешних, так и находящихся в базе данных. Здесь необходимо подчеркнуть, что так как слова, вошедшие в ПОС, выбраны экспертом из набора текстов, их совместная совокупность в целом характеризует контекст накопленной информации, абстрактный тематический контекст не является предметом рассмотрения. Этот факт очень выгоден, так как дает возможность отыскать среди текстов максимально близкий заданному тексту, если смотреть на образец с позиций естественно­тематического контекста, существующего в виде набора словарей ПОС.

Абстрактное сравнение текстов представляется бессмысленным, так как результат такого сравнения очень сильно зависит от точки зрения эксперта, поставившего такую задачу. Ставится задача использовать

скрытое знание, накопленное в базе данных в виде набора значимых слов ПОС.

4. Нахождение среди группы текстов ядра. Эта задача носит экспертный характер и необходима при поиске текста, который наилучшим образом представляет некий набор текстов в выбранном тематическом контексте. Кроме набора ПОС для решения этой задачи применяются знания эксперта как аналитика в некой тематической области знаний. На базе алгоритма сравнения текстов строится числовая матрица вида текст/текст и в программе Visual HCA осуществляется классификация текстов. Решить эту задачу автоматически без участия эксперта представляется более чем затруднительным, хотя для технологии Интернет возможен только такой режим. Об использовании данной технологии в Интернете речь пойдет в 4-й главе.

5. Автоматизированное реферирование и выделение фрагментов из найденных текстов. Этот режим использует словари ПОС и алгоритм скользящего окна для выделения фрагментов. Подробно описывается ниже. Основанием для фрагментации текста служит факт сгущения специальных терминов в местах описания материала в тексте. Естественным образом автор делит текст на концептуальные и общие смысловые части. Например, определения и пояснения к ним, утверждения и доказательства, описательное вступление и специальное рассмотрение и т.д. Используя этот факт можно выделить из теста фрагменты и сравнить их аналогично тому, как сравниваются тексты. Результатом такого сравнения служат группы фрагментов, анализируя которые эксперт может сделать вывод о взаимосвязи текстов, из которых они извлечены.

Сравнение текстов на предварительном этапе заключается в поиске такой тематической группы в базе данных, словарь ПОС которой наиболее широко представлен в данном тексте. Определено, что для текстов из данной

тематической группы среднее значение в процентом отношении числа слов, которые присутствуют в данных текстах, колеблется в широких пределах.

Будем обозначать данное значение как ПОСІ. Конкретное значение ПОСІ сильно зависит от объема словаря ПОС, чем больше слов в ПОС, тем меньше среднее значение ПОСІ.

Фактически ПОСІ - это словарь, описывающий данный текст в контексте тематической группы с индексом i. Такие словари принято называть поисковым образом текста. Число слов в ПОСІ зависит от суммарного числа слов в тексте и если для каждого текста ввести коэффициент отклонения от максимального числа слов (или среднего по группе) Wi=Ni∕Nmax, то коэффициент отношения данного текста к тематической группе с индексом І будет равен Ri=ПОСi*Wi. Данное значение будем называть релевантностью

текста тематической группе с индексом І.

Рис. 25. Релевантность в контекстах разных ПОС

Релевантность, рассчитанная с учетом числа слов в тексте, более устойчивая величина не только при переходе от текста к тексту внутри тематической группы, но и вне ее. Поэтому наиболее достоверной характеристикой принадлежности текста к группе будем считать процент ПОС в данном тексте - ПОСІ.

На вернем рисунке 25 показано изменение значение релевантности и релевантности с учетом числа слов в тексте в контекстах разных ПОС для тематической группы текстов с индексом 1 (экология). Красная кривая - ПОС1(экология), синяя кривая - ПОС2(социология). Из рисунка видно, что значения релевантности для каждого текста значимо отличаются, однако для разных текстов значения релевантности могут смещаться.

На нижнем рисунке 26 показано значение релевантности текстов из разных тематических групп заданному тексту-образцу. Файл-образец взят из тестовой базы и относится к ПОС1 - экология.

Рис. 26. Релевантности текстов из разных тематических групп

Красная верхняя кривая - тексты из тематической группы ПОС1 экология, синяя нижняя кривая - тексты из тематической группы ПОС2 социология, пунктиром показаны тренды кривых.

При определении близости одного текста к другому важно правильно определить контекст, то есть выбрать словарь ПОС, слова из которого будут выбраны из данного текста как значимые слова. Однако, для выбора контекста необходимо знать к какой тематической группе относится данный

текст. Для текста, не содержащегося в базе данных, это неизвестно, поэтому определяется его релевантность контексту полного словаря базы данных.

Для определения тематической группы внешнего текста, не содержащегося в базе данных, в системе применяются следующие алгоритмы:

1. После сортировки по значению релевантности можно получить матрицу вида текст/текст для текстов с максимальным значением релевантности и в системе Visual HCA определить из какой тематической группы наиболее близкие тексты. Матрица текст/текст может быть рассчитана на только основе слов, содержащихся в заданном тексте или на основе всех слов из выбранного контекстного словаря. В первом случае вектор слов для заданного текста будет единичным и система Visual HCA позволит определить наиболее близкие к нему тексты. Во втором случае система Visual HCA будет рассматривать близость заданного текста к тематическим группам базы данных, представленным в виде текстов наиболее близких к данному. Так как избранные тексты не обязательно представляют правильную несмещенную оценку тематических групп базы данных, результат может быть неоднозначен. Этот факт есть следствие того, что задача определения тематической группы и задача нахождения наиболее близких текстов к заданному тексту, различны, хотя и имеют много общего. Для обеих задач определяющим является выбор контекста, в любом случае, если в базе данных нет текстов на заданную тему, достоверность результата низка вследствие большой статистической ошибки.

2. Используя базовый набор словарей можно определить вектор текст/ПОС и в факторном пространстве определить близость заданного текста к центрам различных тематических групп по эллипсам рассеяния, например. Таким образом, релевантность может

служить ориентиром при определении тематического индекса для данного текста, однако ее абсолютная величина условна и не применима для сравнения разных текстов между собой. Для сравнения текстов необходимо использовать вектор, описывающий распределение слов из ПОС по данному тексту. Используя алгоритмы кластеризации в системе Visual HCA можно с достаточной долей достоверности произвести классификацию текста. Автоматизировать этот процесс можно используя эллипсы рассеяния в факторном пространстве ПОСі,однако если данный текст лежит в тематической области не имеющей ПОС в базе данных, релевантность может служить единственным критерием для анализа. Кроме того, релевантность служит удобным инструментом для сортировки текстов по близости к заданной тематической области.

Используя в качестве базовой величины значение ПОСідля данного текста можно рассматривать другие тексты в контексте данного текста, который либо уточняет какой-либо тематический контекст либо рассматривается на фоне основного словаря базы данных ПОС0. В этом случае релевантность к данному тексту будет близка к корреляции между векторами распределения слов ПОС и может поэтому служить мерой близости.

Естественно, при определении тематической группы часть текстов может быть отнесена к ней с некоторой натяжкой по разным причинам. Обычно такие тексты близки по форме к авторефератам статей, имеют малый объем и содержат термины в единичном экземпляре.

3.5.

<< | >>
Источник: СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ. Диссертация на соискание ученой степени кандидата технических наук. Москва - 2003. 2003

Еще по теме Сравнение текстов в алгоритме смыслового анализа:

  1. СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ. Диссертация на соискание ученой степени кандидата технических наук. Москва - 2003, 2003
  2. 2. АНАЛИЗ РАЗЛИЧНЫХ КОНЦЕПЦИЙ ОНТОГЕНЕЗА
  3. Моделирование в задачах анализа свойств систем : учебное пособие / Т. В. Афанасьева, Н. Г. Ярушкина. - Ульяновск : УлГТУ,2019. - 114 с., 2019
  4. Гордейко Сергей Васильевич. АНАЛИЗ ФОРМИРОВАНИЯ И РАСПРЕДЕЛЕНИЯ ФИНАНСОВЫХ РЕЗУЛЬТАТОВ ГОСУДАРСТВЕННЫХ УНИТАРНЫХ ПРЕДПРИЯТИЙ В СОВРЕМЕННЫХ УСЛОВИЯХ (НА ПРИМЕРЕ СТРОИТЕЛЬНЫХ ОРГАНИЗАЦИЙ МИНИСТЕРСТВА ОБОРОНЫ РОССИЙСКОЙ ФЕДЕРАЦИИ). Диссертация на соискание ученой степени кандидата экономических наук. Москва - 1997, 1997
  5. Психологические образования индивидуальности человека
  6. Ранее психомоторное (физическое) развитие
  7. КОМПЛЕКСНОЕ МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АСУ
  8. 3. Общее представление о личности в психологии
  9. КУЛЬТУРА И ЧЕЛОВЕК
  10. ПЕРСПЕКТИВЫ РАЗРАБОТКИ И ВНЕДРЕНИЯ АСУ
  11. СОВРЕМЕННОЕ ТЕОРЕТИЧЕСКОЕ ОСМЫСЛЕНИЕ ПРАВОТВОРЧЕСТВА: ПРОБЛЕМЫ, РЕЗУЛЬТАТЫ, ЗАДАЧИ
  12. РЕШЕНИЕ СОВЕТА ФЕДЕРАЛЬНОЙ ПАЛАТЫ АДВОКАТОВ РОССИЙСКОЙ ФЕДЕРАЦИИ от 20 марта 2008 г. (протокол № 4) (Извлечение)
  13. ПОЛОЖЕНИЕ О МЕДАЛИ ИМЕНИ ИМПЕРАТОРА АЛЕКСАНДРА II
  14. РЕГЛАМЕНТ ВСЕРОССИЙСКОГО ЧЕМПИОНАТА ПО МИНИ-ФУТБОЛУ СРЕДИ АДВОКАТОВ НА ПРИЗ «НОВОЙ АДВОКАТСКОЙ ГАЗЕТЫ»
  15. § 3. Земельные участки для КФХ
  16. § 1. Великий перелом
  17. ПРАВОВАЯ ПРИРОДА ДОГОВОРА О СОЗДАНИИ КОНСОЛИДИРОВАННОЙ ГРУППЫ НАЛОГОПЛАТЕЛЬЩИКОВ
  18. Тема 7. Вексельное законодательство РФ. Правовое регулирование операций банков с оборотными документами
  19. Познавательные процессы