<<
>>

Описание работы системы автоматизированного смыслового анализа текстов

Автоматизированная система состоит из двух программных модулей:

1. Программы "Администратор" для создания, полнотекстовых БД, и подготовки численных 2-мерных таблиц для графических методов анализа с целью классификации текстов.

2. Программы Visual HCA для визуального эвристического анализа 2- мерных числовых таблиц.

Полнотекстовая БД создается в программе "Администратор" на основе массива текстов в WIN кодировке. В данной главе приводится краткое в общих чертах описание работы системы. Математические алгоритмы,

применяющиеся в системе, требуют отдельного подробного обсуждения - 3 глава, без этого невозможно описать методику работы системы с текстами полностью. Методика создания естественно-тематического классификатора базируется на использовании алгоритмов визуального эвристического анализа, на основе которых создана система Visual HCA. Подробное изложение алгоритмов смыслового анализа текстов сделано в главе 3.

Создание базового словаря. Принципы статистического анализа на основе словаря общеупотребительной лексики

Необходимо отметить, что процедура создания инструментария для смыслового анализа текстов должна быть доверена эксперту в области лингвистического обеспечения, ориентирующемуся в тематике созданной базы данных. Кроме того, этот эксперт должен быть специалистом по математическим числовым методам классификации, так как предлагаемая методика основывается на эвристическом кластерном анализе числовых матриц, использующем человеко-машинные диалоговые технологии.

Базовый словарь (БС) - это набор слов из исходного массива текстов, относительная частота встречаемости которых превышает частоту в общеупотребительной лексике. Общеупотребительная частота данного слова берется из заранее заготовленного словаря общеупотребительной лексики (СОЛ), созданного на основе большого массива газетных текстов (около миллиарда слов).

Базовый словарь будет включать слова из всех тематических подъязыков, использованных авторами текстов.

Рекомендуется ограничить создаваемую базу данных по тематике, иначе естественно-тематические группы не удастся выделить статистически значимо (необходимо иметь очень большое количество текстов).

Создание словаря общеупотребительной лексики проведено по методике создания репрезентативной выборки на базе отбора входящих в

генеральную совокупность общеупотребительного языка различных тематических выборок ограниченного объема. Для успешной работы системы достаточно грубо определить абсолютные частоты, потому что при отборе слов в базовый словарь превышение частоты можно регулировать. При создании баз данных размером до 100 тысяч статей объем выборки будет существенно ниже, чем объем выборки, используемый при создании СОЛ. То есть величина частоты словоупотребления будет занижена. При таких условиях в базовый словарь попадет множество слов не точно характеризующих тексты, случайных слов или мало информативных слов, таких как глаголы, прилагательные. Эксперт, проводящий отбор, должен вручную откорректировать окончательный список слов. Аббревиатуры и другие слова, не содержащиеся в словаре общеупотребительной лексики, сохраняются в дополнительном списке. Частота слов в списке принимается равной наблюдаемой частоте с поправкой на коэффициент отношения объема выборки к объему выборки СОЛ (миллиард слов).

Использование тезаурусов, синонимов, антонимов и устойчивых словосочетаний на этапе создания базового словаря не даст ощутимых результатов. Основной целью при создании базового словаря является выборка всех слов, которые каким-либо образом выделяются на фоне общеупотребительной лексики. Если термин из подъязыка статистически выделяется при этом, то неизбежно будут выделены и слова из его окружения. Синонимы для этого термина будут важны только тогда, когда частота их применения сравнима с частотой применения данного термина. В этом случае синонимы будут выделены статистически независимо.

Так же и устойчивые словосочетания будут выделены независимо, так как частоты входящих в них терминов будут равны.

Возможно, использование дополнительной информации,

предоставляемой лингвистическим анализом, позволит точнее проводить смысловой анализ текстов. На данном этапе в руках эксперта есть готовые

списки слов, которые система считает значимыми, и можно вручную внести необходимые изменения.

Создание естественно-тематических предметно-ориентированных словарей

На основе базового словаря создаются предметно-ориентированные словари - ПОС.

Предметно-ориентированные словари служат основным инструментом классификации текстов [120,121]. Прежде всего, определяется общий ПОС. Все слова из базового словаря проходят через ряд критериев отбора. Изменяя параметры отбора слов, эксперт имеет возможность следить за устойчивостью выбранной модели классификации.

Таким образом, общий ПОС - это часть слов из БС, которые прошли через заданные экспертом критерии отбора. По порядку применения критерии отбора слов располагаются в следующей последовательности:

• максимальное число значимых текстов - максимально допустимое число текстов, в которых встретилось слово. Этот критерий позволяет выделить слова, специфичные только для части текстов;

• минимальное число значимых текстов - минимальное число текстов, в которых встретилось испытуемое слово из кандидатов в ПОС. Этот критерий совпадает с нижней статистической границей встречаемости слова, позволяя отбрасывать слова, специфичные для малого, по сравнению с исходным, количества текстов. Этот критерий определяется представлениями эксперта о минимально значимом числе текстов в одном кластере;

• превышение заданной относительной частоты словоупотребления.

Ниже приведена иллюстрация работы программного модуля “Администратор”. Пользователь имеет возможность, изменяя параметры,

оценивать объем получаемых матриц. Для моно тематических словарей эвристически определенное значение объема словаря составляет 50-300 слов. Если слов меньше, часть текстов выпадает из анализа и составляет белое пятно, которое необходимо анализировать отдельно.

Если объем больше определенность тематики падает, размывается и появляется тяготение к подразделению на под темы. Предлагаются различные виды нормализации матриц, хотя наилучшим - из опыта - является логарифм основанию 2.

Далее рассчитывается числовая матрица текст/слово - TW, элементами которой являются число встречаемости данного слова из общего ПОС в данном тексте. На основе TW рассчитываются симметричные квадратные матрицы слово/слово - WW и текст/текст - TT. Элементом TT является число употреблений слов из общего ПОС в паре данных текстов.

Элементом WW является число текстов, в которых встретилась данная пара слов из общего ПОС. На основе WW определяются частные ПОС, на основе TT определяются тематические группы текстов и тексты- представители(тематические ядра) для данной группы.

Далее пользователь использует программу эвристического кластерного анализа числовых матриц - Visual HCA (Visual Heuristic Cluster Analysis) для определения естественно-тематических групп.

Программный продукт Visual HCA дает возможности эксперту выдвинуть некоторую гипотезу о составе и структуре кластеров и в зависимости от проверки этой гипотезы методами, которые не использовались при формировании модели, увеличить степень своей уверенности в правдоподобии принятой гипотезы или получить результат, заставляющий отвергнуть эту гипотезу.

Итак, в итоге, каждому тексту соответствует один ПОС, что

сохраняется в базе данных в виде некоторого числового кода.

Рис. 1. Критерии отбора слов в ПОС.

Предметно-ориентированный словарь (ПОС) служит основным инструментом классификации текстов. Изменяя параметры отбора слов в ПОС, эксперт имеет возможность следить за устойчивостью выбранной модели классификации. Одновременно с созданием ПОС программа "Администратор" рассчитывает 2-мерные числовые таблицы для визуального эвристического анализа в программе Visual HCA.

Здесь процедура описания темы в виде ПОС повторяется для каждой предварительно определенной темы. Рассчитываются:

• Матрица текст/слово, элементы которой это число словоупотреблений для слов из ПОС в каждом тексте БД.

• Матрица текст/текст, элементы которой это число слов из ПОС, встречающихся в данной паре текстов, нормированное на 1

Матрица слово/слово, элементы которой это число текстов, содержащих данную пару слов, нормированное на 1

• Далее эти матрицы анализируются в программе Visual HCA с целью разбиения текстов БД на естественно-тематические группы. В зависимости от размеров БД стратегия классификации может быть разной. Если количество текстов сравнительно невелико (меньше чем количество слов в ПОС) следует анализировать матрицу текст\текст. В противном случае следует анализировать матрицу слово/слово.

Устойчивые группы, найденные в результате работы программы Visual HCA и будут естественно-тематическими группами, к разбиению на которые тяготеет данная БД. Если число текстов существенно превышает число слов ПОС (объем ПОС 100-200 слов), то следует анализировать матрицу слово\слово с тем, чтобы организовать под словари тем (физически это списки слов из ПОС) и использовать эти под словари для разбиения текстов на рубрики в программе "Администратор" (в режиме

Рис. 2.

Режимы в программе “Администратор”

"Распределение текстов по рубрикам"). В данном режиме программа "Администратор" создает матрицу текст\словарь, используя либо рубрики БД (тематические индексы из текстов БД), либо набор словарей, созданных программой Visual HCA или заданных экспертом по своему выбору.

После разбиения текстов БД на группы в программе "Администратор" необходимо назначить каждой группе текстов поименованную тему, индекс которой записывается в БД. После этого для каждой рубрики определяется ПОС по описанной выше методике.

Процедура разбиения на подгруппы может продолжаться, таким образом, далее. В результате тексты разбиваются по естественно-тематической иерархии.

Конечно, исходная выборка для создания много тематического классификатора должна быть достаточно велика, чтобы быть статистически значимой. Для исследования же структуры моно тематического плана (например, описание характера недавно возникшей отрасли знаний, определения групп докладов конференций) достаточно иметь несколько

сотен текстов среднего размера (~32Kb).

Рис. 3. Матрицы текст/текст в программе Visual HCA

Так выглядит в программе Visual HCA файл текст/текст до и после структуризации для БД созданной на основе массива текстов

социологической и экологической тематики, хотя возможны варианты принадлежности отдельных текстов к обеим рубрикам.

После создания естественно-тематических групп и ПОС для каждой группы в системе ИРБИС АРМ “Каталогизатор” можно искать в базе

Рис. 4. Результат поиска текстов по образцу

данных тексты, сходные данному, таким образом, сразу определяя, к какой теме следует причислить текст из потока новых поступлений.

Величина сходства (релевантность) одного текста другому рассчитывается в контексте выбранного ПОС (или нескольких ПОС). Слова из данного ПОС ищутся в тексте-образце. Найденные слова образуют пространство, в котором тексты из БД могут сравниваться с заданным. Релевантность одного текста другому, таким образом, есть корреляция строк в матрице текст/слово. Доля слов в предметной области запроса - это процент слов из выбранного ПОС, найденных в тексте-образце. Если эта величина мала (

<< | >>
Источник: СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ. Диссертация на соискание ученой степени кандидата технических наук. Москва - 2003. 2003

Еще по теме Описание работы системы автоматизированного смыслового анализа текстов:

  1. Глава 3. Описание работы алгоритмов смысловой обработки текстов
  2. Система смыслового анализа текстов в ИНТЕРНЕТ
  3. Глава 1. Автоматизированная система смысловой обработки текстов
  4. СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ. Диссертация на соискание ученой степени кандидата технических наук. Москва - 2003, 2003
  5. Последовательность операций при создании и ведении базы данных ИРБИС при использовании системы смыслового анализа текстов
  6. Сравнение текстов в алгоритме смыслового анализа
  7. Глава 4. Перспективы развития ИРБИС в плане применения системы смыслового анализа текстов для создания полнотекстовых баз данных в современной библиотеке
  8. Разница между системой смыслового анализа для ИРБИС32 и ИРБИС64
  9. 4.4.1. Формальное описание обобщенной методики моделирования в задаче анализа свойств системы
  10. Смысловая обработка текстов в полнотекстовых базах данных
  11. Обзор существующих программных продуктов анализа текстов
  12. Теоретико-множественное описание компонент систем