<<
>>

Алгоритм отбора слов в естественно тематический словарь

В данной главе подробно описывается процедура создания полнотекстовой базы данных на основе набора текстов социологической и экологической тематики. Этот пример может эффективно использоваться для обучения библиотечных специалистов работе с данной системой.

Разбирается методика создания естественно научного классификатора (набора словарей ПОС), методика кластеризации текстов, работа с программой Visual HCA. Количество текстов 85 в данном случае много меньше размера ПОС, поэтому методика работы с базой данных, содержащей более 1000 текстов будет несколько отличаться от приведенной, и эти особенности приводятся в окончании главы.

Рис. 16. Выбор слов из текстов в базовый словарь

По эмпирическому закону Ципфа номер слова в частотном списке связан с частотой употребления Log F = A - K*Log I, где A,K- константы зависящие от языка [173].

Первым этапом на пути создания классификатора является выбор тех слов, частота употребления которых выше, чем в общеупотребительной лексике. Этот список будем называть базовым словарем - БС. Словарь общеупотребительной лексики создан на основе выборки, объем которой составляет около ста миллиона слов. Объем тестовой выборки составляет около 300000 слов (3 Mb информации). Слова из низкочастотной области списка с абсолютной частотой встречаемости меньше 1000 гарантировано войдут в БС. Кроме интересующих нас слов из низкочастотной области в БС попадут слова из окружения терминов, которые употребляются как шаблоны связи с контекстом и общеупотребительные слова, не несущие смысловой естественно-тематической нагрузки. Объем базового словаря в тестовой базе

Рис. 17. Рост объема базового словаря с ростом объема выборки

данных составил около 5000 слов - это менее 2% от объема выборки.

Из графика видно, что насыщение естественно-тематического словаря при данном объеме тестовой выборки еще не наступило, но скорость роста объема ПОС уже замедлилась.

Таким образом, при накоплении информации объем ПОС и вместе с ним, естественно, объем БС будет медленно расти, но в отношении к общему объему выборки объем БС будет падать. С ростом объема выборки в БС будут попадать слова окружения и общеупотребительные слова, с другой стороны, часть общеупотребительных слов с низкой частотой постепенно уйдут из БС. Следовательно, по структуре базовый словарь все больше будет приближаться к естественно­тематическому словарю или, как будем его называть дальше, предметно­ориентированному словарю данной темы - ПОС. В современной научной терминологии принято такие словари называть DOD - Domain Oriented Dictionaries [120]. На рисунке 18 видно, что рост выборки существенно опережает рост объема базового словаря (здесь объем БС пропорционален корню квадратному из объема выборки). При дальнейшем увеличении объема выборки рост объема БС станет логарифмическим, это связано с накоплением информации по данной теме и тем, что при увеличении объема выборки будет происходить процесс уточнения информации, который задействует все более низкочастотные слои частотного списка.

Вторым этапом на пути создания классификатора будем считать создание ПОС. Критерии отбора слов из базового словаря в ПОС были приведены выше в главе 1-й (рис. 1), здесь будет показано подробно как эти критерии работают на примере тестовой базы данных.

На рисунке 18 показана зависимость объема ПОС от величины превышения абсолютной частоты слова. Хорошо видно, что кривая практически совпадает с гиперболой. Этот факт есть следствие из закона Ципфа распределения слов по частоте. Те слова, которые остаются в ПОС при сильном изменении граничной частоты являются специализированными терминами из низкочастотной области частотного списка. Поведение кривой

сохраняется при изменении следующих критериев отбора, из которых основным является минимальное количество значимых текстов в % отношении к полному числу текстов, то есть текстов, в которых встретилось данной слово.

Рис.18.

Зависимость объема ПОС от частоты

Этот критерий позволяет выбрать в ПОС такие слова, которые рассеяны по различным текстам и не являются поэтому авторской терминологией или специализированными узко специфическими терминами. Увеличивая этот критерий мы резко сужаем возможности для слов попасть в ПОС, так как увеличивается требование к средней частоте употребления. Редко встречающиеся слова будут откидываться. Экспериментальный закон поведения кривой отражающей зависимость уменьшения объема ПОС от числа минимально значимых текстов показан на следующем рисунке.

Log ПОС ~ MIN где ПОС - число слов в ПОС; MIN- значение критерия.

Резкое падение объема ПОС в начале графика (Рис. 19) отражает то факт, что большинство слов в базовом словаре составляют редко

Рис. 19. Объем ПОС при увеличении числа значимых текстов

встречающиеся слова. Такие слова могут найтись в одном двух текстах и отражают либо частное мнение автора, либо являются узко научными терминами. Если есть некое эмпирическое знание о том, что в выборку входят N групп по M текстов с разной тематикой, то можно настроить критерии минимального и максимального количества значимых текстов так, чтобы ПОС состоял из суммы независимых тематических словарей для каждой группы и общей части, которая включает с общенаучные термины и слова окружения, смысл которых в естественном языке несколько другой, чем рядом с научными терминами.

Из поведения графика видно, что в ПОС войдут слова существенно различным образом распределенные по выборке текстов.

Часто потребляемые шаблонные термины и редкие слова, отражающие специфику текста. И те и другие существенно необходимы для выделения естественно-тематических групп текстов, но сравнение их между собой затруднительно.

Рекомендуется разделить эти слова на два списка и дальше анализировать отдельно. Об этом будет более подробно сказано ниже.

Последним критерием для выбора слов из базового словаря в ПОС будет значение в % к общему числу текстов максимального количества значимых текстов.

Этот критерий позволяет выбросить из ПОС общие слова, содержащиеся в большинстве текстов. Такие слова имеют, как правило, высокую употребительную частоту и если в выборке есть несколько тематических групп они составят значительную часть ПОС. Так как именно эти слова для нас важны, тем не менее на первом этапе структуризации часть из них должна быть отброшена для того, чтобы предварительно выделить число тем в выборке. При создании ПОС для каждой темы критерий максимального числа текстов будет 100%.

График зависимости числа слов, удаленных из ПОС от значения максимального количества значимых текстов показан ниже (Рис. 20). Его ход отражает факт наличия некоего приблизительно постоянного набора

Рис. 20. Число слов, удаленных из ПОС

терминов естественно- тематического подъязыка. Рекомендуемое значение этого критерия на первом этапе обратно пропорционально предполагаемому

числу тем в выборке. Для однородной смеси разных тематических выборок - в тестовой выборке их 2 - имеем 50%. Прямая линия отражает поведение кривой при гипотетически равномерном распределении терминов ПОС по текстам.

3.2.

<< | >>
Источник: СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ. Диссертация на соискание ученой степени кандидата технических наук. Москва - 2003. 2003

Еще по теме Алгоритм отбора слов в естественно тематический словарь:

  1. СЛОВАРЬ ОСНОВНЫХ ТЕРМИНОВ
  2. О признании недействующим первого предложения пункта 83 Правил внутреннего распорядка исправительных учреждений, утвержденных Приказом Минюста России от 3 ноября 2005 г. № 205, в части слов «по их заявлениям
  3. Об оставлении без изменения решения Верховного Суда РФ от 3 апреля 2007 г., согласно которому признан недействующим пункт 13.6 Инструкции о порядке отбора на хранение в архив федеральных судов общей юрисдикции документов, их комплектования, учета и использования, предусматривавшего допуск к ознакомлению с судебным делом, находящимся в архиве, с письменного разрешения председателя суда или его заместителя
  4. Симиальная теория антропогенеза
  5. 2. Происхождение человеческих рас
  6. КОМПЛЕКСНОЕ МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АСУ
  7. 9.1.ОРГАНИЗАЦИЯ И МЕТОДИКА ПРОВЕДЕНИЯ ЗАНЯТИЙ ПО АВАРИЙНО-СПАСАТЕЛЬНОЙ ПОДГОТОВКЕ
  8. РЕШЕНИЕ СОВЕТА ФЕДЕРАЛЬНОЙ ПАЛАТЫ АДВОКАТОВ РОССИЙСКОЙ ФЕДЕРАЦИИ от 25 июня 2004 г. (протокол № 7) (Извлечение)
  9. 8. Административная юрисдикция
  10. § 4. УСН
  11. 2. Принципы административного процесса