<<
>>

Алгоритм создания естественно-тематического классификатора

Словари, в пространстве которых тексты четко разделяются на группы, определяются при анализе матрицы слово/слово при различных критериях отбора слов. Таких словарей может быть больше, чем число тематических групп текстов.

Сложность возникает в случае структурирования большой базы данных, в которой число текстов много больше среднего объема ПОС. Если для расчета матрицы слово/слово применяются битовые шкалы, то одновременно определить тематический индекс для всех текстов базы данных, если их больше 1000 представляется затруднительным из-за требований по выделению больших объемов памяти. Поэтому так важно на первом этапе правильно выбрать базовый набор словарей ПОС, в пространстве которых значительное большинство текстов разделяются на тематические группы. Рассчитав факторы для базового набора ПОС можно последовательно определить тематический индекс для всех текстов базы данных, пользуясь эллипсами рассеяния. Далее для каждого индекса определяется свой ПОС, критерии выбора слов в который существенно отличаются от критериев выбора слов в основной ПОС. Резко увеличивается критерий минимального числа значимых текстов с тем, чтобы выбрать слова встречающиеся как можно шире по данной теме.

Критерий максимального количества значимых слов надо взять 80-90%, чтобы отсечь общеупотребительные слова, которые встречаются во всех текстах как шаблоны. Граничная частота может быть значительно увеличена, так как уменьшение числа слов в группе по сравнению с общим объемом выборки приведет к увеличению статистической ошибки определения частоты словоупотреблений.

После того, как система изготовит тематические словари ПОС, эксперт должен внимательно изучить полученные списки слов, исключив из них несущественные по его мнению слова. Дополнить список эксперт может по своему усмотрению, эта операция требует особой осторожности, так как зависит от личных предпочтений эксперта и может сместить естественную оценку, что приведет к неверной работе алгоритмов по извлечению знаний из накопленной информации. Лучше всего, изменяя критерии отбора проследить за тем, какие термины удаляются из словаря ПОС и оставить те из них, которые представляются необходимыми.

Рис. 24. Выбор тематического индекса (здесь рубрика) при создании ПОС

Добавлять самому синонимы и связные термины не рекомендуется, так как если использование синонима действительно принято в научной среде, он неизбежно попадет в ПОС, если же нет - использование его ничего не даст алгоритму сравнения, который опирается не на результат поиска по

словам (поиск по синонимам будет идти если они есть в текстах), а опирается на группы слов, оптимальным образом поставленные в соответствие темам базы данных.

В базе данных электронного каталога ИРБИС естественно-тематический классификатор выглядит аналогично многоуровневому рубрикатору ГРНТИ [19]. Верхнему индексу 0 соответствует словарь ПОС “нулевой рубрики”, который создается с использованием всех файлов базы данных на начальном этапе структуризации. Каждый словарь ПОС - это текстовый файл в виде списка слов в директории базы данных с именем базы данных и индексом темы и с расширением DCT.

Каждый ПОС представляет для пользователя тематический контекст, в рамках которого работают алгоритмы смыслового анализа текстов. Как следует из вышеприведенных описаний для выделения текстов в группы, а значит и для определения темы для данного текста, необходимо выделить значимые слова. Алгоритм сравнения текстов работает, в принципе, на основе любого предложенного списка слов, но достоверность анализа существенно зависит о правильности определения контекста.

Система не определяет смысл текста как таковой, система находит в базе данных тексты, тематически близкие данному. Как использовать полученную информацию зависит уже от уровня подготовленности пользователя.

3.4.

<< | >>
Источник: СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ. Диссертация на соискание ученой степени кандидата технических наук. Москва - 2003. 2003

Еще по теме Алгоритм создания естественно-тематического классификатора:

  1. ПРАВОВАЯ ПРИРОДА ДОГОВОРА О СОЗДАНИИ КОНСОЛИДИРОВАННОЙ ГРУППЫ НАЛОГОПЛАТЕЛЬЩИКОВ
  2. Анищенко А.В.. Крестьянские (фермерские) хозяйства: создание, деятельность, налогообложение. Российская газета. Выпуск 3. 2017, 2017
  3. СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ. Диссертация на соискание ученой степени кандидата технических наук. Москва - 2003, 2003
  4. КОМПЛЕКСНОЕ МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АСУ
  5. 9.1.ОРГАНИЗАЦИЯ И МЕТОДИКА ПРОВЕДЕНИЯ ЗАНЯТИЙ ПО АВАРИЙНО-СПАСАТЕЛЬНОЙ ПОДГОТОВКЕ
  6. РЕШЕНИЕ СОВЕТА ФЕДЕРАЛЬНОЙ ПАЛАТЫ АДВОКАТОВ РОССИЙСКОЙ ФЕДЕРАЦИИ от 25 июня 2004 г. (протокол № 7) (Извлечение)
  7. 2. Происхождение человеческих рас
  8. История антропологии в России
  9. § 3. Земельные участки для КФХ
  10. § 1. КФХ без образования юридического лица
  11. 13. Система административной юстиции в после октябрьской (советской) России
  12. О ПРИНЯТИИ В РОССИЙСКУЮ ФЕДЕРАЦИЮ РЕСПУБЛИКИ КРЫМ И ОБРАЗОВАНИИ В СОСТАВЕ РОССИЙСКОЙ ФЕДЕРАЦИИ НОВЫХ СУБЪЕКТОВ - РЕСПУБЛИКИ КРЫМ И ГОРОДА ФЕДЕРАЛЬНОГО ЗНАЧЕНИЯ СЕВАСТОПОЛЯ
  13. Право промышленной собственности.
  14. ОБ АРБИТРАЖЕ (ТРЕТЕЙСКОМ РАЗБИРАТЕЛЬСТВЕ) В РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНЫЙ ЗАКОН РОССИЙСКОЙ ФЕДЕРАЦИИ от 29 декабря 2015 г. № 382-ФЗ
  15. 9. Административное судопроизводство как метод осуществления правосудия
  16. Право интеллектуальной собственности.
  17. О БЕСПЛАТНОЙ ЮРИДИЧЕСКОЙ ПОМОЩИ В РОССИЙСКОЙ ФЕДЕРАЦИИ
  18. КУЛЬТУРА И ЧЕЛОВЕК
  19. О ПРАВОВОМ РЕГУЛИРОВАНИИ ЮРИДИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ, СВЯЗАННОЙ С ОКАЗАНИЕМ КВАЛИФИЦИРОВАННОЙ ЮРИДИЧЕСКОЙ ПОМОЩИ В РОССИЙСКОЙ ФЕДЕРАЦИИ
  20. О НЕОБХОДИМОСТИПОДКЛЮЧЕНИЯ АДВОКАТОВ К ЛИЧНОМУ КАБИНЕТУ НА ОФИЦИАЛЬНОМ САЙТЕ ФЕДЕРАЛЬНОЙ СЛУЖБЫ ПО ФИНАНСОВОМУ МОНИТОРИНГУ