<<
>>

Возможности системы Visual HCA (Visual Heuristic Cluster Analysis)

Visual HCA - это система, которая специально ориентирована на помощь эксперту в выработке понятий и концепций. Система позволяет обрабатывать матрицы, содержащие сотни объектов и атрибутов.

Последние могут быть количественными и качественными. Ключевое место это графический диалог с экспертом. Он позволяет:

- искать и выделять кластеры в подпространствах факторного пространства;

- управлять выделением кластеров на дендрите;

- проверять устойчивость кластеров.

Кластеры могут быть одномерными, многомерными, сложной формы. На дендрите кластеры могут размещаться на фрагментах, образующих отдельные деревья. Искусство эксперта - обнаружить их. При кластеризации можно привлекать данные по географической привязке объектов на картах.

Ниже рассмотрен пример генетического анализа. Все примеры использовали реальный экспериментальный материал. В заключении приведено краткое описание программной реализации.

Слабоформализованные задачи. Предмет рассмотрения и концепция решения

Термин слабоформализованные задачи обычно связывается с задачами, которые отличаются неопределенностью постановок и/или

отсутствием формализованных математических (аналитических) или технологических (алгоритмических) процедур обработки данных.

Под слабоформализованными задачами принято понимать задачи, связанные: с нечеткой и неоднозначной формулировкой цели, с применением эвристик, не допускающих полной формализации, с отсутствием устойчивой системы понятий и моделей [114].

Такие задачи возникают, когда исследователь начинает изучать новый тип объектов или процессов, относительно которых имеется количество данных, но нет моделей и аксиоматики, характеризующих эти объекты или процессы. На этом материале исследователю надо сформировать понятия и концепции о модели объекта. Ситуация осложняется тем, что в наиболее интересных случаях, а эти случаи обычно связаны с междисциплинарными исследованиями, данные представляют смесь количественных и качественных характеристик.

В этих условиях исследователь должен найти способ формализовать информацию, выявить структуру данных, найти взаимосвязи между объектами и их свойствами, а затем найти подходящий математический аппарат для описания моделей объектов и процессов, порождающих данные, аналогичные собранным.

Результатом решения слабо-формализованной задачи является перевод этой задачи в разряд хорошо формализованных задач.

Подход к решению

Основной путь решения этих задач - это обнаружение отношений между объектами, между их атрибутами. На основе этих отношений выдвигаются и проверяются гипотезы о модели объектов. Эти гипотезы, принятые еще на ранних стадиях исследований, создают аксиоматический базис будущих выводов исследователя. Они создают основу для более

планомерного и направленного поиска формализованных математических моделей объектов и взаимосвязей между ними.

Исходные данные представляют собой матрицы. Почти всегда это матрицы типа объекты-атрибуты. Поэтому, используемый математический аппарат должен быть настроен на работу именно с этим типом исходных данных.

Получить представление о том, что представляет собой исследуемый материал можно после проведения структуризации данных. Действительно, когда эксперт выделил какие-либо структуры объектов, он уже может выдвигать гипотезы о концепции, которая объединила объекты в эти структуры, и формировать понятия для описания этих концепций [34].

В качестве метода структуризации принимается классификация объектов на заранее неопределенное число классов, т.е. неформальный кластер-анализ. Поскольку представление о том, каким должен быть кластер, заранее неизвестно, то выделение кластеров естественно поручить эксперту. Он будет проводить кластеризацию в режиме графического диалога с системой.

Эту работу нельзя поручать машине, хотя уже имеется достаточно много автоматических классификаторов. Среди них есть и те, которые проводят классификацию на не заданное заранее число классов. Во всех этих системах классификация проводится по всему набору атрибутов.

А на начальных стадиях исследований информативность атрибутов может оказаться резко различной и затрудняющей исследования. Кроме того для автоматической классификации должны быть заданы внешние критерии, определяющие предельные отношения близости объектов к точкам своего и других кластеров. В общем случае на начальной стадии исследований неизвестно, как задавать эти критерии.

Далее. Для проведения кластеризации исходные данные должны быть обработаны и подготовлены каким-либо математическим методом. Иначе

говоря, надо подготовить пространство или систему координат, в которой будет проводиться кластеризация.

При решении слабоформализованных задач нельзя проводить кластеризацию в пространстве атрибутов, по крайней мере, формально.

Действительно, выбрав в качестве координат набор атрибутов, мы тем самым опираемся на уже сформированную систему понятий, определяемую этими атрибутами! Именно поэтому, методы подготовки данных должны быть ориентированы на данные, на их специфику, полноту и точность. И это второе требование к системе, которая претендует на то, чтобы решать слабоформализованные задачи [114].

2.3.

<< | >>
Источник: СБОЙЧАКОВ КОНСТАНТИН ОЛЕГОВИЧ. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ. Диссертация на соискание ученой степени кандидата технических наук. Москва - 2003. 2003

Еще по теме Возможности системы Visual HCA (Visual Heuristic Cluster Analysis):

  1. 3.1. Анализ возможностей улучшения финансовых РЕЗУЛЬТАТОВ ЗА СЧЕТ ВЫБОРА ВАРИАНТОВ УЧЕТА ПО элементам учетной политики
  2. Экспертные системы и система визуального эвристического анализа - сходства и отличия
  3. 69) Система органов власти и управления и избирательная система по Конституции 1918г.
  4. Понятие сложных систем и систем с управлением
  5. Описание работы системы автоматизированного смыслового анализа текстов
  6. Система смыслового анализа текстов в ИНТЕРНЕТ
  7. Разница между системой смыслового анализа для ИРБИС32 и ИРБИС64
  8. Характеристика автоматизированных систем бухгалтерского учета
  9. Подготовка специалистов библиотеки для работы с системой
  10. Системы с управлением
  11. Свойства и оценки сложных систем
  12. Компоненты систем
  13. Особенности представления свойств систем
  14. 3.7. Система информационного права, место информационного права в системе права