Навігація
Головна
ПОСЛУГИ
Авторизація/Реєстрація
Реклама на сайті
 
Головна arrow Інформатика arrow Моделирование сложных сетей
< Попередня   ЗМІСТ   Наступна >

Классификация

Формальное описание классификации

Пусть D = (dj, - множество объектов (узлов сети или, например, их содержательных элементов - документов), C = (q, qC|} - множество категорий, Ф - целевая функция, которая по паре < d t, Cj > определяет, относится ли документ d к категории Cj (1 или True) или нет (0 или False). Задача классификации состоит в построении функции Ф', максимально близкой к Ф.

Методы машинного обучения, которые применяются для классификации, предусматривают наличие коллекции заранее классифицированных экспертами объектов, т.е. таких, для которых уже точно известно значение целевой функции. Для того чтобы после построения классификатора можно было оценить его эффективность, эта коллекция разбивается на две части, не обязательно равного размера:

  • 1. Учебная (training-and-validation, TV) коллекция. Классификатор Ф' строится на основе характеристик этих объектов.
  • 2. Тестовая (test, Te) коллекция. На ней проверяется качество классификации. Объекты из Te не должны использоваться в процессе построения классификатора.

Рассматриваемая классификация называется четкой бинарной, т.е. подразумевается, что существуют только две категории, которые не пересекаются. К такой классификации сводится много задач, например, классификация по множеству категорий C = (q, qC|) разбивается на | C | бинарных классификаций по множествам (ci, Ц).

Часто используется ранжирование, при котором множество значений целевой функции - это отрезок [0, 1]. Объект при ранжировании может относиться не только к одной, а сразу к нескольким категориям с разной степенью принадлежности, т.е. категории могут пересекаться между собой.

Ранжирование и четкая классификация

Предположим, что для каждой категории c построена функция CSV .

CSV (Categorization Status Value -статус классификации) -функция, отображающая множество документов D на отрезок [0; 1], которая задает степень принадлежности документа категории.

Рассмотрим задачу, заключающуюся в том, чтобы от функции ранжирования перейти к точной классификации. Наиболее простой способ - для каждой категории c выбрать предельное значение (порог) t t. Если CSV(d) > t, то документ d соответствует категории c . Другой подход: для каждого документа d выбирать k ближайших категорий, т.е. k категорий, на которых CSVl (d) принимают наибольшие значения.

Выбирать пороговое значение можно несколькими способами:

  • - Пропорциональный метод. Учебная коллекция разбивается на две части. Для каждой категории cl на одной части учебной коллекции вычисляется, какая часть документов ей принадлежит. Пороговые значения выбирается так, чтобы на другой части учебной коллекции количество оставшихся документов, отнесенных c , было таким же.
  • - Метод k ближайших категорий. Каждый документ dt считается принадлежащим к k ближайшим категориям и соответственно этому выбирается пороговое значение.
 
Якщо Ви помітили помилку в тексті позначте слово та натисніть Shift + Enter
< Попередня   ЗМІСТ   Наступна >
 
Дисципліни
Агропромисловість
Банківська справа
БЖД
Бухоблік та Аудит
Географія
Документознавство
Екологія
Економіка
Етика та Естетика
Журналістика
Інвестування
Інформатика
Історія
Культурологія
Література
Логіка
Логістика
Маркетинг
Медицина
Менеджмент
Нерухомість
Педагогіка
Політологія
Політекономія
Право
Природознавство
Психологія
Релігієзнавство
Риторика
РПС
Соціологія
Статистика
Страхова справа
Техніка
Товарознавство
Туризм
Філософія
Фінанси
Інші