Навігація
Головна
ПОСЛУГИ
Авторизація/Реєстрація
Реклама на сайті
 
Головна arrow Інформатика arrow Моделирование сложных сетей
< Попередня   ЗМІСТ   Наступна >

Мера близости объекта и категории

В этом методе правилом классификатора является скалярное произведение. Пусть каждой категории C соответствует вектор Cj = (сЛ, ciN), где N - размерность пространства термов. В качестве правила классификатора используется формула:

Нормализация проводится обычно таким образом, чтобы итоговая формула для CSV(d) - это нормированное скалярное произведение - косинус угла между вектором категории c и вектором из весовых значений термов, входящих в документ d - d = (dl, dN) :

Координаты вектора С1 определяются в ходе обучения, которое проводится по каждой категории независимо от других.

Метод Rocchio

Некоторые классификаторы используют так называемый профайл для определения категории. Профайл - это список взвешенных термов, присутствие или отсутствие которых позволяет наиболее точно отличать конкретную категорию от других категорий.

Профайл (profile) -прототип документа, категории или массива документов, чаще всего совокупность взвешенных термов. К таким методам классификации относится и метод Rocchio, который относится к линейным классификаторам, в которых каждый документ представляется в виде вектора весовых значений термов. Профайл категории І будем рассматривать как вектор С{ = (с1І, с№) (Ы- количество термов в словаре), значения элементов которого си в рамках метода Rocchio рассчитывается по формуле:

где wky - это вес терма tk в документе dy (рассчитанный, например, по принципу TF IDF),

и

В этой формуле, a и Ь -контрольные параметры, которые характеризуют значимость положительных и отрицательных примеров. Например, если ОС = 1 и Ь = 0, С будет центром масс всех документов, относящихся к соответствующей категории.

Функция СБУ1 (с1) определяется либо как величина обратная расстоянию от вектора из весовых значений термов, входящих в документ ё, до профайла категории 1 — С, либо как скалярное произведение этих векторов.

Метод Rocchio дает удовлетворительные результаты когда документы из одной категории близки друг к другу по расстоянию.

 
Якщо Ви помітили помилку в тексті позначте слово та натисніть Shift + Enter
< Попередня   ЗМІСТ   Наступна >
 
Дисципліни
Агропромисловість
Банківська справа
БЖД
Бухоблік та Аудит
Географія
Документознавство
Екологія
Економіка
Етика та Естетика
Журналістика
Інвестування
Інформатика
Історія
Культурологія
Література
Логіка
Логістика
Маркетинг
Медицина
Менеджмент
Нерухомість
Педагогіка
Політологія
Політекономія
Право
Природознавство
Психологія
Релігієзнавство
Риторика
РПС
Соціологія
Статистика
Страхова справа
Техніка
Товарознавство
Туризм
Філософія
Фінанси
Інші