Принятие решений

4. Среди имеющихся решений (вариантов классификации) можно указать наилучшее. В практике оптимальное решение неизвестно, и применяются хорошие решения.

5. При формировании набора признаков, описывающих классы, предпочтение следует отдавать информативным признакам. Признак называется информативным, если он содержит информацию о различии классов.

adding="0" align="center">

а б

Рис. 2.4

На рис. 2.4 информативным признаком является признак x2, а неинформативным – x1. Неинформативный признак не содержит информации о различии классов.

2.5 Алгоритмы классификации в режиме с обучением

Задача классификации в режиме с обучением уже была сформулирована: имеется k классов

k , (2.8)

описанных своими основными признаками, новый объект X нужно отнести к одному из имеющихся классов. Дадим описание нескольких алгоритмов, по которым проводится классификация в этом режиме.

Для простоты и наглядности рассмотрим случай p = 2, k = 2. Пусть классы w1, w2 представлены своими обучающими выборками

(2.9)

n1 – число наблюдений класса w1, n2 – число наблюдений класса w2. Новое наблюдение X нужно отнести только к одному классу w1 или w2. На рис. 2.5 представлена описанная ситуация.

Зададим на множестве Хn X(n) =расстояние r(Xi, Xj), Xi, Xj X(n), n = n1 + n2, и вычислим среднее расстояние от испытуемой точки X до всех точек каждого класса:

,

.

Если имеем

r1 < r2, (2.10a)

то наблюдаемая точка X относится к классу w1. Если

r2 < r1, (2.10b)

то точка Х относится к w2. Если

r2 = r1, (2.11)

то точку X можно отнести к любому из имеющихся классов. Уравнение (2.11) есть уравнение границы классов Г. Граница Г делит пространство признаков R на два подпространства R1 и R2, которые содержат классы,

, .

Так что, если испытуемая точка X попадает в область R1 (R2), то естественно считать, что она принадлежит классу w1 (w2).

Замечание. Если для испытуемой точки Y (рис. 2.5) имеет место одно из соотношений (2.10), (2.11) но значения r1 и r2 очень велики, например больше минимального диаметра классов d1, d2 min(r1, r2) ³ min(d1, d2), то не следует относить ее к одному из данных классов. В этом случае правильным является решение: точка Y представляет новый класс w3. Поэтому для принятия правильного решения по соотношениям (2.10), (2.11) вводится порог rпор для значений r1, r2,

min(r1, r2)rпор,

Например, можно положить

rпор = a × min(d1, d2), 0,5 < a < 1.

Этот метод состоит в определении корреляции рассматриваемого объекта с каждым из эталонов, представляющих классы. Эталоны – векторы средних значений элементов каждого класса. Решающее правило: объект X относится к тому классу, для которого коэффициент корреляции наибольший.

Классы w1, w2 представлены своими обучающими выборками (2.9), изображенными на рис. 2.6.

Эталоны классов w1, w2 – их средние значения определяются по формулам

Корреляция объектов–векторов определяется косинусом угла между ними. Косинус угла между векторами находится из их скалярного произведения:

Отсюда имеем

(2.12)

Скалярное произведение векторов

и их модули выражаются через их координаты:

Вычислив по формулам (2.12), переходят к их сравнению. Если , то элемент X относится к классу w1. Если , то элемент X относится к классу w2 (рис. 2.6). Если

, (2.13)

то элемент X можно отнести к любому из классов w1, w2. Уравнение (2.13) – уравнение границы классов Г.

Решения, получаемые с помощью корреляционного метода, базируются на угловой близости точек X, μ1, μ2. Метод полезен, если каждый из углов g1, g2, охватывающий подмножества наблюдений из одного класса, мал по сравнению с углом между эталонами b (рис. 2.6),

(2.14)

Но если хотя бы одно из соотношений (2.14) не выполняется, то корреляционный метод неприменим, он может дать большие ошибки, так как часть точек из класса w1 будет отнесена к классу w2 (рис. 2.7).

Корреляционный метод часто применяют при распознании букв машинописного текста.

Регрессионный алгоритм (РА) применяется в случае, когда обучающие выборки классов (2.9) сосредоточены вдоль некоторых линий, называемых линиями регрессий (рис. 2.3, 2.8). Если линии регрессий являются прямыми (рис. 2.8), то зависимость между координатами каждой точки из одного класса (w1 и w2) можно представить в виде

где ei – отклонение ординаты точки от ординаты точки . Аналогично dj – отклонение ординаты точки от ординаты точки (рис. 2.8).

Страница:  1  2  3  4  5  6  7  8  9  10  11  12 


Другие рефераты на тему «Менеджмент и трудовые отношения»:

Поиск рефератов

Последние рефераты раздела

Copyright © 2010-2024 - www.refsru.com - рефераты, курсовые и дипломные работы