Принятие решений
Каждая прямая регрессии (, ) проходит через средние точки соответствующего класса. Из уравнений (2.15) имеем
|
Неизвестные коэффициенты a, b и c, d в системах (2.16) определяются методом наименьших квадратов (МНК), минимизирующим сумму квадратов отклонений от каждой прямой регрессии.
Для системы уравнений (2.16a) имеем
. (2.17a)
Для удобства введем обозначение:
. (2.17б)
Минимум функции находится из необходимых условий ее экстремума:
, .
Продифференцировав функцию по a и b и приравняв полученные выражения частных производных к нулю, после простых алгебраических операций получим систему нормальных уравнений
(2.18)
Из системы (2.18) легко находятся оценки параметров a и b, являющиеся функциями наблюдений:
, .
Доказано, что при значениях a и b, определяемых из уравнений (2.18), функция (2.17) имеет минимум.
Аналогично методом наименьших квадратов из уравнений (2.16б) оцениваются значения параметров с, d.
Таким образом, получаются уравнения линий регрессий, описывающих классы w1 и w2,
,
Поиск уравнения регрессии для каждого класса относится к процессу обучения. Чтобы отнести испытуемое наблюдение X к одному из имеющихся классов, необходимо вычислить расстояния от точки X до линий регрессий и , r (x,), r (x,) соответственно.
Если r (X,) < r (X,), то Х относится к классу w1.
Если r (X,) < r (X,), то X относится к классу w2.
Если
r (X,) = r (X,), (2.19)
то X можно отнести к любому из классов w1, w2. Уравнение (2.19) – уравнение границы классов w1, w2, уравнение биссектрис углов между прямыми и . Если линии регрессиии параллельны, то границей классов w1, w2 является прямая Г, параллельная прямым , и равноудаленная от них.
Регрессионный алгоритм неприменим, если один из классов попадает в точку пересечения линий регрессии (рис. 2.9). В этом случае РА дает большую ошибку, значительная часть точек класса w2 по правилу классификации относится к классу w1.
При в случае линейной регрессии имеем систему уравнений:
, i = 1, 2, …, n1.
Оценки для неизвестных параметров a1, a2, …, ap находятся методом наименьших квадратов.
Одна из основных задач регрессионного анализа – задание уравнения регрессии
, ,
наиболее согласующегося с исходными наблюдениями (2.9). Проверка такой согласованности проводится по статистическим критериям.
В научно-практических исследованиях широко используются такие виды регрессий, как полиномиальные, экспоненциальные, логарифмические, тригонометрические и др.
2.6 Классификация как задача статистической проверки гипотез
Рассматривается классификация в режиме с обучением. Для простоты и наглядности положим k = 2, p = 2. Классы w1, w2 представлены своими обучающими выборками (2.9). Кроме того, известен закон распределения вероятностей значений признаков в каждом классе, т.е. заданы функции распределений вероятностей:
, .
Предположим, что
, ,
где f1(X), f2(X) – функции плотностей вероятностей в классах w1, w2 соответственно (рис. 2.10).
Наблюдаемый объект может принадлежать только одному из двух классов w1 или w2. Необходимо сформулировать правило, по которому вектор X был бы отнесен к w1 или к w2 с минимальной вероятностью ошибки классификации Pош.