Применение математики в статистике
2. Оценка достоверности коэффициента корреляции
Коэффициент парной корреляции, исчисленный по выборочным данным, является случайной величиной. С уменьшением числа наблюдений надежность коэффициента корреляции падает. С увеличением числа наблюдений (свыше 500) распределение коэффициента корреляции r (не превышающее 0,9) стремится к нормальному.
Полученный из
выборки коэффициент корреляции r является оценкой коэффициента корреляции ρ в генеральной совокупности.
По общему правилу проверки статистических гипотез:
– если tнабл £ tкр, нулевую гипотезу о том, что между Х и Y отсутствует корреляционная связь (Н0:r =0), нельзя отклонить на заданном уровне значимости а;
– если tнабл< tкр, нулевая гипотеза отклоняется в пользу альтернативной о том,что коэффициент корреляции значимо отличается от нуля (Н1: r¹0), т.е. о наличии линейной корреляционной зависимости между Х и Y.
Критерий tрасч подчиняется закону распределения Стьюдента с п – 2 степенями свободы.
При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также при построения доверительного интервала применяется z-преобразование Фишера.
При выявлении статистической зависимости по данным аналитической группировки в качестве меры степени тесноты связи может быть использовано эмпирическое корреляционное отношение (hэмп)
Чем ближе hэмп к 1, тем теснее связь между переменными Х и Y, тем больше колеблемость Y объясняется колеблемостью X.
Квадрат эмпирического корреляционного отношения (h2эмп) называют коэффициентом детерминации. Он показывает, какая часть Y колеблемости объясняется колеблемостью X.
В случае линейной регрессионной зависимости r = hтеор. Если связь – нелинейная, h < hтеор. Это позволяет использовать hтеор в качестве меры линейности связи между переменными X и Y. Если линейный коэффициент корреляции Пирсона (r) мало отличается от теоретического корреляционного отношения (hтеор), т.е. r» hтеор, то зависимость между переменными близка к линейной. В противном случае имеет, место нелинейная зависимость между X и Y.
В уравнении парной регрессии – 2 параметра: b0 и b1, т.е. т = 2.
Критическое значение F определяется по таблицам распределения Фишера по уровню значимости α и числу степеней свободы.
Наблюдаемое значение (Fнабл) необходимо сравнить с критическим (Fкр). По общему правилу проверки статистических гипотез:
– если Fнабл £ Fкр, нулевую гипотезу (H1:h = 0) о том, что h незначим, нельзя отклонить;
– если Fнабл > Fкр нулевая гипотеза отклоняется в пользу альтернативной (H1:h ¹ 0) о том, что h значимо отличается от нуля.
Если п объектов какой-либо совокупности N пронумерованы в соответствии с возрастанием или убыванием какого-либо признака X, то говорят, что объекты ранжированы по этому признаку. Ранг xi, указывает место, которое занимает i-й объект среди других n объектов, расположенных в соответствии с признаком Х (i= 1,2,…. п). Например, при исследовании рынка мы можем задать вопрос с целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженого, водки и т.п.) таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если мы имеем 2 набора ранжированных данных, то можно попытаться установить степень линейной зависимости между ними. Предположим, имеется 5 продуктов, расположенных по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками А и В (табл. 3).
Таблица 3
Характеристики для ранжирования |
Продукт | ||||
V |
W |
X |
Y |
Z | |
А |
2 |
5 |
1 |
3 |
4 |
B |
1 |
3 |
2 |
4 |
5 |
Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена. Его расчет основан на различии между рангами:
D = Ранг А – Ранг В.
Альтернативные признаки – это признаки, принимающие только два возможных значения. Исследование их корреляции основано на показателях, построенных на четырехклеточных таблицах, в которых сводятся значения признаков:
а |
в |
с |
d |
Например, требуется измерить связь между прививками от гриппа и пониженной заболеваемостью от гриппа в группе случайно отобранных студентов (табл. 4).
Таблица 4
Заболели |
Не заболели |
Итого | |
Привитые |
30 |
20 |
50 |
Непривитые |
15 |
5 |
20 |
Всего |
45 |
25 |
70 |
Изучение степени тесноты взаимосвязи между признаками было проведено с помощью корреляционного анализа (расчета различных мер связи).
Уточнение формы связи, нахождение ее аналитического выражения производится путем построения уравнения связи (уравнения регрессии).
Регрессия – это односторонняя статистическая зависимость.
Уравнение регрессии позволяет определить, каким в среднем будет значение результативного признака (Y) при том или ином значении факторного признака (X), если остальные факторы, влияющие на Y и не связанныес X, рассматривались неизменными (т.е. мы абстрагировались от них).
К задачам регрессионного анализа относятся:
1) установление формы зависимости;
2) определение функции регрессии;
Другие рефераты на тему «Математика»:
Поиск рефератов
Последние рефераты раздела
- Анализ надёжности и резервирование технической системы
- Алгоритм решения Диофантовых уравнений
- Алгебраическое доказательство теоремы Пифагора
- Алгоритм муравья
- Векторная алгебра и аналитическая геометрия
- Зарождение и создание теории действительного числа
- Вероятностные процессы и математическая статистика в автоматизированных системах