Знак или у коэффициента корреляции указывает на. Корреляционно-регрессионный анализ

Краткая теория

К простейшим показателям тесноты связи относят коэффициент корреляции знаков, который был предложен немецким ученым Г.Фехнером. Этот показатель основан на оценке степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от соответствующих средних. Для его расчета вычисляют средние значения результативного и факторного признаков, а затем проставляют знаки отклонений для всех значений взаимосвязанных пар признаков.

Если ввести обозначения: – число совпадений знаков отклонений индивидуальных величин от средней, – число несовпадений знаков отклонений, то коэффициент Фехнера можно записать таким образом:

Коэффициент Фехнера может принимать различные значения в пределах от -1 до +1. Если знаки всех отклонений совпадут, то и тогда показатель будет равен 1, что свидетельствует о возможном наличии прямой связи. Если же знаки всех отклонений будут разными, тогда и коэффициент Фехнера будет равен -1, что дает основание предположить наличие обратной связи.

Пример решения задачи

Условие задачи

Имеются данные о поголовье крупного рогатого скота по 12 сельхозпредприятиям на 1 января и среднегодовом надое молока на одну корову. Определите частоту связи между этими факторами, используя коэффициент корреляции Фехнера.

№ п/п сельскохозяйственных предприятий 1 1.2 35.8 2 1.6 30.0 3 2.8 34.8 4 1.8 31.3 5 2.9 36.9 6 3 37.1 7 1.6 27.9 8 1.7 30.0 9 2.6 35.8 10 1.3 32.1 11 2 29.1 12 3.3 34.3

Решение задачи

Составим расчетную таблицу:

№ п/п сельскохозяйственных предприятий Поголовье крупного рогатого скота на 1 января, тыс.голов Среднегодовой надой на одну корову, кг 1 1.2 35.8 1.44 1281.64 42.96 2 1.6 30 2.56 900 48 3 2.8 34.8 7.84 1211.04 97.44 4 1.8 31.3 3.24 979.69 56.34 5 2.9 36.9 8.41 1361.61 107.01 6 3 37.1 9 1376.41 111.3 7 1.6 27.9 2.56 778.41 44.64 8 1.7 30 2.89 900 51 9 2.6 35.8 6.76 1281.64 93.08 10 1.3 32.1 1.69 1030.41 41.73 11 2 29.1 4 846.81 58.2 12 3.3 34.3 10.89 1176.49 113.19 Итого 25.8 395.1 61.28 13124.15 864.89

Коэффициент Фехнера можно вычислить по формуле:

Число совпадений знаков отклонений индивидуальных величин от средней, , - число несовпадений знаков отклонений

1.2 35.8 1.6 30 2.8 34.8 1.8 31.3 2.9 36.9 3 37.1 1.6 27.9 1.7 30 2.6 35.8 1.3 32.1 2 29.1 3.3 34.3
Знаки отклонений от средней Совпадение ( или несовпадение знаков 1 - + b 2 - - a 3 + + a 4 - - a 5 + + a 6 + + a 7 - - a 8 - - a 9 + + a 10 - - a 11 - - a 12 + + a

Обычно такое значение показателя тесноты связи характеризует сильную зависимость, однако, следует иметь в виду, что поскольку коэффициент зависит только от знаков и не учитывает величину самих отклонений и от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление.

На цену сильно влияет срочность решения (от суток до нескольких часов). Онлайн-помощь на экзамене/зачете осуществляется по предварительной записи.

Заявку можно оставить прямо в чате, предварительно скинув условие задач и сообщив необходимые вам сроки решения. Время ответа - несколько минут.

И некоторые ранговые коэффициенты

Кроме рассмотренных в подразд. 10.2 коэффициента кор-

Реляции, коэффициента детерминации, корреляционного от-

Ношения, существуют и другие коэффициенты для оценки

Степени тесноты корреляционной связи между изучаемыми

Явлениями, причем формулы для их нахождения достаточно

Просты. Рассмотрим некоторые из таких коэффициентов.

Коэффициент корреляции знаков Фехнера

Этот коэффициент является простейшим показателем

Степени тесноты связи, он был предложен немецким ученым

Г. Фехнером. Данный показатель основан на оценке степени

Согласованности направлений отклонений индивидуальных

Значений факторного и результативного признаков от соот-

Ветствующих средних значений. Для его определения вычис-

Ляют средние значения результативного () и факторного ()

Признаков, а затем находят знаки отклонений от средних для

Всех значений результативного и факторного признаков. Если

сравниваемое значение больше среднего, то ставится знак “+”,

а если меньше - знак “-”. Совпадение знаков по отдельным

значениям рядов x и y означает согласованную вариацию, а их

Несовпадение - нарушение согласованности.

Коэффициент Фехнера находится по следующей формуле:

, (10.40)

где С - число совпадений знаков отклонений индивидуаль-

Ных значений от средней величины;

Н - число несовпадений знаков отклонений индивидуаль-

Ных значений от средней величины.

Заметим, что -1 ≤ Кф ≤ 1. При Кф = ±1 имеем полную пря-

мую или обратную согласованность. При Кф = 0 - связь между

Рядами наблюдений отсутствует.

По исходным данным примера 10.1 рассчитаем коэффици-

Ент Фехнера. Необходимые данные для его определения помес-

тим в табл. 10.4.

Из табл. 10.4 находим, что С = 6; Н = 0, поэтому по форму-

ле (10.40) получаем: , т. е. полную прямую зависимость

между хищениями оружия (х ) и вооруженными преступлени-

ями (y ). Полученное значение Кф подтверждает вывод, сделан-

Ный после вычисления коэффициента корреляции о том, что

Между рядами x и y существует достаточно близкая прямая

Линейная зависимость.

Таблица 10.4

Хищение

оружия, x

Вооруженные

преступления, y

Знаки отклонения от средней

773 4481 − −

1130 9549 − −

1138 8873 − −

1336 12160 + +

1352 18059 + +

1396 19154 + +

Коэффициент корреляции рангов Спирмэна

Данный коэффициент относится к ранговым, т. е. коррели-

Руются не сами значения факторного и результативного при-

Знаков, а их ранги (номера их мест, занимаемых в каждом ряду

Значений по возрастанию или убыванию). Коэффициент кор-

Реляции рангов Спирмэна основан на рассмотрении разности

Рангов значений факторного и результативного признаков. Для

его нахождения используется следующая формула:

, (10.41)

Где - квадрат разности рангов.

Рассчитаем коэффициент Спирмэна по данным рассмат-

Риваемого примера 10.1. Так как значение факторного призна-

ка х мы изначально расположили по возрастанию, то ряд х ран-

жировать не надо. Ранжируем (от меньшего к большему) ряд y .

Все необходимые данные для расчета помещены в табл. 10.5.

Таблица 10.5

Ранги Rgx ряда х Ранги Rgy ряда y |di | = |Rgxi Rgyi |

Теперь по формуле (10.41) получаем

Заметим, что -1 ≤ ρc ≤ 1, т. е. полученное значение показыва-

Ет, что между хищениями оружия и вооруженными преступле-

Коэффициент корреляции, предложенный во II–й половине XIX века Г. Т. Фехнером, является наиболее простой мерой связи между двумя переменными. Он основан на сопоставлении двух психологических признаков x i и y i , измеренных на одной и той же выборке, по сопоставлению знаков отклонений индивидуальных значений от среднего: и
. Вывод о корреляции между двумя переменными делается на основании подсчета числа совпадений и несовпадений этих знаков.

Пример

Пусть x i и y i – два признака, измеренные на одной и той же выборке испытуемых. Для вычисления коэффициента Фехнера необходимо вычислить средние значения для каждого признака, а также для каждого значения переменной – знак отклонения от среднего (табл. 8.1):

Таблица 8.1

x i

y i

Обозначение

В таблице: а – совпадения знаков, b – несовпадения знаков; n a – число совпадений, n b – число несовпадений (в данном случае n a = 4, n b = 6).

Коэффициент корреляции Фехнера вычисляется по формуле:

(8.1)

В рассматриваемом случае:

Вывод

Между исследуемыми переменными существует слабая отрицательная связь.

Необходимо отметить, что коэффициент корреляции Фехнера не является достаточно строгим критерием, поэтому его можно использовать лишь на начальном этапе обработки данных и для формулировки предварительных выводов.

8. 4. Коэффициент корреляции Пирсона

Исходный принцип коэффициента корреляции Пирсона – использование произведения моментов (отклонений значения переменной от среднего значения):

Если сумма произведений моментов велика и положительна, то х и у связаны прямой зависимостью; если сумма велика и отрицательна, то х и у сильно связаны обратной зависимостью; наконец, в случае отсутствия связи между x и у сумма произведений моментов близка к нулю.

Для того чтобы статистика не зависела от объема выборки, берется не сумма произведений моментов, а среднее значение. Однако деление производится не на объем выборки, а на число степеней свободы n - 1.

Величина
является мерой связи междух и у и называется ковариацией х и у .

Во многих задачах естественных и технических наук ковариация является вполне удовлетворительной мерой связи. Ее недостатком является то, что диапазон ее значений не фиксирован, т. е. она может варьировать в неопределенных пределах.

Для того чтобы стандартизировать меру связи, необходимо избавить ковариацию от влияния стандартных отклонений. Для этого надо разделить S xy на s x и s y:

(8.3)

где r xy - коэффициент корреляции, или произведение моментов Пирсона.

Общая формула для вычисления коэффициента корреляции выглядит следующим образом:

(некоторые преобразования)

(8.4)

Влияние преобразования данных на r xy:

1. Линейные преобразования x и y типа bx + a и dy + c не изменят величину корреляции между x и y .

2. Линейные преобразования x и y при b < 0, d > 0, а также при b > 0 и d < 0 изменяют знак коэффициента корреляции, не меняя его величины.

Достоверность (или, иначе, статистическая значимость) коэффициента корреляции Пирсона может быть определена разными способами:

По таблицам критических значений коэффициентов корреляции Пирсона и Спирмена (см. Приложение, табл. XIII). Если полученное в расчетах значение r xy превышает критическое (табличное) значение для данной выборки, коэффициент Пирсона считается статистически значимым. Число степеней свободы в данном случае соответствует n – 2, где n – число пар сравниваемых значений (объем выборки).

По таблице XV Приложений, которая озаглавлена «Количество пар значений, необходимое для статистической значимости коэффициента корреляции». В данном случае необходимо ориентироваться на коэффициент корреляции, полученный в вычислениях. Он считается статистически значимым, если объем выборки равен или превышает табличное число пар значений для данного коэффициента.

По коэффициенту Стьюдента, который вычисляется как отношение коэффициента корреляции к его ошибке:

(8.5)

Ошибка коэффициента корреляции вычисляется по следующей формуле:

где m r - ошибка коэффициента корреляции, r - коэффициент корреляции; n - число сравниваемых пар.

Рассмотрим порядок вычислений и определение статистической значимости коэффициента корреляции Пирсона на примере решения следующей задачи.

Условие задачи

22 старшеклассника были протестированы по двум тестам: УСК (уровень субъективного контроля) и МкУ (мотивация к успеху). Получены следующие результаты (табл. 8.2):

Таблица 8.2

УСК (x i )

МкУ (y i )

УСК (x i )

МкУ (y i )

Задание

Проверить гипотезу о том, что для людей с высоким уровнем интернальности (балл УСК) характерен высокий уровень мотивации к успеху.

Решение

1. Используем коэффициент корреляции Пирсона в следующей модификации (см. формулу 8.4):

Для удобства обработки данных на микрокалькуляторе (в случае отсутствия необходимой компьютерной программы) рекомендуется оформление промежуточной рабочей таблицы следующего вида (табл. 8.3):

Таблица 8.3

x i y i

x 1 y 1

x 2 y 2

x 3 y 3

x n y n

Σx i y i

2. Проводим вычисления и подставляем значения в формулу:

3. Определяем статистическую значимость коэффициента корреляции Пирсона тремя способами:

1-й способ:

В табл. XIII Приложений находим критические значения коэффициента для 1-го и 2-го уровней значимости: r кр. = 0,42; 0,54 (ν = n – 2 = 20).

Делаем вывод о том, r xy > r кр . , т. е. корреляция является статистически значимой для обоих уровней.

2-й способ:

Воспользуемся табл. XV, в которой определяем число пар значений (число испытуемых), достаточное для статистической значимости коэффициента корреляции Пирсона, равного 0,58: для 1-го, 2-го и 3-го уровней значимости оно составляет, соответственно, 12, 18 и 28.

Отсюда мы делаем вывод о том, что коэффициент корреляции является значимым для 1-го и 2-го уровня, но «не дотягивает» до 3-го уровня значимости.

3-й способ:

Вычисляем ошибку коэффициента корреляции и коэффициент Стьюдента как отношение коэффициента Пирсона к ошибке:

В табл. X находим стандартные значения коэффициента Стьюдента для 1-го, 2-го и 3-го уровней значимости при числе степеней свободы ν = n – 2 = 20: t кр. = 2,09; 2,85; 3,85.

Общий вывод

Корреляция между показателями тестов УСК и МкУ является статистически значимой для 1-го и 2-го уровней значимости.

Примечание:

При интерпретации коэффициента корреляции Пирсона необходимо учитывать следующие моменты:

    Коэффициент Пирсона может использоваться для различных шкал (шкала отношений, интервальная или порядковая) за исключением дихотомической шкалы.

    Корреляционная связь далеко не всегда означает связь причинно-следственную. Другими словами, если мы нашли, предположим, положительную корреляцию между ростом и весом у группы испытуемых, то это вовсе не означает, что рост зависит от веса или наоборот (оба этих признака зависят от третьей (внешней) переменной, каковая в данном случае связана с генетическими конституциональными особенностями человека).

    r xu » 0 может наблюдаться не только при отсутствии связи между x и y , но и в случае сильной нелинейной связи (рис. 8.2 а). В данном случае отрицательная и положительная корреляции уравновешиваются и в результате создается иллюзия отсутствия связи.

    r xy может быть достаточно мал, если сильная связь между х и у наблюдается в более узком диапазоне значений, чем исследуемый (рис. 8.2 б).

    Объединение выборок с различными средними значениями может создавать иллюзию достаточно высокой корреляции (рис. 8.2 в).

y i y i y i

+ + . .

x i x i x i

Рис. 8.2. Возможные источники ошибок при интерпретации величины коэффициента корреляции (объяснения в тексте (пункты 3 – 5 примечания))

Общее представление о корреляционно-регрессивном анализе

Существующие между явлениями формы и виды связей весьма разнообразны по своей классификации. являются только такие из них, которые имеют количественный характер и изучаются с помощью количественных методов. Рассмотрим метод корреляционно-регрессионного анализа, который является основным в изучении взаимосвязей явлений.

Данный метод содержит две свои составляющие части — корреляционный анализ и регрессионный анализ. Корреляционный анализ — это количественный метод определения тесноты и направления взаимосвязи между выборочными переменными величинами. Регрессионный анализ — это количественный метод определения вида математической функции в причинно-следственной зависимости между переменными величинами.

Для оценки силы связи в теории корреляции применяется шкала английского статистика Чеддока: слабая — от 0,1 до 0,3; умеренная — от 0,3 до 0,5; заметная — от 0,5 до 0,7; высокая — от 0,7 до 0,9; весьма высокая (сильная) — от 0,9 до 1,0. Она используется далее в примерах по теме.

Линейная корреляция

Данная корреляция характеризует линейную взаимосвязь в вариациях переменных. Она может быть парной (две коррелирующие переменные) или множественной (более двух переменных), прямой или обратной — положительной или отрицательной, когда переменные варьируют соответственно в одинаковых или разных направлениях.

Если переменные — количественные и равноценные в своих независимых наблюдениях при их общем количестве , то важнейшими эмпирическими мерами тесноты их линейной взаимосвязи являются коэффициент прямой корреляции знаков австрийского психолога Г.Т.Фехнера (1801-1887) и коэффициенты парной, чистой (частной) и множественной (совокупной) корреляции английского статистика-биометрика К.Пирсона (1857-1936).

Коэффициент парной корреляции знаков Фехнера определяет согласованность направлений в индивидуальных отклонениях переменных и от своих средних и . Он равен отношению разности сумм совпадающих () и несовпадающих () пар знаков в отклонениях и к сумме этих сумм:

Величина Кф изменяется от -1 до +1. Суммирование в (1) производится по наблюдениям, которые не указаны в суммах ради упрощения. Если какое-то одно отклонение или , то оно не входит в расчет. Если же сразу оба отклонения нулевые: , то такой случай считается совпадающим по знакам и входит в состав . В таблице 12.1. показана подготовка данных для расчета (1).

Таблица 12.1 Данные для расчета коэффициента Фехнера.

Число работников, тыс. чел.

Товарооборот, у.е.

Отклонение от средних

Сравнение знаков и

совпа-дение
(С к)

несов-падение (Н к)

По (1) имеем К ф = (3 — 2)/(3 + 2) = 0,20 . Направление взаимосвязи в вариациях!!Средняя численность работников|численности работников]] и — положительное (прямолинейное): знаки в отклонениях и и в своем большинстве (в 3 случаях из 5) совпадают между собой. Теснота взаимосвязи переменных по шкале Чеддока — слабая.

Коэффициенты парной, чистой (частной) и множественной (совокупной) линейной корреляции Пирсона, в отличие от коэффициента Фехнера, учитывают не только знаки, но и величины отклонений переменных. Для их расчета используют разные методы. Так, согласно методу прямого счета по несгруппированным данным, коэффициент парной корреляции Пирсона имеет вид:

Этот коэффициент также изменяется от -1 до +1. При наличии нескольких переменных рассчитывается коэффициент множественной (совокупной) линейной корреляции Пирсона. Для трех переменных x, y, z он имеет вид

Этот коэффициент изменяется от 0 до 1. Если элиминировать (совсем исключить или зафиксировать на постоянном уровне) влияние на и , то их "общая" связь превратится в "чистую", образуя чистый (частный) коэффициент линейной корреляции Пирсона:

Этот коэффициент изменяется от -1 до +1. Квадраты коэффициентов корреляции (2)-(4) называются коэффициентами (индексами) детерминации — соответственно парной, чистой (частной), множественной (совокупной):

Каждый из коэффициентов детерминации изменяется от 0 до 1 и оценивает степень вариационной определенности в линейной взаимосвязи переменных, показывая долю вариации одной переменной (y), обусловленную вариацией другой (других) — x и y. Многомерный случай наличия более трех переменных здесь не рассматривается.

Согласно разработкам английского статистика Р.Э. Фишера (1890-1962), статистическая значимость парного и чистого (частного) коэффициентов корреляции Пирсона проверяется в случае нормальности их распределения, на основании -распределения английского статистика В.С. Госсета (псевдоним "Стьюдент"; 1876-1937) с заданным уровнем вероятностной значимости и имеющейся степени свободы , где — число связей (факторных переменных). Для парного коэффициента имеем его среднеквадратическую ошибку и фактическое значение -критерия Стьюдента:

Для чистого коэффициента корреляции при расчете его вместо (n-2) надо брать , т.к. в этом случае имеется m=2 (две факторные переменные x и z). При большом числе n>100 вместо (n-2) или (n-3) в (6) можно брать n, пренебрегая точностью расчета.

Если t r > t табл. , то коэффициент парной корреляции — общий или чистый является статистически значимым, а при t r ≤ t табл. — незначимым.

Значимость коэффициента множественной корреляции R проверяется по F — критерию Фишера путем расчета его фактического значения

При F R > F табл. коэффициент R считается значимым с заданным уровнем значимости a и имеющихся степенях свободы и , а при F r ≤ F табл — незначимым.

В совокупностях большого объема n > 100 для оценки значимости всех коэффициентов Пирсона вместо критериев t и F применяется непосредственно нормальный закон распределения (табулированная функция Лапласа-Шеппарда).

Наконец, если коэффициенты Пирсона не подчиняются нормальному закону, то в качестве критерия их значимости используется Z — критерий Фишера, который здесь не рассматривается.

Условный пример расчета (2) — (7)дан в табл. 12.2, где взяты исходные данные табл.12.1 с добавлением к ним третьей переменной z — размера общей площади магазина (в 100 кв. м).

Таблица 12.2. Подготовка данных для расчета коэффициентов корреляции Пирсона

Показатели

Согласно (2) — (5), коэффициенты линейной корреляции Пирсона равны:

Взаимосвязь переменных x и y является положительной, но не тесной, составляя по их парному коэффициенту корреляции величину и по чистому — величину и оценивалась по шкале Чеддока соответственно как "заметная" и "слабая".

Коэффициенты детерминации d xy =0,354 и d xy . z = 0,0037 свидетельствуют, что вариация у (товарооборота) обусловлена линейной вариацией x (численности работников) на 35,4% в их общей взаимосвязи и в чистой взаимосвязи — только на 0,37% . Такое положение обусловлено значительным влиянием на x и y третьей переменной z — занимаемой магазинами общей площади. Теснота ее взаимосвязи с ними составляет соответственно r xz =0,677 и r yz =0,844 .

Коэффициент множественной (совокупной) корреляции трех переменных показывает, что теснота линейной взаимосвязи x и z c y составляет величину R = 0,844 , оцениваясь по шкале Чеддока как "высокая", а коэффициент множественный детерминации — величину D=0,713 , свидетельствуя, что 71,3 % всей вариации у (товарооборота) обусловлены совокупным воздействием на нее переменных x и z . Остальные 28,7% обусловлены воздействием на y других факторов или же криволинейной связью переменных y, x, z .

Для оценки значимости коэффициентов корреляции возьмем уровень значимости . По исходным данным имеем степени свободы для и для . По теоретической таблице находим соответственно t табл.1. = 3,182 и t табл.2. = 4,303. Для F-критерия имеем и и по таблице находим F табл. = 19,0. Фактические значения каждого критерия по (6) и (7) равны:

Все расчетные критерии меньше своих табличных значений: все коэффициенты корреляции Пирсона статистически незначимы.

  • Ранговый коэффициент корреляции Кендалла.
    Расчетная формула имеет вид: Ранжируем все элементы по признаку х^, по ряду другого признака х 10 ): где иа/2 - квантиль, определяемый по таблице нормального распределения для выбранного уровня значимости а (например, для а = 0,05 получим иа/2 = 1,96). Если п 10, то рассчитывают...
    (Многомерные статистические методы в экономике)
  • Коэффициенты корреляции показателей состояния региональных подсистем с показателем инвестиций
    Коэффициент рождаемости -0,08 (р = 0,768) 0,10 (р = 0,707) Коэффициент смертности -0,36 (р = 0,158) -0,65 (р = 0,004) Коэффициент младенческой смертности -0,13 (р = 0,619) -0,40 (р = 0,113) Численность населения 0,98 (р = 0,000) 0,62 (р = 0,008) Ожидаемая продолжительность жизни при рождении, лет 0,20...
    (Развитие регионов: диагностика региональных различий)
  • Коэффициенты корреляции показателей состояния региональных подсистем с показателем инвестиций
    Коэффициент рождаемости -0,08 (р = 0,768) 0,10 (р = 0,707) Коэффициент смертности -0,36 (р = 0,158) -0,65 (р = 0,004) Коэффициент младенческой смертности -0,13 (р = 0,619) -0,40 (р = 0,113) Численность населения 0,98 (р = 0,000) 0,62 (р = 0,008) Ожидаемая продолжительность жизни при рождении, лет 0,20...
    (Развитие регионов: диагностика региональных различий)
  • Коэффициент корреляции рангов Спирмэна
    Данный коэффициент относится к ранговым, т. е. коррелируются не сами значения факторного и результативного признаков, а их ранги (номера их мест, занимаемых в каждом ряду значений по возрастанию или убыванию). Коэффициент корреляции рангов Спирмэна основан на рассмотрении разности рангов значений факторного...
    (Общая теория статистики)
Loading...Loading...