Задачей проводимого исследования является выявление и изучение зависимости данных экономических явлений.
При проведении данного исследования была взята совокупность, состоящая из 25 стран Африки:
Алжир, Ангола, Генин, Ботсвана, Бурунди, Буркина Фасо, Габон, Гамбия, Гана, Гвинея, Гвинея-Бисау, Джибути, Египет, Заир, Замбия, Зимбабве, Кабо-Верде, Кения, Коморские острова, Конго, Кот-д’Ивуар, Лесото, Либерия, Ливия.
Характеризующими являются следующие признаки: средняя продолжительность жизни (лет), численность населения (тыс. человек), доля городского населения (%), число медицинских работников на 10 тысяч населения (чел.), доля неграмотных (%), среднегодовой индекс роста производства продовольствия (%).
Но для упрощения проведения расчетов и всего исследования, а также выявления связи стоит разделить вышеописанные признаки на факторный и результативные и заменить их условными переменными (у, х1, х2, х3, х4, х5):
результативный признак (у) представляет собой среднюю продолжительность жизни (лет);
факторные признаки (х):
х1: численность населения (тыс. человек);
х2: доля городского населения (%);
х3: число медицинских работников на 10 тысяч населения (чел.);
х4: доля неграмотных (%);
х5: среднегодовой индекс роста производства продовольствия (%).
Начальные данные представлены в таблице:
┌────┬────────┬───────────┬────────┬────────┬────────┬─────────┐
│ N │ y │ x1 │ x2 │ x3 │ x4 │ x5 │
├────┼────────┼───────────┼────────┼────────┼────────┼─────────┤
│ 1 │ 63.00 │ 23102.00 │ 60.85 │ 32.70 │ 55.30 │ 87.00 │
│ 2 │ 44.50 │ 9226.00 │ 21.00 │ 12.70 │ 97.00 │ 58.00 │
│ 3 │ 46.00 │ 4304.00 │ 30.80 │ 7.50 │ 75.20 │ 108.00 │
│ 4 │ 56.50 │ 1169.00 │ 29.50 │ 35.80 │ 59.30 │ 71.00 │
│ 5 │ 48.50 │ 5001.00 │ 2.29 │ 3.80 │ 77.40 │ 101.00 │
│ 6 │ 47.20 │ 8305.00 │ 8.48 │ 8.10 │ 91.20 │ 92.00 │
│ 7 │ 51.00 │ 1058.00 │ 35.80 │ 22.30 │ 87.60 │ 98.00 │
│ 8 │ 37.00 │ 670.00 │ 18.50 │ 15.10 │ 85.20 │ 62.00 │
│ 9 │ 54.00 │ 13704.00 │ 35.86 │ 37.60 │ 69.80 │ 73.00 │
│ 10 │ 42.20 │ 6380.00 │ 19.07 │ 4.20 │ 80.00 │ 91.00 │
│ 11 │ 45.00 │ 925.00 │ 23.80 │ 38.60 │ 71.60 │ 83.00 │
│ 12 │ 64.50 │ 372.00 │ 73.95 │ 72.20 │ 80.00 │ 75.00 │
│ 13 │ 60.60 │ 50740.00 │ 45.37 │ 47.90 │ 56.50 │ 89.00 │
│ 14 │ 52.00 │ 32461.00 │ 39.50 │ 12.60 │ 42.10 │ 86.00 │
│ 15 │ 53.30 │ 7563.00 │ 40.40 │ 18.50 │ 56.00 │ 91.00 │
│ 16 │ 57.80 │ 8640.00 │ 19.60 │ 16.60 │ 29.20 │ 94.00 │
│ 17 │ 53.00 │ 10822.00 │ 34.60 │ 14.40 │ 59.50 │ 102.00 │
│ 18 │ 61.50 │ 348.00 │ 5.80 │ 18.80 │ 63.10 │ 83.00 │
│ 19 │ 53.30 │ 22936.00 │ 14.17 │ 11.20 │ 50.40 │ 93.00 │
│ 20 │ 52.00 │ 472.00 │ 11.53 │ 15.30 │ 41.60 │ 91.00 │
│ 21 │ 48.50 │ 1837.00 │ 37.27 │ 31.70 │ 84.40 │ 83.00 │
│ 22 │ 52.30 │ 11142.00 │ 37.62 │ 13.50 │ 58.80 │ 102.00 │
│ 23 │ 50.60 │ 1619.00 │ 4.52 │ 0.50 │ 48.00 │ 78.00 │
│ 24 │ 51.00 │ 2349.00 │ 32.94 │ 11.30 │ 74.60 │ 91.00 │
│ 25 │ 60.80 │ 4083.00 │ 52.40 │ 64.80 │ 49.90 │ 151.00 │
└────┴────────┴───────────┴────────┴────────┴────────┴─────────┘
Реализация алгоритма многомерного регрессионного анализа начинается с расчета важнейших статистических характеристик исходной информации и матрицы выборочных парных коэффициентов корреляции.
Рассмотрим более подробно вариационные характеристики переменной у:
. число наблюдений 25
. среднее значение 52.2440
. верхняя оценка среднего 54.5134
. нижняя оценка среднего 49.9746
. среднеквадратическое отклонение 6.6138
. дисперсия 43.7425
. дисперсия (несмещ. оценка) 45.5651
. среднекв. откл. (несмещ. оценка) 6.7502
. среднее линейное отклонение 5.0938
. моменты начальные
. 2-го поpядка 2773.1780
. 3-го поpядка 1.4943e+05
. 4-го поpядка 8.1668e+06
. моменты центpальные
. 3-го поpядка -2.1613e+01
. 4-го поpядка 5.1166e+03
. коэффициент асимметрии
. значение -0.0747
. несмещенная оценка -0.0796
. среднекв. отклонение 0.4637
. коэффициент эксцесса
. значение -0.0000
. несмещенная оценка 0.2846
. среднекв. отклонение 0.9017
. коэффициенты вариации
. по pазмаху 0.5264
. сpеднему линейному откл. 0.0975
. сpеднеквадp. откл. 0.1266
. медиана 52.0000
. мода 48.5000
. минимальное значение 37.0000
. максимальное значение 64.5000
. размах 27.5000
Проанализируем их.
Средняя продолжительность жизни в странах Африки – 52,244 года. Она вычисляется по формуле средней арифметической невзвешенной:
_
у = Σуi/n
где n – объем исследуемой совокупности.
Дисперсия в нашем случае равна 43,7425. Она представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формуле:
σ2 = Σ (у I – у )2 / n
Среднее квадратическое отклонение представляет собой корень второй степени из дисперсии, и в нашем случае σ = 6,6138, то есть значение продолжительности жизни в среднем отклоняется на 6,6138 лет.
А среднее линейное отклонение вычисляется по формуле:
_ _
d = Σ |уi -y| / n,
которое в нашем случае равно 5,0938 и представляет собой среднюю величину из отклонений вариантов признака от их средней.
Коэффициент вариации среднеквадратического отклонения в исследуемой нами совокупности равен Vσ = 0,1266 или 12,66%, который вычисляется по формуле:
Vσ = σ / у * 100%.
Коэффициент вариации характеризует не только сравнительную оценку вариации, но и дает характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%, то есть наша совокупность является однородной.
Мода – значение признака, наиболее часто встречающегося в совокупности. Она рассчитывается по формуле:
Мо = уМо + iМо * (fМо – fМо-1)/(fМо – fМо-1)*(fМо – fМо+1)
То есть по Африке наиболее часто встречающееся значение продолжительности жизни равно 48,5 лет.
Медиана – значение признака, приходящегося на середину ранжированной (упорядоченной) совокупности.
Ме = уМе + iМе * (0,5 Σf – SМе-1)/fМе.
Таким образом, в нашем случае в половине стран Африки население имеет среднюю продолжительность жизни менее 52 лет, а в другой половине – более 52 лет.
Начальным моментом порядка k случайной величины х называют математическое ожидание величины хк:
νк = М (хк),
в частности ν1 = М (х), ν2 = М (х2).
В нашем случае
начальные моменты равны:
Центральным моментом порядка k случайной величины х называют математическое ожидание величины (х – (М (х))к, в частности
μ1 = М[х – М (х)] = 0; μ2 = М[ ( х – М (х))2] = D (х).
В нашем случае центральные моменты равны:
Теперь рассмотрим нашу совокупность на предмет симметрии.
Симметричным называется распределение, в котором частоты любых двух вариантов, равностоящих в обе стороны от центра распределения, равны между собой. В статистике для характеристики асимметрии используют показатели асимметрии и эксцесса.
Так как видно, что наша совокупность асимметричная, найдем степень асимметрии. Сперва используем коэффициент асимметрии:
Аs = (у – Мо)/ σ = 0,4637,
что свидетельствует о наличии незначительной правосторонней асимметрии (Аs>0).
Теперь рассчитаем показатель эксцесса:
ЕК = μ4/ σ4 – 3, где μ4 – центральный момент четвертого порядка.
ЕК = 0,9017, следовательно, распределение стран Африки по продолжительности жизни является островершинным (ЕК>0).
Кроме того, взглянув на нашу совокупность, можно увидеть, что максимальная продолжительность жизни жителей стран Африки равна уmax=64,5 лет, а минимальная у min=37 лет.
Размах данной совокупности равен уmax - у min = 27,5 лет.
Построим корреляционную модель из исследуемых шести переменных:y,, ,,,.
Присвоим для облегчения обозначений всем переменным порядковые номера: у-1, х1-2, х2-3, x3-4,x4-5,x5-6.
Предварительно, с целью анализа взаимосвязи показателей построена таблица парных коэффициентов корреляции R.
┌─────┬───────┬───────┬───────┬───────┬───────┬───────┐
│ │ y │ x1 │ x2 │ x3 │ x4 │ x5 │
├─────┼───────┼───────┼───────┼───────┼───────┼───────┤
│ y │ 1.00 │ 0.30 │ 0.53 │ 0.60 │ -0.51 │ 0.26 │
│ x1 │ 0.30 │ 1.00 │ 0.27 │ 0.10 │ -0.33 │ 0.02 │
│ x2 │ 0.53 │ 0.27 │ 1.00 │ 0.74 │ -0.04 │ 0.17 │
│ x3 │ 0.60 │ 0.10 │ 0.74 │ 1.00 │ -0.03 │ 0.15 │
│ x4 │ -0.51 │ -0.33 │ -0.04 │ -0.03 │ 1.00 │ -0.31 │
│ x5 │ 0.26 │ 0.02 │ 0.17 │ 0.15 │ -0.31 │ 1.00 │
└─────┴───────┴───────┴───────┴───────┴───────┴───────┘
Анализ матрицы парных коэффициентов корреляции показывает, что результативный показатель наиболее тесно связан с показателем x3 – числом медицинских работников на 10 тысяч населения (ryx3=0.60).
Одним из основных препятствий эффективного применения регрессионного анализа, является мультиколлинеарность (наличие сильной корреляции между независимыми переменными, входящими в уравнение регрессии x1,x2,x3,x4,x5). Наиболее распространенный метод выявления коллинеарности основан на анализе парных коэффициентов корреляции. Он состоит в том, что две или несколько переменных признаются коллинеарными (мультиколлинеарными), если парные коэффициенты корреляции больше определенной величины. На практике наиболее часто считают, что два аргумента коллинеарны, если парный коэффициент корреляции между ними по абсолютной величине больше 0,8.
В данном примере ни один парный коэффициент корреляции не превышает величины 0,8, что говорит об отсутствии явления мультиколлинеарности.
Приступим непосредственно к регрессионному анализу.
Построим регрессионную модель по следующим факторам: х1, х2, х3, х4 и х5. Для расчета параметров уравнения регрессии используем стандартную программу многошагового регрессионного анализа с последовательным отсевом факторов.
На первом шаге построения модели в уравнение линейной регрессии вводятся все указанные выше переменные. В результате получена следующая модель:
ŷ= 57.700+0.000*x1+0.056*x2+0.173*x3-0.182*x4+0.007*x5.
Прежде чем осуществлять проверку значимости уравнения регрессии и коэффициентов регрессии, следует убедиться, что выполняется необходимое для этого условие, а именно следует проверить, является ли распределение остатков (т.е. отклонений эмпирических значений зависимой переменной от расчетных) нормальным. Для проверки данного условия используем критерий согласия Пирсона , рассчитанные значения которого приведены ниже:
Проверка нормального закона распределения
критерий хи-квадpат
.число степеней свободы 3
.хи-квадpат pасчетное 1.571
веpоятн. хи-квадpат заключение
уpовень теоpетическое о гипотезе
0.900 6.226 не отвеpгается
0.950 7.795 не отвеpгается
0.990 11.387 не отвеpгается
Таким образом, можно сделать вывод, что гипотеза о нормальности распределения остатков не отвергается с доверительной вероятностью 0.95 (=7.795).
Проверка значимости уравнения регрессии показала, что оно значимо на уровне доверительной вероятности 0,95. (см. приложение 3.1)
Уровень множественного коэффициента детерминации (0,625) свидетельствует о том, что воздействием включенных в модель факторов обусловлено 62,5% вариации средней продолжительности жизни в странах Африки.
Далее осуществляется проверка значимости отдельных коэффициентов регрессии на основе t-критерия Стьюдента. Для определения , используем таблицу распределения Стьюдента: =2,093 (α=0,05 и ν=n-k-1=25-5-1=19).
По нижеприведенной таблице (гр.5 t-значения) статистически существенными оказались только два коэффициента регрессии при переменных и (|t|>).
Оценки коэффициентов линейной регрессии
┌───┬──────────┬───────────┬───────────────┬───────────┬────────┬─────────┐
│ N │ Значение │ Дисперсия │ Средне- │ t - │ Нижняя │ Верхняя │
│ │ │ │ квадатическое │ значение │ оценка │ оценка │
│ │ │ │ отклонение │ │ │ │
├───┼──────────┼───────────┼───────────────┼───────────┼────────┼─────────┤
│ │ 57.70 │ 59.12 │ 7.69 │ 7.50 │ 44.37 │ 71.03 │
│ │ 0.00 │ 0.00 │ 0.00 │ 0.36 │ -0.00 │ 0.00 │
Страницы: 1, 2, 3, 4, 5