Рефераты

Контрольная работа: Парная регрессия

Контрольная работа: Парная регрессия

Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.

Наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.

Парная регрессия – уравнение связи двух переменных у и x:

,

где у – зависимая переменная (результативный признак);

х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия:.

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Регрессии, нелинейные по объясняющим переменным:

•        полиномы разных степеней

•равносторонняя гипербола

Регрессии, нелинейные по оцениваемым параметрам:

•      степенная ;

•      показательная

•      экспоненциальная

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно а и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции  для линейной регрессии

и индекс корреляции - для нелинейной регрессии ():


Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

Допустимый предел значений  – не более 8 – 10%.

Средний коэффициент эластичности  показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:

где  – общая сумма квадратов отклонений;

 – сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);

 – остаточная сумма квадратов отклонений.

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R2:

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

F-тест – оценивание качества уравнения регрессии – состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера. Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

п – число единиц совокупности;

т – число параметров при переменных х.

Fтабл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01.

Если Fтабл < Fфакт, то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если Fтабл > Fфакт, то гипотеза Н0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:

Сравнивая фактическое и критическое (табличное) значения t-статистики – tтабл и tфакт – принимаем или отвергаем гипотезу Hо.

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством


Если tтабл < tфакт, то Hо отклоняется, т.е. а, b и  не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если tтабл > tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования a, b или .

Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

Прогнозное значение  определяется путем подстановки в уравнение регрессии  соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :

 где


и строится доверительный интервал прогноза:

 где

Задача:

По 22 регионам страны изучается зависимость розничной продажи телевизоров, y от среднедушевых денежных доходов в месяц, x (табл. 1):

№ региона X Y
1,000 2,800 28,000
2,000 2,400 21,300
3,000 2,100 21,000
4,000 2,600 23,300
5,000 1,700 15,800
6,000 2,500 21,900
7,000 2,400 20,000
8,000 2,600 22,000
9,000 2,800 23,900
10,000 2,600 26,000
11,000 2,600 24,600
12,000 2,500 21,000
13,000 2,900 27,000
14,000 2,600 21,000
15,000 2,200 24,000
16,000 2,600 34,000
17,000 3,300 31,900
19,000 3,900 33,000
20,000 4,600 35,400
21,000 3,700 34,000
22,000 3,400 31,000

Задание

1.                Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2.                Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий.

3.                Оцените тесноту связи с помощью показателей корреляции и детерминации.

4.                С помощью среднего (общего) коэффициента эластичности дайте сравнительную оценку силы связи фактора с результатом.

5.                Качество уравнений оцените с помощью средней ошибки аппроксимации.

6.                С помощью F-критерия Фишера определите статистическую надежность результатов регрессионного моделирования. Выберите лучшее уравнение регрессии и дайте его обоснование.

7.                Рассчитайте прогнозное значение результата по линейному уравнению регрессии, если прогнозное значение фактора увеличится на 7% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости α=0,05.

8.                Оцените полученные результаты, выводы оформите в аналитической записке.

1. Поле корреляции для:

·        Линейной регрессии y=a+b*x:

·         


Гипотеза о форме связи: чем больше размер среднедушевого денежного дохода в месяц (факторный признак), тем больше при прочих равных условиях розничная продажа телевизоров (результативный признак). В данной модели параметр b называется коэффициентом регрессии и показывает, насколько в среднем отклоняется величина результативного признака у при отклонении величины факторного признаках на одну единицу.

·        Степенной регрессии :

Гипотеза о форме связи: степенная функция имеет вид Y=axb.

Параметр b степенного уравнения называется показателем эластичности и указывает, на сколько процентов изменится у при возрастании х на 1%. При х = 1 a = Y.

·        Экспоненциальная регрессия :


·        Равносторонняя гипербола :

Гипотеза о форме связи: В ряде случаев обратная связь между факторным и результативным признаками может быть выражена уравнением гиперболы: Y=a+b/x.

·        Обратная гипербола :


·        Полулогарифмическая регрессия :

2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий.

·                   Рассчитаем параметры уравнений линейной парной регрессии. Для расчета параметров a и b линейной регрессии y=a+b*x решаем систему нормальных уравнений относительно a и b:


По исходным данным рассчитываем ∑y, ∑x, ∑yx, ∑x2, ∑y2 (табл. 2):

№ региона X Y XY X^2 Y^2 Y^cp Y-Y^cp Ai
1 2,800 28,000 78,400 7,840 784,000 25,719 2,281 0,081
2 2,400 21,300 51,120 5,760 453,690 22,870 -1,570 0,074
3 2,100 21,000 44,100 4,410 441,000 20,734 0,266 0,013
4 2,600 23,300 60,580 6,760 542,890 24,295 -0,995 0,043
5 1,700 15,800 26,860 2,890 249,640 17,885 -2,085 0,132
6 2,500 21,900 54,750 6,250 479,610 23,582 -1,682 0,077
7 2,400 20,000 48,000 5,760 400,000 22,870 -2,870 0,144
8 2,600 22,000 57,200 6,760 484,000 24,295 -2,295 0,104
9 2,800 23,900 66,920 7,840 571,210 25,719 -1,819 0,076
10 2,600 26,000 67,600 6,760 676,000 24,295 1,705 0,066
11 2,600 24,600 63,960 6,760 605,160 24,295 0,305 0,012
12 2,500 21,000 52,500 6,250 441,000 23,582 -2,582 0,123
13 2,900 27,000 78,300 8,410 729,000 26,431 0,569 0,021
14 2,600 21,000 54,600 6,760 441,000 24,295 -3,295 0,157
15 2,200 24,000 52,800 4,840 576,000 21,446 2,554 0,106
16 2,600 34,000 88,400 6,760 1156,000 24,295 9,705 0,285
17 3,300 31,900 105,270 10,890 1017,610 29,280 2,620 0,082
19 3,900 33,000 128,700 15,210 1089,000 33,553 -0,553 0,017
20 4,600 35,400 162,840 21,160 1253,160 38,539 -3,139 0,089
21 3,700 34,000 125,800 13,690 1156,000 32,129 1,871 0,055
22 3,400 31,000 105,400 11,560 961,000 29,992 1,008 0,033
Итого 58,800 540,100 1574,100 173,320 14506,970 540,100 0,000
сред значение 2,800 25,719 74,957 8,253 690,808 0,085
станд. откл 0,643 5,417

Система нормальных уравнений составит:

Страницы: 1, 2, 3, 4


© 2010 Собрание рефератов