[an error occurred while processing this directive]

В начало

Тема 1. Введение. Эконометрика и эконометрическое моделирование

Тема 2. Временные ряды

Тема 3. Парная регрессия и корреляция

Тема 4. Модель множественной регрессии

Тема 5. Системы линейных одновременных уравнений

Тема 6. Многомерный статистический анализ

Задание для выполнения контрольной работы по дисциплине «Эконометрика»

Приложения

Литература

Задание для выполнения лабораторной работы. Задачи для ЭВМ (СТАТЭКСПЕРТ)

Тема 3. Парная регрессия и корреляция

Экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обусловливать случайность данных, которые они определяют. Стохастическая (вероятностная) природа экономических данных обусловливает необходимость применения соответствующих статистических методов для их обработки и анализа.

Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Естественно, возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции1.

Изучение действительности показывает, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность единиц. Вариация уровня производительности труда работников предприятий зависит от степени совершенства применяемого оборудования, технологии, организации производства, труда и управления и других самых различных факторов.

При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой первой группы в дальнейшем будем называть признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов — результативными. Например, при изучении зависимости между производительностью труда рабочих и энерговооруженностью их труда уровень производительности труда является результативным признаком, а энерговооруженность труда рабочих — факторным признаком.

Рассматривая зависимости между признаками, необходимо выделить, прежде всего две категории зависимости: функциональные и корреляционные.

Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина начисленной заработной платы при повременной оплате труда зависит от количества отработанных часов.

В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции.

3.1. Корреляционный анализ

Основная задача корреляционного анализа заключается в выявлении взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции, вычисления и проверки значимости множественных коэффициентов корреляции и детерминации. Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между параметрами, но устанавливает численное значение этих связей и достоверность суждений об их наличии.

Выборочная ковариация является мерой взаимосвязи между двумя переменными.

Ковариация между двумя переменными x и y рассчитывается следующим образом:

где ; .

Ковариация - это статистическая мера взаимодействия двух случайных переменных, таких, например, как доходности двух ценных бумаг. Положительное значение ковариации показывает, что доходности этих ценных бумаг имеют тенденцию изменяться в одну сторону.

Ковариация зависит от единиц, в которых измеряются переменные x и y.

Поэтому для измерения силы связи между двумя переменными используется другая статистическая характеристика, называемая коэффициентом корреляции.

При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит n-наблюдений; xiki-e наблюдение k-й переменной. Основными средствами анализа данных являются парные коэффициенты корреляции, частные коэффициенты корреляции и множественные коэффициенты корреляции.

Коэффициент парной корреляции

Для двух переменных x и y теоретический коэффициент корреляции определяется следующим образом:

где , — дисперсии; , .

Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменными и обладает следующими основными свойствами:

коэффициент корреляции принимает значение и интервале (-1, +1), или |ρxy| < 1;

коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения, т.е.

ρ(α1X + β; α2Y + β) = ρxy

где α1, α2, β - постоянные величины, причем α1 > 0, α2 > 0.

Случайные величины X, Y можно уменьшать (увеличивать) в α раз, а также вычитать или прибавлять к значениям X и Y одно и тоже число β - это не приведет к изменению коэффициента корреляции ρ.

При ρ = ±1 корреляционная связь представляется линейной функциональной зависимостью.

При ρ = 0 линейная корреляционная связь отсутствует.

В практических расчетах коэффициент корреляции ρ генеральной совокупности обычно не известен. По результатам выборки может быть найдена его точечная оценка — выборочный коэффициент корреляции r, так как выборочная совокупность переменных X и Y случайна, то в отличие от параметра ρ, r - случайная величина. Оценкой коэффициента корреляции ρ является выборочный парный коэффициент корреляции:

(3.1)

где

Для оценки значимости коэффициента корреляции применяется t-критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле:

(3.2)

Вычисленное по этой формуле значение tнабл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы.

Если tнабл > tкр, то полученное значение коэффициента корреляции признается значимым (то есть нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если значение ry,x близко к нулю, связь между переменными слабая. Если случайные величины связаны положительной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если случайные величины связаны отрицательной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем убывать.

Наличие совершенной положительной корреляции (рис. 3.1) наблюдается, например, при приобретении двух видов обычных акций одной корпорации, выпущенных на одинаковых условиях. Это означает, что когда одна из двух ценных бумаг имеет относительно высокую доходность, тогда и другая ценная бумага имеет относительно высокую доходность.

При наличии совершенной отрицательной корреляции (рис. 3.1) при уменьшении дохода по одной акции на один пункт происходит увеличение на один пункт по другой.

Рис. 3.1. Доходность двух ценных бумаг

Пример 3.1. В табл. 3.1 представлены спрос на товары народного потребления и доход населения за ряд текущих лет. Определите степень влияния дохода населения на его спрос и оцените значимость коэффициента корреляции.

Таблица 3.1

Год 1 2 3 4 5 6
Спрос, Y 6 8 8 10,3 10,5 13
Доход, X 10 12 14 16,0 18,0 20

Решение. Средние значения случайных величин X и Y рассчитаем по формулам соответственно:

Стандартные ошибки случайных величиной рассчитаем но формулам соответственно:

Коэффициент корреляции рассчитаем по формуле:

.

Оценим значимость коэффициента корреляции. Для этого рассчитаем значение t-статистики по формуле:

.

Табличное значение критерия Стьюдента равно: tтабл (α = 0,1; k = n-2 = 4) = 2,132. Сравнивая числовые значения критериев, видно, что tрасч > tтабл, т.е. полученное значение коэффициента корреляции значимо.

Таким образом, доход населения оказывает весьма высокое влияние на его спрос.

Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. Для множества m признаков n наблюдений получают матрицу коэффициентов парной корреляции R.

(3.3)

Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим в многомерном корреляционном анализе рассматривается две задачи:

1) определение тесноты связи одной случайной величины с совокупностью остальных (m-1) величин, включенных в анализ;

2) определение тесноты связи между величинами при фиксировании или исключении влияния остальных k величин, при k < (m-2).

Эти задачи решаются с помощью коэффициентов множественной и частной корреляции соответственно.

Множественный коэффициент корреляции

Решение первой задачи осуществляется с помощью выборочного коэффициента множественной корреляции по формуле:

(3.4)

где |R| - определитель корреляционной матрицы R (3.3);

Rjj - алгебраическое дополнение элемента rjj той же матрицы R.

Квадрат коэффициента множественной корреляции принято называть выборочным множественным коэффициентом детерминации, который показывает, какую долю вариации (случайного разброса) исследуемой величины Xj объясняет вариация остальных случайных величин X1, X2, ..., Xn.

Коэффициенты множественной корреляции и детерминации являются величинами положительными, принимающими значения в интервале от 0 до 1. При приближении коэффициента R2 к единице можно сделать вывод о тесноте взаимосвязи случайных величин, но не о ее направлении. Коэффициент множественной корреляции может только увеличиваться, если в модель включать дополнительные переменные, и не увеличится, если из имеющихся признаков производить исключение.

Проверка значимости коэффициента множественной корреляции осуществляется путем сравнения расчетного значения критерия Фишера

(3.5)

с табличным Fтабл Табличное значение критерия определяется заданным уровнем значимости а и степенями свободы k1 = m-1 и k2 = n-m. Коэффициент R2 значимо отличается от нуля, если выполняется неравенство

Fрасч > Fтабл.

Частный коэффициент корреляции

Если рассматриваемые случайные величины коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния одной или нескольких других случайных величин.

Выборочный частный коэффициент корреляции определяется по формуле:

где Rjk, Rjj, Rkk — алгебраические дополнения к соответствующим элементам матрицы (3.3).

Частный коэффициент корреляции, так же, как и парный коэффициент корреляции изменяется от -1 до +1.

3.2. Регрессионный анализ

Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели.

В регрессионных моделях зависимая (объясняемая) переменная Y может быть представлена в виде функции f(X1, X2, Х3, ..., Xm), где X1, X2, Х3, ..., Xm — независимые (объясняющие) переменные, или факторы. В качестве зависимой переменной может выступать практически любой показатель, характеризующий, например, деятельность предприятия или курс ценной бумаги. В зависимости от вида функции f(X1, X2, Х3, ..., Xm) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов X модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

Связь между переменной Y и m независимыми факторами можно охарактеризовать функцией регрессии Y = f(X1, X2, Х3, ..., Xm), которая показывает, каково будет в среднем значение переменной yi, если переменные хi примут конкретное значение.

Данное обстоятельство позволяет использовать модель регрессии не только для анализа, но и для прогнозирования экономических явлений. В качестве зависимой переменной может выступать практически любой показатель, характеризующий, например, деятельность коммерческого банка или означающий курс ценной бумаги.

Линейная парная регрессия

Под линейностью здесь имеется в виду, что переменная у предположительно находится под влиянием переменной х в следующей зависимости:

(3.6)

где α — постоянная величина (или свободный член уравнения),

β — коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений. Это показатель, характеризующий изменение переменной yi при изменении значения хi на единицу. Если β > 0 — переменные хi и yi положительно коррелированные, если β < 0 — отрицательно коррелированны;

ε — независимая нормально распределенная случайная величина — остаток с нулевым математическим ожиданием (mε = 0) и постоянной дисперсией (Dε = σ2). Она отражает тот факт, что изменение yi будет неточно описываться изменением X: присутствуют другие факторы, не учтенные в данной модели.

Оценка параметров регрессионного уравнения. Для оценки параметров регрессионного уравнения наиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений yi от модельных значений .

Согласно принципу метода наименьших квадратов оценки и находятся путем минимизации суммы квадратов:

по всем возможным значениям α и β при заданных (наблюдаемых) значениях х1, ..., хn, y1, ..., yn. Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Такая точка находится путем приравнивания нулю частных производных функции Q(α, β) по переменным α и β. Это приводит к системе нормальных уравнений:

решением которой и является пара , . Следует заметить, что согласно правилам вычисления производных,

так что искомые значения , удовлетворяют соотношениям

Эту систему двух уравнений можно записать также в виде

Эта система является системой двух линейных уравнений с двумя неизвестными и может быть легко решена, например методом подстановки. В результате получаем:

(3.7)

Такое решение может существовать только при выполнении условия

что равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен:

Последнее условие называется условием идентифицируемости модели наблюдений , i = 1, ..., n и означает, что не все значения х1, ..., хn, совпадают между собой. При нарушении этого условия все точки (хi, уi), i = 1, ..., n, лежат на одной вертикальной прямой .

Оценки и называют: оценками наименьших квадратов. Обратим еще раз внимание на полученное выражение для . Нетрудно увидеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии

и выборочной ковариации , так что в этих терминах

(3.8)

Пример 3.2. Бюджетное обследование семи случайно выбранных семей дало следующие результаты (в тыс. долл.):

Таблица 3.2

Наблюдение Накопления, Y Доход, X
1 3,0 40
2 6,0 55
3 5,0 45
4 3,5 30
5 1,5 30
6 4,5 50
7 2,0 35

Требуется:

• построить однофакторную модель регрессии;

• отобразить на графике исходные данные, результаты моделирования.

Решение. Для вычисления параметров модели следует воспользоваться формулами (3.7) и (3.8). Промежуточные расчеты приведены в таблице 3.3.

Таблица 3.3

Наблюдение Накопления, Y Доход, X yx X2
1 3,0 40 -0,643 -0,714 0,510 0,459 120 1600
2 6,0 55 2,357 14,286 204,082 33,673 330 3025
3 5,0 45 1,357 4,286 18,367 5,816 225 2025
4 3,5 30 -0,143 -10,714 114,796 1,531 105 900
5 1,5 30 -2,143 -10,714 114,796 22,959 45 900
6 4,5 50 0,857 9,286 86,224 7,959 225 2500
7 2,0 35 -1,643 -5,714 32,653 9,388 70 1225
Сумма 25,5 285,00 0,000 0,000 571,429 81,786 1120 12175
Среднее 3,643 40,714         160 1739,286

Построена модель зависимости накопления от дохода:

Рис. 3.2. График модели парной регрессии

Оценка качества уравнения регрессии. Для оценки качества регрессионных моделей целесообразно использовать коэффициент множественной корреляции (индекс корреляции) R, а также характеристики существенности модели в целом и отдельных ее коэффициентов.

(3.9)

Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной модели и их линейной зависимости он равен коэффициенту линейной корреляции.

Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным. Например, рис. 3.3а показывает, что данные значительно рассеяны относительно линии регрессии, следовательно, ошибки в модели велики. На рис. 3.3б данные близко располагаются вокруг линии регрессии — ошибки малы и взаимосвязь, характеризуемая линией регрессии, считается в большей степени отражающей истинную взаимосвязь между Y и X.

Рис. 3.3

После построения уравнения регрессии мы можем разбить значение y в каждом наблюдении на две составляющих — и еi.

(3.10)

Величина — расчетное значение y в наблюдении i — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствия случайного фактора. Это, иными словами, величина y, спрогнозированная по значению х в данном наблюдении. Тогда остаток еi есть расхождение между фактическим и спрогнозированным значениями величины у. Это та часть y, которую мы не можем объяснить с помощью уравнения регрессии.

Используя (3.9), разложим дисперсию y:

(3.11)

Это означает, что мы можем разложить дисперсию у на две части: — часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и — «необъясненную» часть.

— остаточная сумма квадратов отклонений;

— общая сумма квадратов отклонений зависимой переменной от ее среднего значения;

— сумма квадратов отклонений, объясненная регрессией.

Используя определение выборочной дисперсии и умножив на n-1 обе части уравнения (3.11), можно представить его следующим образом:

(3.12)

где — значения у, вычисленные по модели.

Коэффициент множественной корреляции (индекс корреляции), возведенный в квадрат (R2), называется коэффициентом детерминации.

(3.13)

Он показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов.

Чем ближе R2 к 1, тем лучше качество модели.

Рис. 3.4

После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров.

Оценить значимость уравнения регрессии — это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и X, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных X для описания зависимой переменной Y.

Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый как отношение дисперсии исходного ряда и несмещенной дисперсии остаточной компоненты. Если расчетное значение с ν1 = (n-1) и ν2 = (n-k-1) степенями свободы, где k — количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.

(3.14)

В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n-k-1), где k — количество факторов, включенных в модель. Квадратный корень из этой величины (Se) называется стандартной ошибкой оценки.

(3.15)

Анализ статистической значимости параметров модели парной регрессии

yi = a0 + a1 × xi + ei.

Значения yi, соответствующие данным xi при теоретических значениях a0 и a1 являются случайными. Случайными являются и рассчитанные по ним значения коэффициентов a0 и a1.

Надежность получаемых оценок a0 и a1 зависит от дисперсии случайных отклонений (ошибок). По данным выборки эти отклонения и соответственно их дисперсия не оцениваются — в расчетах используются отклонения зависимой переменной yi от ее расчетных значений : ei = yi – α0 – α1xi. Так как ошибки (остатки) εi нормально распределены, то среднеквадратическое отклонение ошибок используется для измерения этой вариации. Среднеквадратические отклонения коэффициентов известны как стандартные ошибки (отклонения):

где — математическое ожидание независимой переменной х; — стандартная ошибка оценки.

Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t-статистики) для соответствующих коэффициентов регрессии:

Затем расчетные значения tp сравниваются с табличными tтабл. Табличное значение критерия определяется при (n-2) степенях свободы (n — число наблюдений) и соответствующем уровне значимости α (0,1; 0,05; ...; 0,005).

Если расчетное значение t-критерия с (п-k-1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).

Интервальная оценка параметров модели

Для значимого уравнения регрессии представляет интерес построение интервальных оценок для параметра α1

(3.16)

свободного члена α0

где tтабл определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы k-n-2;

— стандартные отклонения свободного члена и коэффициента модели соответственно;

n — число наблюдений.

Доверительный интервал для прогнозов индивидуальных значений y0 определяется из соотношения:

(3.17)

где S — стандартная ошибка зависимой переменной;

х = х0 — значения фактора X, используемое для прогноза;

n — число наблюдений.

Расположение границ доверительного интервала показывает, что прогноз значений зависимой переменной по уравнению регрессии хорош только в случае, если значение фактора X не выходит за пределы выборки. Иными словами, экстраполяция по уравнению регрессии может привести к значительным погрешностям.

Прогнозирование с применением уравнения регрессии

Регрессионные модели могут быть использованы для прогнозирования возможных ожидаемых значений зависимой переменной.

Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии

(3.18)

ожидаемой величины фактора х. Данный прогноз называется точечным. При выборе ожидаемой величины х нельзя подставлять значения независимой переменной хпрогн, значительно отличающиеся от входящих в исследуемую выборку, по которой вычислено уравнение регрессии.

Вероятность реализации точечного прогноза практически равна нулю. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большой надежностью.

Доверительные интервалы зависят от стандартной ошибки (3.15), удаления хпрогн от своего среднего значения , количества наблюдений n и уровня значимости прогноза α. В частности, для прогноза (3.18) будущие значения упрогн с вероятностью (1-α) попадут в интервал

Пример 3.3. Используя данные примера 3.2, оцените накопления семьи, имеющей доход 42 тыс. долл. и отобразите на графике исходные данные, результаты моделирования и прогнозирования.

Решение. В примере 3.1 была построена модель зависимости накопления от дохода:

Для того чтобы определить накопления семьи при доходе в 42 тыс. долл. необходимо подставить значение Хпрогн в полученную модель.

Yпрогноз = -2,184 + 0,143 × 42 = 3,827.

Величину отклонения от линии регрессии вычисляют по формуле (3.15), используя данные таблицы 3.3,

где

Таблица 3.3

Наблюдение Накопления, Y Предсказанное Y, Остатки, ε ε2
1 3,0 3,541 -0,5406 0,2923
2 6,0 5,688 0,3125 0,0977
3 5,0 4,256 0,7438 0,5532
4 3,5 2,109 1 ,3906 1 ,9338
5 1,5 2,109 -0,6094 0,3713
6 4,5 4,972 -0,4719 0,2227
7 2,0 2,825 -0,8250 0,6806
Сумма 25,5 25,500 0,0000 4,1516

Таким образом, прогнозное значение будет находиться между верхней границей, равной 3,827 + 1,965 = 5,792 и нижней границей, равной 3,827 - 1,965 = 1,862.

Коэффициент Стьюдента tα для m = 5 степеней свободы (m = n-2) и уровня значимости 0,1 равен 2,015.

Рис. 3.5. График модели парной регрессии зависимости накопления от дохода

Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Теоретические вопросы, связанные с построением моделей нелинейной регрессии, следует изучить по учебнику «Эконометрика» под ред. И.И. Елисеевой (стр. 62-80).

Пример 3.4. По семи предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (X, млн. руб.).

Y 64 56 52 48 50 46 38
X 64 68 82 76 84 96 100

Требуется:

1 . Для характеристики Y от X построить следующие модели:

• линейную (для сравнения с нелинейными),

• степенную,

• показательную,

• гиперболическую.

2. Оценить каждую модель, определив:

• индекс корреляции,

• среднюю относительную ошибку,

• коэффициент детерминации,

F-критерий Фишера.

3. Составить сводную таблицу вычислений, выбрать лучшую модель, дать интерпретацию рассчитанных характеристик.

4. Рассчитать прогнозные значения результативного признака по лучшей модели, если объем капиталовложений составит 89,573 млн. руб.

5. Результаты расчетов отобразить на графике.

Решение.

1. Построение линейной модели парной регрессии

Определим линейный коэффициент парной корреляции по следующей формуле:

Можно сказать, что связь между объемом капиталовложений X и объемом выпуска продукции Y обратная, достаточно сильная.

Уравнение линейной регрессии имеет вид: .

Таблица 3.5

t y x
1 64 64 4096 4096 13,43 180,36 -17,4 303,8 60,2 3,84 6,000
2 56 68 3808 4624 5,43 29,485 -13,4 180,36 58,0 -1,96 -3,500
3 52 82 4264 6724 1,43 2,0449 0,57 0,3249 50,3 1,74 3,346
4 48 76 3648 5776 -2,57 6,6049 -5,43 29,485 53,6 -5,56 -11,583
5 50 84 4200 7056 -0,57 0,3249 2,57 6,6049 49,2 0,84 1 680
6 46 96 4416 9216 -4,57 20,885 14,57 212,28 42,6 3,44 7,478
7 38 100 3800 10000 -12,6 158.0 18,57 344,84 40,4 -2,36 -6,211
Итого 354,00 570,00 28232 47492 0,01 397,71   1077,7   -0,02 39,798
ср. знач. 50,57 81,43 4033,14 6784,57             5,685
диспер. 56,80 154,00                  

Значения параметров a и b линейной модели определим, используя данные таблицы 3.5.

Уравнение линейной регрессии имеет вид:

С увеличением объема капиталовложений на 1 млн. руб. объем выпускаемой продукции уменьшится в среднем на 550 тыс. руб. Это свидетельствует о неэффективности работы предприятий, и необходимо принять меры для выяснения причин и устранения этого недостатка.

Рассчитаем коэффициент детерминации:

Вариация результата Y (объема выпуска продукции) на 82,2 % объясняется вариацией фактора X (объемом капиталовложений).

Оценку значимости уравнения регрессии проведем с помощью F-критерия Фишера:

F > Fтабл = 6,61 для α = 0,05; k1 = m = 1, k2 = nm – 1 = 5.

Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т. к. F > Fтабл.

Определим среднюю относительную ошибку:

В среднем расчетные значения для линейной модели отличаются от фактических значений на 5,685%.

2. Построение степенной модели парной регрессии

Уравнение степенной модели имеет вид: .

Для построения этой модели необходимо произвести линеаризацию переменных. Для этого произведем логарифмирование обеих частей уравнения: .

  Факт Y(t) lg(Y) Переменная X(t) lg(X)
1 64,0 1,806 64 1,806
2 56,0 1,748 68 1,833
3 52,0 1,716 82 1,914
4 48,0 1,681 76 1,881
5 50,0 1,699 84 1,924
6 46,0 1,663 96 1,982
7 38,0 1,580 100 2,000
28 354,0 11,893 570 13,340
Сред. знач. 50,5714 1,699 81,429 1,906

Обозначим , X = lg x, A = lg a.

Тогда уравнение примет вид: Y = A + b X — линейное уравнение регрессии.

Рассчитаем его параметры, используя данные таблицы 3.6.

Таблица 3.6

  y Y x X YX X2 Ei |Ei/y|×100%
1 64 1,8062 64 1,8062 3,2623 3,2623 61,294 2,706 4,23 7,322
2 56 1,7482 68 1,8325 3,2036 3,3581 58,066 -2,066 3,69 4,270
3 52 1,7160 82 1,9138 3,2841 3,6627 49,133 2,867 5,51 8,220
4 48 1,6812 76 1,8808 3,1621 3,5375 52,580 -4,580 9,54 20,976
5 50 1 ,6990 84 1,9243 3,2693 3,7029 48,088 1,912 3,82 3,657
6 46 1,6628 96 1,9823 3,2960 3,9294 42,686 3,314 7,20 10,982
7 38 1,5798 100 2,0000 3,1596 4,0000 41,159 -3,159 8,31 9,980
Итого 354 11,8931   13,3399 22,6370 25,4528   0,51 42,32 65,407

Уравнение регрессии будет иметь вид: Y = 3,3991-0,8921 X.

Перейдем к исходным переменным х и у, выполнив потенцирование данного уравнения.

Получим уравнение степенной модели регрессии:

.

Определим индекс корреляции:

Связь между показателем y и фактором x можно считать достаточно сильной.

Коэффициент детерминации равен 0,836:

Вариация результата Y (объема выпуска продукции) на 83,6% объясняется вариацией фактора X (объемом капиталовложений).

Рассчитаем F-критерий Фишера:

F > Fтабл = 6,61 для α = 0,05; k1 = m = 1, k2 = nm – 1 = 5.

Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т.к. F > Fтабл.

Средняя относительная ошибка

В среднем расчетные значения для степенной модели отличаются от фактических значений на 6,04%.

3. Построение показательной функции

Уравнение показательной кривой:

Для построения этой модели необходимо произвести линеаризацию переменных. Для этого осуществим логарифмирование обеих частей уравнения:

Обозначим: B = lg b, A = lg a.

Получим линейное уравнение регрессии:

Y = A + B x.

Рассчитаем его параметры, используя данные таблицы 3.7.

Таблица 3.7

t y Y x Yx x2 Ei |Ei/y|×100%
1 64 1,8062 64 115,60 4096 0,1072 0,0115 -17,43 303,76 60,6 11,464 3,3859 5,290
2 56 1,7482 68 118,88 4624 0,0492 0,0024 -13,43 180,33 58 3,9632 -1,991 3,555
3 52 1,7160 82 140,71 6724 0,0170 0,0003 0,57 0,33 49,7 5,4221 2,3285 4,478
4 48 1,6812 76 127,77 5776 -0,017 0,0003 -5,43 29,47 53,1 25,804 -5,08 10,583
5 50 1,6990 84 142,71 7056 0,0000 0,0000 2,57 6,61 48,6 2,0031 1,4153 2,831
6 46 1,6628 96 159,62 9216 -0,036 0,0013 14,57 212,33 42,5 11,933 3,4544 7,509
7 38 1,5798 100 157,98 10000 -0,119 0,0142 18,57 344,90 40,7 7,3132 -2,704 7,117
итого 354 11,8931 570 963,28 4749   0,0300   1077,7   67,903 0,8093 41,363
Сред. знач. 50,57 1,6990 81,4 137,61 6785               5.909

Уравнение будет иметь вид: Y = 2,09 + 0,0048 x.

Перейдем к исходным переменным x и y, выполнив потенцирование данного уравнения:

Определим индекс корреляции:

Связь между показателем y и фактором x можно считать тесной.

Индекс детерминации:

Вариация результата Y (объема выпуска продукции) на 41,1 % объясняется вариацией фактора X (объем капиталовложений).

Рассчитаем F-критерий Фишера:

F > Fтабл = 6,61 для α = 0,05; k1 = m = 1, k2 = nm – 1 = 5.

Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т. к. F > Fтабл.

Средняя относительная ошибка:

В среднем расчетные значения для линейной модели отличаются от фактических значений на 5,909 %.

4. Построение гиперболической функции

Уравнение гиперболической функции:

Произведем линеаризацию модели путем замены X = 1/x. В результате получим линейное уравнение .

Рассчитаем его параметры по данным таблицы 3.8.

Таблица 3.8

t y x X yX X2 Ei |Ei/y|×100%
1 64 64 0,0156 1,0000 0,0002441 13,43 180,33 61,5 2,489 6,1954 3,889
2 56 68 0,0147 0,8235 0,0002163 5,43 29,47 58,2 -2,228 4,9637 3,978
3 52 82 0,0122 0,6341 0,0001487 1,43 2,04 49,3 2,740 7,5089 5,270
4 48 76 0,0132 0,6316 0,0001731 -2,57 6,61 52,7 -4,699 22,078 9,789
5 50 84 0,0119 0,5952 0,0001417 -0,57 0,32653 48,2 1,777 3,1591 3,555
6 46 96 0,0104 0,4792 0,0001085 -4,57 20,90 42.9 3,093 9,5648 6,723
7 38 100 0,0100 0,3800 0,0001000 -12,57 158.04 41,4 -3,419 11,69 8,997
итого 354   0,0880 4,5437 0,0011325   397,71 354,2 -0,246 65,159 42,202
Сред. знач. 50,57   0,0126 0,6491 0,0001618           6,029

Получим следующее уравнение гиперболической модели:

Определим индекс корреляции:

Связь между показателем у и фактором х можно считать достаточно сильной.

Индекс детерминации:

Вариация результата Y (объема выпуска продукции) на 83,5% объясняется вариацией фактора X (объемом капиталовложений).

F-критерий Фишера:

F > Fтабл = 6,61 для α = 0,05; k1 = m = 1, k2 = nm – 1 = 5.

Уравнение регрессии с вероятностью 0,95 в целом не является статистически значимым, т. к. F > Fтабл.

Определим среднюю относительную ошибку:

В среднем расчетные значения для линейной модели отличаются от фактических значений на 6,029 %.

Для выбора лучшей модели построим сводную таблицу результатов.

Таблица 3.9

Параметры Коэффициент детерминации R2 F-критерий Фишера Индекс корреляции ρYX (rYX) Средняя относительная ошибка Eотн
Модель
Линейная 0,822 23,09 0,907 5,685
Степенная 0,828 24,06 0,910 6,054
Показательная 0,828 24,06 0,910 5,909
Гиперболическая 0,835 25,30 0,914 6,029

Все модели имеют примерно одинаковые характеристики, но большее значение F-критерия Фишера и большее значение коэффициента детерминации R2 имеет гиперболическая модель. Ее можно взять в качестве лучшей для построения прогноза.

Расчет прогнозного значения результативного показателя:

Прогнозное значение результативного признака (объема выпуска продукции) определим по уравнению гиперболической модели, подставив в него планируемую (заданную по условию) величину объема капиталовложений:

Построение парной нелинейной регрессии можно осуществить при помощи программы «Олимп: СтатЭксперт». Для этого необходимо выполнить следующую последовательность действий.

• Инициализировать программу, указать включение макросов, щелкнуть ОК.

• Ввести исходные данные - результативный признак (у) и факторный признак (х).

• В конец строки для «у» дописать 0, в конец строки для «х» - планируемое (заданное в условии) значение этого фактора (объема капиталовложений).

• Выделить этот блок данных.

• В меню СтатЭкс выбрать функцию Регрессия.

• Установить шаблон данных: указать ориентацию таблицы либо по строкам, либо по столбцам в зависимости от того, как был осуществлен ввод данных и наличие наименований таблицы, наблюдений. Щелкнуть Установить.

• В окне Регрессионный анализ в список выбранных переменных добавить два показателя, соответствующих значениям «у» и «х».

• Осуществить выбор зависимой переменной, для этого щелкнуть Выбор и выбрать показатель, соответствующий значениям «у». Установить.

• Определить прогнозирование по модели, указав шаг прогнозирования 1 и вероятность расчетов 80 %. Отключить режим ретропрогноза.

• Установить вид регрессии - Парная. Вычислить.

• В окне формирования набора моделей в списке доступных переменных выбрать гиперболическую модель у = а + b/х. Выход.

После выполнения этой последовательности действий программа осуществит расчет параметров гиперболической модели, прогнозных значений и построение графиков. Отчет по вычислениям представлен в следующем виде:

Таблица функций парной регрессии

Функция Критерий Эластичность
Y(X)=+5.664+3571.928/X 13.030 0.8856
Выбрана функция Y(X)=+5.664+3571.928/X

Таблица остатков

Номер Факт Расчет Ошибка абс. Ошибка относит. Фактор X
1 64,000 61,476 2,524 3,944 64,000
2 56,000 58,193 -2,193 -3,916 68,000
3 52,000 49,225 2,775 5,337 82,000
4 48,000 52,663 -4,663 -9,716 76,000
5 50,000 48,187 1,813 3,625 84,000
6 46,000 42,872 3,128 6,800 96,000
7 38,000 41 ,384 -3,384 -8,904 100,000

Таблица характеристики остатков

Среднее значение Относительная ошибка
Характеристика Значение
0,000
Дисперсия 9,307
Приведенная дисперсия 13,030
Средний модуль остатков 2,926
6,035
Критерий Дарбина-Уотсона 2,891
Критерий адекватности 34,776
Критерий точности 54,475
Критерий качества 49,550
Уравнение значимо с вероятностью 0,95  

Таблица прогнозов (р = 90%)

Упреждение Прогноз Нижняя граница Верхняя граница
1 45,542 42,141 48,942

На основании данных расчетов получено уравнение гиперболической модели: Y(X) = +5,664+3571,928/Х.

Аналогичные результаты были получены при осуществлении расчетов в Excel.

Фактические, расчетные и прогнозные значения по лучшей модели отобразим на графике.

Рис. 3.6. Прогноз по лучшей модели


1 Основоположниками теории корреляции считаются английские биометрики Ф. Гальтон (1822-1911) и К. Пирсон (1857-1936). Термин «корреляция» был заимствован из естествознания и обозначает соотношение, соответствие. Представление о корреляции как об отношении взаимозависимости между случайными переменными величинами лежит в основе математико-статистической теории корреляции.

[an error occurred while processing this directive]