[an error occurred while processing this directive]

Тема 1. Введение. Эконометрика и эконометрическое моделирование

Тема 2. Временные ряды

Тема 3. Парная регрессия и корреляция

Тема 4. Модель множественной регрессии

Тема 5. Системы линейных одновременных уравнений

Тема 6. Многомерный статистический анализ

Задание для выполнения контрольной работы по дисциплине «Эконометрика»

Приложения

Литература

Задание для выполнения лабораторной работы. Задачи для ЭВМ (СТАТЭКСПЕРТ)

Тема 3. Парная регрессия и корреляция

Экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обусловливать случайность данных, которые они определяют. Стохастическая (вероятностная) природа экономических данных обусловливает необходимость применения соответствующих статистических методов для их обработки и анализа.

Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Естественно, возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции^¹.

Изучение действительности показывает, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность единиц. Вариация уровня производительности труда работников предприятий зависит от степени совершенства применяемого оборудования, технологии, организации производства, труда и управления и других самых различных факторов.

При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой первой группы в дальнейшем будем называть признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов — результативными. Например, при изучении зависимости между производительностью труда рабочих и энерговооруженностью их труда уровень производительности труда является результативным признаком, а энерговооруженность труда рабочих — факторным признаком.

Рассматривая зависимости между признаками, необходимо выделить, прежде всего две категории зависимости: функциональные и корреляционные.

Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина начисленной заработной платы при повременной оплате труда зависит от количества отработанных часов.

В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции.

3.1. Корреляционный анализ

Основная задача корреляционного анализа заключается в выявлении взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции, вычисления и проверки значимости множественных коэффициентов корреляции и детерминации. Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между параметрами, но устанавливает численное значение этих связей и достоверность суждений об их наличии.

Выборочная ковариация является мерой взаимосвязи между двумя переменными.

Ковариация между двумя переменными x и y рассчитывается следующим образом:

где ; .

Ковариация - это статистическая мера взаимодействия двух случайных переменных, таких, например, как доходности двух ценных бумаг. Положительное значение ковариации показывает, что доходности этих ценных бумаг имеют тенденцию изменяться в одну сторону.

Ковариация зависит от единиц, в которых измеряются переменные x и y.

Поэтому для измерения силы связи между двумя переменными используется другая статистическая характеристика, называемая коэффициентом корреляции.

При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит n-наблюдений; x_ik — i-e наблюдение k-й переменной. Основными средствами анализа данных являются парные коэффициенты корреляции, частные коэффициенты корреляции и множественные коэффициенты корреляции.

Коэффициент парной корреляции

Для двух переменных x и y теоретический коэффициент корреляции определяется следующим образом:

где , — дисперсии; , .

Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменными и обладает следующими основными свойствами:

коэффициент корреляции принимает значение и интервале (-1, +1), или |ρ_xy| < 1;

коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения, т.е.

ρ(α₁X + β; α₂Y + β) = ρ_xy

где α₁, α₂, β - постоянные величины, причем α₁ > 0, α₂ > 0.

Случайные величины X, Y можно уменьшать (увеличивать) в α раз, а также вычитать или прибавлять к значениям X и Y одно и тоже число β - это не приведет к изменению коэффициента корреляции ρ.

При ρ = ±1 корреляционная связь представляется линейной функциональной зависимостью.

При ρ = 0 линейная корреляционная связь отсутствует.

В практических расчетах коэффициент корреляции ρ генеральной совокупности обычно не известен. По результатам выборки может быть найдена его точечная оценка — выборочный коэффициент корреляции r, так как выборочная совокупность переменных X и Y случайна, то в отличие от параметра ρ, r - случайная величина. Оценкой коэффициента корреляции ρ является выборочный парный коэффициент корреляции:

(3.1)

где

Для оценки значимости коэффициента корреляции применяется t-критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле:

(3.2)

Вычисленное по этой формуле значение t_набл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы.

Если t_набл > t_кр, то полученное значение коэффициента корреляции признается значимым (то есть нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если значение r_y,x близко к нулю, связь между переменными слабая. Если случайные величины связаны положительной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если случайные величины связаны отрицательной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем убывать.

Наличие совершенной положительной корреляции (рис. 3.1) наблюдается, например, при приобретении двух видов обычных акций одной корпорации, выпущенных на одинаковых условиях. Это означает, что когда одна из двух ценных бумаг имеет относительно высокую доходность, тогда и другая ценная бумага имеет относительно высокую доходность.

При наличии совершенной отрицательной корреляции (рис. 3.1) при уменьшении дохода по одной акции на один пункт происходит увеличение на один пункт по другой.

Рис. 3.1. Доходность двух ценных бумаг

Пример 3.1. В табл. 3.1 представлены спрос на товары народного потребления и доход населения за ряд текущих лет. Определите степень влияния дохода населения на его спрос и оцените значимость коэффициента корреляции.

Таблица 3.1

Год	1	2	3	4	5	6
Спрос, Y	6	8	8	10,3	10,5	13
Доход, X	10	12	14	16,0	18,0	20

Решение. Средние значения случайных величин X и Y рассчитаем по формулам соответственно:

Стандартные ошибки случайных величиной рассчитаем но формулам соответственно:

Коэффициент корреляции рассчитаем по формуле:

Оценим значимость коэффициента корреляции. Для этого рассчитаем значение t-статистики по формуле:

Табличное значение критерия Стьюдента равно: t_табл (α = 0,1; k = n-2 = 4) = 2,132. Сравнивая числовые значения критериев, видно, что t_расч > t_табл, т.е. полученное значение коэффициента корреляции значимо.

Таким образом, доход населения оказывает весьма высокое влияние на его спрос.

Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. Для множества m признаков n наблюдений получают матрицу коэффициентов парной корреляции R.

(3.3)

Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим в многомерном корреляционном анализе рассматривается две задачи:

1) определение тесноты связи одной случайной величины с совокупностью остальных (m-1) величин, включенных в анализ;

2) определение тесноты связи между величинами при фиксировании или исключении влияния остальных k величин, при k < (m-2).

Эти задачи решаются с помощью коэффициентов множественной и частной корреляции соответственно.

Множественный коэффициент корреляции

Решение первой задачи осуществляется с помощью выборочного коэффициента множественной корреляции по формуле:

(3.4)

где |R| - определитель корреляционной матрицы R (3.3);

R_jj - алгебраическое дополнение элемента r_jj той же матрицы R.

Квадрат коэффициента множественной корреляции принято называть выборочным множественным коэффициентом детерминации, который показывает, какую долю вариации (случайного разброса) исследуемой величины X_j объясняет вариация остальных случайных величин X₁, X₂, ..., X_n.

Коэффициенты множественной корреляции и детерминации являются величинами положительными, принимающими значения в интервале от 0 до 1. При приближении коэффициента R² к единице можно сделать вывод о тесноте взаимосвязи случайных величин, но не о ее направлении. Коэффициент множественной корреляции может только увеличиваться, если в модель включать дополнительные переменные, и не увеличится, если из имеющихся признаков производить исключение.

Проверка значимости коэффициента множественной корреляции осуществляется путем сравнения расчетного значения критерия Фишера

(3.5)

с табличным F_табл Табличное значение критерия определяется заданным уровнем значимости а и степенями свободы k₁ = m-1 и k₂ = n-m. Коэффициент R² значимо отличается от нуля, если выполняется неравенство

F_расч > F_табл.

Частный коэффициент корреляции

Если рассматриваемые случайные величины коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния одной или нескольких других случайных величин.

Выборочный частный коэффициент корреляции определяется по формуле:

где R_jk, R_jj, R_kk — алгебраические дополнения к соответствующим элементам матрицы (3.3).

Частный коэффициент корреляции, так же, как и парный коэффициент корреляции изменяется от -1 до +1.

3.2. Регрессионный анализ

Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели.

В регрессионных моделях зависимая (объясняемая) переменная Y может быть представлена в виде функции f(X₁, X₂, Х₃, ..., X_m), где X₁, X₂, Х₃, ..., X_m — независимые (объясняющие) переменные, или факторы. В качестве зависимой переменной может выступать практически любой показатель, характеризующий, например, деятельность предприятия или курс ценной бумаги. В зависимости от вида функции f(X₁, X₂, Х₃, ..., X_m) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов X модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

Связь между переменной Y и m независимыми факторами можно охарактеризовать функцией регрессии Y = f(X₁, X₂, Х₃, ..., X_m), которая показывает, каково будет в среднем значение переменной y_i, если переменные х_i примут конкретное значение.

Данное обстоятельство позволяет использовать модель регрессии не только для анализа, но и для прогнозирования экономических явлений. В качестве зависимой переменной может выступать практически любой показатель, характеризующий, например, деятельность коммерческого банка или означающий курс ценной бумаги.

Линейная парная регрессия

Под линейностью здесь имеется в виду, что переменная у предположительно находится под влиянием переменной х в следующей зависимости:

(3.6)

где α — постоянная величина (или свободный член уравнения),

β — коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений. Это показатель, характеризующий изменение переменной y_i при изменении значения х_i на единицу. Если β > 0 — переменные х_i и y_i положительно коррелированные, если β < 0 — отрицательно коррелированны;

ε — независимая нормально распределенная случайная величина — остаток с нулевым математическим ожиданием (m_ε = 0) и постоянной дисперсией (D_ε = σ²). Она отражает тот факт, что изменение y_i будет неточно описываться изменением X: присутствуют другие факторы, не учтенные в данной модели.

Оценка параметров регрессионного уравнения. Для оценки параметров регрессионного уравнения наиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений y_i от модельных значений .

Согласно принципу метода наименьших квадратов оценки и находятся путем минимизации суммы квадратов:

по всем возможным значениям α и β при заданных (наблюдаемых) значениях х₁, ..., х_n, y₁, ..., y_n. Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Такая точка находится путем приравнивания нулю частных производных функции Q(α, β) по переменным α и β. Это приводит к системе нормальных уравнений:

решением которой и является пара , . Следует заметить, что согласно правилам вычисления производных,

так что искомые значения , удовлетворяют соотношениям

Эту систему двух уравнений можно записать также в виде

Эта система является системой двух линейных уравнений с двумя неизвестными и может быть легко решена, например методом подстановки. В результате получаем:

(3.7)

Такое решение может существовать только при выполнении условия

что равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен:

Последнее условие называется условием идентифицируемости модели наблюдений , i = 1, ..., n и означает, что не все значения х₁, ..., х_n, совпадают между собой. При нарушении этого условия все точки (х_i, у_i), i = 1, ..., n, лежат на одной вертикальной прямой .

Оценки и называют: оценками наименьших квадратов. Обратим еще раз внимание на полученное выражение для . Нетрудно увидеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии

и выборочной ковариации , так что в этих терминах

(3.8)

Пример 3.2. Бюджетное обследование семи случайно выбранных семей дало следующие результаты (в тыс. долл.):

Таблица 3.2

Наблюдение	Накопления, Y	Доход, X
1	3,0	40
2	6,0	55
3	5,0	45
4	3,5	30
5	1,5	30
6	4,5	50
7	2,0	35

Требуется:

• построить однофакторную модель регрессии;

• отобразить на графике исходные данные, результаты моделирования.

Решение. Для вычисления параметров модели следует воспользоваться формулами (3.7) и (3.8). Промежуточные расчеты приведены в таблице 3.3.

Таблица 3.3

Наблюдение	Накопления, Y	Доход, X					yx	X²
1	3,0	40	-0,643	-0,714	0,510	0,459	120	1600
2	6,0	55	2,357	14,286	204,082	33,673	330	3025
3	5,0	45	1,357	4,286	18,367	5,816	225	2025
4	3,5	30	-0,143	-10,714	114,796	1,531	105	900
5	1,5	30	-2,143	-10,714	114,796	22,959	45	900
6	4,5	50	0,857	9,286	86,224	7,959	225	2500
7	2,0	35	-1,643	-5,714	32,653	9,388	70	1225
Сумма	25,5	285,00	0,000	0,000	571,429	81,786	1120	12175
Среднее	3,643	40,714					160	1739,286

Построена модель зависимости накопления от дохода:

Рис. 3.2. График модели парной регрессии

Оценка качества уравнения регрессии. Для оценки качества регрессионных моделей целесообразно использовать коэффициент множественной корреляции (индекс корреляции) R, а также характеристики существенности модели в целом и отдельных ее коэффициентов.

(3.9)

Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной модели и их линейной зависимости он равен коэффициенту линейной корреляции.

Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным. Например, рис. 3.3а показывает, что данные значительно рассеяны относительно линии регрессии, следовательно, ошибки в модели велики. На рис. 3.3б данные близко располагаются вокруг линии регрессии — ошибки малы и взаимосвязь, характеризуемая линией регрессии, считается в большей степени отражающей истинную взаимосвязь между Y и X.

Рис. 3.3

После построения уравнения регрессии мы можем разбить значение y в каждом наблюдении на две составляющих — и е_i.

(3.10)

Величина — расчетное значение y в наблюдении i — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствия случайного фактора. Это, иными словами, величина y, спрогнозированная по значению х в данном наблюдении. Тогда остаток е_i есть расхождение между фактическим и спрогнозированным значениями величины у. Это та часть y, которую мы не можем объяснить с помощью уравнения регрессии.

Используя (3.9), разложим дисперсию y:

(3.11)

Это означает, что мы можем разложить дисперсию у на две части: — часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и — «необъясненную» часть.

— остаточная сумма квадратов отклонений;

— общая сумма квадратов отклонений зависимой переменной от ее среднего значения;

— сумма квадратов отклонений, объясненная регрессией.

Используя определение выборочной дисперсии и умножив на n-1 обе части уравнения (3.11), можно представить его следующим образом:

(3.12)

где — значения у, вычисленные по модели.

Коэффициент множественной корреляции (индекс корреляции), возведенный в квадрат (R²), называется коэффициентом детерминации.

(3.13)

Он показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов.

Чем ближе R² к 1, тем лучше качество модели.

Рис. 3.4

После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров.

Оценить значимость уравнения регрессии — это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и X, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных X для описания зависимой переменной Y.

Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый как отношение дисперсии исходного ряда и несмещенной дисперсии остаточной компоненты. Если расчетное значение с ν₁ = (n-1) и ν₂ = (n-k-1) степенями свободы, где k — количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.

(3.14)

В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n-k-1), где k — количество факторов, включенных в модель. Квадратный корень из этой величины (S_e) называется стандартной ошибкой оценки.

(3.15)

Анализ статистической значимости параметров модели парной регрессии

y_i = a₀ + a₁ × x_i + e_i.

Значения y_i, соответствующие данным x_i при теоретических значениях a₀ и a₁ являются случайными. Случайными являются и рассчитанные по ним значения коэффициентов a₀ и a₁.

Надежность получаемых оценок a₀ и a₁ зависит от дисперсии случайных отклонений (ошибок). По данным выборки эти отклонения и соответственно их дисперсия не оцениваются — в расчетах используются отклонения зависимой переменной y_i от ее расчетных значений : e_i = y_i – α₀ – α₁x_i. Так как ошибки (остатки) ε_i нормально распределены, то среднеквадратическое отклонение ошибок используется для измерения этой вариации. Среднеквадратические отклонения коэффициентов известны как стандартные ошибки (отклонения):

где — математическое ожидание независимой переменной х; — стандартная ошибка оценки.

Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t-статистики) для соответствующих коэффициентов регрессии:

Затем расчетные значения t_p сравниваются с табличными t_табл. Табличное значение критерия определяется при (n-2) степенях свободы (n — число наблюдений) и соответствующем уровне значимости α (0,1; 0,05; ...; 0,005).

Если расчетное значение t-критерия с (п-k-1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).

Интервальная оценка параметров модели

Для значимого уравнения регрессии представляет интерес построение интервальных оценок для параметра α₁

(3.16)

свободного члена α₀

где t_табл определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы k-n-2;

— стандартные отклонения свободного члена и коэффициента модели соответственно;

n — число наблюдений.

Доверительный интервал для прогнозов индивидуальных значений y₀ определяется из соотношения:

(3.17)

где S — стандартная ошибка зависимой переменной;

х = х₀ — значения фактора X, используемое для прогноза;

n — число наблюдений.

Расположение границ доверительного интервала показывает, что прогноз значений зависимой переменной по уравнению регрессии хорош только в случае, если значение фактора X не выходит за пределы выборки. Иными словами, экстраполяция по уравнению регрессии может привести к значительным погрешностям.

Прогнозирование с применением уравнения регрессии

Регрессионные модели могут быть использованы для прогнозирования возможных ожидаемых значений зависимой переменной.

Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии

(3.18)

ожидаемой величины фактора х. Данный прогноз называется точечным. При выборе ожидаемой величины х нельзя подставлять значения независимой переменной х_прогн, значительно отличающиеся от входящих в исследуемую выборку, по которой вычислено уравнение регрессии.

Вероятность реализации точечного прогноза практически равна нулю. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большой надежностью.

Доверительные интервалы зависят от стандартной ошибки (3.15), удаления х_прогн от своего среднего значения , количества наблюдений n и уровня значимости прогноза α. В частности, для прогноза (3.18) будущие значения у_прогн с вероятностью (1-α) попадут в интервал

Пример 3.3. Используя данные примера 3.2, оцените накопления семьи, имеющей доход 42 тыс. долл. и отобразите на графике исходные данные, результаты моделирования и прогнозирования.

Решение. В примере 3.1 была построена модель зависимости накопления от дохода:

Для того чтобы определить накопления семьи при доходе в 42 тыс. долл. необходимо подставить значение Х_прогн в полученную модель.

Y_{прогноз} = -2,184 + 0,143 × 42 = 3,827.

Величину отклонения от линии регрессии вычисляют по формуле (3.15), используя данные таблицы 3.3,

где

Таблица 3.3

Наблюдение	Накопления, Y	Предсказанное Y,	Остатки, ε	ε²
1	3,0	3,541	-0,5406	0,2923
2	6,0	5,688	0,3125	0,0977
3	5,0	4,256	0,7438	0,5532
4	3,5	2,109	1 ,3906	1 ,9338
5	1,5	2,109	-0,6094	0,3713
6	4,5	4,972	-0,4719	0,2227
7	2,0	2,825	-0,8250	0,6806
Сумма	25,5	25,500	0,0000	4,1516

Таким образом, прогнозное значение будет находиться между верхней границей, равной 3,827 + 1,965 = 5,792 и нижней границей, равной 3,827 - 1,965 = 1,862.

Коэффициент Стьюдента t_α для m = 5 степеней свободы (m = n-2) и уровня значимости 0,1 равен 2,015.

Рис. 3.5. График модели парной регрессии зависимости накопления от дохода

Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Теоретические вопросы, связанные с построением моделей нелинейной регрессии, следует изучить по учебнику «Эконометрика» под ред. И.И. Елисеевой (стр. 62-80).

Пример 3.4. По семи предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (X, млн. руб.).

Y	64	56	52	48	50	46	38
X	64	68	82	76	84	96	100

Требуется:

1 . Для характеристики Y от X построить следующие модели:

• линейную (для сравнения с нелинейными),

• степенную,

• показательную,

• гиперболическую.

2. Оценить каждую модель, определив:

• индекс корреляции,

• среднюю относительную ошибку,

• коэффициент детерминации,

• F-критерий Фишера.

3. Составить сводную таблицу вычислений, выбрать лучшую модель, дать интерпретацию рассчитанных характеристик.

4. Рассчитать прогнозные значения результативного признака по лучшей модели, если объем капиталовложений составит 89,573 млн. руб.

5. Результаты расчетов отобразить на графике.

Решение.

1. Построение линейной модели парной регрессии

Определим линейный коэффициент парной корреляции по следующей формуле:

Можно сказать, что связь между объемом капиталовложений X и объемом выпуска продукции Y обратная, достаточно сильная.

Уравнение линейной регрессии имеет вид: .

Таблица 3.5

t	y	x
1	64	64	4096	4096	13,43	180,36	-17,4	303,8	60,2	3,84	6,000
2	56	68	3808	4624	5,43	29,485	-13,4	180,36	58,0	-1,96	-3,500
3	52	82	4264	6724	1,43	2,0449	0,57	0,3249	50,3	1,74	3,346
4	48	76	3648	5776	-2,57	6,6049	-5,43	29,485	53,6	-5,56	-11,583
5	50	84	4200	7056	-0,57	0,3249	2,57	6,6049	49,2	0,84	1 680
6	46	96	4416	9216	-4,57	20,885	14,57	212,28	42,6	3,44	7,478
7	38	100	3800	10000	-12,6	158.0	18,57	344,84	40,4	-2,36	-6,211
Итого	354,00	570,00	28232	47492	0,01	397,71		1077,7		-0,02	39,798
ср. знач.	50,57	81,43	4033,14	6784,57							5,685
диспер.	56,80	154,00

Значения параметров a и b линейной модели определим, используя данные таблицы 3.5.

Уравнение линейной регрессии имеет вид:

С увеличением объема капиталовложений на 1 млн. руб. объем выпускаемой продукции уменьшится в среднем на 550 тыс. руб. Это свидетельствует о неэффективности работы предприятий, и необходимо принять меры для выяснения причин и устранения этого недостатка.

Рассчитаем коэффициент детерминации:

Вариация результата Y (объема выпуска продукции) на 82,2 % объясняется вариацией фактора X (объемом капиталовложений).

Оценку значимости уравнения регрессии проведем с помощью F-критерия Фишера:

F > F_табл = 6,61 для α = 0,05; k₁ = m = 1, k₂ = n – m – 1 = 5.

Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т. к. F > F_табл.

Определим среднюю относительную ошибку:

В среднем расчетные значения для линейной модели отличаются от фактических значений на 5,685%.

2. Построение степенной модели парной регрессии

Уравнение степенной модели имеет вид: .

Для построения этой модели необходимо произвести линеаризацию переменных. Для этого произведем логарифмирование обеих частей уравнения: .

	Факт Y(t)	lg(Y)	Переменная X(t)	lg(X)
1	64,0	1,806	64	1,806
2	56,0	1,748	68	1,833
3	52,0	1,716	82	1,914
4	48,0	1,681	76	1,881
5	50,0	1,699	84	1,924
6	46,0	1,663	96	1,982
7	38,0	1,580	100	2,000
28	354,0	11,893	570	13,340
Сред. знач.	50,5714	1,699	81,429	1,906

Обозначим , X = lg x, A = lg a.

Тогда уравнение примет вид: Y = A + b X — линейное уравнение регрессии.

Рассчитаем его параметры, используя данные таблицы 3.6.

Таблица 3.6

	y	Y	x	X	YX	X²		E_i	\|E_i/y\|×100%
1	64	1,8062	64	1,8062	3,2623	3,2623	61,294	2,706	4,23	7,322
2	56	1,7482	68	1,8325	3,2036	3,3581	58,066	-2,066	3,69	4,270
3	52	1,7160	82	1,9138	3,2841	3,6627	49,133	2,867	5,51	8,220
4	48	1,6812	76	1,8808	3,1621	3,5375	52,580	-4,580	9,54	20,976
5	50	1 ,6990	84	1,9243	3,2693	3,7029	48,088	1,912	3,82	3,657
6	46	1,6628	96	1,9823	3,2960	3,9294	42,686	3,314	7,20	10,982
7	38	1,5798	100	2,0000	3,1596	4,0000	41,159	-3,159	8,31	9,980
Итого	354	11,8931		13,3399	22,6370	25,4528		0,51	42,32	65,407

Уравнение регрессии будет иметь вид: Y = 3,3991-0,8921 X.

Перейдем к исходным переменным х и у, выполнив потенцирование данного уравнения.

Получим уравнение степенной модели регрессии:

Определим индекс корреляции:

Связь между показателем y и фактором x можно считать достаточно сильной.

Коэффициент детерминации равен 0,836:

Вариация результата Y (объема выпуска продукции) на 83,6% объясняется вариацией фактора X (объемом капиталовложений).

Рассчитаем F-критерий Фишера:

F > F_табл = 6,61 для α = 0,05; k₁ = m = 1, k₂ = n – m – 1 = 5.

Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т.к. F > F_табл.

Средняя относительная ошибка

В среднем расчетные значения для степенной модели отличаются от фактических значений на 6,04%.

3. Построение показательной функции

Уравнение показательной кривой:

Для построения этой модели необходимо произвести линеаризацию переменных. Для этого осуществим логарифмирование обеих частей уравнения:

Обозначим: B = lg b, A = lg a.

Получим линейное уравнение регрессии:

Y = A + B x.

Рассчитаем его параметры, используя данные таблицы 3.7.

Таблица 3.7

t	y	Y	x	Yx	x²							E_i	\|E_i/y\|×100%
1	64	1,8062	64	115,60	4096	0,1072	0,0115	-17,43	303,76	60,6	11,464	3,3859	5,290
2	56	1,7482	68	118,88	4624	0,0492	0,0024	-13,43	180,33	58	3,9632	-1,991	3,555
3	52	1,7160	82	140,71	6724	0,0170	0,0003	0,57	0,33	49,7	5,4221	2,3285	4,478
4	48	1,6812	76	127,77	5776	-0,017	0,0003	-5,43	29,47	53,1	25,804	-5,08	10,583
5	50	1,6990	84	142,71	7056	0,0000	0,0000	2,57	6,61	48,6	2,0031	1,4153	2,831
6	46	1,6628	96	159,62	9216	-0,036	0,0013	14,57	212,33	42,5	11,933	3,4544	7,509
7	38	1,5798	100	157,98	10000	-0,119	0,0142	18,57	344,90	40,7	7,3132	-2,704	7,117
итого	354	11,8931	570	963,28	4749		0,0300		1077,7		67,903	0,8093	41,363
Сред. знач.	50,57	1,6990	81,4	137,61	6785								5.909

Уравнение будет иметь вид: Y = 2,09 + 0,0048 x.

Перейдем к исходным переменным x и y, выполнив потенцирование данного уравнения:

Определим индекс корреляции:

Связь между показателем y и фактором x можно считать тесной.

Индекс детерминации:

Вариация результата Y (объема выпуска продукции) на 41,1 % объясняется вариацией фактора X (объем капиталовложений).

Рассчитаем F-критерий Фишера:

F > F_табл = 6,61 для α = 0,05; k₁ = m = 1, k₂ = n – m – 1 = 5.

Уравнение регрессии с вероятностью 0,95 в целом статистически значимое, т. к. F > F_табл.

Средняя относительная ошибка:

В среднем расчетные значения для линейной модели отличаются от фактических значений на 5,909 %.

4. Построение гиперболической функции

Уравнение гиперболической функции:

Произведем линеаризацию модели путем замены X = 1/x. В результате получим линейное уравнение .

Рассчитаем его параметры по данным таблицы 3.8.

Таблица 3.8

t	y	x	X	yX	X²				E_i		\|E_i/y\|×100%
1	64	64	0,0156	1,0000	0,0002441	13,43	180,33	61,5	2,489	6,1954	3,889
2	56	68	0,0147	0,8235	0,0002163	5,43	29,47	58,2	-2,228	4,9637	3,978
3	52	82	0,0122	0,6341	0,0001487	1,43	2,04	49,3	2,740	7,5089	5,270
4	48	76	0,0132	0,6316	0,0001731	-2,57	6,61	52,7	-4,699	22,078	9,789
5	50	84	0,0119	0,5952	0,0001417	-0,57	0,32653	48,2	1,777	3,1591	3,555
6	46	96	0,0104	0,4792	0,0001085	-4,57	20,90	42.9	3,093	9,5648	6,723
7	38	100	0,0100	0,3800	0,0001000	-12,57	158.04	41,4	-3,419	11,69	8,997
итого	354		0,0880	4,5437	0,0011325		397,71	354,2	-0,246	65,159	42,202
Сред. знач.	50,57		0,0126	0,6491	0,0001618						6,029

Получим следующее уравнение гиперболической модели:

Определим индекс корреляции:

Связь между показателем у и фактором х можно считать достаточно сильной.

Индекс детерминации:

Вариация результата Y (объема выпуска продукции) на 83,5% объясняется вариацией фактора X (объемом капиталовложений).

F-критерий Фишера:

F > F_табл = 6,61 для α = 0,05; k₁ = m = 1, k₂ = n – m – 1 = 5.

Уравнение регрессии с вероятностью 0,95 в целом не является статистически значимым, т. к. F > F_табл.

Определим среднюю относительную ошибку:

В среднем расчетные значения для линейной модели отличаются от фактических значений на 6,029 %.

Для выбора лучшей модели построим сводную таблицу результатов.

Таблица 3.9

Параметры	Коэффициент детерминации R²	F-критерий Фишера	Индекс корреляции ρ_YX (r_YX)	Средняя относительная ошибка E_отн
Модель	Коэффициент детерминации R²	F-критерий Фишера	Индекс корреляции ρ_YX (r_YX)	Средняя относительная ошибка E_отн
Линейная	0,822	23,09	0,907	5,685
Степенная	0,828	24,06	0,910	6,054
Показательная	0,828	24,06	0,910	5,909
Гиперболическая	0,835	25,30	0,914	6,029

Все модели имеют примерно одинаковые характеристики, но большее значение F-критерия Фишера и большее значение коэффициента детерминации R² имеет гиперболическая модель. Ее можно взять в качестве лучшей для построения прогноза.

Расчет прогнозного значения результативного показателя:

Прогнозное значение результативного признака (объема выпуска продукции) определим по уравнению гиперболической модели, подставив в него планируемую (заданную по условию) величину объема капиталовложений:

Построение парной нелинейной регрессии можно осуществить при помощи программы «Олимп: СтатЭксперт». Для этого необходимо выполнить следующую последовательность действий.

• Инициализировать программу, указать включение макросов, щелкнуть ОК.

• Ввести исходные данные - результативный признак (у) и факторный признак (х).

• В конец строки для «у» дописать 0, в конец строки для «х» - планируемое (заданное в условии) значение этого фактора (объема капиталовложений).

• Выделить этот блок данных.

• В меню СтатЭкс выбрать функцию Регрессия.

• Установить шаблон данных: указать ориентацию таблицы либо по строкам, либо по столбцам в зависимости от того, как был осуществлен ввод данных и наличие наименований таблицы, наблюдений. Щелкнуть Установить.

• В окне Регрессионный анализ в список выбранных переменных добавить два показателя, соответствующих значениям «у» и «х».

• Осуществить выбор зависимой переменной, для этого щелкнуть Выбор и выбрать показатель, соответствующий значениям «у». Установить.

• Определить прогнозирование по модели, указав шаг прогнозирования 1 и вероятность расчетов 80 %. Отключить режим ретропрогноза.

• Установить вид регрессии - Парная. Вычислить.

• В окне формирования набора моделей в списке доступных переменных выбрать гиперболическую модель у = а + b/х. Выход.

После выполнения этой последовательности действий программа осуществит расчет параметров гиперболической модели, прогнозных значений и построение графиков. Отчет по вычислениям представлен в следующем виде:

Таблица функций парной регрессии

Функция	Критерий	Эластичность
Y(X)=+5.664+3571.928/X	13.030	0.8856
Выбрана функция Y(X)=+5.664+3571.928/X	13.030	0.8856

Таблица остатков

Номер	Факт	Расчет	Ошибка абс.	Ошибка относит.	Фактор X
1	64,000	61,476	2,524	3,944	64,000
2	56,000	58,193	-2,193	-3,916	68,000
3	52,000	49,225	2,775	5,337	82,000
4	48,000	52,663	-4,663	-9,716	76,000
5	50,000	48,187	1,813	3,625	84,000
6	46,000	42,872	3,128	6,800	96,000
7	38,000	41 ,384	-3,384	-8,904	100,000

Таблица характеристики остатков

Среднее значение Относительная ошибка

Характеристика	Значение
0,000
Дисперсия	9,307
Приведенная дисперсия	13,030
Средний модуль остатков	2,926
6,035
Критерий Дарбина-Уотсона	2,891
Критерий адекватности	34,776
Критерий точности	54,475
Критерий качества	49,550
Уравнение значимо с вероятностью 0,95

Таблица прогнозов (р = 90%)

Упреждение	Прогноз	Нижняя граница	Верхняя граница
1	45,542	42,141	48,942

На основании данных расчетов получено уравнение гиперболической модели: Y(X) = +5,664+3571,928/Х.

Аналогичные результаты были получены при осуществлении расчетов в Excel.

Фактические, расчетные и прогнозные значения по лучшей модели отобразим на графике.

Рис. 3.6. Прогноз по лучшей модели

1 Основоположниками теории корреляции считаются английские биометрики Ф. Гальтон (1822-1911) и К. Пирсон (1857-1936). Термин «корреляция» был заимствован из естествознания и обозначает соотношение, соответствие. Представление о корреляции как об отношении взаимозависимости между случайными переменными величинами лежит в основе математико-статистической теории корреляции.

[an error occurred while processing this directive]