[an error occurred while processing this directive] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Тема 1. Введение. Эконометрика и эконометрическое моделирование Тема 3. Парная регрессия и корреляция Тема 4. Модель множественной регрессии Тема 5. Системы линейных одновременных уравнений Тема 6. Многомерный статистический анализ Задание для выполнения контрольной работы по дисциплине «Эконометрика» Задание для выполнения лабораторной работы. Задачи для ЭВМ (СТАТЭКСПЕРТ) |
Тема 4. Модель множественной регрессииЛинейная модель множественной регрессии имеет вид: Yi = α0 + α1xi1 + α2xi2 + ... + α mxim + εi (4.1) Коэффициент регрессии αj показывает, на какую величину в среднем изменится результативный признак Y, если переменную xj увеличить на единицу измерения, т.е. αj является нормативным коэффициентом. Обычно предполагается, что случайная величина εi имеет нормальный закон распределения с математическим ожиданием равным нулю и с дисперсией σ2. Анализ уравнения (4.1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи уравнения (4.2): Y = X α + ε (4.2) где Y — вектор зависимой переменной размерности n×1, представляющий собой n наблюдений значений yj, X — матрица n наблюдений независимых переменных Х1, Х2, Х3, ..., Хm, размерность матрицы X равна n×(m+1); α — подлежащий оцениванию вектор неизвестных параметров размерности (m+1) ×1; ε — вектор случайных отклонений (возмущений) размерности n×1. Таким образом,
Уравнение (4.1) содержит значения неизвестных параметров α0, α1, α2, ..., αm. Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрессии, в которой вместо истинных значений параметров подставлены их оценки (а именно такие регрессии и применяются на практике), имеет вид: , (4.3) где α — вектор оценок параметров; е — вектор «оцененных» отклонений регрессии, остатки регрессии ε = Y - X α; — оценка значений Y, равная Ха. Оценка параметров модели множественной регрессии с помощью метода наименьших квадратов. Формулу для вычисления параметров регрессионного уравнения приведем без вывода: а = (ХТХ)-1XTY. (4.4) Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т.е., решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Для экономических показателей это условие выполняется не всегда. Линейная или близкая к ней связь между факторами называется мультиколлинеарностью и приводит к линейной зависимости нормальных уравнений, что делает вычисление параметров либо невозможным, либо затрудняет содержательную интерпретацию параметров модели. Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются датированными значениями другой. Считают явление мультиколлинеарности в и сходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,8. Чтобы избавиться от мультиколлинеарности, в модель включают лишь один из линейно связанных между собой факторов, причем тот, который в большей степени связан с зависимой переменной. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств: ryxi > rxixk, ryxk > rxixk, rxixk < 0,8. Если приведенные неравенства (или хотя бы одно из них) не выполняются, то в модель включают тот фактор, который наиболее тесно связан с Y. Анализ статистической значимости параметров модели. Значимость отдельных коэффициентов регрессии проверяется по t-статистике путем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена): Taj = aj/Saj, (4.5) где Saj — стандартное (среднеквадратическое) отклонение коэффициента уравнения регрессии aj. Величина Saj представляет собой квадратный корень из произведения несмещенной оценки дисперсии и j-го диагонального элемента матрицы, обратной матрице системы нормальных уравнений. (4.6) где bjj — диагональный элемент матрицы (ХТХ)-1. Если расчетное значение t-критерия с (n-k-1) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится). Проверка значимости модели регрессии. Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый по формуле (3.14). Оценка качества модели регрессииКачество модели оценивается стандартным для математических моделей образом: по адекватности и точности на основе анализа остатков регрессии е. Расчетные значения получаются путем подстановки в модель фактических значений всех включенных факторов. Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа остатки должны вести себя как независимые (в действительности почти независимые) одинаково распределенные случайные величины. В классических методах регрессионного анализа предполагается также нормальный закон распределения остатков. Независимость остатков проверяется с помощью критерия Дарбина-Уотсона. Исследование остатков полезно начинать с изучения их графика. Он может показать наличие какой-то зависимости, не учтенной в модели. Скажем, при подборе простой линейной зависимости между Y и X график остатков может показать необходимость перехода к нелинейной модели (квадратичной, полиномиальной, экспоненциальной) или включения в модель периодических компонент. Выбросы. График остатков хорошо показывает и резко отклоняющиеся от модели наблюдения — выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как их присутствие может грубо искажать значения оценок. Устранение эффектов выбросов может проводиться либо с помощью удаления этих точек из, анализируемых данных (эта процедура называется цензурированием), либо с помощью применения методов оценивания параметров, устойчивых к подобным грубым отклонениям. Для оценки качества модели множественной регрессии вычисляют коэффициент множественной корреляции (индекс корреляции) R и коэффициент детерминации R2 (см. формулы 3.9 и 3.13). В многофакторной регрессии добавление дополнительных объясняющих переменных увеличивает коэффициент детерминации. Следовательно, коэффициент детерминации должен быть скорректирован с учетом числа независимых переменных. Скорректированный R2, или , рассчитывается так:
где n — число наблюдений; k — число независимых переменных. Оценка влияния отдельных факторов на зависимую переменную на основе модели (коэффициенты эластичности, β-коэффициенты). Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности Э(j) и бета-коэффициенты β(j), которые рассчитываются соответственно по формулам: (4.7) (4.8) где Sxj — среднеквадратическое отклонение фактора j. . Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении фактора. j на один процент. Однако он не учитывает степень колеблемости факторов. Бета-коэффициент показывает, на какую часть величины среднего квадратического отклонения Sy изменится зависимая переменная Y с изменением соответствующей независимой переменной Xj на величину своего среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных. Указанные коэффициенты позволяют упорядочить факторы по степени влияния факторов на зависимую переменную. Долю влияния фактора в суммарном влиянии всех факторов можно оценить по величине дельта-коэффициентов D(j):
где — коэффициент парной корреляции между фактором j (j = 1, ..., m) и зависимой переменной. Использование многофакторных моделей для анализа и прогнозирования развития экономических систем. Одна из важнейших целей моделирования заключается в прогнозировании поведения исследуемого объекта. Обычно термин «прогнозирование» используется в тех ситуациях, когда требуется предсказать состояние системы в будущем. Для регрессионных моделей он имеет, однако, более широкое значение. Как уже отмечалось, данные могут не иметь временной структуры, но и в этих случаях вполне может возникнуть задача оценки значения зависимой переменной для некоторого набора независимых, объясняющих переменных, которых нет в исходных наблюдениях. Именно в этом смысле — как построение оценки зависимой переменной — и следует понимать прогнозирование в эконометрике. При использовании построенной модели для прогнозирования делается предположение о сохранении в период прогнозирования существовавших ранее взаимосвязей переменных. Для прогнозирования зависимой переменной на l шагов вперед необходимо знать прогнозные значения всех входящих в нее факторов. Их оценки могут быть получены на основе временных экстраполяционных моделей или заданы пользователем. Эти оценки подставляются в модель и получаются прогнозные оценки. Построение точечных и интервальных прогнозов на основе регрессионной модели. Какие факторы влияют на ширину доверительного интервала? Для того чтобы определить область возможных значений результативного показателя, при рассчитанных значениях факторов следует учитывать два возможных источника ошибок: рассеивание наблюдений относительно линии регрессии и ошибки, обусловленные математическим аппаратом построения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точности, в частности величиной Sy. Ошибки второго рода обусловлены фиксацией численного значения коэффициентов регрессии, в то время как они в действительности являются случайными, нормально распределенными. Для линейной модели регрессии доверительный интервал рассчитывается следующим образом. Оценивается величина отклонения от линии регрессии (обозначим ее U): (4.9) где Пример 4.1. Задача состоит в построении модели для предсказания объема реализации одного из продуктов фирмы. Объем реализации - это зависимая переменная Y (млн. руб.) В качестве независимых, объясняющих переменных выбраны: время – Х1, расходы на рекламу Х2 (тыс. руб.), цена товара Х3 (руб.), средняя цена товара у конкурентов X4 (pyб.), индекс потребительских расходов Х5 (%). Требуется: 1. Осуществить выбор факторных признаков для построения двухфакторной регрессионной модели. 2. Рассчитать параметры модели. 3. Для оценки качества модели определить: • линейный коэффициент множественной корреляции, • коэффициент детерминации. 4. Осуществить оценку значимости уравнения регрессии. 5. Оценить с помощью t-критерия Стьюдента статистическую значимость коэффициентов уравнения множественной регрессии. 6. Оценить влияние факторов на зависимую переменную по модели. 7. Построить точечный и интервальный прогноз результирующего показателя. 1. Построение системы показателей (факторов). Анализ матрицы коэффициентов парной корреляции. Выбор факторных признаков для построения двухфакторной регрессионной модели. Статистические данные по всем переменным приведены в таблице 4.1. В этом примере n = 16, m = 5. Таблица 4.1
В таблице 4.2. приведены промежуточные результаты при вычислении коэффициента корреляции по формуле (3.1) Таблица 4.2
Использование инструмента Корреляция (Анализ данных в EXCEL). Для проведения корреляционного анализа выполните следующие действия: 1. Данные для корреляционного анализа должны располагаться в смежных диапазонах ячеек. 2. Выберите команду Сервис => Анализ данных. 3. В диалоговом окне Анализ данных выберите инструмент Корреляция, а затем щелкните на кнопке ОК. 4. В диалоговом окне Корреляция в поле Входной интервал необходимо ввести диапазон ячеек, содержащих исходные данные. Если выделены и заголовки столбцов, то установите флажок Метки в первой строке. 5. Выберите параметры вывода. В данном примере Новый рабочий лист. 6. ОК. Таблица 4.3 Результат корреляционного анализа
Анализ матрицы коэффициентов парной корреляции показывает, что зависимая переменная, т.е. объем реализации имеет тесную связь с индексом потребительских расходов (rух5 = 0,816), с расходами на рекламу (rух2 = 0,646) и со временем (rух1 = 0,678). Однако факторы Х2 и Х5 тесно связаны между собой (rx1x5 = 0,96), что свидетельствует о наличии мультиколлинеарности. Из этих двух переменных оставим в модели Х5 — индекс потребительских расходов. В этом примере n = 16, m = 5, после исключения незначимых факторов n = 16, k = 2. 2. Выбор вида модели и оценка ее параметров Оценка параметров регрессии осуществляется по методу наименьших квадратов по формуле (4.4), используя данные, приведенные в таблице 4.411. Таблица 4.4
Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов можно записать в следующем виде: у = -1471,314 + 9,568x1, + 15,754x2 Расчетные значения Y определяются путем последовательной подстановки в эту модель значений факторов, взятых для каждого наблюдения. Применение инструмента Регрессия (Анализ данных в EXCEL). Для проведения регрессионного анализа выполните следующие действия: 1. Выберите команду Сервис => Анализ данных. 2. В диалоговом окне Анализ данных выберите инструмент Регрессия, а затем щелкните на кнопке ОК. 3. В диалоговом окне Регрессия в поле Входной интервал Y введите адрес одного диапазона ячеек, который представляет зависимую переменную. В поле Входной интервал X введите адреса одного или нескольких диапазонов, которые содержат значения независимых переменных (рис. 4.1). 4. Если выделены и заголовки столбцов, то установите флажок Метки в первой строке. 5. Выберите параметры вывода. В данном примере Новая рабочая книга. 6. В поле Остатки поставьте необходимые флажки. 7. ОК.
Рис. 4.1. Диалоговое окно Регрессия подготовлено к выполнению анализа данных Результат регрессионного анализа содержится в таблицах 4.5-4.8. Рассмотрим содержание этих таблиц. Таблица 4.5
Таблица 4.6
Таблица 4.7
Таблица 4.8
Пояснения к таблице 4.5 Регрессионная статистика
Пояснения к таблице 4.6
Пояснения к таблице 4.7. Во втором столбце таблицы 4.7 содержатся коэффициенты уравнения регрессии а0, а1, а2. В третьем столбце содержатся стандартные ошибки коэффициентов уравнения регрессии (4.6), а в четвертом - t-статистика (4.5), используемая для проверки значимости коэффициентов уравнения регрессии. Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов можно записать в следующем виде: У = -1471,314 + 9,568х1 + 15,754х2. 3. Оценка качества модели В таблице 4.8 приведены вычисленные по модели значения Y и значения остаточной компоненты.
Рис. 4.1. График остатков Проверку независимости проведем с помощью d-критерия Дарбина-Уотсона.
В качестве критических табличных уровней при N=16, двух объясняющих факторах при уровне значимости в 5% возьмем величины d1=0,98 и d2=1,54. Так как расчетное значение попало в интервал от d1 до d2, то нельзя сделать окончательный вывод по этому критерию. Для определения степени автокорреляции вычислим коэффициент автокорреляции и проверим его значимость при помощи критерия стандартной ошибки. Стандартная ошибка коэффициента корреляции рассчитывается следующим образом: . Коэффициенты автокорреляции случайных данных обладают выборочным распределением, приближающимся к нормальному с нулевым математическим ожиданием и средним квадратическим отклонением, равным . Если r1 находится в интервале 1,96 × 0,25 ≤ r1 × 1,96 ≤ 0,25, то можно считать, что данные не показывают наличие автокорреляции первого порядка, т.к. -0,49 ≤ r1 = 0,309 ≤ 0,49, и свойство независимости выполняется. Вычислим для модели коэффициент детерминации.
R2 = 1-22360,104/158718,44 = 136358,3/158718,44 = 0,859. Он показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 86% вариации зависимой переменной учтено в модели и обусловлено влиянием включенных факторов. Значение коэффициента детерминации можно найти в таблице 4.5. Проверку значимости уравнения регрессии произведем на основе вычисления F-критерия Фишера:
Значение F-критерия Фишера можно найти в таблице 4.6 протокола EXCEL. Табличное значение F -критерия при доверительной вероятности 0,95 при V1 = k =2 и V1 = n-k-1 = 16-2-1 = 13 составляет 3,81. Табличное значение F-критерия можно найти с помощью функции FРАСПОБР (рис. 4.2).
Рис. 4.2. Определение табличного значения F-критерия Поскольку Fpac > Fтабл, уравнение регрессии следует признать адекватным. 4. Оценить с помощью t-критерия Стьюдента статистическую значимость коэффициентов уравнения множественной регрессии. Значимость коэффициентов уравнения регрессии а0, а1, а2 оценим с использованием t-критерия Стьюдента.
b11 = 39,2314 b22 = 0,00299 b33 = 0,00354
Расчетные значения t-критерия Стьюдента для коэффициентов уравнения регрессии а1, а2 приведены в четвертом столбце таблицы 4.7 протокола EXCEL. Табличное значение t-критерия Стьюдента можно найти с помощью функции СТЬЮДРАСПОБР (рис. 4.3) .
Рис. 4.3. Определение табличного значения t-критерия Стьюдента Табличное значение t-критерия при 5% уровне значимости и степенях свободы (16-2-1 = 13) составляет 2,16. Так как |tрас|> tтабл, то коэффициенты а1, а2 и существенны (значимы). 5. Проанализировать влияние факторов на зависимую переменную по модели (для каждого коэффициента регрессии вычислить коэффициент эластичности, β-коэффициент). Учитывая, что коэффициент регрессии невозможно использовать для непосредственной оценки влияния факторов на зависимую переменную из-за различия единиц измерения, используем коэффициент эластичности (Э) и бета-коэффициент, которые соответственно рассчитываются по формулам:
Э1 = 9,568 × 9,294/306,813 = 0,2898 Э1 = 15,7529 × 107,231/306,813 = 5,506 βi = αi × Sxi : Sy βi = 9,568 × 4,913/102,865 = 0,457 βi = 15,7529 × 4,5128/102,865 = 0,691. Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении фактора на один процент. Бета-коэффициент с математической точки зрения показывает, на какую часть величины среднего квадратического отклонения меняется среднее значение зависимой переменной с изменением независимой переменной на одно среднеквадратическое отклонение при фиксированном на постоянном уровне значении остальных независимых переменных. Это означает, что при увеличении затрат на рекламу в нашем примере на 4,91 тыс. руб. объем реализации увеличится на 47 тыс. руб. (0,457 × 102,865). 6. Определить точечные и интервальные прогнозные оценки объема реализации на два квартала вперед (t0,7 = 1,12). Прогнозные значения Х1,17, Х2,17 и Х1,18, Х1,18 можно определить с помощью методов экспертных оценок, с помощью средних абсолютных приростов или вычислить на основе экстраполяционных методов. Для фактора Х1 Затраты на рекламу выбрана модель Х1 = 12,83 - 11,616t + 4,319t2 - 0,552t3 + 0,020t4 - 0,0006t5, по которой получен прогноз на 2 месяца вперед2. График модели временного ряда Затраты на рекламу приведен на рис. 4.4.
Рис. 4.4. Прогноз показателя Затраты на рекламу
Для временного ряда Индекс потребительских расходов в качестве аппроксимирующей функции выбран полином второй степени (парабола), но которой построен прогноз на 2 шага вперед. На рисунке 4.5 приведен результат построения тренда для временного ряда Индекс потребительских расходов. Х2 = 97,008 + 1,739 t - 0,0488 t2.
Рис. 4.5. Прогноз показателя Индекс потребительских расходов
Для получения прогнозных оценок зависимостей переменной по модели Y = -1471,438 + 9,568Х1 + 15,754 Х2 подставим в нее найденные прогнозные значения факторов Х1 и Х2 Yt=17 = -1471,438 + 9,568 × 5,75 + 15,754 × 112,468 = 355,399 Yt=18 = -1471,438 + 9,568 × 4,85 +15,754 × 112,488 = 344,179. Доверительный интервал прогноза будет иметь следующие границы: Верхняя граница прогноза: Yp(N+1) + U(1) Нижняя граница прогноза: Yp(N+1) - U(1).
tкр = 2.163 1=1
u(1) = 42,968 1=2
u(2) = 45,749. Результаты прогнозных оценок модели регрессии представим в табл. 4.2.5. Таблица 4.2.5 Таблица прогнозов (р = 95%)
1 Для вычисления а0 добавлен столбец Х0. 2 Внимание! Полиномы таких высоких порядков редко используются при прогнозировании экономических показателей. 3 Значение tкр получено с помощью функции СТЬЮДРАСПРОБР(0,05;13) для выбранной вероятности 95% с числом степеней свободы равным 13. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[an error occurred while processing this directive] |