Персональный сайт - Тема 1. Метод наименьших квадратов. Свойства коэффициентов регрессии.

1. Что такое ковариация?

Ковариация – мера взаимосвязи между двумя переменными. Cov(x,y)=E[(x-μ_x)(y-μ_y)]. Ковариация в оценке силы связи между переменными не так полезна, как корреляция.

2. Что выражает ковариация переменных в регрессионной модели?

Зависимость или независимость переменных модели.

3. Каковы основные этапы построения и анализа регрессионной модели?

• Выдвижение рабочей гипотезы

• Построение модели

• Анализ качества и интерпретация модели

• Определение путей изменения модели

• Выдвижение новых гипотез и построение новых моделей.

• Практическое использование модели

4. В чем роль теоретической (гипотетической) регрессии в прикладном эконометрическом анализе?

Теоретическая (гипотетическая) регрессия позволяет производить теоретические расчеты (имеется в виду оценка последствий изменений значения какой-то объясняющей переменной), а также она используется для прогнозирования значений зависимой переменной.

Теоретическая регрессия:

Y=a+b*x+u, где u – случайный член

В регрессионном анализе изучается связь и определяется количественная зависимость между зависимой переменной и одной или несколькими независимыми переменными. Пусть переменная Y зависит от одной переменной . При этом предполагается, что переменная принимает заданные фиксированные значения, а зависимая переменна Y имеет случайный разброс из-за ошибок измерения, влияния неучтенных факторов и т.д. Предположим, что Y в "среднем" линейно зависит от значений переменной .

Таким образом, существуют наблюдаемые значения х и у, между ними предполагается линейная связь. Если бы соотношение между х и у было точно, то все наблюдаемые точки лежали на одной прямой Y=a+b*x. Однако истинные значения у отклоняются от этой прямой на величину случайного члена.

Таким образом, теоретическая регрессия необходима для оценки взаимосвязи между переменными. На основе n наблюдений строится расчетная регрессия, оцениваются коэффициенты а и b.

5. Почему расчетная регрессия не совпадает с теоретической?

Из-за наличия случайного члена невозможно рассчитать истинные значения b,α при попытке построить прямую и определить положение линии регрессии. т.к. остатки не совпадают со значениями случайного члена

6. В чем состоит разница между случайном членом регрессии и остатками в регрессионном анализе?

Случайный член указывает на то, что существует случайная составляющая, которая влияет на зависимую переменную; остаток- измеренная величина отклонения между фактическим и расчетным значением переменной.

Случайный член (u_i) включается в регрессию для подтверждения существования случайного фактора, оказывающего влияние на зависимую переменную. Y_i=β₁+β₂X_i+u_i

Остаток (e_i) – измеримая разность между действительной величиной Y в соответствующем наблюдении и расчетным значением по регрессии. e_i=Y_i-

7. В чем состоит идея метода наименьших квадратов?

Идея МНК основана на том, чтобы минимизировать сумму квадратов отклонений расчетных значений от эмпирических, т.е. нужно оценить параметры о функции f(a,x) таким образом, чтобы ошибки еi= уi-f(а,х), точнее - их квадраты, по совокупности были минимальными. Для этого нужно решить задачу минимизации суммы квадратов остатков S=e12+..+en2

8. В чем состоят основные достоинства и недостатки метода наименьших квадратов с точки зрения прикладной эконометрики?

Достоинства:

1. Наиболее простой метод выбора значений b₁ и b₂, чтобы остатки были минимальными;

2. При выполнении условий Гаусса-Маркова МНК-оценки будут наилучшими (наиболее эффективными) линейными (комбинации Y_i) несмещёнными оценками параметров регрессии (b₁ и b₂₎.

Условия Гаусса-Маркова:

- модель линейна по параметрам и правильно специфицирована;

- объясняющая переменная в выборке имеет некоторую вариацию;

- математическое ожидание случайного члена равно нулю;

- случайный член гомоскедастичен;

- значения случайного члена имеют взаимно независимые распределения;

- случайный член имеет нормальное распределение

Недостатки: МНК-оценки являются эффективными линейными несмещёнными ТОЛЬКО при выполнении ВСЕХ условий Гаусса-Маркова, что на практике встречается редко.

9. Как получить уравнения метода наименьших квадратов, используя производные?

y=a+bx; S²=∑(y_i-a-bx_i)²=> (S²)_a^’=0 и (S²)_b^’=0

10. Как выписать уравнения метода наименьших квадратов, не используя производные?

11. Пусть выборка состоит из трех точек (x1, y1), (x2, y2), (x3, y3). Как вывести уравнения метода наименьших квадратов, используя условия первого порядка для производных.

12. Как коэффициенты регрессии выражаются через основные статистические характеристики выборки (среднее, дисперсия, ковариацию и др.).

Вывод формул для оценки коэффициентов (для парной регрессии) в лекции 3.

13. Почему коэффициенты регрессии могут рассматриваться как случайные переменные? Каковы практические последствия этого факта?

Значения коэффициентов не могут быть точно предсказаны, находится их оценка (как частный случай). Коэффициент регрессии, вычисленный методом наименьших квадратов, - особая форма случайной величины, свойства которой зависят от свойств случайного члена в уравнении. Коэффициент регрессии, полученный по любой выборке, состоит из 2 слагаемых: 1) постоянной величины, равной истинному значению коэффициента, и 2) случайной составляющей, зависящей от случайного члена в выборке.

Последствия этого факта таковы, что возникает отклонение фактического значения от расчетного, в результате которого образуются остатки.

14. Что означает, что оценка коэффициента регрессии является несмещенной?

Математическое ожидание оценки равняется соответствующей характеристике генеральной совокупности.

15. Что означает, что оценка коэффициента регрессии является эффективной?

Она является надежной\точной с определенным уровнем значимости и чем он меньше, тем меньше вероятность ошибки (функция плотности вероятности распределения как можно более сжата вокруг истинного значения, т.е. дисперсия данной оценки минимальна). P-value низкий, что означает маленькую вероятность ошибки.

16. Что означает, что оценка коэффициента регрессии является состоятельной?

Это оценка, которая дает точное значение для большой выборки независимо от входящих в нее конкретных наблюдений, другими словами несет в себе меньшую среднеквадратичную ошибку.

17. Каковы свойства есть у остатков в парной регрессии? Запишите эти свойства в строгой математической форме?

e_ср=0, Cov(y_оц_.,e)=0, Var(e_i)=const, Cov(e_i,e_j)=0. Свойства при МНК: ∑e_i=0 и ∑X_ie_i=0

18. На какие компоненты раскладывается общая сумма квадратов остатков? В чем их смысл?

Общая сумма квадратов остатков (TSS) раскладывается на «объясненную» сумму квадратов (ESS) и остаточную («необъясненную») сумму квадратов (RSS).

TSS = ESS+ RSS

Подобное разложение позволяет оценить, на сколько хорошо выбранная модель (регрессия) объясняет поведение зависимой переменной. В частности, это используется при расчете коэффициента детерминации (R²). R² показывает долю объясненной дисперсии зависимой переменной.

R²=ESS/TSS=1-RSS/TSS

19. Что такое коэффициент детерминации R2? Каков его смысл?

Коэффициент детерминации дает предварительную оценку качества модели и имеет значения в промежутке от 0 до 1. Он показывает долю объясненной дисперсии зависимой переменной (доля общей суммы квадратов, объясненной уравнением регрессии).

Если постоянный член включён в модель, то разложение верно. Значит можно записать R² следующим образом:

В иных случаях разложение неверно и уравнение расчёта R² не эквивалентны.

R²=1, когда линия регрессии точно соответствует всем наблюдениям, так что для всех наблюдений и все остатки равны нулю. Можно сказать, что уравнение является идеальным. Если в выборке отсутствует видимая связь между Y и Х, то R² будет близок к 0.

Коэффициент детерминации не позволяет дать окончательного заключения без учета других факторов, т.к. он подвержен влиянию посторонних факторов и может привести к ошибочному выводу. Даже если отсутствует зависимость между Y и Х, по любой данной выборке наблюдений может показаться, что такая зависимость существует, возможно, и слабая. Только по случайному стечению обстоятельств R² в точности равен 0.

Однако таблицы для критических значений R² отсутствуют, для этого нужно рассчитывать на его основе другие показатели. Например, F-критерий для проверки качества оценивания.

После вычисления F-критерия по значению коэффициента R² отыскивается критический уровень F (F_крит). Если F > F_крит, то нулевая гипотеза (связь между Y и Х отсутствует) отклоняется и делается вывод, что имеющееся объяснение поведения Y лучше, чем можно было бы получить случайно.

Но возможен и расчет критического значения R²:

Если R² > R²_крит, то вывод об отклонении нулевой гипотезы подтверждается.

Согласие эмпирической прямой с данными, другими словами, показывает соответствие линии регрессии всем наблюдениям. Показывает наличие видимой/слабой связи между зависимой и объясняющими переменными, другими словами вклад переменной в модель. R2 показывает долю дисперсии зависимой переменной, “объясненной” (уравнением регрессии)

20. Какова связь коэффициента детерминации и коэффициента корреляции в парной

модели регрессии?

Чем больше R², т.е., чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений у, и наоборот. R² = коэффициент корреляции в квадрате.

21. Каковы пределы изменения коэффициента детерминации R2? Почему они такие?

0<R²<1, R²=1, когда у_оц.=у_i и все остатки равны 0 (Var(y_оц.)=Var(y), Var(e)=0)

22. Почему метод наименьших квадратов эквивалентен задаче максимизации коэффициента детерминации R2?

, а следовательно

23. Какие практические выводы можно сделать из того факта, что коэффициент детерминации R2 оказался близок к единице?

Линия регрессии точно соответствует всем наблюдениям, отклонений нет
В оцениваемую модель не включили константу
Число объясняющих переменных равно (или близко) числу наблюдений
Сильная корреляция между переменными (нестационарность временных рядов)

24. Какие практические выводы можно сделать из того факта, что коэффициент

детерминации R² оказался близок к нулю?

В выборке отсутствует видимая связь между зависимой и объясняющей переменной

25. Имеет ли смысл оценивать значимость уравнения регрессии с коэффициентом детерминации R² близким к нулю?

Значимость оценивать целесообразно, т.к. даже столь маленькое значение R² могло получиться не случайно, что нам покажет F тест. Маленькое же значение может говорить о невключении важных факторов. Также, даже при маленьком значении R² мы можем сделать выводы о виде зависимости между независимым и зависимым показателем, т.е. растет ли Y при росте X или наоборот уменьшается. Это всегда полезно экономисту.

26. В чем состоят ограничения и недостатки практического использования коэффициента детерминации в R2 с точки зрения современных представлений о регрессионном анализе?

Недостатки:

R²возрастает при добавлении нового регрессора;

R² изменяется даже при простейшем преобразовании зависимой, поэтому сравнивать по значению R² можно только регрессии с одинаковыми зависимыми переменными.

Низкое значение R² не свидетельствует о низком качестве модели, и может объясняться наличием существенных факторов, не включенных в модель

27. Дает ли какую-либо дополнительную информацию скорректированный коэффициент детерминации в парном регрессионном анализе?

Ничего не даёт и не нужен (Черняк).

Сделать бесплатный сайт с uCoz