$\global\def\at#1#2{\left. #1 \right\rvert_{#2}}$
$\global\def\abs#1{\left\lvert #1 \right\rvert}$
$\global\def\norm#1{\left\lVert #1 \right\rVert}$
$\global\def\limto#1{\underset{#1}{\longrightarrow}}$
$\global\def\dp#1#2{#1 \cdot #2\,}$
$\global\def\vp#1#2{#1 \times #2\,}$
$\global\def\dv#1#2{\frac{d #1}{d #2}}$
$\global\def\pd#1#2{\frac{\partial #1}{\partial #2}}$
$\global\def\pdv2#1#2{\frac{\partial^2 #1}{\partial #2^2}}$
$\global\def\ppdv#1#2#3{\frac{\partial^2 #1}{\partial #2 \partial #3}}$
$\global\def\paren#1{\left( #1 \right)}$
$\global\def\mbox#1{\text{#1}}$
$\global\def\div{\text{div}\,}$
$\global\def\dsum{\displaystyle\sum\,}$
$\global\def\grad{\text{grad}\,}$
$\global\def\rot{\text{rot}\,}$
$\global\def\bvec#1{\mathbf{#1}}$
$\global\def\vb#1{\textbf{#1}}$
$\global\def\op#1{\mathrm{#1}\,}$
$\global\def\proj{\mathrm{proj}}$
$\global\def\bydef{\mathrm{def}}$
$\global\def\const{\text{const}\,}$
$\global\def\res{\text{res}\,}$
$\global\def\Res{\text{Res}\,}$
$\global\def\Re{\text{Re}\,}$
$\global\def\Im{\text{Im}\,}$
$\global\def\ch{\text{ch}\,}$
$\global\def\sh{\text{sh}\,}$
$\global\def\tg{\mathrm{tg}\,}$
$\global\def\ctg{\mathrm{ctg}\,}$
$\global\def\argtg{\text{argtg}\,}$
$\global\def\cov{\operatorname{cov}}$
$\global\def\var{\operatorname{var}}$
$\global\def\corr{\operatorname{corr}}$
$\global\def\se{\operatorname{se}}$
$\global\def\logit{\operatorname{logit}}$
-
Определение: дисперсия
Дисперсией случайной величины $x$ называют величину
\[
D x = E \left[ {(x - E x)}^2 \right] = E x^2 - {(E x)}^2.
\]
-
Определение: стандартное отклонение
Стандартным отклонением случайной величины $x$ называют величину
\[
\sigma_x = \sqrt{D x}.
\]
-
Определение: ковариация
Ковариация случайных величин $x$ и $y$:
\[
\cov(x,y) = E \left[
(x - Ex) (y - Ey)
\right]
=
\frac{1}{n}
\sum\limits_{i=1}^{n} \left[
(x_i - \overline x) (y_i - \overline y)
\right].
\]
-
Определение: выборочная ковариация
Выборочной ковариацией случайных величин $x$ и $y$ называют величину
\[
\widehat \cov(x,y) = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i - \overline x) (y_i - \overline y).
\]
-
Свойства выборочной ковариации
Пусть $b$ — некоторая константа, а $x,y,z$ — случайные величины. Тогда справедливы свойства:
-
$\widehat \cov(x,b) = 0$;
-
$\widehat \cov(x, by) = b \cdot \widehat \cov(x,y)$;
-
$\widehat \cov(x, y + b) = \widehat \cov(x,y)$;
-
$\widehat \cov(x, y + z) = \widehat \cov(x,y) + \widehat \cov(x,z)$.
-
Определение: выборочная дисперсия
Выборочной дисперсией случайной величины $x$ называют величину
\[
\widehat \var(x) = \frac{1}{n} \sum\limits_{i=1}^{n} {\left( x_i - \overline x \right)}^2.
\]
-
Свойства выборочной дисперсии
Пусть $b$ — некоторая константа, а $x,y$ — случайные величины. Тогда справедливы свойства:
-
$\widehat \var(b) = 0$;
-
$\widehat \var(bx) = b^2 \cdot \widehat \var(x)$;
-
$\widehat \var(x + b) = \widehat \var(x)$;
-
$\widehat \var(x + y) = \widehat \var(x) + \widehat \var(y) + 2 \widehat \cov(x,y)$.
-
Определение: выборочный коэффициент корреляции
Выборочным коэффициентом корреляции случайных величин $x,y$ называют величину
\[
\widehat \corr(x,y) = \frac{\widehat \cov(x, y)}{\sqrt{\widehat \var(x) \widehat \var(y)}}.
\]
-
Каковы цели регрессионного анализа?
-
Оценка влияния независимых переменных на зависимую.
-
Предсказание значений зависимой переменной на основе новых данных.
-
Выявление закономерностей и трендов.
-
Проверка гипотез.
-
Классификация данных с точки зрения структуры
-
Пространственные данные (cross section data): данные, собранные о множестве
объектов за один момент времени.
Данные о ценах однокомнатных квартир в Москве в ноябре 2024 года.
-
Временные ряды (time series): данные об одном объекте, собранные в течение
нескольких последовательных моментов времени.
Ежедневные данные о курсе доллара, собранные за год.
-
Панельные данные (panel data): данные о нескольких объектах, собранные в течение
нескольких последовательных моментов времени.
Ежегодные данные об уровне инфляции в 50 развивающихся странах, собранные за 10 лет.
-
Определение: парная линейная регрессия
Парная линейная регрессия задаётся формулой
\[
y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n},
\]
где
-
$y_i$ — зависимая (объясняемая) переменная;
-
$x_i$ — независимая (объясняющая) переменная;
-
$\beta_1$ — свободный член, показывающий значение $y$, когда $x = 0$;
-
$\beta_2$ — коэффициент регрессии, который показывает, насколько изменится $y$ при изменении $x$ на
одну единицу;
-
$\varepsilon_i$ — случайная ошибка, учитывающая влияние других, неучтённых переменных;
-
$n$ — количество наблюдений.
На практике точные значения коэффициентов регрессии $\beta_1$ и $\beta_2$ неизвестны, но можно получить их
оценки $\widehat \beta_1, \widehat \beta_2$ на основе собранных статистических данных.
-
Как ищутся оценки коэффициентов регрессии классической линейной модели парной регрессии?
Оценки $\widehat \beta_1, \widehat \beta_2$ ищутся методом неопределённых коэффициентов (МНК).
-
Каковы предпосылки классической линейной модели парной регрессии?
-
Модель линейна по параметрам и корректно специфицирована:
\[
y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n}.
\]
-
$x_1, \dots, x_n$ — детерминированные величины, не все равные друг другу.
-
Математическое ожидание случайных ошибок равно нулю:
\[
E \varepsilon_i = 0.
\]
-
Дисперсия случайной ошибки одинакова для всех наблюдений:
\[
D \varepsilon_i = \sigma^2 = \const.
\]
Это значит, что случайные ошибки гомоскедастичны.
-
Случайные ошибки, относящиеся к разным наблюдениям, взаимно независимы:
\[
\cov(\varepsilon_i, \varepsilon_j) = 0.
\]
-
Случайные ошибки имеют нормальное распределение:
\[
\varepsilon_i \sim N(0, \sigma^2).
\]
-
Определение: гомоскедастичность
Говорят, что случайные ошибки $\varepsilon_i$ гомоскедастичны, если их дисперсия постоянна:
\[
D \varepsilon_i = \sigma^2 = \const.
\]
-
Определение: гетероскедастичность
Говорят, что случайные ошибки $\varepsilon_i$ гомоскедастичны, если их дисперсия не является
постоянной:
\[
D \varepsilon_i = \sigma_i^2 \neq \const.
\]
-
Определение: несмещённая оценка
Оценка $\widehat \theta$ параметра $\theta$ называется несмещённой, если её мат. ожидание совпадает с
точной оценкой:
\[
E \widehat \theta = \theta.
\]
-
Определение: эффективная оценка
Оценка $\widehat \theta$ параметра $\theta$ называется эффективной в некотором классе оценок, если её
дисперсия является минимальной среди всех оценок этого класса.
-
Теорема Гаусса‐Маркова
(Гаусса‐Маркова).
Если выполнены предпосылки 1‐5 классической линейной модели парной регрессии:
-
модель линейна по параметрам и корректно специфицирована:
\[
y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n};
\]
-
$x_1, \dots, x_n$ — детерминированные величины, не все равные друг другу;
-
математическое ожидание случайных ошибок равно нулю:
\[
E \varepsilon_i = 0;
\]
-
дисперсия случайной ошибки одинакова для всех наблюдений:
\[
D \varepsilon_i = \sigma^2;
\]
-
случайные ошибки, относящиеся к разным наблюдениям, взаимно независимы:
\[
\cov(\varepsilon_i, \varepsilon_j) = 0;
\]
то МНК‐оценки коэффициентов $\widehat \beta_1, \widehat \beta_2$ будут:
-
несмещёнными;
-
эффективными в классе всех несмещённых и линейных по $y$ оценок.
-
Определение: множественная линейная регрессия
Множественная линейная регрессия задаётся формулой
\[
y_i = \beta_1 + \beta_2 x_i^{(2)} + \dots + \beta_k x_i^{(k)} + \varepsilon_i, \qquad i = \overline{1,n},
\]
где
-
$y_i$ — зависимая переменная;
-
$x_i^{(2)}, \dots, x_i^{(k)}$ — независимые переменные (регрессоры);
-
$\beta_1$ — свободный член;
-
$\beta_2, \dots, \beta_k$ — коэффициенты регрессии;
-
$\varepsilon_i$ — случайная ошибка, учитывающая влияние других, неучтённых переменных;
-
$k$ — число коэффициентов (или регрессоров) модели;
-
$n$ — количество наблюдений.
-
Каковы предпосылки классической линейной модели множественной регрессии?
-
Модель линейна по параметрам и корректно специфицирована:
\[
y_i = \beta_1 + \beta_2 x_i^{(2)} + \dots + \beta_k x_i^{(k)} + \varepsilon_i, \qquad i = \overline{1,n}.
\]
-
$x_i^{m}, \quad m = \overline{2,k}, \; i = \overline{1,n}$ — детерминированные линейно независимые величины.
-
Математическое ожидание случайных ошибок равно нулю:
\[
E \varepsilon_i = 0.
\]
-
Дисперсия случайной ошибки одинакова для всех наблюдений:
\[
D \varepsilon_i = \sigma^2 = \const.
\]
Это значит, что случайные ошибки гомоскедастичны.
-
Случайные ошибки, относящиеся к разным наблюдениям, взаимно независимы:
\[
\cov(\varepsilon_i, \varepsilon_j) = 0.
\]
-
Случайные ошибки имеют нормальное распределение:
\[
\varepsilon_i \sim N(0, \sigma^2).
\]
-
Метод наименьших квадратов
МНК — такой способ проведения регрессионной линии, что сумма квадратов отклонений отдельных значений
зависимой переменной от неё была минимальной.
Пусть $y_i$ — координата точки по оси $y$, а $\widehat y_i$ — предсказанное значение. Тогда
\[
e_i = y_i - \widehat y_i,
\]
где $e_i$ — расстояние от $y$ до линии регрессии (остаток регрессии).
Суммируя квадраты остатков, получаем:
\[
RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2.
\]
RSS (Residual Sum of Squares) — сумма квадратов разниц между фактическими и предсказанными
линейной регрессией значениями зависимой переменной.
Требуется минимизировать RSS:
\[
RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2 \to \min.
\]
Учитывая, что $\widehat y_i = a x_i + b$, найдём частные производные:
\[
\begin{aligned}
\frac{\partial RSS}{\partial a}
&=
{\left( \sum\limits_{i=1}^{n} {\left[ y_i - (a x_i + b) \right]}^2 \right)}_a' = \\
&=
\sum\limits_{i=1}^{n} \left[
2 (y_i - (a x_i + b)) \cdot (-x_i)
\right] = \\
&=
2 \sum\limits_{i=1}^{n} \left(
a x_i^2 + b x_i - x_i y_i
\right), \\
\frac{\partial RSS}{\partial b}
&=
{\left( \sum\limits_{i=1}^{n} {\left[ y_i - (a x_i + b) \right]}^2 \right)}_b' = \\
&=
\sum\limits_{i=1}^{n} \left[
2 (y_i - (a x_i + b)) \cdot (-1)
\right] = \\
&=
2 \sum\limits_{i=1}^{n} \left(
a x_i + b - y_i
\right).
\end{aligned}
\]
Приравнивая полученные производные к нулю, получаем следующую систему:
\[
\begin{aligned}
\sum\limits_{i=1}^{n} \left(
a x_i^2 + b x_i - x_i y_i
\right) &= 0, \\
\sum\limits_{i=1}^{n} \left(
a x_i + b - y_i
\right) &= 0.
\end{aligned}
\]
Стоит отметить, что исходная функция является положительно определённой, поэтому решение этой системы
будет точкой минимума.
Разбиваем суммы:
\[
\begin{aligned}
a \sum\limits_{i=1}^{n} x_i^2
+ b \sum\limits_{i=1}^{n} x_i
&= \sum\limits_{i=1}^{n} x_i y_i, \\
a \sum\limits_{i=1}^{n} x_i
+ n b
&= \sum\limits_{i=1}^{n} y_i.
\end{aligned}
\]
Положим
\[
\widehat \beta_1 := a, \qquad \widehat \beta_2 := b,
\]
тогда получаем систему
\[
\begin{aligned}
\widehat \beta_2 \sum\limits_{i=1}^{n} x_i^2
+ \widehat \beta_1 \sum\limits_{i=1}^{n} x_i
&= \sum\limits_{i=1}^{n} x_i y_i, \\
\widehat \beta_2 \sum\limits_{i=1}^{n} x_i
+ n \widehat \beta_1
&= \sum\limits_{i=1}^{n} y_i.
\end{aligned}
\]
Поделим оба уравнения на $n$, получаем:
\[
\begin{aligned}
\widehat \beta_2 \overline{x^2} + \widehat \beta_1 \overline x &= \overline{xy}, \\
\widehat \beta_2 \overline x + \widehat \beta_1 &= \overline y.
\end{aligned}
\]
Выражая искомые оценки коэффициентов линейной парной регрессии, получаем:
\[
\begin{aligned}
\widehat \beta_2 &= \frac{\overline{xy} - \overline{x} \cdot \overline{y}}{\overline{x^2} - \overline{x}^2}, \\
\widehat \beta_1 &= \overline y - \widehat \beta_2 \overline x,
\end{aligned}
\]
или, вспоминая формулы
\[
\begin{aligned}
\widehat \cov(x,y) &= \frac{1}{n} \sum\limits_{i=1}^{n} (x_i - \overline x) (y_i - \overline y), \\
\widehat \var(x) &= \frac{1}{n} \sum\limits_{i=1}^{n} {(x_i - \overline x)}^2,
\end{aligned}
\]
окончательно имеем
\[
\begin{aligned}
\widehat \beta_2
&= \phantom{\overline y -} \frac{\widehat \cov(x,y)}{\widehat \var(x)}, \\
\widehat \beta_1
&= \overline y - \frac{\widehat \cov(x,y)}{\widehat \var(x)} \overline x.
\end{aligned}
\]
-
Свойства остатков регрессии $e_i$, полученных в процессе применения МНК
Пусть $e_i = y_i - \widehat y_i$. Тогда справедливы свойства:
-
$\sum\limits_{i=1}^{n} e_i = 0$;
-
$\sum\limits_{i=1}^{n} x_i e_i = 0$;
-
$\sum\limits_{i=1}^{n} y_i = \sum\limits_{i=1}^{n} \widehat y_i$;
-
$\sum\limits_{i=1}^{n} (\widehat y_i - \overline y) e_i = 0$ или $\widehat \cov(\widehat y, e) = 0$.
-
Как оценить качество полученной регресии?
Пусть $\widehat \beta_1, \widehat \beta_2$ — коэффициенты регрессии, полученные МНК.
Чтобы оценить качество полученной регрессии (то, насколько хорошо линия регрессии соответствует фактическим
данным), можно сделать следующее.
Для начала выразим переменную $y$ через остатки и предсказанные значения $\widehat y_i$:
\[
e_i = y_i - \widehat y_i \implies y_i = e_i + \widehat y_i.
\]
Теперь вычислим выборочную дисперсию этой переменной:
\[
\begin{aligned}
\widehat \var(y)
&= \widehat \var(e + \widehat y) = \\
&= \widehat \var(e) + \widehat \var(\widehat y) + 2 \cov(e, \widehat y).
\end{aligned}
\]
Заметим, что $\cov(e, \widehat y) = 0$, поэтому
\[
\widehat \var(y) = \widehat \var(e) + \widehat \var(\widehat y),
\]
или, что то же самое,
\[
\frac{1}{n} \sum\limits_{i=1}^{n} {(y_i - \overline{y})}^2
=
\frac{1}{n} \sum\limits_{i=1}^{n} {(e_i - \overline{e})}^2
+
\frac{1}{n} \sum\limits_{i=1}^{n} {(\widehat y_i - \overline{y})}^2.
\]
Теперь, пользуясь свойствами остатков регрессии:
-
$\overline e = 0$;
-
$\overline y = \overline {\widehat y}$
и домножая полученное равенство на $n$, окончательно имеем
\[
\sum\limits_{i=1}^{n} {(y_i - \overline{y})}^2
=
\sum\limits_{i=1}^{n} e_i^2
+
\sum\limits_{i=1}^{n} {(\widehat y_i - \overline{y})}^2.
\]
Этот факт записывают следующим образом:
\[
TSS = ESS + RSS,
\]
где
-
$TSS = \sum\limits_{i=1}^{n} {(y_i - \overline{y})}^2$ — общая сумма квадратов;
-
$ESS = \sum\limits_{i=1}^{n} {(\widehat y_i - \overline{y})}^2$ — объяснённая регрессией сумма квадратов;
-
$RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2$ — необъяснённая регрессией сумма квадратов (сумма квадратов остатков).
Чем лучше построенная модель соответствует фактическим данным, тем меньше сумма квадратов остатков,
следовательно, тем ближе ESS к TSS. Иными словами, если модель хорошо соответствует данным, то дробь
\[
\frac{ESS}{TSS} = \frac{
\sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2
}{
\sum\limits_{i=1}^{n} {(y_i - \overline y)}^2
}
\]
близка к единице, а в идеальном случае дробь равна единице.
Напротив, чем хуже линия регрессии описывает фактические данные, тем ближе отношение $\dfrac{ESS}{TSS}$ к
нулю.
На этой идее основывается использование коэффициента $R^2$.
Коэффициент детерминации $R^2$ задаётся как
\[
R^2 = 1 - \frac{RSS}{TSS} = \frac{TSS - RSS}{TSS} = \frac{ESS}{TSS}.
\]
Его также можно представить в виде
\[
\begin{aligned}
R^2 = \frac{ESS}{TSS}
&= \frac{
\sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2
}{
\sum\limits_{i=1}^{n} {(y_i - \overline y)}^2
} = \\
&= \frac{
\frac{1}{n} \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2
}{
\frac{1}{n} \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2
} = \\
&= \frac{\widehat \var (\widehat y)}{\widehat \var (y)}.
\end{aligned}
\]
Понятно, что $R^2 \in [0, 1]$.
-
Чему равна стандартная ошибка МНК-оценки $\widehat \beta_1$?
Пусть $S^2$ — несмещённая оценка дисперсии $\sigma^2$ случайной ошибки:
\[
S^2 = \frac{1}{n-2} \sum\limits_{i=1}^{n} e_i^2.
\]
Стандартной ошибкой $\se(\widehat \beta_1)$ МНК-оценки $\widehat \beta_1$ называют величину
\[
\se(\widehat \beta_1) = \sqrt{\widehat \var (\widehat \beta_1)}
= \sqrt{ \frac{S^2 \cdot \overline{x^2} }{\sum\limits_{i=1}^{n} {(x_i - \overline x)}^2} }.
\]
-
Чему равна стандартная ошибка МНК-оценки $\widehat \beta_2$?
Пусть $S^2$ — несмещённая оценка дисперсии $\sigma^2$ случайной ошибки:
\[
S^2 = \frac{1}{n-2} \sum\limits_{i=1}^{n} e_i^2.
\]
Стандартной ошибкой $\se(\widehat \beta_2)$ МНК-оценки $\widehat \beta_2$ называют величину
\[
\se(\widehat \beta_2) = \sqrt{\widehat \var (\widehat \beta_2)}
= \sqrt{ \frac{S^2}{\sum\limits_{i=1}^{n} {(x_i - \overline x)}^2} }.
\]
-
Гипотеза о независимости переменных
Рассмотрим КЛМПР:
\[
y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n}.
\]
Рассмотрим две гипотезы:
-
Нулевая гипотеза $H_0: \beta_2 = 0$ — переменная $x$ не влияет на $y$;
-
Альтернативная гипотеза $H_1: \beta_2 \neq 0$ — переменная $x$ влияет на $y$.
Для проверки гипотезы понадобится расчётное значение тестовой статистики:
\[
t_\mbox{расч} = \frac{\widehat \beta_2}{\se(\widehat \beta_2)},
\]
где $\se(\widehat \beta_2)$ — стандартная ошибка коэффициента:
\[
\se(\widehat \beta_2) = \sqrt{ \frac{S^2}{\sum\limits_{i=1}^{n} {(x_i - \overline x)}^2} }.
\]
Здесь $S$ — несмещённая оценка дисперсии $\sigma^2$ случайной ошибки (среднеквадратичное отклонение остатков):
\[
S^2 = \frac{1}{n-2} \sum\limits_{i=1}^{n} e_i^2 = \frac{1}{n - 2} \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2.
\]
Зададим уровень значимости $\alpha$ — вероятность ошибки первого рода, то есть вероятность отклонить
проверяемую гипотезу при условии, что в действительности эта гипотеза верна.
Критическим значением тогда будет являться $t_{n-2}^{\alpha/2}$ — значение распределения Стьюдента
для $(n-2)$ степеней свободы и выбранного уровня значимости $\alpha$.
Тогда, если выполняется неравенство
\[
\abs{
\frac{\widehat \beta_2}{\se(\widehat \beta_2)}
}
\gt t_{n-2}^{\alpha/2},
\]
то гипотезу $H_0$ следует отвергнуть, то есть следует сделать вывод о том, что $x$ влияет на $y$. В этом случае
переменную $x$ называют статистически значимой при уровне значимости $\alpha$.
В противном случае нет оснований отвергнуть гипотезу $H_0$, а переменную $x$ называют
статистически незначимой при уровне значимости $\alpha$.
-
Почему тестовая статистика $t_\mbox{расч}$ имеет распределение Стьюдента?
Это следует из 6 предпосылки КЛМПР о том, что случайные ошибки имеют нормальное распределение:
\[
\varepsilon_i \sim N(0, \sigma^2).
\]
-
Построение доверительного интервала для коэффициента $\hat \beta_2$ парной регрессии
Рассмотрим классическую линейную модель парной регрессии:
\[
y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n}.
\]
Пусть $\alpha$ — заданный уровень значимости. Зная распределение коэффициента $\widehat \beta_2$, можно
утверждать, что с вероятностью $1 - \alpha$ выполняется неравенство
\[
\abs{
\frac{\widehat \beta_2 - \beta_2}{\se(\widehat \beta_2)}
}
\lt t_{n-2}^{\alpha/2}.
\]
Решив это неравенство относительно $\beta_2$, получаем, что
\[
\widehat \beta_2 - \se(\widehat \beta_2) t_{n-2}^{\alpha/2}
\lt
\beta_2
\lt
\widehat \beta_2 + \se(\widehat \beta_2) t_{n-2}^{\alpha/2}.
\]
Следовательно, доверительный интервал для $\beta_2$ имеет вид
\[
\left(
\widehat \beta_2 - \se(\widehat \beta_2) t_{n-2}^{\alpha/2}; \;
\widehat \beta_2 + \se(\widehat \beta_2) t_{n-2}^{\alpha/2}
\right).
\]
-
Оценка качества регрессии: $F$-статистика
Кроме проверки значимости отдельных коэффициентов, важно выяснить, является ли рассматриваемая модель в целом
статистически значимой.
Рассмотрим две гипотезы:
-
$H_0$: все коэффициенты регрессии равны нулю;
-
$H_1$: по крайней мере один из коэффициентов не равен нулю, то есть модель является статистически
значимой.
Рассмотрим тестовую статистику, которую называют $F$-статистикой:
\[
F_\mbox{расч} = \frac{R^2 / (k-1)}{(1 - R^2) / (n - k)},
\]
где $k$ — количество степеней свободы (число коэффициентов в модели линейной регрессии).
Далее, находим критическое значение $F_\mbox{кр}$ распределения Фишера со степенями свободы $(k-1, n-k)$ и
выбранного уровня значимости $\alpha$:
-
если $F_\mbox{расч} < F_\mbox{кр}$, то нет оснований отвергнуть гипотезу $H_0$, то есть модель является
статистически незначимой при уровне значимости $\alpha$;
-
в противном случае гипотеза $H_0$ отвергается, а модель признаётся статистически значимой.
Для случая парной регрессии $F_\mbox{расч} = t_\mbox{расч}^2$.
\[
\begin{aligned}
F_\mbox{расч}
&=
\frac{ESS}{RSS / (n - 2)} = \\
&=
\frac{\sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2}{\left( \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2 \right) / (n - 2)}
= \\
&=
\frac{\sum\limits_{i=1}^{n} {\left[ (\widehat \beta_1 + \widehat \beta_2 x_i) - \sum\limits (\widehat \beta_1 + \widehat \beta_2) \right]}^2}
{\sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2 / (n - 2)} = \\
&=
\frac{\sum\limits_{i = 1}^{n} \widehat \beta_2^2 (x_i - \overline x)^2}{s^2} = \\
&=
\frac{\widehat \beta_2^2}{s^2 / \sum\limits_{i=1}^{n} (x_i - \overline x)^2} = \\
&=
\left(
\frac{\widehat \beta_2}{\se (\widehat \beta_2)}
\right)^2 = \\
&=
t_\mbox{расч}^2.
\end{aligned}
\]
-
Определение: строгая мультиколлинеарность
Говорят, что имеет место строгая мультиколлинеарность, если между регрессорами в модели есть точная
линейная связь, то есть когда одна объясняющая переменная точным образом линейно выражается через другие.
-
Можно ли вычислить МНК-оценки коэффициентов регрессии, когда имеет место строгая мультиколлинеарность?
Нет, нельзя: при полной мультиколлинеарности столбцы матрицы регрессоров $X$ является вырожденной, поэтому
матрица $(X^T X)^{-1}$ не определена.
-
Как можно избавиться от строгой мультиколлинеарности?
От строгой мультиколлинеарности можно избавиться, исключив линейно зависимые переменные.
-
Определение: нестрогая мультиколлинеарность
Говорят, что имеет место нестрогая мультиколлинеарность, если между регрессорами в модели отсутствует
точная линейная связь, но они сильно коррелируют между собой.
-
Какое негативное влияние оказывает нестрогая мультиколлинеарность?
При нестрогой мультиколлинеарности можно вычислить МНК-оценки коэффициентов регрессии, но их стандартные ошибки
оказываются высокими, а точность оценок — низкой.
-
Почему при нестрогой мультиколлинеарности МНК-оценки оказываются неточными?
Это происходит из-за того, что при сильной корреляции двух регрессоров в выборке они, как правило, меняются
одновременно, поэтому оказывается трудно отличить влияние одного регрессора от другого.
-
Происходит ли смещение МНК-оценок при нестрогой мультиколлинеарности?
Нет — все предпосылки КЛММР соблюдаются.
-
Причины мультиколлинеарности
-
Высокая корреляция между объясняющими переменными (например, одна переменная является линейной комбинацией
двух других).
-
Присутствие фиктивных переменных (если все категории включены в модель).
-
Последствия мультиколлинеарности
-
Нестабильные оценки коэффициентов — небольшое изменение исходных данных влечёт за собой существенное
изменение МНК-оценок коэффициентов регрессии.
-
Увеличение стандартных ошибок.
-
Незначимость большинства переменных — каждая переменная в отдельности является незначимой, а уравнение
в целом является значимым и характеризуется близким к единице коэффициентом $R^2$.
-
Проблемы с интерпретацией (сложно понять, какая переменная влияет на зависимую и в каком направлении).
-
Как выявить мультиколлинеарность?
О существенной частичной мультиколлинеарности можно судить по следующим признакам:
-
большие по модулю парные коэффициенты корреляции между регрессорами (больше 0.9); выявить можно по матрице корреляции;
-
близость к нулю определителя матрицы $X^T X$;
-
большие значения коэффициентов VIF (больше 10).
-
Определение: коэффициент корреляции Пирсона
Коэффициент корреляции Пирсона задаётся формулой
\[
r_{xy} = \frac{
\sum\limits_{i=1}^{n} (x_i - \overline x) (y_i - \overline y)
}{
\sqrt{
\sum\limits_{i=1}^{n} {(x_i - \overline x)}^2
}
\sqrt{
\sum\limits_{i=1}^{n} {(y_i - \overline y)}^2
}
}
= \frac{\cov(x,y)}{\sigma_x \sigma_y}.
\]
Трактовка:
-
$r_{xy}$ принимает значения на промежутке $[-1, 1]$;
-
знак $r_{xy}$ показывает направление связи (прямая или обратная);
-
абсолютная величина $r_{xy}$ показывает силу связи.
-
Определение: матрица корреляции
Матрицей корреляции называют матрицу, в позиции $(i,j)$ которой стоит коэффициент корреляции между
переменными $i$ и $j$:
\[
R
=
\begin{pmatrix}
1 & r_{12} & r_{13} & \dots & r_{1n} \\
r_{21} & 1 & r_{23} & \dots & r_{2n} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
r_{n1} & r_{n2} & r_{n3} & \dots & 1
\end{pmatrix},
\]
где $r_{ij}$ — коэффициент корреляции Пирсона между переменными $i$ и $j$.
Матрицу корреляции можно изобразить в виде heatmap, по которой можно найти переменные с сильной корреляцией.
-
Определение: VIF
VIF (variance inflation factor) — коэффициенты, показывающие, насколько сильно связаны друг
с другом регрессоры модели.
Чтобы определить коэффициент VIF, соответствующий регрессору $x^{(j)}$, нужно оценить вспомогательную регрессию,
в которой слева стоит $x^{(j)}$, а справа — все остальные объясняющие переменные исходной модели.
После этого нужно вычислить коэффициент VIF по формуле
\[
\operatorname{VIF} = \frac{1}{1 - R^2},
\]
где $R^2$ — коэффициент детерминации из оценённой вспомогательной регрессии.
Если коэффициенты VIF всех регрессоров меньше 10, то существенной мультиколлинеарности в модели не
наблюдается.
-
Определение: VIF
VIF (variance inflation factor) — коэффициенты, показывающие, насколько сильно связаны друг
с другом регрессоры модели.
-
Как бороться с мультиколлинеарностью?
-
Увеличение количества наблюдений (если возможно).
-
Удаление сильно коррелирующих регрессоров — есть риск получить смещение МНК-оценок в результате
пропуска существенной переменной.
-
Комбинирование переменных (объединение коррелирующих переменных в одну).
-
Регуляризация (использование методов регуляризации, таких как Ridge или Lasso регрессий).
-
Определение: регуляризация
Регуляризация — метод добавления некоторых дополнительных ограничений к условию с целью решить
некорректно поставленную задачу или предотвратить переобучение.
-
Пример: LASSO-регуляризация
LASSO-регуляризация задаётся формулой
\[
J_\mbox{LASSO} = \sum\limits_{i=1}^{n} (y_i - \widehat y_i)^2 + \lambda \norm{\beta}_1,
\]
где $\lambda$ — гиперпараметр. На коэффициенты $\beta$ накладываются дополнительное ограничение вида
\[
\sum\limits_{i=1}^{n} \abs{\beta_i} \leqslant t,
\]
где $t$ — обратно пропорциональная $\lambda$ величина.
-
Пример: RIDGE-регуляризация
RIDGE-регуляризация задаётся формулой
\[
J_\mbox{RIDGE} = \sum\limits_{i=1}^{n} (y_i - \widehat y_i)^2 + \lambda \beta^2,
\]
где $\lambda$ — гиперпараметр. На коэффициенты $\beta$ накладываются дополнительное ограничение вида
\[
\sum\limits_{i=1}^{n} \beta_i^2 \leqslant t,
\]
где $t$ — обратно пропорциональная $\lambda$ величина.
-
Может ли LASSO-регуляризация занулить МНК-оценки коэффициентов регрессии?
-
Может ли RIDGE-регуляризация занулить МНК-оценки коэффициентов регрессии?
-
Определение: фиктивная переменная
Фиктивной переменной называют качественную переменную, принимающую значения 0 либо 1, включаемую
в модель для учёта влияния качественных признаков на объясняемую переменную.
-
Почему для признака, принимающего $m$ возможных значений, используется $m-1$ фиктивная переменная?
Если включать в модель $m$ фиктивных переменных, то столкнёмся с чистой мультиколлинеарностью.
-
Определение: фиктивная переменная наклона
Если есть подозрение, что с ростом одного регрессора $x_i$ линейно изменяется разница между значениями
качественной переменной $d_i$, для вычисления этого изменения вводят фиктивные
переменные наклона $x_i d_i$.
-
Проверка центрированности
Чтобы проверить, равняется ли мат. ожидание случайной ошибки нулю или нет, можно воспользоваться статистическими критериями
-
Колмогорова-Смирнова;
-
Стьюдента.
Иногда случайная составляющая (ошибка) будет положительной, иногда отрицательной, но она не должна иметь
систематического смещения ни в одном из двух возможных направлений.
Высказываем гипотезы:
-
$H_0: E \varepsilon = \mu_0 = 0$;
-
$H_1: E \varepsilon \neq \mu_0 = 0$.
Расчётная статистика:
\[
t = \frac{\overline \varepsilon - \mu_0}{s_\varepsilon / \sqrt{n}},
\]
где $s_\varepsilon$ — несмещённая оценка дисперсии случайной ошибки.
-
Проверка гомоскедастичности
-
$H_0$: ошибка гомоскедастична;
-
$H_1$: ошибка гетероскедастична.
Существует два теста:
-
тест Бройша—Пагана.
-
Рассматриваем уравнение регрессии: $y_i = \beta_1 + \beta_2 x_{2i} + \dots + \beta_k x_{ki} + \varepsilon_i$.
-
Ищем МНК-оценки и вычисляем RSS.
-
В предположении гомоскедастичности случайных ошибок строим состоятельную оценку дисперсии ошибок:
\[
\widehat \sigma^2 = RSS / n.
\]
-
Ищем МНК-оценки для новой регрессионной модели:
\[
\frac{e_i}{\widehat \sigma^2} = \gamma_1 + \gamma_2 z_{2i} + \dots + \gamma_k z_{ki} + \eta_i,
\]
где в качестве $z_i$ обычно берут $x_i$.
-
В качестве тестовой статистики берём $\operatorname{ESS} / 2$, где $\operatorname{ESS}$ —
объяснённая часть вспомогательной регрессионной модели.
-
В случае гомоскедастичности тестовая статистика подчиняется распределению $\chi^2_{k-1}$.
-
тест Голфелда—Квандта.
-
Рассматриваем уравнение регрессии: $y_i = \beta_1 + \beta_2 x_{2i} + \dots + \beta_k x_{ki} + \varepsilon_i$.
-
Упорядочиваем наблюдения по возрастанию $x_j$ — переменной, относительно которой имеется
подозрение на гетероскедастичность.
-
Оцениваем исходную регрессионную модель обычным МНК для двух выборок:
-
для первых $n_1$ наблюдений;
-
для последних $n_2$ наблюдений.
-
Вычисляем $\operatorname{RSS}_1$ и $\operatorname{RSS}_2$, строим тестовую статистику:
\[
F_\mbox{расч} = \frac{\operatorname{RSS}_1 / (m_1 - k)}{\operatorname{RSS}_2 / (m_2 - k)}.
\]
-
Данная статистика при отсутствии гетероскедастичности имеет распределение Фишера $F(m_1 - k, m_2 - k)$.
-
Проверка на автокорреляцию
Проверяем, присутствует ли систематическая связь между значениями остатков любых двух наблюдений. Случайные
составляющие должны быть взаимно независимы.
-
Тест Дарбина—Уотсона — проверка автокорреляции первого порядка между остатками регрессии
-
Ищем МНК-оценки и вычисляем остатки $e_i$.
-
Строим статистику Дарбина—Уотсона:
\[
\operatorname{DW} = \frac{\sum\limits_{i=1}^{n} (e_i - e_{i-1})^2}{\sum\limits_{i=1}^{n} e_i^2}.
\]
Чем больше $n$, тем ближе $DW$ к $2 (1 - \rho_1)$, где $\rho_1$ — коэффициент автокорреляции
первого порядка.
-
-
Отсутствие автокорреляции — $\rho_1 = 0 \implies DW \approx 2$;
-
Положительная автокорреляция — $\rho_1 = 1 \implies DW \approx 0$;
-
Отрицательная автокорреляция — $\rho_1 = -1 \implies DW \approx 4$.
-
Тест Бройша—Годфри — подходит для проверки автокорреляции любого порядка.
-
Проверка автокорреляции порядка $p$: строим вспомогательную регрессионную модель:
\[
e_i = \beta_1 + \beta_2 x_{2i} + \dots + \beta_k x_{ki} + \sum\limits_{j=1}^{p} a_j e_{i - k} + \varepsilon_i.
\]
-
Высказываем гипотезу об одновременном равенстве нулю $a_j$. Строим тестовую статистику: $(n-p)R^2$, где
$R^2$ — коэффициент детерминации вспомогательной модели, а $n$ — объём исходной выборки.
-
В случае отсутствия автокорреляции тестовая статистика имеет асимптотическое распределение $\chi_p^2$.
Если LM > крит. значение, то АК признаётся значимой.
-
Проверка некоррелированности
Остатки должны быть распределены независимо от объясняющих переменных:
\[
\cov(x_i, e_i) = 0.
\]
Для проверки используют ранговый тест Спирмена:
-
для каждой пары $(x_i, e_i)$ вычисляем ранги $(R[x_i], R[e_i])$ (под рангом подразумевается порядковый
номер данной величины в отсортированном массиве всех подобных величин);
-
вычисляем величину
\[
R_s = 1 - \frac{6 \sum\limits_{i=1}^{n} d_i^2}{n(n^2 - 1)}, \qquad d_i \equiv R[x_i] - R[e_i].
\]
-
строим статистику
\[
t_\mbox{расч} = R_s \sqrt{ \frac{n-2}{1 - R_s^2} },
\]
которая в случае отсутствия корреляции подчиняется распределению Стьюдента с $n-2$ степенями свободы.
-
Определение: панельные данные
Панельные данные — пролонгированные пространственные выборки, где каждый объект наблюдается
многократно на протяжении отрезка времени.
-
Сколько измерений насчитывают панельные данные?
Три:
-
признаки;
-
объекты;
-
время.
-
Представление панельных данных
Панельные данные можно представлять в виде long panel dataset:
| Группа |
Период времени |
Обозначение |
|
$1$ | $1$ | $X_{11}$ |
|
$1$ | $2$ | $X_{12}$ |
|
$\dots$ | $\dots$ | $\dots$ |
|
$1$ | $T$ | $X_{1T}$ |
|
$\dots$ | $\dots$ | $\dots$ |
|
$N$ | $1$ | $X_{N1}$ |
|
$N$ | $2$ | $X_{N2}$ |
|
$\dots$ | $\dots$ | $\dots$ |
|
$N$ | $T$ | $X_{NT}$ |
Также их можно представлять в виде wide panel dataset:
| Время |
Группа 1 |
Группа 2 |
$\dots$ |
Группа $N$ |
|
$1$ | $X_{11}$ | $X_{21}$ | $\dots$ | $X_{N1}$ |
|
$2$ | $X_{12}$ | $X_{22}$ | $\dots$ | $X_{N2}$ |
|
$\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ |
|
$T$ | $X_{1T}$ | $X_{2T}$ | $\dots$ | $X_{NT}$ |
-
Определение: эндогенный регрессор
Регрессор называют эндогенным, если он коррелирует со случайными ошибками в модели.
-
Определение: экзогенный регрессор
Регрессор называют экзогенным, если он не коррелирует со случайными ошибками в модели.
-
Преимущества панельных данных
-
Большое количество наблюдений.
-
Возможность отслеживать динамику для множества объектов.
-
Дополнительный способ устранить эндогенность.
-
Определение: сбалансированная панель
Панель называют сбалансированной, если общее число наблюдений равняется $N \cdot T$.
-
Определение: несбалансированная панель
Панель называют несбалансированной, если общее число наблюдений < $N \cdot T$.
-
Можно ли для несбалансированной панели использовать те же методы оценивания, что и для сбалансированной?
Да, но только в том случае, если возникновение пропусков является экзогенным.
-
Как неоднородность моделируемых объектов может затруднить оценивание?
Рассмотрим модель:
\[
y_{it} = \beta x_{it} + \mu_i + \varepsilon_{it},
\]
где
-
$y_{it}$ — описываемая переменная;
-
$x_{it}$ — описывающая переменная;
-
$\varepsilon_{it}$ — случайные ошибки модели;
-
$\mu_i$ — ненаблюдаемые величины, характеризующие специфику объектов.
Имеем дилемму:
-
с одной стороны, мы не можем включить $\mu_i$ в модель, так как эти величины являются ненаблюдаемыми;
-
с другой стороны, если $\mu_i$ коррелированы с интересующими нас $x_{it}$, то их невключение приведёт
к несостоятельности оценки коэффициента $\beta$ из-за пропуска существенной переменной.
-
Модель сквозной регрессии
Модель задаётся уравнением
\[
y_{it} = \beta x_{it} + \alpha + \varepsilon_{it}, \qquad t = \overline{1,T}.
\]
Решается обычным МНК:
\[
\widehat \beta_\mbox{OLS} = (X^T X)^{-1} X^T y.
\]
-
Модель с фиксированными эффектами, предпосылки
Предпосылки модели с фиксированными эффектами:
-
модель линейна по параметрам:
\[
y_{it} = \beta x_{it} + \mu_i + \varepsilon_{it}, \qquad t = \overline{1,T};
\]
-
наблюдения
\[
x_{it}, \varepsilon_{it}, \qquad i = \overline{1,n}, \quad t = \overline{1,T}
\]
независимы и одинаково распределены.
-
$x_{it}$ и $\varepsilon_{it}$ имеют ненулевые конечные четвёртые моменты распределения:
\[
E(x_{it}^4) \lt \infty, \qquad E(\varepsilon_{it}^4) \lt \infty;
\]
-
случайные ошибки имеют нулевое условное мат. ожидание:
\[
E(\varepsilon_{it} | x_{i1}, \dots, x_{iT}, \mu_i) = 0.
\]
-
Модель с фиксированными эффектами, решение
Рассмотрим модель с ФЭ:
\[
y_{it} = \beta x_{it} + \mu_i + \varepsilon_{it}, \qquad t = \overline{1,T},
\]
где $\beta$ — вектор $(1 \times n)$.
Перейдём к средним по времени величинам и вычтем полученные уравнения из соответствующих исходных:
\[
y_{it} - \overline{y_i} = \beta (x_{it} - \overline{x_i}) + \cancel{\mu_i - \overline{\mu_i}}
+ \varepsilon_{it} - \overline{\varepsilon_i}.
\]
Полученная модель не зависит от ненаблюдаемых эффектов $\mu_i$.
Потребуем условия:
-
ошибки $\varepsilon_{it}$ не коррелируют между собой по $i$ и $t$;
-
ошибки $\varepsilon_{it}$ не коррелируют с регрессорами $x_{js}$ по всем $i,t,j,s$.
Для решения применяем обычный МНК:
\[
\widehat \beta = {\left(
\sum\limits_{i=1}^{N} \sum\limits_{t=1}^{T} (x_{it} - \overline{x_i}) (x_{it} - \overline{x_i})^T
\right)}^{-1}
\cdot
\sum\limits_{i=1}^{N} \sum\limits_{t=1}^{T} (x_{it} - \overline{x_i}) (y_{it} - \overline{y_i}).
\]
Полученные оценки называют внутригрупповыми эффектами или оценками с фиксированным эффектом.
В качестве оценок индивидуальных эффектов можно взять
\[
\widehat \mu_i = \overline{y_i} - \overline{x_i}^T \widehat \beta.
\]
-
Модель со случайными эффектами, предпосылки
Предпосылки модели со случайными эффектами:
-
модель линейна по параметрам:
\[
y_{it} = \beta_1 x_{it}^{(1)} + \dots + \beta_k x_{it}^{(k)} + \mu_i + \varepsilon_{it}, \qquad t = \overline{1,T};
\]
-
наблюдения
\[
x_{it}^{(j)}, \varepsilon_{it}, \qquad i = \overline{1,n}, \quad j = \overline{1,k}, \quad t = \overline{1,T}
\]
независимы и одинаково распределены;
-
$x_{it}^{(1)}, \dots, x_{it}^{(k)}$ и $\varepsilon_{it}$ имеют ненулевые конечные четвёртые моменты распределения;
-
случайные ошибки имеют нулевое условное мат. ожидание:
\[
E(\varepsilon_{it} | x_{i1}^{(1)}, \dots, x_{i1}^{(k)}, \dots, x_{iT}^{(1)}, \dots, x_{iT}^{(k)}, \mu_i) = 0;
\]
-
с вероятностью единица в модели отсутствует чистая мультиколлинеарность;
-
\[
E(\mu_i | x_{i1}^{(1)}, \dots, x_{i1}^{(k)}, \dots, x_{iT}^{(1)}, \dots, x_{iT}^{(k)}) = E(\mu_i) = 0.
\]
Другими словами, регрессоры не должны быть коррелированы с ненаблюдаемыми эффектами $\mu_i$.
Положив $\nu_{it} = \mu_i + \varepsilon_{it}$, можно перейти к модели
\[
y_{it} = \beta_1 x_{it}^{(1)} + \dots + \beta_k x_{it}^{(k)} + \nu_{it}, \qquad t = \overline{1,T}.
\]
В ней все регрессоры экзогенны, поэтому параметры могут быть состоятельно оценены обычным МНК.
-
Как выбрать модель для анализа панельных данных?
Для простых линейных регрессионных моделей должны соблюдаться 5 свойств:
-
линейность;
-
экзогенность;
-
гомоскедастичность и отсутствие автокорреляции;
-
независимые переменные являются детерминированными;
-
отсутствует мультиколлинеарность.
Если условия 2 или 3 не выполняются, стоит отдать предпочтение моделям FE/RE.
Выбирая между FE и RE, стоит обращать внимание на следующее:
-
является ли индивидуальная особенность постоянным или случайным эффектом?
-
тест Хаусмана — позволяет оценить экзогенность факторов модели.
-
Тест Хаусмана
Тест Хаусмана позволяет проверить некоррелированность регрессоров $x_{it}$ и случайного эффекта: именно это
отличает FE и RE.
Гипотезы:
-
$H_0$: оценки RE являются состоятельными;
-
$H_1$: оценки RE являются несостоятельными.
Тестовая статистика:
\[
\left( \widehat \beta_\mbox{FE} - \widehat \beta_\mbox{RE} \right)^T
\left( \widehat V(\widehat \beta_\mbox{FE}) - \widehat V(\widehat \beta_\mbox{RE}) \right)^{-1}
\left( \widehat \beta_\mbox{FE} - \widehat \beta_\mbox{RE} \right)^T,
\]
где $\widehat V(\widehat \beta)$ — оценка ковариационной матрицы вектора $\widehat \beta$.
Эта статистика имеет асимптотическое распределение $\chi^2$ с количеством степеней свободы, равным рангу
матрицы $\widehat V(\widehat \beta_\mbox{FE}) - \widehat V(\widehat \beta_\mbox{RE})$.
-
Определение: дерево решений
Дерево принятия решений — средство поддержки принятия решений. Структура дерева:
-
в узлах записаны признаки, по которым различаются случаи;
-
на рёбрах записаны признаки, от которых зависит целевая функция;
-
в листьях записаны значения целевой функции;
-
Задачи дерева принятия решений
-
Классификация — распределение данных на группы близких друг к другу наблюдений.
-
Регрессия — нахождение связи между зависимой и независимой переменными.
-
Какой алгоритм используется для построения бинарного дерева решений?
Алгоритм CART (classification and regression trees). Описание:
-
выбор условия остановки (количество узлов, наблюдений в узле, величина критерия);
-
выбор условия для разделения выборки;
-
разделение выборки относительно условия;
-
повторение пп. 2 и 3 до соблюдения условия остановки;
-
создание дерева.
-
Постановка условий в узлах дерева решений
Можно минимизировать ошибку. Возможные критерии:
-
средняя квадратическая ошибка:
\[
H(Q_m) = \frac{1}{n_m} \sum\limits_{y\in Q_m}^{} (y - \overline y_m)^2,
\]
где
\[
\overline y_m = \frac{1}{n_m} \sum\limits_{y \in Q_m}^{} y;
\]
-
средняя абсолютная ошибка.
Цель: минимизация ошибки для двух листьев:
\[
H(Q_1) + H(Q_2) \to \min.
\]
Если делать в лоб, то асимптотика такая:
-
всего признаков $D$, всего объектов $N$;
-
всего сплитов $D * N$, всего подсчётов на каждом сплите $N$;
-
суммарно $N^2 D$.
Если значений слишком много, можно сделать так:
-
сортируем по признаку — $N \log_2 N$;
-
считаем критерии — $N$;
-
суммарно $N D \log_2 N + ND = N D(1 + \log_2 N)$.
В качестве критерия также можно взять
индекс Джини:
\[
\operatorname{Gini}(D) = 1 - \sum\limits_{i=1}^{k} p_i^2,
\]
где $p_i$ — относительная частота класса $i$ в исходной выборке.
Тогда цель — минимизировать показатель индекса Джини для узла:
\[
\operatorname{Gini}_\mbox{split}(D) = \frac{n_1}{n} \operatorname{Gini}(D_1) + \frac{n_2}{n} \operatorname{Gini}(D_2),
\]
где $n_1$ и $n_2$ — количество элементов в каждом наборе.
-
Каковы гиперпараметры решающего дерева?
-
Максимальная глубина дерева;
-
критерий ветвления;
-
величина критерия ветвления;
-
максимальное число семплов в листе дерева; и так далее.
-
Какая основная проблема дерева решений?
Основной проблемой дерева решений является склонность к переобучению.
-
Из-за чего происходит переобучение дерева решений?
В процессе построения дерева решений могут создаваться слишком сложные конструкции, которые недостаточно
полно представляют данные.
-
Как можно повысить обобщающую способность слабых моделей?
Повысить обобщающую способность слабых моделей можно при помощи
ансамблирования.
Есть три основных метода:
-
стекинг — параллельное обучение разнородных моделей, аггрегация их предсказаний;
-
бэггинг — параллельное обучение однородных моделей, аггрегация их предсказаний;
-
бустинг — последовательное обучение однородных моделей, каждая минимизирует ошибку
предыдущей.
-
Основная идея бэггинга; пример деревьев решений
Усреднить большое количество зашумлённых, но приблизительно несмещённых моделей, уменьшив дисперсию.
Состоит из двух шагов:
-
bootstrapping — сэмплирование $k$ объектов из исходной выборки с возвращением. В результате получаем
подвыборку размера $k$, в которой некоторые объекты встречаются несколько раз, а некоторые — ни
разу.
-
aggregating — усреднение предсказаний. Результат: предсказания одиночных моделей усредняются, давая
итоговый ответ
\[
a(x_i) = \frac{1}{M} \sum\limits_{i=1}^{M} a_i (x_i),
\]
где $a_i(x_i)$ — предсказание $i$-ой модели.
-
Случайный лес
Случайный лес представляет из себя ансамбль (бэггинг), каждая модель которого является деревом решений.
На этапе бутстрапинга каждому дереву достаётся $\abs{X_i} = N$ объектов, причём мощность всей обучающей
выборки $X$ равна $\abs{X} = N$.
На этапе обучения дерева решений во время разбиения признак выбирается не из всего множества признаков,
а из его случайного подмножества.
Если $p$ — количество признаков, то:
-
для классификации обычно выбирают случайные $\sqrt{p}$ признаков;
-
для регрессии — $p / 3$ признаков.
-
Преимущества и недостатки случайного леса
Преимущества:
-
высокая точность предсказаний;
-
нечувствительность к выбросам;
-
параллелизуемость;
-
невозможность переобучить;
-
простота реализации.
Недостатки:
-
неумение экстраполировать: СЛ не сможет вернуть ранее невиданное значение;
-
плохо работает, когда много разреженных признаков (например, тесты);
-
большой размер модели, требует много памяти.
-
Определение: временной ряд
Временным рядом называют последовательность $y_1, \dots, y_t \in \mathbb{R}$ наблюдений некоторого
признака (случайной величины) в последовательные моменты времени.
-
Определение: уровень временного ряда
Уровнем временного ряда называют отдельные наблюдения временного ряда.
-
Определение: длина временного ряда
Длиной временного ряда называют количество $n$ входящих в него уровней.
-
Классификация временных рядов
| Признак классификации |
Виды временного ряда |
|
Как уровни выражают состояние явлений во времени
|
-
Интервальные ряды
-
Моментные ряды
|
|
В зависимости от качественной особенности изучаемого явления
|
-
Абсолютные величины
-
Относительные величины
-
Средние величины
|
|
В зависимости от расстояния между уровнями
|
-
Равноотстоящие по времени уровни
-
Неравноотстоящие по времени уровни
|
|
В зависимости от наличия тенденции изучаемого процесса
|
-
Стационарные ряды
-
Нестационарные ряды
|
-
Каковы требования к построению временного ряда?
-
Периодизация развития.
-
Сопоставимость.
-
Соответствие величины временных интервалов интенсивности изучаемых процессов.
-
Упорядоченность числовых уровней рядов динамики во времени.
-
Однородность данных.
-
Устойчивость тенденции.
-
Полнота данных.
-
Аддитивная модель временного ряда
\[
y_t = T + S + C + E, \qquad t = \overline{1,n},
\]
где
-
$T$ — тренд;
-
$S$ — сезонная компонента;
-
$C$ — циклическая компонента;
-
$E$ — случайная компонента.
-
Мультипликативная модель временного ряда
\[
y_t = T \cdot S \cdot C \cdot E, \qquad t = \overline{1,n},
\]
где
-
$T$ — тренд;
-
$S$ — сезонная компонента;
-
$C$ — циклическая компонента;
-
$E$ — случайная компонента.
-
Типы трендов временного ряда
-
Тренд среднего.
-
Тренд дисперсии (гетероскедастичность).
-
Тренд автокорреляции и автоковариации.
Основные виды трендов:
-
Полиномиальный тренд:
\[
\overline y_t = a_0 + a_1 t + \dots + a_p t^p.
\]
Для $p = 1$ имеем линейный тренд.
-
Экспоненциальный тренд:
\[
\overline y_t = e^{a_0} \cdot e^{a_1 t} \cdot \ldots \cdot e^{a_p t^p}.
\]
-
Гармонический тренд:
\[
\overline y_t = R \cos (\omega t + \varphi).
\]
-
Тренд, выраженный логистической функцией:
\[
\overline y_t = \frac{k}{1 + b e^{-at}}.
\]
-
Этапы анализа временных рядов
-
Графическое поведение и описание временного ряда.
-
Выделение и удаление закономерных (неслучайных) составляющих временного ряда:
-
трендов;
-
сезонных составляющих;
-
циклических составляющих.
-
Сглаживание и фильтрация: удаление низко- или высокочастотных составляющих временного ряда.
-
Исследование случайной составляющей временного ряда; построение и проверка адекватности математической
модели для её описания.
-
Прогнозирование развития изучаемого процесса на основе имеющегося временного ряда.
-
Исследование взаимосвязи между различными временными рядами.
-
Задача прогнозирования временного ряда
Рассмотрим временной ряд
\[
y_1, \dots, y_t, \qquad y_t \in \mathbb{R}.
\]
Задача прогнозирования: найти функцию $f_T$ такую, что
\[
y_{T + h} \approx f_T(y_T, \dots, y_1, h) \equiv \widehat y_{T + h | T},
\]
где $h \in \overline{1,H}$, а $H$ — горизонт планирования.
-
Определение: предсказательный интервал
Предсказательным интервалом называют интервал, в котором предсказываемая величина окажется с
вероятностью не меньше заданной.
-
Определение: стационарный временной ряд
Временной ряд называют стационарным, если для любого $s$ совместное распределение $y_t, \dots,
y_{t+s}$ не зависит от $t$, то есть его свойства не зависят от времени.
-
У временного ряда есть тренд. Следует ли из этого нестационарность?
Да.
-
У временного ряда есть сезонность. Следует ли из этого нестационарность?
Да.
-
У временного ряда есть цикличность. Следует ли из этого нестационарность?
Нет.
-
Определение: эргодичность
Эргодичность — свойство, позволяющее для оценки математических ожиданий использовать усреднения
по времени (по реализации).
Мы хотим оценить математическое ожидание. Мы должны взять всевозможные значения в один и тот же момент времени
$t$, но у нас таких нет; вместо этого у нас есть значения в другие моменты времени. Эргодичность означает, что
если у нас достаточно длинная реализация, то можно заменить усреднение по множеству усреднением по времени.
-
Достаточное условие эргодичности стационарного процесса
Для того, чтобы стационарный процесс был эргодичным, достаточно выполнения следующего условия:
\[
\frac{1}{n} \sum\limits_{i=1}^{n} \gamma(i) \limto{n \to \infty} 0.
\]
Что такое гамма...
-
Определение: дифференцирование ряда
Дифференцирование ряда — переход к попарным разностям его соседних значений:
\[
y_1, \dots, y_T \mapsto y_2', \dots, y_T',
\]
где
\[
y_t' = y_t - y_{t-1}.
\]
-
Определение: сезонное дифференцирование
Сезонное дифференцирование ряда:
\[
y_1, \dots, y_T \mapsto y_{s+1}', \dots, y_T',
\]
где
\[
y_t' = y_t - y_{t-s}.
\]
-
Определение: ложная регрессия
Ложная регрессия — ситуация, когда между объясняющей и зависимой переменными в действительности
нет причинно‐следственной связи, однако коэффициент корреляции между ними по модулю близок к единице,
а уравнение, описывающее их взаимосвязь, с высокой точностью соответствует данным.
-
Когда может возникать ложная регрессия?
Ложная регрессия может вызывать в случае работы с временными рядами, которые характеризуются наличием тренда
(детерминированного или стохастического) или нестационарностью.
-
Как можно избавиться от ложной регрессии?
От ложной регрессии можно избавиться, например, дифференцированием ряда.
-
Определение: ESS
ESS — объяснённая регрессионной моделью часть:
\[
ESS = \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2.
\]
-
Определение: RSS
RSS (Residual Sum of Squares) — сумма квадратов разниц между фактическими и предсказанными
линейной регрессией значениями зависимой переменной:
\[
RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2 = \sum\limits_{i=1}^{n} e_i.
\]
Отвечает за необъяснённую регрессионной моделью часть.
-
Определение: TSS
Общая сумма квадратов (TSS) равна сумме объяснённой (ESS) и необъяснённой (RSS) регрессионной моделью частей:
\[
TSS = ESS + RSS,
\]
где
-
$TSS$ (Total sum of squares) — общая сумма квадратов:
\[
TSS = \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2;
\]
-
$ESS$ (Explained sum of squares) — объяснённая регрессией сумма квадратов:
\[
ESS = \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2;
\]
-
$RSS$ (Residual sum of squares) — сумма квадратов остатков:
\[
RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2.
\]
Отвечает за необъяснённую регрессией часть.
-
Определение: коэффициент детерминации $R^2$
Коэффициент детерминации $R^2$ задаётся как
\[
R^2 = 1 - \frac{RSS}{TSS} = \frac{TSS - RSS}{TSS} = \frac{ESS}{TSS}.
\]
Его также можно представить в виде
\[
\begin{aligned}
R^2 = \frac{ESS}{TSS}
&= \frac{
\sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2
}{
\sum\limits_{i=1}^{n} {(y_i - \overline y)}^2
} = \\
&= \frac{
\frac{1}{n} \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2
}{
\frac{1}{n} \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2
} = \\
&= \frac{\widehat \var (\widehat y)}{\widehat \var (y)}.
\end{aligned}
\]
Понятно, что $R^2 \in [0, 1]$.
-
Чему равны значения $\widehat \beta_1, \widehat \beta_2$, полученные в результате применения МНК?
\[
\begin{aligned}
\widehat \beta_2
&= \phantom{\overline y -} \frac{\widehat \cov(x,y)}{\widehat \var(x)}, \\
\widehat \beta_1
&= \overline y - \frac{\widehat \cov(x,y)}{\widehat \var(x)} \overline x.
\end{aligned}
\]
-
Для чего используются стандартные ошибки МНК-оценок $\widehat \beta_1$ и $\widehat \beta_2$?
Стандартные ошибки $\se(\widehat \beta_1)$ и $\se(\widehat \beta_2)$ используются для проверки гипотез:
например, они используются для проверки гипотезы о независимости переменных $x$ и $y$ в КЛМПР.
-
Что такое уровень значимости $\alpha$?
Уровнем значимости $\alpha$ называют вероятность ошибки первого рода, то есть вероятность отклонить
проверяемую гипотезу при условии, что в действительности эта гипотеза верна.
-
Определение: $p$-значение
$p$-значением ($p$-value) называют такой уровень значимости, при котором тестируемая гипотеза
находится на грани между отвержением и принятием.
-
Чему равны МНК-оценки коэффициентов регрессии в КЛММР?
Зададим матрицу регрессоров и вектор МНК-оценок коэффициентов модели:
\[
X =
\begin{pmatrix}
x_1^{(1)} & x_1^{(2)} & \dots & x_1^{(k)} \\
x_2^{(1)} & x_2^{(2)} & \dots & x_2^{(k)} \\
\vdots & \vdots & \ddots & \vdots \\
x_n^{(1)} & x_n^{(2)} & \dots & x_n^{(k)}
\end{pmatrix},
\qquad
\widehat \beta =
\begin{pmatrix}
\widehat \beta_1 \\
\widehat \beta_2 \\
\vdots \\
\widehat \beta_k
\end{pmatrix}.
\]
Тогда
\[
\widehat \beta = (X^T X)^{-1} X^T y,
\]
где $y$ — вектор значений зависимой переменной:
\[
y =
\begin{pmatrix}
y_1 \\
y_2 \\
\vdots \\
y_n
\end{pmatrix}.
\]
-
Последствия гетероскедастичности
-
МНК-оценки останутся несмещёнными.
-
МНК-оценки перестанут быть эффективными.
-
Стандартные ошибки коэффициентов окажутся смещёнными и неэффективными.
-
Определение: логистическая функция
Функция
\[
F(x) = \frac{1}{1 + e^{-x}}
\]
называется логистической.
-
Определение: логит
Логит — функция, обратная к логистической:
\[
\logit p = \ln \frac{p}{1 - p}.
\]
-
Определение: логит-модель
Логит-модель:
\[
P(y_i = 1) = \frac{1}{1 + e^{-(\beta_1 + \beta_2 x)}}.
\]
-
Какой метод используется для оценки логит-модели?
Для оценки логит-модели используется метод максимального правдоподобия:
-
строят функцию правдоподобия:
\[
\begin{aligned}
L(y_1, \dots, y_n)
&= \prod_{y_i = 1} P(y_i = 1) \cdot \prod_{y_i = 0} P(y_i = 0) = \\
&= \prod_{y_i = 1} \left( \frac{1}{1 + e^{-(\beta_1 + \beta_2 x)}} \right)^{y_i}
\cdot \prod_{y_i = 0} \left( \frac{1}{1 - e^{-(\beta_1 + \beta_2 x)}} \right)^{1 - y_i};
\end{aligned}
\]
-
берут от неё логарифм:
\[
\ln L(y_1, \dots, y_n)
= \sum\limits_{i=1}^{n} y_i \ln \left( \frac{1}{1 + e^{-(\beta_1 + \beta_2 x)}} \right)
+ \sum\limits_{i=1}^{n} (1 - y_i) \ln \left( \frac{1}{1 - e^{-(\beta_1 + \beta_2 x)}} \right);
\]
-
для получения оценок вычисляют производные по $\beta_1, \beta_2$ и приравнивают их к нулю.
-
Определение: пробит-модель
Пробит-модель:
\[
P(Y_i = 1) = \Phi(\beta_1 + \beta_2 x_i^{(2)} + \dots + \beta_k x_i^{(k)}),
\]
где $\Phi$ — функция стандартного нормального распределения:
\[
\Phi(x) = \frac{1}{\sqrt{2 \pi}} \exp\left(- \frac{x^2}{2}\right).
\]
-
Общая формула обобщённой линейной модели
\[
F(Y) = B_0 + B_1 X_1 + \dots + B_N X_N + \varepsilon,
\]
где $F(Y)$ — функция связи.
-
Определение: функция связи
Функция связи — функция $F(Y)$, преобразующая распределение зависимой переменной так, что:
-
оно принимает значение от $-\infty$ до $\infty$;
-
связь зависимой переменной с регрессорами линейна.
-
Определение: accuracy (точность) и error rate (доля ошибок)
Accuracy (точность) — величина, отражающая долю правильно спрогнозированных классов среди всех
образцов:
\[
\operatorname{Accuracy} = \frac{TP + TN}{TP + FP + TN + FN}.
\]
Error rate задаётся как
\[
\operatorname{Error\ rate} = 1 - \operatorname{Accuracy}.
\]
-
Определение: precision
Precision — величина, характеризующая долю правильно предсказанных положительных классов среди
всех образцов, которые модель спрогнозировала положительно:
\[
\operatorname{Precision} = \frac{TP}{TP + FP}.
\]
-
Определение: recall (TPR)
Recall (True positive rate) — величина, отражающая долю правильно предсказанных положительных классов среди всех реальных
положительных образцов:
\[
\operatorname{Recall} = \frac{TP}{TP + FN}.
\]
-
Определение: FPR
False positive rate — величина, отражающая долю ошибочно классифицированных отрицательных
классов относительно всех отрицательных результатов:
\[
\operatorname{FPR} = \frac{FP}{FP + TN}.
\]
-
Определение: TNR
True negative rate — величина, показывающая, насколько хорошо модель классифицирует
отрицательные примеры:
\[
\operatorname{TNR} = \frac{TN}{FP + TN}.
\]
-
Главная гипотеза (предпосылка) ансамблевых методов
Когда «слабые» модели корректно объединены, можно получить более точные результаты.
-
Виды ансамблей (3 шт.)
-
Бэггинг — параллельное обучение однородных моделей, аггрегация их предсказаний;
-
Бустинг — последовательное обучение однородных моделей, каждая минимизирует ошибку
предыдущей.
-
Стекинг — параллельное обучение разнородных моделей, аггрегация их предсказаний;
-
Бэггинг
Пусть $D$ — обучающая выборка размера $n$.
Создадим $m$ бутстреп-выборок $D_i$ размера $n$ путём выборки из $D$ равномерно с возвратом.
Процесс генерации подвыборок с помощью равномерного сэмплирования с возвращением называют бутстрепом (bootstrap).
Далее, на каждой бутстреп-выборке $D_i$ обучим модель при помощи алгоритма $b$, получим модели
\[
b_i(x) = b(x, D_i).
\]
Для получения окончательного предсказания $a(x)$ усредняем предсказания моделей $b_i(x)$:
\[
a(x) = \frac{1}{m} \sum\limits_{i=1}^{m} b_i(x).
\]
-
Определение: бустинг
Бустинг — ансамблевый метод, в котором однородные модели обучаются последовательно.
-
Чем отличаются бэггинг и бустинг?
-
В случае бэггинга базовые алгоритмы учатся независимо и параллельно.
-
В случае бустинга обучение происходит последовательно.
-
Градиентный бустинг
Пусть стоит задача распознавания объектов из многомерного пространства $X$ с пространством меток $Y$.
Строим обучающую выборку размера $n$
\[
\left\{ x_i \right\}_{i=1}^n \subset X,
\]
каждому элементу которой соответствует истинное значение метки:
\[
\left\{ y_i \right\}_{i=1}^n \subset Y.
\]
Построим распознающий оператор, который как можно более точно сможет предсказывать метки для каждого нового
объекта $x \in X$.
Пусть $\mathcal{H}$ — семейство базовых алгоритмов:
\[
\mathcal{H} := \left\{ h = h(x, a): X \to Y \; | \; a \in A \right\},
\]
где $A$ — множество параметров. Каждый базовый алгоритм $h_m(x) := h(x, a_m) \in \mathcal{H}$
определяется некоторым вектором параметров $a_m \in A$.
Будем искать финальный алгоритм классификации в виде следующей композиции:
\[
F_M(x) = \sum\limits_{i=1}^{M} b_i h(x, a_i), \qquad b_i \in \mathbb{R}, \; a_i \in A.
\]
Пусть $L(y_i, F(x_i))$ — функция потерь. Требуется минимизировать ошибку:
\[
Q = \sum\limits_{i=1}^{n} L(y_i, F_M(x_i)) \to \min.
\]
Для начала обучим базовую модель на обучающей выборке:
\[
a_1 = \argmin_{a \in A} \sum\limits_{i=1}^{n} L(y_i, h(x_i, a)).
\]
Тогда
\[
F_1(x) = h(x, a_1).
\]
Следующие слагаемые будем строить жадно. Предположим, что построен классификатор $F_{m-1}$ длины $m-1$.
Будем строить классификатор
\[
F_m(x) = F_{m-1}(x) + b_m h(x, a_m), \qquad b_m \in \mathbb{R}, \; a_m \in A.
\]
Его ошибка:
\[
\begin{aligned}
Q_m
&=
\sum\limits_{i=1}^{n} L(y_i, F_m(x_i))
= \\
&=
\sum\limits_{i=1}^{n} L(y_i, F_{m-1}(x_i) + h(x_i, a_m)).
\end{aligned}
\]
Возникает вопрос: как искать $a_m$?
Для этого будем использовать градиентный спуск — метод нахождения
локального минимума функции при помощи движения вдоль антиградиента. С его помощью будем обучать следующую
модель так, чтобы она уменьшала ошибку предыдущего классификатора $F_{m-1}(x)$.
Разложим функцию потерь $L(y_i, F_{m-1}(x_i) + h(x_i, a))$ в ряд Тейлора в окрестности точки
$(y_i, F_{m-1}(x_i))$:
\[
\begin{aligned}
L(y_i, F_{m-1}(x_i) + h(x_i, a))
&\approx
L(y_i, F_{m-1}(x_i))
+
\left( \cancel{L_{m-1}(x_i)} + h(x_i, a) - \cancel{F_{m-1}(x_i)} \right)
\left. \frac{\partial L(y_i, z)}{\partial z} \right|_{z = F_{m-1}(x_i)}
= \\
&=
L(y_i, F_{m-1}(x_i))
+
h(x_i, a)
\left. \frac{\partial L(y_i, z)}{\partial z} \right|_{z = F_{m-1}(x_i)}.
\end{aligned}
\]
Найдём градиент функции потерь в этой точке:
\[
\frac{\partial L(y_i, F_{m-1}(x_i) + h(x_i, a))}{\partial h(x_i, a)}
=
\left. \frac{\partial L(y_i, z)}{\partial z} \right|_{z = F_{m-1}(x_i)}.
\]
Следовательно, антиградиент равен
\[
r_{mi}
:=
-
\left. \frac{\partial L(y_i, z)}{\partial z} \right|_{z = F_{m-1}(x_i)}.
\]
Обучим модель $h(x, a)$ на обучающей выборке $\left\{ (x_i, r_{mi}) \right\}_{i=1}^n$:
\[
a_m = \argmin_{a \in A} \sum\limits_{i=1}^{n} L(r_{mi}, h(x_i, a)).
\]
Далее, оптимизируем величину шага в направлении антиградиента:
\[
b_m = \argmin_{a \in \mathbb{R}} \sum\limits_{i=1}^{n} L(y_i, F_{m-1}(x_i) + b h(x_i, a_m)).
\]
Задача выше одномерная.
В итоге получаем, что
\[
F_m(x) = F_{m-1}(x) + b_m h(x, a_m).
\]
-
Определение: темп обучения для градиентного бустинга
Одним из способов предотвращения переобучения является настройка скорости обучения (learning rate)
$\eta \in (0, 1]$.
Чем ниже learning rate, тем медленнее мы движемся в направлении антиградиента. Если $\eta$ мало, то шанс
пропустить локальный минимум ниже, но придётся больше времени затратить на сходимость, особенно в случае
выхода на плато.
-
Определение: параметры модели; пример
Параметры модели — обычные параметры, которые настраиваются в процессе обучения
модели на данных.
Веса в линейной регрессии.
-
Определение: гиперпараметры модели; пример
Гиперпараметры модели — характеристики модели, которые фиксируются до начала обучения.
-
Глубина дерева решений.
-
Значение силы регуляризации в линейной модели:
\[
\mathcal{L} = \abs{y - Xw}^2 + C\abs{w}^2 \to \min_{w};
\]
здесь $w$ — параметр, а $C$ — гиперпараметр.
-
Learning rate для градиентного спуска.
-
Как подбирают гиперпараметры?
GridSearch (
перебор по сетке) — метод подбора оптимальных гиперпараметров для модели
путём перебора всех возможных комбинаций значений гиперпараметров из заданного набора:
-
для каждого гиперпараметра фиксируются возможные значения;
-
перебираются всевозможные комбинации значений различных гиперпараметров, на каждой из которых модель
обучается и тестируется;
-
выбирается комбинация, на которой модель показывает лучшее качество.
RandomSearch — метод, при котором для каждого гиперпараметра задаётся распределение, из
которого выбирается его значение, и комбинация гиперпараметров составляется семплированием из
соответствующих распределений.
Существуют также другие методы поиска:
-
байесовская оптимизация;
-
Tree-structured Parzen Estimator (TPE);
-
Population Based Training (PBT).
-
Сравнение методов Grid Search и Random Search
Grid Search — сильные стороны:
-
самый простой для понимания и реализации;
-
тривиально распараллеливается.
Grid Search — слабые стороны:
-
не использует результаты других итераций;
-
ограничен в выборе, заданном сеткой;
-
долго работает, если совершает последовательный переход по сетке.
Random Search — сильные стороны:
-
случайный перебор позволяет находить оптимальные гиперпараметры эффективнее, чем Grid Search;
-
тривиально распараллеливается.
Random Search — слабые стороны:
-
не использует результаты других итераций;
-
ограничен в выборе заданным распределением, хотя и не так жёстко, как Grid Search.
-
Определение: кросс-валидация
Кросс-валидация — процедура для оценки качества работы модели.
-
Виды кросс-валидации
-
Hold-out — выборка делится на две части: обучающую и тестовую.
Если датасет изначально содержит 800 строк данных о котятах и 200 строк данных о щенятах, то,
поделив датасет как 800/200, модель не обучится на данных о щенятах.
-
k-fold:
-
фиксируется некоторое целое число $k$, меньшее чем число семплов (обычно 5-10);
-
датасет разбивается на $k$ одинаковых наборов, называемых фолдами;
-
производится $k$ итераций, на каждой из которой модель обучается на $k-1$ фолдах и тренируется на оставшемся:
-
Стратификация — метод разделения полученных данных на отдельные группы (слои, страты)
в зависимости от выбранного стратифицирующего фактора (чаще всего пропорционального).
Пусть есть выборка, в которой содержатся данные 3-х классов $A, B, C$, причём все три класса
распределены одинаково (то есть по $\approx 33.3%$).
Предположим, что две трети данных используются для обучения, а оставшаяся треть — для теста.
Может возникнуть следующая ситуация:
-
train: распределение классов 38%/28%/34%;
-
test: распределение классов 24%/44%/32%.
В итоге получаем модель, плохо обученную для последующего применения, так как на практике оба класса
встречаются одинаково часто.
-
Планирование инвестиций: постановка задачи
Нужно инвестировать $C$ денежных единиц в течение $n$ лет.
План состоит в покупке акций в начале года и продаже их в конце того же года. Накопленные деньги (или их
часть) могут быть инвестированы в начале следующего года. Прибыль от инвестиций зависит от $m$ условий
рынка: вероятность и прибыль $(p_i, r_i)$.
Сформулируем задачу в виде модели ДП:
-
этап $i$ соответствует $i$-му году инвестирования;
-
альтернативы на каждом этапе — суммы реальных инвестиций $y_i$;
-
состояние системы $j$ на каждом этапе $i$ — доступные для инвестирования средства $x_i$.
Пусть $f_i(t)$ — максимальная ожидаемая сумма денежных средств за годы от $i$ до $n$, при условии,
что в начале года $i$ имеется сумма $x_i$.