Вопросы — Инструменты анализа данных в экономике и финансах

Определение: дисперсия

Дисперсией случайной величины $x$ называют величину \[ D x = E \left[ {(x - E x)}^2 \right] = E x^2 - {(E x)}^2. \]

Определение: стандартное отклонение

Стандартным отклонением случайной величины $x$ называют величину \[ \sigma_x = \sqrt{D x}. \]

Определение: ковариация

Ковариация случайных величин $x$ и $y$: \[ \cov(x,y) = E \left[ (x - Ex) (y - Ey) \right] = \frac{1}{n} \sum\limits_{i=1}^{n} \left[ (x_i - \overline x) (y_i - \overline y) \right]. \]

Ковариация может быть записана как \[ \cov(x,y) = E[xy] - Ex Ey. \]

Определение: выборочная ковариация

Выборочной ковариацией случайных величин $x$ и $y$ называют величину \[ \widehat \cov(x,y) = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i - \overline x) (y_i - \overline y). \]

Выборочная ковариация может быть вычислена как \[ \widehat \cov(x,y) = \overline{xy} - \overline{x} \cdot \overline{y}. \]

Свойства выборочной ковариации

Пусть $b$ — некоторая константа, а $x,y,z$ — случайные величины. Тогда справедливы свойства:

$\widehat \cov(x,b) = 0$;
$\widehat \cov(x, by) = b \cdot \widehat \cov(x,y)$;
$\widehat \cov(x, y + b) = \widehat \cov(x,y)$;
$\widehat \cov(x, y + z) = \widehat \cov(x,y) + \widehat \cov(x,z)$.

Определение: выборочная дисперсия

Выборочной дисперсией случайной величины $x$ называют величину \[ \widehat \var(x) = \frac{1}{n} \sum\limits_{i=1}^{n} {\left( x_i - \overline x \right)}^2. \]

Выборочная дисперсия может быть вычислена как \[ \widehat \var(x) = \overline{x^2} - (\overline x)^2. \]

Свойства выборочной дисперсии

Пусть $b$ — некоторая константа, а $x,y$ — случайные величины. Тогда справедливы свойства:

$\widehat \var(b) = 0$;
$\widehat \var(bx) = b^2 \cdot \widehat \var(x)$;
$\widehat \var(x + b) = \widehat \var(x)$;
$\widehat \var(x + y) = \widehat \var(x) + \widehat \var(y) + 2 \widehat \cov(x,y)$.

Определение: выборочный коэффициент корреляции

Выборочным коэффициентом корреляции случайных величин $x,y$ называют величину \[ \widehat \corr(x,y) = \frac{\widehat \cov(x, y)}{\sqrt{\widehat \var(x) \widehat \var(y)}}. \]

Каковы цели регрессионного анализа?

Оценка влияния независимых переменных на зависимую.
Предсказание значений зависимой переменной на основе новых данных.
Выявление закономерностей и трендов.
Проверка гипотез.

Классификация данных с точки зрения структуры

Пространственные данные (cross section data): данные, собранные о множестве объектов за один момент времени.
Данные о ценах однокомнатных квартир в Москве в ноябре 2024 года.
Временные ряды (time series): данные об одном объекте, собранные в течение нескольких последовательных моментов времени.
Ежедневные данные о курсе доллара, собранные за год.
Панельные данные (panel data): данные о нескольких объектах, собранные в течение нескольких последовательных моментов времени.
Ежегодные данные об уровне инфляции в 50 развивающихся странах, собранные за 10 лет.

Определение: парная линейная регрессия

Парная линейная регрессия задаётся формулой \[ y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n}, \] где

$y_i$ — зависимая (объясняемая) переменная;
$x_i$ — независимая (объясняющая) переменная;
$\beta_1$ — свободный член, показывающий значение $y$, когда $x = 0$;
$\beta_2$ — коэффициент регрессии, который показывает, насколько изменится $y$ при изменении $x$ на одну единицу;
$\varepsilon_i$ — случайная ошибка, учитывающая влияние других, неучтённых переменных;
$n$ — количество наблюдений.

На практике точные значения коэффициентов регрессии $\beta_1$ и $\beta_2$ неизвестны, но можно получить их оценки $\widehat \beta_1, \widehat \beta_2$ на основе собранных статистических данных.

Полученные оценки $\widehat \beta_1, \widehat \beta_2$ являются случайными величинами.

Как ищутся оценки коэффициентов регрессии классической линейной модели парной регрессии?

Оценки $\widehat \beta_1, \widehat \beta_2$ ищутся методом неопределённых коэффициентов (МНК).

Каковы предпосылки классической линейной модели парной регрессии?

Модель линейна по параметрам и корректно специфицирована: \[ y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n}. \]
$x_1, \dots, x_n$ — детерминированные величины, не все равные друг другу.
Математическое ожидание случайных ошибок равно нулю: \[ E \varepsilon_i = 0. \]
Дисперсия случайной ошибки одинакова для всех наблюдений: \[ D \varepsilon_i = \sigma^2 = \const. \] Это значит, что случайные ошибки гомоскедастичны.
Случайные ошибки, относящиеся к разным наблюдениям, взаимно независимы: \[ \cov(\varepsilon_i, \varepsilon_j) = 0. \]
Случайные ошибки имеют нормальное распределение: \[ \varepsilon_i \sim N(0, \sigma^2). \]

Определение: гомоскедастичность

Говорят, что случайные ошибки $\varepsilon_i$ гомоскедастичны, если их дисперсия постоянна: \[ D \varepsilon_i = \sigma^2 = \const. \]

Определение: гетероскедастичность

Говорят, что случайные ошибки $\varepsilon_i$ гомоскедастичны, если их дисперсия не является постоянной: \[ D \varepsilon_i = \sigma_i^2 \neq \const. \]

Определение: несмещённая оценка

Оценка $\widehat \theta$ параметра $\theta$ называется несмещённой, если её мат. ожидание совпадает с точной оценкой: \[ E \widehat \theta = \theta. \]

Определение: эффективная оценка

Оценка $\widehat \theta$ параметра $\theta$ называется эффективной в некотором классе оценок, если её дисперсия является минимальной среди всех оценок этого класса.

Можно считать, что эффективная оценка является «наиболее точной».

Теорема Гаусса‐Маркова

(Гаусса‐Маркова).
Если выполнены предпосылки 1‐5 классической линейной модели парной регрессии:

модель линейна по параметрам и корректно специфицирована: \[ y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n}; \]
$x_1, \dots, x_n$ — детерминированные величины, не все равные друг другу;
математическое ожидание случайных ошибок равно нулю: \[ E \varepsilon_i = 0; \]
дисперсия случайной ошибки одинакова для всех наблюдений: \[ D \varepsilon_i = \sigma^2; \]
случайные ошибки, относящиеся к разным наблюдениям, взаимно независимы: \[ \cov(\varepsilon_i, \varepsilon_j) = 0; \]

то МНК‐оценки коэффициентов $\widehat \beta_1, \widehat \beta_2$ будут:

несмещёнными;
эффективными в классе всех несмещённых и линейных по $y$ оценок.

Линейность по $y$ означает, что рассматриваются все оценки, которые могут быть представлены в виде линейной комбинации значений объясняемой переменной: \[ \sum\limits_{i=1}^{n} c_i y_i. \]

Определение: множественная линейная регрессия

Множественная линейная регрессия задаётся формулой \[ y_i = \beta_1 + \beta_2 x_i^{(2)} + \dots + \beta_k x_i^{(k)} + \varepsilon_i, \qquad i = \overline{1,n}, \] где

$y_i$ — зависимая переменная;
$x_i^{(2)}, \dots, x_i^{(k)}$ — независимые переменные (регрессоры);
$\beta_1$ — свободный член;
$\beta_2, \dots, \beta_k$ — коэффициенты регрессии;
$\varepsilon_i$ — случайная ошибка, учитывающая влияние других, неучтённых переменных;
$k$ — число коэффициентов (или регрессоров) модели;
$n$ — количество наблюдений.

Модель удобно представлять в виде: \[ y_i = \beta_1 x_i^{(1)} + \beta_2 x_i^{(2)} + \dots + \beta_k x_i^{(k)} + \varepsilon_i, \qquad i = \overline{1,n}, \] где $x_i^{(1)} \equiv 1, \quad i = \overline{1,n}$.

Каковы предпосылки классической линейной модели множественной регрессии?

Модель линейна по параметрам и корректно специфицирована: \[ y_i = \beta_1 + \beta_2 x_i^{(2)} + \dots + \beta_k x_i^{(k)} + \varepsilon_i, \qquad i = \overline{1,n}. \]
$x_i^{m}, \quad m = \overline{2,k}, \; i = \overline{1,n}$ — детерминированные линейно независимые величины.
Математическое ожидание случайных ошибок равно нулю: \[ E \varepsilon_i = 0. \]
Дисперсия случайной ошибки одинакова для всех наблюдений: \[ D \varepsilon_i = \sigma^2 = \const. \] Это значит, что случайные ошибки гомоскедастичны.
Случайные ошибки, относящиеся к разным наблюдениям, взаимно независимы: \[ \cov(\varepsilon_i, \varepsilon_j) = 0. \]
Случайные ошибки имеют нормальное распределение: \[ \varepsilon_i \sim N(0, \sigma^2). \]

Метод наименьших квадратов

МНК — такой способ проведения регрессионной линии, что сумма квадратов отклонений отдельных значений зависимой переменной от неё была минимальной.

Пусть $y_i$ — координата точки по оси $y$, а $\widehat y_i$ — предсказанное значение. Тогда \[ e_i = y_i - \widehat y_i, \] где $e_i$ — расстояние от $y$ до линии регрессии (остаток регрессии).

Суммируя квадраты остатков, получаем: \[ RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2. \]

RSS (Residual Sum of Squares) — сумма квадратов разниц между фактическими и предсказанными линейной регрессией значениями зависимой переменной.

Требуется минимизировать RSS: \[ RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2 \to \min. \]

Учитывая, что $\widehat y_i = a x_i + b$, найдём частные производные: \[ \begin{aligned} \frac{\partial RSS}{\partial a} &= {\left( \sum\limits_{i=1}^{n} {\left[ y_i - (a x_i + b) \right]}^2 \right)}_a' = \\ &= \sum\limits_{i=1}^{n} \left[ 2 (y_i - (a x_i + b)) \cdot (-x_i) \right] = \\ &= 2 \sum\limits_{i=1}^{n} \left( a x_i^2 + b x_i - x_i y_i \right), \\ \frac{\partial RSS}{\partial b} &= {\left( \sum\limits_{i=1}^{n} {\left[ y_i - (a x_i + b) \right]}^2 \right)}_b' = \\ &= \sum\limits_{i=1}^{n} \left[ 2 (y_i - (a x_i + b)) \cdot (-1) \right] = \\ &= 2 \sum\limits_{i=1}^{n} \left( a x_i + b - y_i \right). \end{aligned} \] Приравнивая полученные производные к нулю, получаем следующую систему: \[ \begin{aligned} \sum\limits_{i=1}^{n} \left( a x_i^2 + b x_i - x_i y_i \right) &= 0, \\ \sum\limits_{i=1}^{n} \left( a x_i + b - y_i \right) &= 0. \end{aligned} \]

Стоит отметить, что исходная функция является положительно определённой, поэтому решение этой системы будет точкой минимума.

Разбиваем суммы: \[ \begin{aligned} a \sum\limits_{i=1}^{n} x_i^2 + b \sum\limits_{i=1}^{n} x_i &= \sum\limits_{i=1}^{n} x_i y_i, \\ a \sum\limits_{i=1}^{n} x_i + n b &= \sum\limits_{i=1}^{n} y_i. \end{aligned} \] Положим \[ \widehat \beta_1 := a, \qquad \widehat \beta_2 := b, \] тогда получаем систему \[ \begin{aligned} \widehat \beta_2 \sum\limits_{i=1}^{n} x_i^2 + \widehat \beta_1 \sum\limits_{i=1}^{n} x_i &= \sum\limits_{i=1}^{n} x_i y_i, \\ \widehat \beta_2 \sum\limits_{i=1}^{n} x_i + n \widehat \beta_1 &= \sum\limits_{i=1}^{n} y_i. \end{aligned} \] Поделим оба уравнения на $n$, получаем: \[ \begin{aligned} \widehat \beta_2 \overline{x^2} + \widehat \beta_1 \overline x &= \overline{xy}, \\ \widehat \beta_2 \overline x + \widehat \beta_1 &= \overline y. \end{aligned} \] Выражая искомые оценки коэффициентов линейной парной регрессии, получаем: \[ \begin{aligned} \widehat \beta_2 &= \frac{\overline{xy} - \overline{x} \cdot \overline{y}}{\overline{x^2} - \overline{x}^2}, \\ \widehat \beta_1 &= \overline y - \widehat \beta_2 \overline x, \end{aligned} \] или, вспоминая формулы \[ \begin{aligned} \widehat \cov(x,y) &= \frac{1}{n} \sum\limits_{i=1}^{n} (x_i - \overline x) (y_i - \overline y), \\ \widehat \var(x) &= \frac{1}{n} \sum\limits_{i=1}^{n} {(x_i - \overline x)}^2, \end{aligned} \] окончательно имеем \[ \begin{aligned} \widehat \beta_2 &= \phantom{\overline y -} \frac{\widehat \cov(x,y)}{\widehat \var(x)}, \\ \widehat \beta_1 &= \overline y - \frac{\widehat \cov(x,y)}{\widehat \var(x)} \overline x. \end{aligned} \]

Свойства остатков регрессии $e_i$, полученных в процессе применения МНК

Пусть $e_i = y_i - \widehat y_i$. Тогда справедливы свойства:

$\sum\limits_{i=1}^{n} e_i = 0$;
$\sum\limits_{i=1}^{n} x_i e_i = 0$;
$\sum\limits_{i=1}^{n} y_i = \sum\limits_{i=1}^{n} \widehat y_i$;
$\sum\limits_{i=1}^{n} (\widehat y_i - \overline y) e_i = 0$ или $\widehat \cov(\widehat y, e) = 0$.

Как оценить качество полученной регресии?

Пусть $\widehat \beta_1, \widehat \beta_2$ — коэффициенты регрессии, полученные МНК.

Чтобы оценить качество полученной регрессии (то, насколько хорошо линия регрессии соответствует фактическим данным), можно сделать следующее.

Для начала выразим переменную $y$ через остатки и предсказанные значения $\widehat y_i$: \[ e_i = y_i - \widehat y_i \implies y_i = e_i + \widehat y_i. \] Теперь вычислим выборочную дисперсию этой переменной: \[ \begin{aligned} \widehat \var(y) &= \widehat \var(e + \widehat y) = \\ &= \widehat \var(e) + \widehat \var(\widehat y) + 2 \cov(e, \widehat y). \end{aligned} \] Заметим, что $\cov(e, \widehat y) = 0$, поэтому \[ \widehat \var(y) = \widehat \var(e) + \widehat \var(\widehat y), \] или, что то же самое, \[ \frac{1}{n} \sum\limits_{i=1}^{n} {(y_i - \overline{y})}^2 = \frac{1}{n} \sum\limits_{i=1}^{n} {(e_i - \overline{e})}^2 + \frac{1}{n} \sum\limits_{i=1}^{n} {(\widehat y_i - \overline{y})}^2. \] Теперь, пользуясь свойствами остатков регрессии:

$\overline e = 0$;
$\overline y = \overline {\widehat y}$

и домножая полученное равенство на $n$, окончательно имеем \[ \sum\limits_{i=1}^{n} {(y_i - \overline{y})}^2 = \sum\limits_{i=1}^{n} e_i^2 + \sum\limits_{i=1}^{n} {(\widehat y_i - \overline{y})}^2. \] Этот факт записывают следующим образом: \[ TSS = ESS + RSS, \] где

$TSS = \sum\limits_{i=1}^{n} {(y_i - \overline{y})}^2$ — общая сумма квадратов;
$ESS = \sum\limits_{i=1}^{n} {(\widehat y_i - \overline{y})}^2$ — объяснённая регрессией сумма квадратов;
$RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2$ — необъяснённая регрессией сумма квадратов (сумма квадратов остатков).

Чем лучше построенная модель соответствует фактическим данным, тем меньше сумма квадратов остатков, следовательно, тем ближе ESS к TSS. Иными словами, если модель хорошо соответствует данным, то дробь \[ \frac{ESS}{TSS} = \frac{ \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2 }{ \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2 } \] близка к единице, а в идеальном случае дробь равна единице.

Напротив, чем хуже линия регрессии описывает фактические данные, тем ближе отношение $\dfrac{ESS}{TSS}$ к нулю.

На этой идее основывается использование коэффициента $R^2$.

Коэффициент детерминации $R^2$ задаётся как \[ R^2 = 1 - \frac{RSS}{TSS} = \frac{TSS - RSS}{TSS} = \frac{ESS}{TSS}. \] Его также можно представить в виде \[ \begin{aligned} R^2 = \frac{ESS}{TSS} &= \frac{ \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2 }{ \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2 } = \\ &= \frac{ \frac{1}{n} \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2 }{ \frac{1}{n} \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2 } = \\ &= \frac{\widehat \var (\widehat y)}{\widehat \var (y)}. \end{aligned} \]

Понятно, что $R^2 \in [0, 1]$.

Чему равна стандартная ошибка МНК-оценки $\widehat \beta_1$?

Пусть $S^2$ — несмещённая оценка дисперсии $\sigma^2$ случайной ошибки: \[ S^2 = \frac{1}{n-2} \sum\limits_{i=1}^{n} e_i^2. \]

Стандартной ошибкой $\se(\widehat \beta_1)$ МНК-оценки $\widehat \beta_1$ называют величину \[ \se(\widehat \beta_1) = \sqrt{\widehat \var (\widehat \beta_1)} = \sqrt{ \frac{S^2 \cdot \overline{x^2} }{\sum\limits_{i=1}^{n} {(x_i - \overline x)}^2} }. \]

Чему равна стандартная ошибка МНК-оценки $\widehat \beta_2$?

Пусть $S^2$ — несмещённая оценка дисперсии $\sigma^2$ случайной ошибки: \[ S^2 = \frac{1}{n-2} \sum\limits_{i=1}^{n} e_i^2. \]

Стандартной ошибкой $\se(\widehat \beta_2)$ МНК-оценки $\widehat \beta_2$ называют величину \[ \se(\widehat \beta_2) = \sqrt{\widehat \var (\widehat \beta_2)} = \sqrt{ \frac{S^2}{\sum\limits_{i=1}^{n} {(x_i - \overline x)}^2} }. \]

Гипотеза о независимости переменных

Рассмотрим КЛМПР: \[ y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n}. \] Рассмотрим две гипотезы:

Нулевая гипотеза $H_0: \beta_2 = 0$ — переменная $x$ не влияет на $y$;
Альтернативная гипотеза $H_1: \beta_2 \neq 0$ — переменная $x$ влияет на $y$.

Для проверки гипотезы понадобится расчётное значение тестовой статистики: \[ t_\mbox{расч} = \frac{\widehat \beta_2}{\se(\widehat \beta_2)}, \] где $\se(\widehat \beta_2)$ — стандартная ошибка коэффициента: \[ \se(\widehat \beta_2) = \sqrt{ \frac{S^2}{\sum\limits_{i=1}^{n} {(x_i - \overline x)}^2} }. \] Здесь $S$ — несмещённая оценка дисперсии $\sigma^2$ случайной ошибки (среднеквадратичное отклонение остатков): \[ S^2 = \frac{1}{n-2} \sum\limits_{i=1}^{n} e_i^2 = \frac{1}{n - 2} \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2. \]

Зададим уровень значимости $\alpha$ — вероятность ошибки первого рода, то есть вероятность отклонить проверяемую гипотезу при условии, что в действительности эта гипотеза верна.

Критическим значением тогда будет являться $t_{n-2}^{\alpha/2}$ — значение распределения Стьюдента для $(n-2)$ степеней свободы и выбранного уровня значимости $\alpha$.

Тогда, если выполняется неравенство \[ \abs{ \frac{\widehat \beta_2}{\se(\widehat \beta_2)} } \gt t_{n-2}^{\alpha/2}, \] то гипотезу $H_0$ следует отвергнуть, то есть следует сделать вывод о том, что $x$ влияет на $y$. В этом случае переменную $x$ называют статистически значимой при уровне значимости $\alpha$.

В противном случае нет оснований отвергнуть гипотезу $H_0$, а переменную $x$ называют статистически незначимой при уровне значимости $\alpha$.

Аналогично можно проверять гипотезу $H_0: \beta_2 = c$ против альтернативной гипотезы $H_1: \beta_2 \neq c$. Тогда расчётное значение тестовой статистики задаётся формулой \[ t_\mbox{расч} = \frac{\widehat \beta_2 - c}{\se(\widehat \beta_2)}. \]

Почему тестовая статистика $t_\mbox{расч}$ имеет распределение Стьюдента?

Это следует из 6 предпосылки КЛМПР о том, что случайные ошибки имеют нормальное распределение: \[ \varepsilon_i \sim N(0, \sigma^2). \]

Построение доверительного интервала для коэффициента $\hat \beta_2$ парной регрессии

Рассмотрим классическую линейную модель парной регрессии: \[ y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \qquad i = \overline{1,n}. \] Пусть $\alpha$ — заданный уровень значимости. Зная распределение коэффициента $\widehat \beta_2$, можно утверждать, что с вероятностью $1 - \alpha$ выполняется неравенство \[ \abs{ \frac{\widehat \beta_2 - \beta_2}{\se(\widehat \beta_2)} } \lt t_{n-2}^{\alpha/2}. \] Решив это неравенство относительно $\beta_2$, получаем, что \[ \widehat \beta_2 - \se(\widehat \beta_2) t_{n-2}^{\alpha/2} \lt \beta_2 \lt \widehat \beta_2 + \se(\widehat \beta_2) t_{n-2}^{\alpha/2}. \] Следовательно, доверительный интервал для $\beta_2$ имеет вид \[ \left( \widehat \beta_2 - \se(\widehat \beta_2) t_{n-2}^{\alpha/2}; \; \widehat \beta_2 + \se(\widehat \beta_2) t_{n-2}^{\alpha/2} \right). \]

Оценка качества регрессии: $F$-статистика

Кроме проверки значимости отдельных коэффициентов, важно выяснить, является ли рассматриваемая модель в целом статистически значимой.

Рассмотрим две гипотезы:

$H_0$: все коэффициенты регрессии равны нулю;
$H_1$: по крайней мере один из коэффициентов не равен нулю, то есть модель является статистически значимой.

Рассмотрим тестовую статистику, которую называют $F$-статистикой: \[ F_\mbox{расч} = \frac{R^2 / (k-1)}{(1 - R^2) / (n - k)}, \] где $k$ — количество степеней свободы (число коэффициентов в модели линейной регрессии).

В КЛМПР $k = 2$, поэтому $F$-статистика принимает вид \[ F_\mbox{расч} = (n-2) \frac{R^2}{1 - R^2}. \]

Далее, находим критическое значение $F_\mbox{кр}$ распределения Фишера со степенями свободы $(k-1, n-k)$ и выбранного уровня значимости $\alpha$:

если $F_\mbox{расч} < F_\mbox{кр}$, то нет оснований отвергнуть гипотезу $H_0$, то есть модель является статистически незначимой при уровне значимости $\alpha$;
в противном случае гипотеза $H_0$ отвергается, а модель признаётся статистически значимой.

Для случая парной регрессии $F_\mbox{расч} = t_\mbox{расч}^2$.

\[ \begin{aligned} F_\mbox{расч} &= \frac{ESS}{RSS / (n - 2)} = \\ &= \frac{\sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2}{\left( \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2 \right) / (n - 2)} = \\ &= \frac{\sum\limits_{i=1}^{n} {\left[ (\widehat \beta_1 + \widehat \beta_2 x_i) - \sum\limits (\widehat \beta_1 + \widehat \beta_2) \right]}^2} {\sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2 / (n - 2)} = \\ &= \frac{\sum\limits_{i = 1}^{n} \widehat \beta_2^2 (x_i - \overline x)^2}{s^2} = \\ &= \frac{\widehat \beta_2^2}{s^2 / \sum\limits_{i=1}^{n} (x_i - \overline x)^2} = \\ &= \left( \frac{\widehat \beta_2}{\se (\widehat \beta_2)} \right)^2 = \\ &= t_\mbox{расч}^2. \end{aligned} \]

Определение: строгая мультиколлинеарность

Говорят, что имеет место строгая мультиколлинеарность, если между регрессорами в модели есть точная линейная связь, то есть когда одна объясняющая переменная точным образом линейно выражается через другие.

Можно ли вычислить МНК-оценки коэффициентов регрессии, когда имеет место строгая мультиколлинеарность?

Нет, нельзя: при полной мультиколлинеарности столбцы матрицы регрессоров $X$ является вырожденной, поэтому матрица $(X^T X)^{-1}$ не определена.

Как можно избавиться от строгой мультиколлинеарности?

От строгой мультиколлинеарности можно избавиться, исключив линейно зависимые переменные.

Определение: нестрогая мультиколлинеарность

Говорят, что имеет место нестрогая мультиколлинеарность, если между регрессорами в модели отсутствует точная линейная связь, но они сильно коррелируют между собой.

Какое негативное влияние оказывает нестрогая мультиколлинеарность?

При нестрогой мультиколлинеарности можно вычислить МНК-оценки коэффициентов регрессии, но их стандартные ошибки оказываются высокими, а точность оценок — низкой.

Почему при нестрогой мультиколлинеарности МНК-оценки оказываются неточными?

Это происходит из-за того, что при сильной корреляции двух регрессоров в выборке они, как правило, меняются одновременно, поэтому оказывается трудно отличить влияние одного регрессора от другого.

Происходит ли смещение МНК-оценок при нестрогой мультиколлинеарности?

Нет — все предпосылки КЛММР соблюдаются.

Причины мультиколлинеарности

Высокая корреляция между объясняющими переменными (например, одна переменная является линейной комбинацией двух других).
Присутствие фиктивных переменных (если все категории включены в модель).

Последствия мультиколлинеарности

Нестабильные оценки коэффициентов — небольшое изменение исходных данных влечёт за собой существенное изменение МНК-оценок коэффициентов регрессии.
Увеличение стандартных ошибок.
Незначимость большинства переменных — каждая переменная в отдельности является незначимой, а уравнение в целом является значимым и характеризуется близким к единице коэффициентом $R^2$.
Проблемы с интерпретацией (сложно понять, какая переменная влияет на зависимую и в каком направлении).

Как выявить мультиколлинеарность?

О существенной частичной мультиколлинеарности можно судить по следующим признакам:

большие по модулю парные коэффициенты корреляции между регрессорами (больше 0.9); выявить можно по матрице корреляции;
близость к нулю определителя матрицы $X^T X$;
большие значения коэффициентов VIF (больше 10).

Определение: коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона задаётся формулой \[ r_{xy} = \frac{ \sum\limits_{i=1}^{n} (x_i - \overline x) (y_i - \overline y) }{ \sqrt{ \sum\limits_{i=1}^{n} {(x_i - \overline x)}^2 } \sqrt{ \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2 } } = \frac{\cov(x,y)}{\sigma_x \sigma_y}. \]

Трактовка:

$r_{xy}$ принимает значения на промежутке $[-1, 1]$;
знак $r_{xy}$ показывает направление связи (прямая или обратная);
абсолютная величина $r_{xy}$ показывает силу связи.

Определение: матрица корреляции

Матрицей корреляции называют матрицу, в позиции $(i,j)$ которой стоит коэффициент корреляции между переменными $i$ и $j$: \[ R = \begin{pmatrix} 1 & r_{12} & r_{13} & \dots & r_{1n} \\ r_{21} & 1 & r_{23} & \dots & r_{2n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ r_{n1} & r_{n2} & r_{n3} & \dots & 1 \end{pmatrix}, \] где $r_{ij}$ — коэффициент корреляции Пирсона между переменными $i$ и $j$.

Матрицу корреляции можно изобразить в виде heatmap, по которой можно найти переменные с сильной корреляцией.

Определение: VIF

VIF (variance inflation factor) — коэффициенты, показывающие, насколько сильно связаны друг с другом регрессоры модели.

Чтобы определить коэффициент VIF, соответствующий регрессору $x^{(j)}$, нужно оценить вспомогательную регрессию, в которой слева стоит $x^{(j)}$, а справа — все остальные объясняющие переменные исходной модели.

После этого нужно вычислить коэффициент VIF по формуле \[ \operatorname{VIF} = \frac{1}{1 - R^2}, \] где $R^2$ — коэффициент детерминации из оценённой вспомогательной регрессии.

Если коэффициенты VIF всех регрессоров меньше 10, то существенной мультиколлинеарности в модели не наблюдается.

Определение: VIF

VIF (variance inflation factor) — коэффициенты, показывающие, насколько сильно связаны друг с другом регрессоры модели.

Как бороться с мультиколлинеарностью?

Увеличение количества наблюдений (если возможно).
Удаление сильно коррелирующих регрессоров — есть риск получить смещение МНК-оценок в результате пропуска существенной переменной.
Комбинирование переменных (объединение коррелирующих переменных в одну).
Регуляризация (использование методов регуляризации, таких как Ridge или Lasso регрессий).

Определение: регуляризация

Регуляризация — метод добавления некоторых дополнительных ограничений к условию с целью решить некорректно поставленную задачу или предотвратить переобучение.

Пример: LASSO-регуляризация

LASSO-регуляризация задаётся формулой \[ J_\mbox{LASSO} = \sum\limits_{i=1}^{n} (y_i - \widehat y_i)^2 + \lambda \norm{\beta}_1, \] где $\lambda$ — гиперпараметр. На коэффициенты $\beta$ накладываются дополнительное ограничение вида \[ \sum\limits_{i=1}^{n} \abs{\beta_i} \leqslant t, \] где $t$ — обратно пропорциональная $\lambda$ величина.

Чем больше $\lambda$, тем сильнее модель штрафуется за величину коэффициентов и их количество.

Пример: RIDGE-регуляризация

RIDGE-регуляризация задаётся формулой \[ J_\mbox{RIDGE} = \sum\limits_{i=1}^{n} (y_i - \widehat y_i)^2 + \lambda \beta^2, \] где $\lambda$ — гиперпараметр. На коэффициенты $\beta$ накладываются дополнительное ограничение вида \[ \sum\limits_{i=1}^{n} \beta_i^2 \leqslant t, \] где $t$ — обратно пропорциональная $\lambda$ величина.

Чем больше $\lambda$, тем сильнее модель штрафуется за величину коэффициентов и их количество.

Может ли LASSO-регуляризация занулить МНК-оценки коэффициентов регрессии?

Да.

Может ли RIDGE-регуляризация занулить МНК-оценки коэффициентов регрессии?

Нет.

Определение: фиктивная переменная

Фиктивной переменной называют качественную переменную, принимающую значения 0 либо 1, включаемую в модель для учёта влияния качественных признаков на объясняемую переменную.

Фиктивную переменную включают в модель линейной регресии, когда подозревают качественную зависимость.

Если качественная переменная имеет $k$ альтернативных значений, то при моделировании используется только $k - 1$ фиктивных переменных.

Почему для признака, принимающего $m$ возможных значений, используется $m-1$ фиктивная переменная?

Если включать в модель $m$ фиктивных переменных, то столкнёмся с чистой мультиколлинеарностью.

Определение: фиктивная переменная наклона

Если есть подозрение, что с ростом одного регрессора $x_i$ линейно изменяется разница между значениями качественной переменной $d_i$, для вычисления этого изменения вводят фиктивные переменные наклона $x_i d_i$.

Проверка центрированности

Чтобы проверить, равняется ли мат. ожидание случайной ошибки нулю или нет, можно воспользоваться статистическими критериями

Колмогорова-Смирнова;
Стьюдента.

Иногда случайная составляющая (ошибка) будет положительной, иногда отрицательной, но она не должна иметь систематического смещения ни в одном из двух возможных направлений.

Высказываем гипотезы:

$H_0: E \varepsilon = \mu_0 = 0$;
$H_1: E \varepsilon \neq \mu_0 = 0$.

Расчётная статистика: \[ t = \frac{\overline \varepsilon - \mu_0}{s_\varepsilon / \sqrt{n}}, \] где $s_\varepsilon$ — несмещённая оценка дисперсии случайной ошибки.

Проверка гомоскедастичности

$H_0$: ошибка гомоскедастична;
$H_1$: ошибка гетероскедастична.

Существует два теста:

тест Бройша—Пагана.
1. Рассматриваем уравнение регрессии: $y_i = \beta_1 + \beta_2 x_{2i} + \dots + \beta_k x_{ki} + \varepsilon_i$.
2. Ищем МНК-оценки и вычисляем RSS.
3. В предположении гомоскедастичности случайных ошибок строим состоятельную оценку дисперсии ошибок: \[ \widehat \sigma^2 = RSS / n. \]
4. Ищем МНК-оценки для новой регрессионной модели: \[ \frac{e_i}{\widehat \sigma^2} = \gamma_1 + \gamma_2 z_{2i} + \dots + \gamma_k z_{ki} + \eta_i, \] где в качестве $z_i$ обычно берут $x_i$.
5. В качестве тестовой статистики берём $\operatorname{ESS} / 2$, где $\operatorname{ESS}$ — объяснённая часть вспомогательной регрессионной модели.
6. В случае гомоскедастичности тестовая статистика подчиняется распределению $\chi^2_{k-1}$.
  Также тут надо требовать, чтобы ошибки имели нормальное распределение (см. предпосылку 6).
тест Голфелда—Квандта.
1. Рассматриваем уравнение регрессии: $y_i = \beta_1 + \beta_2 x_{2i} + \dots + \beta_k x_{ki} + \varepsilon_i$.
2. Упорядочиваем наблюдения по возрастанию $x_j$ — переменной, относительно которой имеется подозрение на гетероскедастичность.
3. Оцениваем исходную регрессионную модель обычным МНК для двух выборок:
  - для первых $n_1$ наблюдений;
  - для последних $n_2$ наблюдений.
4. Вычисляем $\operatorname{RSS}_1$ и $\operatorname{RSS}_2$, строим тестовую статистику: \[ F_\mbox{расч} = \frac{\operatorname{RSS}_1 / (m_1 - k)}{\operatorname{RSS}_2 / (m_2 - k)}. \]
5. Данная статистика при отсутствии гетероскедастичности имеет распределение Фишера $F(m_1 - k, m_2 - k)$.

Проверка на автокорреляцию

Проверяем, присутствует ли систематическая связь между значениями остатков любых двух наблюдений. Случайные составляющие должны быть взаимно независимы.

Тест Дарбина—Уотсона — проверка автокорреляции первого порядка между остатками регрессии
1. Ищем МНК-оценки и вычисляем остатки $e_i$.
2. Строим статистику Дарбина—Уотсона: \[ \operatorname{DW} = \frac{\sum\limits_{i=1}^{n} (e_i - e_{i-1})^2}{\sum\limits_{i=1}^{n} e_i^2}. \] Чем больше $n$, тем ближе $DW$ к $2 (1 - \rho_1)$, где $\rho_1$ — коэффициент автокорреляции первого порядка.
3. - Отсутствие автокорреляции — $\rho_1 = 0 \implies DW \approx 2$;
  - Положительная автокорреляция — $\rho_1 = 1 \implies DW \approx 0$;
  - Отрицательная автокорреляция — $\rho_1 = -1 \implies DW \approx 4$.
Тест Бройша—Годфри — подходит для проверки автокорреляции любого порядка.
1. Проверка автокорреляции порядка $p$: строим вспомогательную регрессионную модель: \[ e_i = \beta_1 + \beta_2 x_{2i} + \dots + \beta_k x_{ki} + \sum\limits_{j=1}^{p} a_j e_{i - k} + \varepsilon_i. \]
2. Высказываем гипотезу об одновременном равенстве нулю $a_j$. Строим тестовую статистику: $(n-p)R^2$, где $R^2$ — коэффициент детерминации вспомогательной модели, а $n$ — объём исходной выборки.
3. В случае отсутствия автокорреляции тестовая статистика имеет асимптотическое распределение $\chi_p^2$. Если LM > крит. значение, то АК признаётся значимой.

Проверка некоррелированности

Остатки должны быть распределены независимо от объясняющих переменных: \[ \cov(x_i, e_i) = 0. \]

Для проверки используют ранговый тест Спирмена:

для каждой пары $(x_i, e_i)$ вычисляем ранги $(R[x_i], R[e_i])$ (под рангом подразумевается порядковый номер данной величины в отсортированном массиве всех подобных величин);
вычисляем величину \[ R_s = 1 - \frac{6 \sum\limits_{i=1}^{n} d_i^2}{n(n^2 - 1)}, \qquad d_i \equiv R[x_i] - R[e_i]. \]
Тут мы считаем, что нет одинаковых величин $x_i$ и $e_i$. Если они есть, надо считать так: \[ R_s = \rho(R[x], R[e]), \] где $\rho$ — коэффициент корреляции Пирсона.
строим статистику \[ t_\mbox{расч} = R_s \sqrt{ \frac{n-2}{1 - R_s^2} }, \] которая в случае отсутствия корреляции подчиняется распределению Стьюдента с $n-2$ степенями свободы.

Определение: панельные данные

Панельные данные — пролонгированные пространственные выборки, где каждый объект наблюдается многократно на протяжении отрезка времени.

Сколько измерений насчитывают панельные данные?

Три:

признаки;
объекты;
время.

Представление панельных данных

Панельные данные можно представлять в виде long panel dataset:

Группа	Период времени	Обозначение
$1$	$1$	$X_{11}$
$1$	$2$	$X_{12}$
$\dots$	$\dots$	$\dots$
$1$	$T$	$X_{1T}$
$\dots$	$\dots$	$\dots$
$N$	$1$	$X_{N1}$
$N$	$2$	$X_{N2}$
$\dots$	$\dots$	$\dots$
$N$	$T$	$X_{NT}$

Также их можно представлять в виде wide panel dataset:

Время	Группа 1	Группа 2	$\dots$	Группа $N$
$1$	$X_{11}$	$X_{21}$	$\dots$	$X_{N1}$
$2$	$X_{12}$	$X_{22}$	$\dots$	$X_{N2}$
$\dots$	$\dots$	$\dots$	$\dots$	$\dots$
$T$	$X_{1T}$	$X_{2T}$	$\dots$	$X_{NT}$

Определение: эндогенный регрессор

Регрессор называют эндогенным, если он коррелирует со случайными ошибками в модели.

Определение: экзогенный регрессор

Регрессор называют экзогенным, если он не коррелирует со случайными ошибками в модели.

Преимущества панельных данных

Большое количество наблюдений.
Возможность отслеживать динамику для множества объектов.
Дополнительный способ устранить эндогенность.

Определение: сбалансированная панель

Панель называют сбалансированной, если общее число наблюдений равняется $N \cdot T$.

Определение: несбалансированная панель

Панель называют несбалансированной, если общее число наблюдений < $N \cdot T$.

Можно ли для несбалансированной панели использовать те же методы оценивания, что и для сбалансированной?

Да, но только в том случае, если возникновение пропусков является экзогенным.

Как неоднородность моделируемых объектов может затруднить оценивание?

Рассмотрим модель: \[ y_{it} = \beta x_{it} + \mu_i + \varepsilon_{it}, \] где

$y_{it}$ — описываемая переменная;
$x_{it}$ — описывающая переменная;
$\varepsilon_{it}$ — случайные ошибки модели;
$\mu_i$ — ненаблюдаемые величины, характеризующие специфику объектов.

Имеем дилемму:

с одной стороны, мы не можем включить $\mu_i$ в модель, так как эти величины являются ненаблюдаемыми;
с другой стороны, если $\mu_i$ коррелированы с интересующими нас $x_{it}$, то их невключение приведёт к несостоятельности оценки коэффициента $\beta$ из-за пропуска существенной переменной.

Модель сквозной регрессии

Модель задаётся уравнением \[ y_{it} = \beta x_{it} + \alpha + \varepsilon_{it}, \qquad t = \overline{1,T}. \] Решается обычным МНК: \[ \widehat \beta_\mbox{OLS} = (X^T X)^{-1} X^T y. \]

Модель с фиксированными эффектами, предпосылки

Предпосылки модели с фиксированными эффектами:

модель линейна по параметрам: \[ y_{it} = \beta x_{it} + \mu_i + \varepsilon_{it}, \qquad t = \overline{1,T}; \]
наблюдения \[ x_{it}, \varepsilon_{it}, \qquad i = \overline{1,n}, \quad t = \overline{1,T} \] независимы и одинаково распределены.
Эта предпосылка не требует независимости между значениями регрессоров, относящихся к одному объекту, но в разные моменты времени: например, допустимо, чтобы $x_{i3}$ был коррелирован с $x_{i2}$.
$x_{it}$ и $\varepsilon_{it}$ имеют ненулевые конечные четвёртые моменты распределения: \[ E(x_{it}^4) \lt \infty, \qquad E(\varepsilon_{it}^4) \lt \infty; \]
случайные ошибки имеют нулевое условное мат. ожидание: \[ E(\varepsilon_{it} | x_{i1}, \dots, x_{iT}, \mu_i) = 0. \]
Эта предпосылка требует, чтобы регрессор был экзогенен в том смысле, что он не должен быть связан со случайной ошибкой в модели. В то же время она допускает наличие корреляции между $x_{it}$ и $\mu_i$.

Модель с фиксированными эффектами, решение

Рассмотрим модель с ФЭ: \[ y_{it} = \beta x_{it} + \mu_i + \varepsilon_{it}, \qquad t = \overline{1,T}, \] где $\beta$ — вектор $(1 \times n)$.

Перейдём к средним по времени величинам и вычтем полученные уравнения из соответствующих исходных: \[ y_{it} - \overline{y_i} = \beta (x_{it} - \overline{x_i}) + \cancel{\mu_i - \overline{\mu_i}} + \varepsilon_{it} - \overline{\varepsilon_i}. \] Полученная модель не зависит от ненаблюдаемых эффектов $\mu_i$.

Потребуем условия:

ошибки $\varepsilon_{it}$ не коррелируют между собой по $i$ и $t$;
ошибки $\varepsilon_{it}$ не коррелируют с регрессорами $x_{js}$ по всем $i,t,j,s$.

Эти условия гарантируют несмещённость и состоятельность оценок.

Для решения применяем обычный МНК: \[ \widehat \beta = {\left( \sum\limits_{i=1}^{N} \sum\limits_{t=1}^{T} (x_{it} - \overline{x_i}) (x_{it} - \overline{x_i})^T \right)}^{-1} \cdot \sum\limits_{i=1}^{N} \sum\limits_{t=1}^{T} (x_{it} - \overline{x_i}) (y_{it} - \overline{y_i}). \]

Полученные оценки называют внутригрупповыми эффектами или оценками с фиксированным эффектом.

В качестве оценок индивидуальных эффектов можно взять \[ \widehat \mu_i = \overline{y_i} - \overline{x_i}^T \widehat \beta. \]

Модель со случайными эффектами, предпосылки

Предпосылки модели со случайными эффектами:

модель линейна по параметрам: \[ y_{it} = \beta_1 x_{it}^{(1)} + \dots + \beta_k x_{it}^{(k)} + \mu_i + \varepsilon_{it}, \qquad t = \overline{1,T}; \]
наблюдения \[ x_{it}^{(j)}, \varepsilon_{it}, \qquad i = \overline{1,n}, \quad j = \overline{1,k}, \quad t = \overline{1,T} \] независимы и одинаково распределены;
$x_{it}^{(1)}, \dots, x_{it}^{(k)}$ и $\varepsilon_{it}$ имеют ненулевые конечные четвёртые моменты распределения;
случайные ошибки имеют нулевое условное мат. ожидание: \[ E(\varepsilon_{it} | x_{i1}^{(1)}, \dots, x_{i1}^{(k)}, \dots, x_{iT}^{(1)}, \dots, x_{iT}^{(k)}, \mu_i) = 0; \]
с вероятностью единица в модели отсутствует чистая мультиколлинеарность;
\[ E(\mu_i | x_{i1}^{(1)}, \dots, x_{i1}^{(k)}, \dots, x_{iT}^{(1)}, \dots, x_{iT}^{(k)}) = E(\mu_i) = 0. \] Другими словами, регрессоры не должны быть коррелированы с ненаблюдаемыми эффектами $\mu_i$.

Положив $\nu_{it} = \mu_i + \varepsilon_{it}$, можно перейти к модели \[ y_{it} = \beta_1 x_{it}^{(1)} + \dots + \beta_k x_{it}^{(k)} + \nu_{it}, \qquad t = \overline{1,T}. \] В ней все регрессоры экзогенны, поэтому параметры могут быть состоятельно оценены обычным МНК.

Как выбрать модель для анализа панельных данных?

Для простых линейных регрессионных моделей должны соблюдаться 5 свойств:

линейность;
экзогенность;
гомоскедастичность и отсутствие автокорреляции;
независимые переменные являются детерминированными;
отсутствует мультиколлинеарность.

Если условия 2 или 3 не выполняются, стоит отдать предпочтение моделям FE/RE.

Выбирая между FE и RE, стоит обращать внимание на следующее:

является ли индивидуальная особенность постоянным или случайным эффектом?
тест Хаусмана — позволяет оценить экзогенность факторов модели.

Тест Хаусмана

Тест Хаусмана позволяет проверить некоррелированность регрессоров $x_{it}$ и случайного эффекта: именно это отличает FE и RE.

Гипотезы:

$H_0$: оценки RE являются состоятельными;
$H_1$: оценки RE являются несостоятельными.

Тестовая статистика: \[ \left( \widehat \beta_\mbox{FE} - \widehat \beta_\mbox{RE} \right)^T \left( \widehat V(\widehat \beta_\mbox{FE}) - \widehat V(\widehat \beta_\mbox{RE}) \right)^{-1} \left( \widehat \beta_\mbox{FE} - \widehat \beta_\mbox{RE} \right)^T, \] где $\widehat V(\widehat \beta)$ — оценка ковариационной матрицы вектора $\widehat \beta$.

Эта статистика имеет асимптотическое распределение $\chi^2$ с количеством степеней свободы, равным рангу матрицы $\widehat V(\widehat \beta_\mbox{FE}) - \widehat V(\widehat \beta_\mbox{RE})$.

Определение: дерево решений

Дерево принятия решений — средство поддержки принятия решений. Структура дерева:

в узлах записаны признаки, по которым различаются случаи;
на рёбрах записаны признаки, от которых зависит целевая функция;
в листьях записаны значения целевой функции;

Задачи дерева принятия решений

Классификация — распределение данных на группы близких друг к другу наблюдений.
Регрессия — нахождение связи между зависимой и независимой переменными.

Какой алгоритм используется для построения бинарного дерева решений?

Алгоритм CART (classification and regression trees). Описание:

выбор условия остановки (количество узлов, наблюдений в узле, величина критерия);
выбор условия для разделения выборки;
разделение выборки относительно условия;
повторение пп. 2 и 3 до соблюдения условия остановки;
создание дерева.

Постановка условий в узлах дерева решений

Можно минимизировать ошибку. Возможные критерии:

средняя квадратическая ошибка: \[ H(Q_m) = \frac{1}{n_m} \sum\limits_{y\in Q_m}^{} (y - \overline y_m)^2, \] где \[ \overline y_m = \frac{1}{n_m} \sum\limits_{y \in Q_m}^{} y; \]
средняя абсолютная ошибка.

Цель: минимизация ошибки для двух листьев: \[ H(Q_1) + H(Q_2) \to \min. \] Если делать в лоб, то асимптотика такая:

всего признаков $D$, всего объектов $N$;
всего сплитов $D * N$, всего подсчётов на каждом сплите $N$;
суммарно $N^2 D$.

Если значений слишком много, можно сделать так:

сортируем по признаку — $N \log_2 N$;
считаем критерии — $N$;
суммарно $N D \log_2 N + ND = N D(1 + \log_2 N)$.

В качестве критерия также можно взять индекс Джини: \[ \operatorname{Gini}(D) = 1 - \sum\limits_{i=1}^{k} p_i^2, \] где $p_i$ — относительная частота класса $i$ в исходной выборке.
Тогда цель — минимизировать показатель индекса Джини для узла: \[ \operatorname{Gini}_\mbox{split}(D) = \frac{n_1}{n} \operatorname{Gini}(D_1) + \frac{n_2}{n} \operatorname{Gini}(D_2), \] где $n_1$ и $n_2$ — количество элементов в каждом наборе.

Каковы гиперпараметры решающего дерева?

Максимальная глубина дерева;
критерий ветвления;
величина критерия ветвления;
максимальное число семплов в листе дерева; и так далее.

Какая основная проблема дерева решений?

Основной проблемой дерева решений является склонность к переобучению.

Из-за чего происходит переобучение дерева решений?

В процессе построения дерева решений могут создаваться слишком сложные конструкции, которые недостаточно полно представляют данные.

Как можно повысить обобщающую способность слабых моделей?

Повысить обобщающую способность слабых моделей можно при помощи ансамблирования. Есть три основных метода:

стекинг — параллельное обучение разнородных моделей, аггрегация их предсказаний;
бэггинг — параллельное обучение однородных моделей, аггрегация их предсказаний;
бустинг — последовательное обучение однородных моделей, каждая минимизирует ошибку предыдущей.

Основная идея бэггинга; пример деревьев решений

Усреднить большое количество зашумлённых, но приблизительно несмещённых моделей, уменьшив дисперсию.

Состоит из двух шагов:

bootstrapping — сэмплирование $k$ объектов из исходной выборки с возвращением. В результате получаем подвыборку размера $k$, в которой некоторые объекты встречаются несколько раз, а некоторые — ни разу.
aggregating — усреднение предсказаний. Результат: предсказания одиночных моделей усредняются, давая итоговый ответ \[ a(x_i) = \frac{1}{M} \sum\limits_{i=1}^{M} a_i (x_i), \] где $a_i(x_i)$ — предсказание $i$-ой модели.

Случайный лес

Случайный лес представляет из себя ансамбль (бэггинг), каждая модель которого является деревом решений.

На этапе бутстрапинга каждому дереву достаётся $\abs{X_i} = N$ объектов, причём мощность всей обучающей выборки $X$ равна $\abs{X} = N$.

На этапе обучения дерева решений во время разбиения признак выбирается не из всего множества признаков, а из его случайного подмножества.

Если $p$ — количество признаков, то:

для классификации обычно выбирают случайные $\sqrt{p}$ признаков;
для регрессии — $p / 3$ признаков.

Преимущества и недостатки случайного леса

Преимущества:

высокая точность предсказаний;
нечувствительность к выбросам;
параллелизуемость;
невозможность переобучить;
простота реализации.

Недостатки:

неумение экстраполировать: СЛ не сможет вернуть ранее невиданное значение;
плохо работает, когда много разреженных признаков (например, тесты);
большой размер модели, требует много памяти.

Определение: временной ряд

Временным рядом называют последовательность $y_1, \dots, y_t \in \mathbb{R}$ наблюдений некоторого признака (случайной величины) в последовательные моменты времени.

Определение: уровень временного ряда

Уровнем временного ряда называют отдельные наблюдения временного ряда.

Определение: длина временного ряда

Длиной временного ряда называют количество $n$ входящих в него уровней.

Классификация временных рядов

	Признак классификации	Виды временного ряда
	Как уровни выражают состояние явлений во времени	Интервальные ряды Моментные ряды
	В зависимости от качественной особенности изучаемого явления	Абсолютные величины Относительные величины Средние величины
	В зависимости от расстояния между уровнями	Равноотстоящие по времени уровни Неравноотстоящие по времени уровни
	В зависимости от наличия тенденции изучаемого процесса	Стационарные ряды Нестационарные ряды

Каковы требования к построению временного ряда?

Периодизация развития.
Сопоставимость.
Соответствие величины временных интервалов интенсивности изучаемых процессов.
Упорядоченность числовых уровней рядов динамики во времени.
Однородность данных.
Устойчивость тенденции.
Полнота данных.

Аддитивная модель временного ряда

\[ y_t = T + S + C + E, \qquad t = \overline{1,n}, \] где

$T$ — тренд;
$S$ — сезонная компонента;
$C$ — циклическая компонента;
$E$ — случайная компонента.

Мультипликативная модель временного ряда

\[ y_t = T \cdot S \cdot C \cdot E, \qquad t = \overline{1,n}, \] где

$T$ — тренд;
$S$ — сезонная компонента;
$C$ — циклическая компонента;
$E$ — случайная компонента.

Типы трендов временного ряда

Тренд среднего.
Тренд дисперсии (гетероскедастичность).
Тренд автокорреляции и автоковариации.

Основные виды трендов:

Полиномиальный тренд: \[ \overline y_t = a_0 + a_1 t + \dots + a_p t^p. \] Для $p = 1$ имеем линейный тренд.
Экспоненциальный тренд: \[ \overline y_t = e^{a_0} \cdot e^{a_1 t} \cdot \ldots \cdot e^{a_p t^p}. \]
Гармонический тренд: \[ \overline y_t = R \cos (\omega t + \varphi). \]
Тренд, выраженный логистической функцией: \[ \overline y_t = \frac{k}{1 + b e^{-at}}. \]

Этапы анализа временных рядов

Графическое поведение и описание временного ряда.
Выделение и удаление закономерных (неслучайных) составляющих временного ряда:
- трендов;
- сезонных составляющих;
- циклических составляющих.
Сглаживание и фильтрация: удаление низко- или высокочастотных составляющих временного ряда.
Исследование случайной составляющей временного ряда; построение и проверка адекватности математической модели для её описания.
Прогнозирование развития изучаемого процесса на основе имеющегося временного ряда.
Исследование взаимосвязи между различными временными рядами.

Задача прогнозирования временного ряда

Рассмотрим временной ряд \[ y_1, \dots, y_t, \qquad y_t \in \mathbb{R}. \]

Задача прогнозирования: найти функцию $f_T$ такую, что \[ y_{T + h} \approx f_T(y_T, \dots, y_1, h) \equiv \widehat y_{T + h | T}, \] где $h \in \overline{1,H}$, а $H$ — горизонт планирования.

Определение: предсказательный интервал

Предсказательным интервалом называют интервал, в котором предсказываемая величина окажется с вероятностью не меньше заданной.

Определение: стационарный временной ряд

Временной ряд называют стационарным, если для любого $s$ совместное распределение $y_t, \dots, y_{t+s}$ не зависит от $t$, то есть его свойства не зависят от времени.

У временного ряда есть тренд. Следует ли из этого нестационарность?

Да.

У временного ряда есть сезонность. Следует ли из этого нестационарность?

Да.

У временного ряда есть цикличность. Следует ли из этого нестационарность?

Нет.

Определение: эргодичность

Эргодичность — свойство, позволяющее для оценки математических ожиданий использовать усреднения по времени (по реализации).

Мы хотим оценить математическое ожидание. Мы должны взять всевозможные значения в один и тот же момент времени $t$, но у нас таких нет; вместо этого у нас есть значения в другие моменты времени. Эргодичность означает, что если у нас достаточно длинная реализация, то можно заменить усреднение по множеству усреднением по времени.

Достаточное условие эргодичности стационарного процесса

Для того, чтобы стационарный процесс был эргодичным, достаточно выполнения следующего условия: \[ \frac{1}{n} \sum\limits_{i=1}^{n} \gamma(i) \limto{n \to \infty} 0. \]

Что такое гамма...

Определение: дифференцирование ряда

Дифференцирование ряда — переход к попарным разностям его соседних значений: \[ y_1, \dots, y_T \mapsto y_2', \dots, y_T', \] где \[ y_t' = y_t - y_{t-1}. \]

Дифференцированием можно стабилизировать среднее значение ряда и избавиться от тренда и сезонности.

Дифференцирование может применяться несколько раз.

Определение: сезонное дифференцирование

Сезонное дифференцирование ряда: \[ y_1, \dots, y_T \mapsto y_{s+1}', \dots, y_T', \] где \[ y_t' = y_t - y_{t-s}. \]

Дифференцированием можно стабилизировать среднее значение ряда и избавиться от тренда и сезонности.

Дифференцирование может применяться несколько раз.

Определение: ложная регрессия

Ложная регрессия — ситуация, когда между объясняющей и зависимой переменными в действительности нет причинно‐следственной связи, однако коэффициент корреляции между ними по модулю близок к единице, а уравнение, описывающее их взаимосвязь, с высокой точностью соответствует данным.

Когда может возникать ложная регрессия?

Ложная регрессия может вызывать в случае работы с временными рядами, которые характеризуются наличием тренда (детерминированного или стохастического) или нестационарностью.

Как можно избавиться от ложной регрессии?

От ложной регрессии можно избавиться, например, дифференцированием ряда.

Определение: ESS

ESS — объяснённая регрессионной моделью часть: \[ ESS = \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2. \]

Определение: RSS

RSS (Residual Sum of Squares) — сумма квадратов разниц между фактическими и предсказанными линейной регрессией значениями зависимой переменной: \[ RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2 = \sum\limits_{i=1}^{n} e_i. \] Отвечает за необъяснённую регрессионной моделью часть.

Определение: TSS

Общая сумма квадратов (TSS) равна сумме объяснённой (ESS) и необъяснённой (RSS) регрессионной моделью частей: \[ TSS = ESS + RSS, \] где

$TSS$ (Total sum of squares) — общая сумма квадратов: \[ TSS = \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2; \]
$ESS$ (Explained sum of squares) — объяснённая регрессией сумма квадратов: \[ ESS = \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2; \]
$RSS$ (Residual sum of squares) — сумма квадратов остатков: \[ RSS = \sum\limits_{i=1}^{n} {(y_i - \widehat y_i)}^2. \] Отвечает за необъяснённую регрессией часть.

Определение: коэффициент детерминации $R^2$

Коэффициент детерминации $R^2$ задаётся как \[ R^2 = 1 - \frac{RSS}{TSS} = \frac{TSS - RSS}{TSS} = \frac{ESS}{TSS}. \] Его также можно представить в виде \[ \begin{aligned} R^2 = \frac{ESS}{TSS} &= \frac{ \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2 }{ \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2 } = \\ &= \frac{ \frac{1}{n} \sum\limits_{i=1}^{n} {(\widehat y_i - \overline y)}^2 }{ \frac{1}{n} \sum\limits_{i=1}^{n} {(y_i - \overline y)}^2 } = \\ &= \frac{\widehat \var (\widehat y)}{\widehat \var (y)}. \end{aligned} \]

Понятно, что $R^2 \in [0, 1]$.

Чему равны значения $\widehat \beta_1, \widehat \beta_2$, полученные в результате применения МНК?

\[ \begin{aligned} \widehat \beta_2 &= \phantom{\overline y -} \frac{\widehat \cov(x,y)}{\widehat \var(x)}, \\ \widehat \beta_1 &= \overline y - \frac{\widehat \cov(x,y)}{\widehat \var(x)} \overline x. \end{aligned} \]

Для чего используются стандартные ошибки МНК-оценок $\widehat \beta_1$ и $\widehat \beta_2$?

Стандартные ошибки $\se(\widehat \beta_1)$ и $\se(\widehat \beta_2)$ используются для проверки гипотез: например, они используются для проверки гипотезы о независимости переменных $x$ и $y$ в КЛМПР.

Что такое уровень значимости $\alpha$?

Уровнем значимости $\alpha$ называют вероятность ошибки первого рода, то есть вероятность отклонить проверяемую гипотезу при условии, что в действительности эта гипотеза верна.

Определение: $p$-значение

$p$-значением ($p$-value) называют такой уровень значимости, при котором тестируемая гипотеза находится на грани между отвержением и принятием.

Другими словами, если $p$-значение меньше заданного уровня значимости $\alpha$, то нулевая гипотеза $H_0$ отвергается.

Чему равны МНК-оценки коэффициентов регрессии в КЛММР?

Зададим матрицу регрессоров и вектор МНК-оценок коэффициентов модели: \[ X = \begin{pmatrix} x_1^{(1)} & x_1^{(2)} & \dots & x_1^{(k)} \\ x_2^{(1)} & x_2^{(2)} & \dots & x_2^{(k)} \\ \vdots & \vdots & \ddots & \vdots \\ x_n^{(1)} & x_n^{(2)} & \dots & x_n^{(k)} \end{pmatrix}, \qquad \widehat \beta = \begin{pmatrix} \widehat \beta_1 \\ \widehat \beta_2 \\ \vdots \\ \widehat \beta_k \end{pmatrix}. \] Тогда \[ \widehat \beta = (X^T X)^{-1} X^T y, \] где $y$ — вектор значений зависимой переменной: \[ y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}. \]

Последствия гетероскедастичности

МНК-оценки останутся несмещёнными.
МНК-оценки перестанут быть эффективными.
Стандартные ошибки коэффициентов окажутся смещёнными и неэффективными.

Определение: логистическая функция

Функция \[ F(x) = \frac{1}{1 + e^{-x}} \] называется логистической.

Определение: логит

Логит — функция, обратная к логистической: \[ \logit p = \ln \frac{p}{1 - p}. \]

Определение: логит-модель

Логит-модель: \[ P(y_i = 1) = \frac{1}{1 + e^{-(\beta_1 + \beta_2 x)}}. \]

Какой метод используется для оценки логит-модели?

Для оценки логит-модели используется метод максимального правдоподобия:

строят функцию правдоподобия: \[ \begin{aligned} L(y_1, \dots, y_n) &= \prod_{y_i = 1} P(y_i = 1) \cdot \prod_{y_i = 0} P(y_i = 0) = \\ &= \prod_{y_i = 1} \left( \frac{1}{1 + e^{-(\beta_1 + \beta_2 x)}} \right)^{y_i} \cdot \prod_{y_i = 0} \left( \frac{1}{1 - e^{-(\beta_1 + \beta_2 x)}} \right)^{1 - y_i}; \end{aligned} \]
берут от неё логарифм: \[ \ln L(y_1, \dots, y_n) = \sum\limits_{i=1}^{n} y_i \ln \left( \frac{1}{1 + e^{-(\beta_1 + \beta_2 x)}} \right) + \sum\limits_{i=1}^{n} (1 - y_i) \ln \left( \frac{1}{1 - e^{-(\beta_1 + \beta_2 x)}} \right); \]
для получения оценок вычисляют производные по $\beta_1, \beta_2$ и приравнивают их к нулю.

Определение: пробит-модель

Пробит-модель: \[ P(Y_i = 1) = \Phi(\beta_1 + \beta_2 x_i^{(2)} + \dots + \beta_k x_i^{(k)}), \] где $\Phi$ — функция стандартного нормального распределения: \[ \Phi(x) = \frac{1}{\sqrt{2 \pi}} \exp\left(- \frac{x^2}{2}\right). \]

Общая формула обобщённой линейной модели

\[ F(Y) = B_0 + B_1 X_1 + \dots + B_N X_N + \varepsilon, \] где $F(Y)$ — функция связи.

Определение: функция связи

Функция связи — функция $F(Y)$, преобразующая распределение зависимой переменной так, что:

оно принимает значение от $-\infty$ до $\infty$;
связь зависимой переменной с регрессорами линейна.

Определение: accuracy (точность) и error rate (доля ошибок)

Accuracy (точность) — величина, отражающая долю правильно спрогнозированных классов среди всех образцов: \[ \operatorname{Accuracy} = \frac{TP + TN}{TP + FP + TN + FN}. \] Error rate задаётся как \[ \operatorname{Error\ rate} = 1 - \operatorname{Accuracy}. \]

Определение: precision

Precision — величина, характеризующая долю правильно предсказанных положительных классов среди всех образцов, которые модель спрогнозировала положительно: \[ \operatorname{Precision} = \frac{TP}{TP + FP}. \]

Определение: recall (TPR)

Recall (True positive rate) — величина, отражающая долю правильно предсказанных положительных классов среди всех реальных положительных образцов: \[ \operatorname{Recall} = \frac{TP}{TP + FN}. \]

Определение: FPR

False positive rate — величина, отражающая долю ошибочно классифицированных отрицательных классов относительно всех отрицательных результатов: \[ \operatorname{FPR} = \frac{FP}{FP + TN}. \]

Определение: TNR

True negative rate — величина, показывающая, насколько хорошо модель классифицирует отрицательные примеры: \[ \operatorname{TNR} = \frac{TN}{FP + TN}. \]

Главная гипотеза (предпосылка) ансамблевых методов

Когда «слабые» модели корректно объединены, можно получить более точные результаты.

Виды ансамблей (3 шт.)

Бэггинг — параллельное обучение однородных моделей, аггрегация их предсказаний;
Бустинг — последовательное обучение однородных моделей, каждая минимизирует ошибку предыдущей.
Стекинг — параллельное обучение разнородных моделей, аггрегация их предсказаний;

Бэггинг

Пусть $D$ — обучающая выборка размера $n$.

Создадим $m$ бутстреп-выборок $D_i$ размера $n$ путём выборки из $D$ равномерно с возвратом.

Процесс генерации подвыборок с помощью равномерного сэмплирования с возвращением называют бутстрепом (bootstrap).

Известно, что в этом случае ожидаемая доля уникальных элементов в каждой бутстреп-выборке $D_i$ составляет $1 - 1/e \approx 0.63$.

Далее, на каждой бутстреп-выборке $D_i$ обучим модель при помощи алгоритма $b$, получим модели \[ b_i(x) = b(x, D_i). \]

Для получения окончательного предсказания $a(x)$ усредняем предсказания моделей $b_i(x)$: \[ a(x) = \frac{1}{m} \sum\limits_{i=1}^{m} b_i(x). \]

Определение: бустинг

Бустинг — ансамблевый метод, в котором однородные модели обучаются последовательно.

Чем отличаются бэггинг и бустинг?

В случае бэггинга базовые алгоритмы учатся независимо и параллельно.
В случае бустинга обучение происходит последовательно.

Градиентный бустинг

Пусть стоит задача распознавания объектов из многомерного пространства $X$ с пространством меток $Y$.

Строим обучающую выборку размера $n$ \[ \left\{ x_i \right\}_{i=1}^n \subset X, \] каждому элементу которой соответствует истинное значение метки: \[ \left\{ y_i \right\}_{i=1}^n \subset Y. \] Построим распознающий оператор, который как можно более точно сможет предсказывать метки для каждого нового объекта $x \in X$.

Пусть $\mathcal{H}$ — семейство базовых алгоритмов: \[ \mathcal{H} := \left\{ h = h(x, a): X \to Y \; | \; a \in A \right\}, \] где $A$ — множество параметров. Каждый базовый алгоритм $h_m(x) := h(x, a_m) \in \mathcal{H}$ определяется некоторым вектором параметров $a_m \in A$.

Будем искать финальный алгоритм классификации в виде следующей композиции: \[ F_M(x) = \sum\limits_{i=1}^{M} b_i h(x, a_i), \qquad b_i \in \mathbb{R}, \; a_i \in A. \] Пусть $L(y_i, F(x_i))$ — функция потерь. Требуется минимизировать ошибку: \[ Q = \sum\limits_{i=1}^{n} L(y_i, F_M(x_i)) \to \min. \]

Фактически $Q$ представляет из себя мат. ожидание функции потерь на обучающей выборке.

Для начала обучим базовую модель на обучающей выборке: \[ a_1 = \argmin_{a \in A} \sum\limits_{i=1}^{n} L(y_i, h(x_i, a)). \] Тогда \[ F_1(x) = h(x, a_1). \]

Следующие слагаемые будем строить жадно. Предположим, что построен классификатор $F_{m-1}$ длины $m-1$. Будем строить классификатор \[ F_m(x) = F_{m-1}(x) + b_m h(x, a_m), \qquad b_m \in \mathbb{R}, \; a_m \in A. \] Его ошибка: \[ \begin{aligned} Q_m &= \sum\limits_{i=1}^{n} L(y_i, F_m(x_i)) = \\ &= \sum\limits_{i=1}^{n} L(y_i, F_{m-1}(x_i) + h(x_i, a_m)). \end{aligned} \]

Возникает вопрос: как искать $a_m$?

Для этого будем использовать градиентный спуск — метод нахождения локального минимума функции при помощи движения вдоль антиградиента. С его помощью будем обучать следующую модель так, чтобы она уменьшала ошибку предыдущего классификатора $F_{m-1}(x)$.

Градиент — вектор, направленный в сторону максимального изменения функции. Градиент функции ошибки помогает определить, как изменение того или иного параметра влияет на итоговое значение функции ошибки. Антиградиент показывает направление, в котором функция ошибки убывает быстрее всего.

Разложим функцию потерь $L(y_i, F_{m-1}(x_i) + h(x_i, a))$ в ряд Тейлора в окрестности точки $(y_i, F_{m-1}(x_i))$: \[ \begin{aligned} L(y_i, F_{m-1}(x_i) + h(x_i, a)) &\approx L(y_i, F_{m-1}(x_i)) + \left( \cancel{L_{m-1}(x_i)} + h(x_i, a) - \cancel{F_{m-1}(x_i)} \right) \left. \frac{\partial L(y_i, z)}{\partial z} \right|_{z = F_{m-1}(x_i)} = \\ &= L(y_i, F_{m-1}(x_i)) + h(x_i, a) \left. \frac{\partial L(y_i, z)}{\partial z} \right|_{z = F_{m-1}(x_i)}. \end{aligned} \]

Найдём градиент функции потерь в этой точке: \[ \frac{\partial L(y_i, F_{m-1}(x_i) + h(x_i, a))}{\partial h(x_i, a)} = \left. \frac{\partial L(y_i, z)}{\partial z} \right|_{z = F_{m-1}(x_i)}. \] Следовательно, антиградиент равен \[ r_{mi} := - \left. \frac{\partial L(y_i, z)}{\partial z} \right|_{z = F_{m-1}(x_i)}. \]

Обучим модель $h(x, a)$ на обучающей выборке $\left\{ (x_i, r_{mi}) \right\}_{i=1}^n$: \[ a_m = \argmin_{a \in A} \sum\limits_{i=1}^{n} L(r_{mi}, h(x_i, a)). \] Далее, оптимизируем величину шага в направлении антиградиента: \[ b_m = \argmin_{a \in \mathbb{R}} \sum\limits_{i=1}^{n} L(y_i, F_{m-1}(x_i) + b h(x_i, a_m)). \] Задача выше одномерная.

В итоге получаем, что \[ F_m(x) = F_{m-1}(x) + b_m h(x, a_m). \]

Определение: темп обучения для градиентного бустинга

Одним из способов предотвращения переобучения является настройка скорости обучения (learning rate) $\eta \in (0, 1]$.

Чем ниже learning rate, тем медленнее мы движемся в направлении антиградиента. Если $\eta$ мало, то шанс пропустить локальный минимум ниже, но придётся больше времени затратить на сходимость, особенно в случае выхода на плато.

Определение: параметры модели; пример

Параметры модели — обычные параметры, которые настраиваются в процессе обучения модели на данных.

Веса в линейной регрессии.

Определение: гиперпараметры модели; пример

Гиперпараметры модели — характеристики модели, которые фиксируются до начала обучения.

Глубина дерева решений.
Значение силы регуляризации в линейной модели: \[ \mathcal{L} = \abs{y - Xw}^2 + C\abs{w}^2 \to \min_{w}; \] здесь $w$ — параметр, а $C$ — гиперпараметр.
Learning rate для градиентного спуска.

Как подбирают гиперпараметры?

GridSearch (перебор по сетке) — метод подбора оптимальных гиперпараметров для модели путём перебора всех возможных комбинаций значений гиперпараметров из заданного набора:

для каждого гиперпараметра фиксируются возможные значения;
перебираются всевозможные комбинации значений различных гиперпараметров, на каждой из которых модель обучается и тестируется;
выбирается комбинация, на которой модель показывает лучшее качество.

RandomSearch — метод, при котором для каждого гиперпараметра задаётся распределение, из которого выбирается его значение, и комбинация гиперпараметров составляется семплированием из соответствующих распределений.

Существуют также другие методы поиска:

байесовская оптимизация;
Tree-structured Parzen Estimator (TPE);
Population Based Training (PBT).

Сравнение методов Grid Search и Random Search

Grid Search — сильные стороны:

самый простой для понимания и реализации;
тривиально распараллеливается.

Grid Search — слабые стороны:

не использует результаты других итераций;
ограничен в выборе, заданном сеткой;
долго работает, если совершает последовательный переход по сетке.

Random Search — сильные стороны:

случайный перебор позволяет находить оптимальные гиперпараметры эффективнее, чем Grid Search;
тривиально распараллеливается.

Random Search — слабые стороны:

не использует результаты других итераций;
ограничен в выборе заданным распределением, хотя и не так жёстко, как Grid Search.

Определение: кросс-валидация

Кросс-валидация — процедура для оценки качества работы модели.

Виды кросс-валидации

Hold-out — выборка делится на две части: обучающую и тестовую.
При разделении выборки необходимо перемешивать данные, чтобы не столкнуться со случаем, когда модель при обучении не столкнулась с целым классом входных данных.

Если датасет изначально содержит 800 строк данных о котятах и 200 строк данных о щенятах, то, поделив датасет как 800/200, модель не обучится на данных о щенятах.
k-fold:
1. фиксируется некоторое целое число $k$, меньшее чем число семплов (обычно 5-10);
2. датасет разбивается на $k$ одинаковых наборов, называемых фолдами;
3. производится $k$ итераций, на каждой из которой модель обучается на $k-1$ фолдах и тренируется на оставшемся:
Стратификация — метод разделения полученных данных на отдельные группы (слои, страты) в зависимости от выбранного стратифицирующего фактора (чаще всего пропорционального).
Пусть есть выборка, в которой содержатся данные 3-х классов $A, B, C$, причём все три класса распределены одинаково (то есть по $\approx 33.3%$).
Предположим, что две трети данных используются для обучения, а оставшаяся треть — для теста.
Может возникнуть следующая ситуация:
- train: распределение классов 38%/28%/34%;
- test: распределение классов 24%/44%/32%.
В итоге получаем модель, плохо обученную для последующего применения, так как на практике оба класса встречаются одинаково часто.

Планирование инвестиций: постановка задачи

Нужно инвестировать $C$ денежных единиц в течение $n$ лет.

План состоит в покупке акций в начале года и продаже их в конце того же года. Накопленные деньги (или их часть) могут быть инвестированы в начале следующего года. Прибыль от инвестиций зависит от $m$ условий рынка: вероятность и прибыль $(p_i, r_i)$.

Сформулируем задачу в виде модели ДП:

этап $i$ соответствует $i$-му году инвестирования;
альтернативы на каждом этапе — суммы реальных инвестиций $y_i$;
состояние системы $j$ на каждом этапе $i$ — доступные для инвестирования средства $x_i$.

Пусть $f_i(t)$ — максимальная ожидаемая сумма денежных средств за годы от $i$ до $n$, при условии, что в начале года $i$ имеется сумма $x_i$.