06 - Вопросы к зачёту - ТВиМС

$\global\def\at#1#2{\left. #1 \right\rvert_{#2}}$ $\global\def\abs#1{\left\lvert #1 \right\rvert}$ $\global\def\norm#1{\left\lVert #1 \right\rVert}$ $\global\def\floor#1{\left\lfloor #1 \right\rfloor}$ $\global\def\limto#1{\underset{#1}{\longrightarrow}}$ $\global\def\prob#1{\mathbb{P} \left\{ #1 \right\}}$ $\global\def\mean#1{\mathbb{E} \left[ #1 \right]}$ $\global\def\disp#1{D \left[ #1 \right]}$ $\global\def\dp#1#2{#1 \cdot #2\,}$ $\global\def\vp#1#2{#1 \times #2\,}$ $\global\def\dv#1#2{\frac{d #1}{d #2}}$ $\global\def\pd#1#2{\frac{\partial #1}{\partial #2}}$ $\global\def\pdv2#1#2{\frac{\partial^2 #1}{\partial #2^2}}$ $\global\def\ppdv#1#2#3{\frac{\partial^2 #1}{\partial #2 \partial #3}}$ $\global\def\paren#1{\left( #1 \right)}$ $\global\def\bydef#1{\overset{\mathrm{def}}{#1}}$ $\global\def\mbox#1{\text{#1}}$ $\global\def\div{\text{div}\,}$ $\global\def\dsum{\displaystyle\sum}$ $\global\def\grad{\text{grad}\,}$ $\global\def\rot{\text{rot}\,}$ $\global\def\vb#1{\textbf{#1}}$ $\global\def\op#1{\mathrm{#1}\,}$ $\global\def\proj{\mathrm{proj}}$ $\global\def\const{\text{const}\,}$ $\global\def\res{\text{res}\,}$ $\global\def\Res{\text{Res}\,}$ $\global\def\Re{\text{Re}\,}$ $\global\def\Im{\text{Im}\,}$ $\global\def\sign{\text{sign}\,}$ $\global\def\ch{\text{ch}\,}$ $\global\def\sh{\text{sh}\,}$ $\global\def\tg{\mathrm{tg}\,}$ $\global\def\argtg{\text{argtg}\,}$
  1. Виды сходимостей случайных величин
    Рассмотрим вероятностное пространство $(\Omega, \mathcal{F}, \mathbb{P})$.
    1. Сходимость почти наверное: \[ \xi_n \overset{\text{п.н.}}{\longrightarrow} \xi \iff \prob{ \omega \in \Omega: \; \xi_n(\omega) \limto{n \to \infty} \xi(\omega) } = 1. \]
    2. Сходимость по вероятности: \[ \xi_n \overset{\mathbb{P}}{\longrightarrow} \xi \iff \forall \varepsilon \gt 0 \quad \prob{ \abs{\xi_n - \xi} \gt \varepsilon } \limto{n \to \infty} 0. \]
    3. Сходимость по распределению: \[ \xi_n \overset{d}{\longrightarrow} \xi, \] если для любой непрерывной и ограниченной функции $g(\cdot)$ \[ \mean{g(\xi_n)} \limto{n \to \infty} \mean{g(\xi)}. \]
    4. Сходимость в основном: (сходимость функций распределения) \[ F_{\xi_n}(x) \limto{n \to \infty} F_\xi(x) \] в точках непрерывности $x$.
    Определения 3 и 4 эквивалентны.
    \[ \xi_n \overset{\text{п.н.}}{\longrightarrow} \xi \implies \xi_n \overset{\mathbb{P}}{\longrightarrow} \xi \implies \xi_n \overset{d}{\longrightarrow} \xi. \]
  2. Неравенство Маркова
    Если $\xi \geqslant 0$, то \[ \forall \varepsilon \gt 0 \quad \prob{ \xi \geqslant \varepsilon } \leqslant \frac{\mean{\xi}}{\varepsilon} \]
  3. Неравенство Чебышёва
    \[ \forall \varepsilon \gt 0 \quad \prob{ \abs{\xi - \mean{\xi}} \geqslant \varepsilon } \leqslant \frac{\disp{\xi}}{\varepsilon^2}, \] или \[ \forall \varepsilon \gt 0 \quad \prob{ \paren{\xi - \mean{\xi}}^2 \geqslant \varepsilon^2 } \leqslant \frac{\mean{\paren{\xi - \mean{\xi}}^2}}{\varepsilon^2}, \]
  4. Закон больших чисел в форме Чебышёва
    Пусть $\set{ \xi_n }$ — независимые величины на $(\Omega, \mathcal{F}, \mathbb{P})$. Предполагаем, что выполнены условия:
    1. $\mean{\xi_k} = a_k \lt \infty$;
    2. $\disp{\xi_k} \leqslant c$.
    Тогда \[ \prob{ \abs{ \frac{\sum_{k=1}^n \xi_k}{n} - \frac{\sum_{k=1}^n \mean{\xi_k}}{n} } \geqslant \varepsilon } \limto{n \to \infty} 0. \]
    Если \[ \eta_n := \frac{\sum_{k=1}^n \xi_k}{n}, \quad \mean{\eta_n} := \frac{\sum_{k=1}^n \mean{\xi_k}}{n}, \] то из неравенства Чебышёва следует, что \[ \prob{ \abs{\eta_n - \mean{\eta_n}} \geqslant \varepsilon } \leqslant \frac{\disp{\eta_n}}{\varepsilon^2} = \frac{c}{n \varepsilon^2}, \] учитывая, что для независимых величин \[ \disp{\sum_{k=1}^n \xi_k} = \sum_{k=1}^n \disp{\xi_k}, \] а также тот факт, что \[ \disp{a \xi} = a^2 \disp{\xi}. \]
    Если \[ \mean{\xi_k} = a, \qquad k = \overline{1,n}, \] то из ЗБЧ следует, что \[ \frac{\sum_{k=1}^n \xi_k}{n} \overset{\mathbb{P}}{\longrightarrow} a. \]
  5. Закон больших чисел в форме Бернулли
    Рассмотрим схему Бернулли:
    • $p$ — вероятность успеха;
    • $n$ — число испытаний;
    • $\mu_n$ — число успехов.
    Тогда \[ \prob{ \abs{\frac{\mu_n}{n} - p} \geqslant \varepsilon } \limto{n \to \infty} 0. \]
  6. Центральная предельная теорема
    Пусть $\set{ \xi_n }$ — последовательность независимых одинаково распределённых случайных величин с конечными мат. ожиданием и дисперсией: \[ \mean{\xi_k} = a, \quad \disp{\xi_k} = \sigma^2, \qquad k = \overline{1,n}. \] Тогда случайная величина \[ \zeta_n = \frac{\sum_{k=1}^n (\xi_k - a)}{\sqrt{n} \sigma} \] сходится по распределению к $\zeta \sim N(0,1)$, то есть \[ \zeta_n \overset{d}{\longrightarrow} \zeta \sim N(0,1), \] где $N(0,1)$ — нормальное распределение с нулевым мат. ожиданием и стандартным отклонением, равным единице.
  7. Описательная статистика. Точечный ряд
    Рассмотрим случайную величину $\xi$ с частично или полностью неизвестной функцией распределения $F_\xi(x)$. Проведём эксперимент $n$ раз, получим результаты: $(x_1, \dots, x_n)$. Будем считать, что результаты экспериментов независимы.
    Говорят, что $\xi$ задаёт генеральную совокупность.
    $(x_1, \dots, x_n)$ называют выборкой.
    Случайные величины $x_i$ имеют то же распределение, что и $\xi$: \[ x_i \sim F_\xi(x). \]
    Упорядочим выборку по возрастанию: $x_{(1)}, x_{(2)}, \dots, x_{(n)}$.
    Последовательность $x_{(1)} \leqslant x_{(2)} \leqslant \dots \leqslant x_{(n)}$ называют вариационным рядом, а величину $x_{(k)}$ — $k$-ой порядковой статистикой.
    $x_{(k)} \not\sim F_\xi(x)$. Вообще говоря, \[ f_{x_{(k)}}(x) = k C_n^k \left[F_\xi(x)\right]^{k-1} \left[ 1 - F_\xi(x) \right]^{n-k} f_\xi (x), \] поэтому \[ F_{x_{(k)}}(x) \bydef= \int\limits_{-\infty}^x f_{x_{(k)}}(t) dt. \]
    Выберем теперь уникальные порядковые статистики:
    $y_{(1)}$ $y_{(2)}$ $\dots$ $y_{(k)}$
    $n_1$ $n_2$ $\dots$ $n_k$
    Последовательность $y_{(1)}, \dots, y_{(k)}$ c частотами $n_1, \dots, n_k$ называют точечным вариационным рядом.
    Полигоном частот называют график зависимости частоты $n_i$ от элемента точечного вариационного ряда $y_{(i)}$.
    Эмпирической функцией распределения называют функцию \[ F_n^*(x) = \frac{\nu(x)}{n}, \] где $\nu(x)$ — число элементов выборки, меньше либо равных $x$.
  8. Описательная статистика. Интервальный ряд
    Рассмотрим генеральную сопокупность $\xi \sim F_\xi(x)$ и упорядоченную в порядке неубывания выборку $(x_{(1)}, \dots, x_{(n)})$.
    Величину $R = x_{(n)} - x_{(1)}$ называют размахом выборки.
    Разобъём выборку на $k$ интервалов, причём величину $k$ будем искать по правилу Стёрджеса: \[ k = \floor{1 + \log_2 n}. \] Тогда шаг разбиения $h = \dfrac{R}{k}$. Составим интервальный вариационный ряд:
    $[z_1, z_2]$ $(z_2, z_3]$ $\dots$ $(z_{k-1}, z_{k}]$
    $n_1$ $n_2$ $\dots$ $n_k$
    где \[ \begin{aligned} z_1 &:= x_{(1)}, \\ z_2 &:= z_1 + h, \\ &\phantom{:}\vdots \\ z_k &:= z_{k-1} + h = x_{(n)}, \end{aligned} \] а $n_i$ — количество значений исходной выборки, попавших в интервал $(z_i, z_{i+1}]$.
  9. Основные выборочные характеристики
    1. Выборочный момент порядка $r$: \[ \overline{x^r} = \frac{1}{n} \sum_{i=1}^n x_i^r. \]
      Выборочный момент порядка 1 \[ \overline{x} = \frac{1}{n} \sum_{i=1}^n x_i \] называют выборочным средним.
    2. Центральный выборочный момент порядка $r$: \[ \mu^r = \frac{1}{n} \sum_{i=1}^n \paren{x_i - \overline{x}}^r. \]
      Центральный выборочный момент порядка 2 \[ s^2 = \frac{1}{n} \sum_{i=1}^n \paren{x_i - \overline{x}}^2 \] называют выборочной дисперсией, а значение \[ \tilde{s}^2 = \frac{n}{n-1} s^2 \] — исправленной выборочной дисперсией.
    3. Выборочный квантиль $x_p$ порядка $p$ — элемент вариационного ряда \[ x_{(1)} \leqslant x_{(2)} \leqslant \dots \leqslant x_{(n)} \] с номером $\floor{np} + 1$.
        $Q_1$ — выборочный квантиль $x_{1/4}$ порядка $1/4$ — первый квартиль;
        $Q_2$ — выборочный квантиль $x_{2/4}$ порядка $2/4$ — медиана;
        $Q_3$ — выборочный квантиль $x_{3/4}$ порядка $3/4$ — третий квартиль.
      Величину \[ \text{IQR} = Q_3 - Q_1 \] называют межквартильным размахом.
      Метод Тьюки для вычисления краёв статистически значимой выборки (без выбросов): \[ \left[ Q_1 - 1.5 \cdot \text{IQR}; Q_3 + 1.5 \cdot \text{IQR} \right]. \]
      Ящик с усами: если усы одинаковой длины, то распределение симметричное.
    4. Коэффициент вариации: \[ v = \frac{s}{\overline{x}}. \]
  10. Свойства точечных оценок
    Пусть $\xi$ задаёт генеральную совокупность, $\xi \sim F_\xi(x, \theta)$. По выборке $X_{[n]}$ необходимо построить $\hat\theta (X_{[n]})$ — оценку неизвестного параметра $\theta$.
    Статистику $\hat\theta (X_{[n]})$ называют точечной оценкой параметра $\theta$.
    1. $\hat\theta$ — состоятельная оценка параметра $\theta$, если \[ \hat\theta\paren{X_{[n]}} \overset{\mathbb{P}}{\longrightarrow} \theta. \]
    2. $\hat\theta$ — сильно состоятельная оценка параметра $\theta$, если \[ \hat\theta\paren{X_{[n]}} \overset{\text{п.н.}}{\longrightarrow} \theta. \]
    3. $\hat\theta$ — несмещённая если \[ \mean{\hat\theta\paren{X_{[n]}}} = \theta. \] $\hat\theta$ — асимптотически несмещённая если \[ \mean{\hat\theta\paren{X_{[n]}}} \limto{n \to \infty} \theta. \]
  11. Метод моментов
    Пусть $\xi$ задаёт генеральную совокупность, $\xi \sim F_\xi(x, \theta)$, причём $\theta = \paren{\theta_1, \theta_2}$ — параметры, для которых требуется построить точечные оценки.

    Параметры можно найти из системы уравнений: \[ \left\{ \begin{aligned} \mean{\xi} &= \overline{x}, \\ \disp{\xi} &= s^2. \end{aligned} \right. \]

  12. Метод максимального правдоподобия
    Пусть $\xi \sim F_\xi(x, \theta)$; $X_{[n]}$ — выборка. Введя в рассмотрение функцию правдоподобия $L(x_1, \dots, x_n, \theta)$, точечную оценку можно выбрать как \[ \hat\theta (X_{[n]}) = \argmax\limits_{\theta} L(x_1, \dots, x_n, \theta) \] либо как \[ \hat\theta (X_{[n]}) = \argmax\limits_{\theta} \ln L(x_1, \dots, x_n, \theta). \] Рассмотрим два случая:
    1. $\xi$ — дискретная. Тогда \[ L(x_1, \dots, x_n, \theta) = \prod_{i=1}^n \prob{ \xi = x_i; \theta }. \]
    2. $\xi$ — непрерывная. Тогда \[ L(x_1, \dots, x_n, \theta) = \prod_{i=1}^n f_\xi (x_i, \theta). \]
  13. Построение доверительных интервалов
    Пусть $\xi \sim F_\xi(x, \theta)$; $X_{[n]}$ — выборка. Рассмотрим две точечные оценки $\hat\theta_1 (X_{[n]})$ и $\hat\theta_2 (X_{[n]})$.
    Интервал \[ \left[ \hat\theta_1 (X_{[n]}), \hat\theta_2 (X_{[n]}) \right] \] называют доверительным интервалом параметра $\theta$ распределения $F_\xi (x, \theta)$, если \[ \prob{ \hat\theta_1 (X_{[n]}) \lt \theta \lt \hat\theta_2 (X_{[n]}) } = 1 - \varepsilon, \] где
    • $\varepsilon$ — уровень значимости;
    • $1 - \varepsilon$ — уровень доверия.
    Пусть $x_1, \dots, x_k$ — совместно независимые случайные величины, причём $x_i \sim N(0, 1)$. Тогда говорят, что случайная величина \[ x = x_1^2 + x_2^2 + \dots + x_k^2 \] имеет распределение Пирсона с $k$ степенями свободы, и пишут \[ x \sim \chi_k^2. \]
    Пусть $x_0, \dots, x_k$ — совместно независимые случайные величины, причём $x_i \sim N(0, 1)$. Тогда говорят, что случайная величина \[ t = \frac{x_0}{\displaystyle \frac{1}{k} \sum_{i=1}^k x_i^2} \] имеет распределение Стьюдента с $k$ степенями свободы, и пишут \[ t \sim T_{k-1}. \]
    Если $\xi \sim N(a, \sigma^2)$, то для $X_{[n]}$ выполнены соотношения:
    1. ${\displaystyle \dfrac{\overline{x} - a}{\sigma} \sqrt{n} \sim N(0, 1) }$;
    2. ${\displaystyle \dfrac{\overline{x} - a}{s} \sqrt{n - 1} = \dfrac{\overline{x} - a}{\tilde s} \sqrt{n} \sim T_{n-1} }$;
    3. ${\displaystyle \sum\limits_{i=1}^n \paren{\frac{x_i - a}{\sigma}}^2 = \frac {n \paren{\overline{x^2} - 2a\overline{x} + a^2}} {\sigma^2} \sim \chi_{n}^2 }$;
    4. ${\displaystyle \sum\limits_{i=1}^n \paren{\frac{x_i - \overline{x}}{\sigma}}^2 = \frac{ns^2}{\sigma^2} = \frac{(n-1) \tilde{s}^2}{\sigma^2} \sim \chi_{n-1}^2 }$;
  14. Построение асимптотических доверительных интервалов
    Рассмотрим точные доверительные интервалы (ТДИ) для $N(a, \sigma^2)$ с уровнем доверия $1 - \varepsilon$:
    1. ТДИ для $a$ при известном $\sigma^2$: \[ \prob{ u_{\varepsilon/2} \lt \frac{\overline{x} - a}{\sigma} \sqrt{n} \lt u_{1 - \varepsilon/2} } = 1 - \varepsilon, \] где $u_\alpha$ — квантиль распределения $N(0,1)$ уровня $\alpha$. Из симметричности нормального распределения следует, что \[ -u_{1 - \varepsilon/2} = u_{\varepsilon/2}, \] поэтому ТДИ для $a$ будет равен \[ \paren{ \overline{x} - u_{1 - \varepsilon/2} \frac{\sigma}{\sqrt{n}}, \overline{x} + u_{1 - \varepsilon/2} \frac{\sigma}{\sqrt{n}} }. \]
      Если известна предельная абсолютная ошибка $\delta$, можно найти минимальный объём выборки, необходимый для оценки среднего: \[ n = \paren{ u_{1-\varepsilon/2} \frac{\sigma}{\delta} }^2. \]
    2. ТДИ для $a$ при неизвестном $\sigma^2$: \[ \paren{ \overline{x} - t_{1 - \varepsilon/2, n-1} \frac{s}{\sqrt{n-1}}, \overline{x} + t_{1 - \varepsilon/2, n-1} \frac{s}{\sqrt{n-1}} }, \] где $t_{1-\varepsilon/2, n-1}$ — квантиль порядка $1-\varepsilon/2$ распределения Стьюдента с $n-1$ степенями свободы.
    3. ТДИ для $\sigma^2$ при известном $a$: \[ \paren{ \frac{\sum_{i=1}^n (x_i - a)^2}{\chi_{1 - \varepsilon/2, n}^2}, \frac{\sum_{i=1}^n (x_i - a)^2}{\chi_{\varepsilon/2, n}^2}, }, \] либо \[ \paren{ \frac{n \paren{\overline{x^2} - 2a\overline{x} + a^2}} {\chi_{1 - \varepsilon/2, n}^2}, \frac{n \paren{\overline{x^2} - 2a\overline{x} + a^2}} {\chi_{\varepsilon/2, n}^2} }, \] где $\chi_{\varepsilon/2, n}$ — квантиль $\chi^2$-распределения с $n$ степенями свободы уровня $\varepsilon/2$.
    4. ТДИ для $\sigma^2$ при неизвестном $a$: \[ \paren{ \frac{ns^2}{\chi_{1-\varepsilon/2,n-1}^2}, \frac{ns^2}{\chi_{\varepsilon/2,n-1}^2} }, \] или \[ \paren{ \frac{(n-1)\tilde{s}^2}{\chi_{1-\varepsilon/2,n-1}^2}, \frac{(n-1)\tilde{s}^2}{\chi_{\varepsilon/2,n-1}^2} }. \]

    Рассмотрим теперь ТДИ для экспоненциального распределения $\mathcal{E}(\lambda)$ с уровнем доверия $1 - \varepsilon$.
    Пусть выборка $X_{[n]}$ получена из генеральной совокупности, порождённой $\xi \sim \mathcal{E}(\lambda)$. Тогда \[ 2n \overline{x} \lambda \sim \chi_{2n}^2. \]
    Из теоремы следует, что ТДИ для $\lambda$ равен \[ \paren{ \frac{\chi_{\varepsilon/2,2n}^2}{2n \overline{x}}, \frac{\chi_{1-\varepsilon/2,2n}^2}{2n \overline{x}} }. \]
  15. Общая схема проверки гипотез
    Статистической гипотезой называется любое предположение о виде закона распределения. При этом выдвигается основная (нулевая) гипотеза $H_0$ и альтернативная $H_1$.
    Возможны два вида ошибок:
    1. Отклонение $H_0$ в случае, когда она верна (вероятность: $\alpha$).
    2. Принятие $H_0$ в случае, когда она неверна (вероятность: $\beta$).
    Мощностью критерия называют вероятность не принять неверную гипотезу, т. е. $\mu = 1 - \beta$.

    Схема проверки гипотез:
    1. Выдвигаем гипотезы $H_0, H_1$.
    2. Задаём уровень значимости $\alpha$.
    3. Выбираем статистику критерия $\gamma(X_{[n]})$. Если $H_0$ верна, то $\gamma(X_{[n]})$ подчиняется известному закону.
    4. Строим критическую область и находим вероятность попадания в неё. Если гипотеза $H_0$ верна, то $\gamma(X_{[n]})$ не попадает в эту область.
  16. Проверка гипотез о параметрах распределения
    Пусть нам известно, что $\xi \sim N(a, \sigma^2)$.
    1. $\sigma^2$ известна, ищем $a$:
      1. Выдвигаем гипотезу $H_0: a = a_0$, соответственно $H_1: a \neq a_0$.
      2. Задаём уровень значимости $\alpha$.
      3. В качестве критерия примем статистику \[ \gamma(X_{[n]}) = \frac{\overline{x} - a}{\sigma} \sqrt{n}, \] причём если $H_0$ верна, то $\gamma(X_{[n]}) \sim N(0, 1)$.
      4. Критическая область для $\gamma(X_{[n]})$: \[ (-\infty, -u_{1-\alpha/2}) \cup (u_{1-\alpha/2}, +\infty). \]
    2. $\sigma^2$ неизвестна, ищем $a$:
      1. Выдвигаем гипотезу $H_0: a = a_0$, соответственно $H_1: a \neq a_0$.
      2. Задаём уровень значимости $\alpha$.
      3. В качестве критерия примем статистику \[ \gamma(X_{[n]}) = \frac{\overline{x} - a}{s} \sqrt{n-1}, \] причём если $H_0$ верна, то $\gamma(X_{[n]}) \sim T_{n-1}$.
      4. Критическая область для $\gamma(X_{[n]})$: \[ (-\infty, -t_{1-\alpha/2, n-1}) \cup (t_{1-\alpha/2, n-1}, +\infty). \]
    3. Ищем $\sigma^2$:
      1. Выдвигаем гипотезу $H_0: \sigma^2 = \sigma_0^2$, соответственно $H_1: \sigma^2 \neq \sigma_0^2$.
      2. Задаём уровень значимости $\alpha$.
      3. В качестве критерия примем статистику \[ \gamma(X_{[n]}) = \frac{ns^2}{\sigma_0^2}, \] причём если $H_0$ верна, то $\gamma(X_{[n]}) \sim \chi_{n-1}^2$.
      4. Критическая область для $\gamma(X_{[n]})$: \[ [0, \chi_{\alpha/2,n-1}^2) \cup (\chi_{1-\alpha/2, n-1}^2, +\infty). \]

    Рассмотрим теперь $\xi_1 \sim N(a_1, \sigma_1^2)$ и $\xi_2 \sim N(a_2, \sigma_2^2)$.
    1. $\sigma_1, \, \sigma_2$ — известны.
      1. $H_0: a_1 = a_2$, соответственно $H_1: a_1 \neq a_2$.
      2. Выбираем уровень значимости $\alpha$.
      3. Критерий: \[ \gamma(X_{[n_1]}, X_{[n_2]}) = \frac {\overline{x} - \overline{y}} { \sqrt{\dfrac{\sigma_1^2}{n_1} + \dfrac{\sigma_2^2}{n_2}} }, \] причём если $H_0$ верна, то \[ \gamma(X_{[n_1]}, X_{[n_2]}) \sim N(0, 1). \] Здесь $\overline{x}$ и $\overline{y}$ — выборочное среднее соответственно выборок $X_{[n_1]}$ и $X_{[n_2]}$.
      4. Критическая область: \[ \paren{ -\infty, -u_{1-\alpha/2} } \cup \paren{ u_{1-\alpha/2}, +\infty }. \]
    2. Известно, что $\sigma_1 = \sigma_2$ (само значение неизвестно).
      1. $H_0: a_1 = a_2$, соответственно $H_1: a_1 \neq a_2$.
      2. Выбираем уровень значимости $\alpha$.
      3. Критерий: \[ \gamma(X_{[n_1]}, X_{[n_2]}) = \frac {\overline{x} - \overline{y}} {\hat s \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}}, \] причём если $H_0$ верна, то \[ \gamma(X_{[n_1]}, X_{[n_2]}) \sim T_{n_1 + n_2 - 2}. \] Здесь \[ \hat s = \sqrt{\frac{s_1^2 n_1 + s_2^2 n_2}{n_1 + n_2 - 2}}. \]
      4. Критическая область: \[ \paren{ -\infty, -t_{1-\alpha/2, n_1 + n_2 - 2} } \cup \paren{ t_{1-\alpha/2, n_1 + n_2 - 2}, +\infty }. \]
    3. $a_1, a_2, \sigma_1, \sigma_2$ — неизвестны.
      1. $H_0: \sigma_1^2 = \sigma_2^2$, соответственно $H_1: \sigma_1^2 \neq \sigma_2^2$.
      2. Выбираем уровень значимости $\alpha$.
      3. Критерий: \[ \gamma(X_{[n_1]}, X_{[n_2]}) = \frac{\hat{s_1}^2}{\hat{s_2}^2} \] причём если $H_0$ верна, то \[ \gamma(X_{[n_1]}, X_{[n_2]}) \sim F_{n_1 - 1, n_2 - 1}. \] Здесь $F_{n_1 - 1, n_2 - 1}$ — распределение Фишера.
      4. Критическая область: \[ \left[ 0; F_{\frac{\alpha}{2}, n_1-1, n_2-1} \right) \cup \paren{ F_{1 - \frac{\alpha}{2}, n_1-1, n_2-1}; +\infty }. \]

    Рассмотрим $\xi \sim \mathcal{B}(1, p)$ — распределение Бернулли. Элементами выборки $X_{[n]}$ будут либо нули, либо единицы.
    Ищем p.
    1. $H_0: p = p_0, \implies H_1: p \neq p_0$.
    2. Задаём уровень значимости $\alpha$.
    3. Критерий — число единиц (успехов) в $n$ испытаниях: \[ \gamma(X_{[n]}) = \sum_{i=1}^n x_i \sim \mathcal{B}(n, p_0), \] где $\mathcal{B}(n, p_0)$ — биномиальное распределение.
    4. Критическая область: \[ \left[ 0; b_{\frac{\alpha}{2}, n, p_0} \right] \cup \left[ b_{1 - \frac{\alpha}{2}, n, p_0}; n \right]. \]
    На практике при больших $n$ можно применить ЦПТ: \[ \gamma = \frac{\sum_{i=1}^n x_i - n \mean{x_i}}{\sqrt{n \disp{x_i}}} \limto{n \to \infty} \zeta \sim N(0, 1) \] и рассмотреть критическую область для $N(0, 1)$: \[ (-\infty, -u_{1-\alpha/2}) \cup (u_{1-\alpha/2}, +\infty). \]

    Рассмотрим $\xi \sim \mathcal{B}(N, p)$.
    Считаем, что $N$ известно, ищем $p$.
    1. $H_0: p = p_0, \implies H_1: p \neq p_0$.
    2. Задаём уровень значимости $\alpha$.
    3. Критерий: \[ \gamma = \frac{\sum_{i=1}^n x_i - n \mean{x_i}}{\sqrt{n \disp{x_i}}} = \frac{\sum_{i=1}^n x_i - nNp_0}{\sqrt{nN p_0 (1 - p_0)}} \limto{n \to \infty} \zeta \sim N(0, 1). \]
    4. Критическая область: \[ (-\infty, -u_{1-\alpha/2}) \cup (u_{1-\alpha/2}, +\infty). \]

    Пусть $\xi$ порождает генеральную совокупность. Оцениваем медиану.
    1. $H_0: \theta = \theta_0$.
    2. Задаём уровень значимости $\alpha$.
    3. Критерий: \[ \gamma(X_{[n]}) = \sum_{i=1}^n s(y_i) \sim \mathcal{B}(n, \frac{1}{2}), \] где \[ \begin{gathered} y_i = x_i - \theta_i, \\ s(y_i) = \begin{cases} 1, & y_i \gt 0, \\ 0, & y_i \lt 0. \end{cases} \end{gathered} \]
    4. Критическая область: \[ \left[ 0; b_{\frac{\alpha}{2}, n, \frac{1}{2}} \right] \cup \left[ b_{1 - \frac{\alpha}{2}, n, \frac{1}{2}}; n \right]. \]
    На практике при больших $n$ можно применить ЦПТ: \[ \gamma = \frac{\sum_{i=1}^n x_i - n \mean{x_i}}{\sqrt{n \disp{x_i}}} \limto{n \to \infty} \zeta \sim N(0, 1) \] и рассмотреть критическую область для $N(0, 1)$: \[ (-\infty, -u_{1-\alpha/2}) \cup (u_{1-\alpha/2}, +\infty). \]
  17. Гипотезы согласия
    Рассмотрим случайную величину $\xi$ с функцией распределения $F_\xi(x)$, порождающую генеральную совокупность.
    Критерий согласия Пирсона $\chi^2$ для проверки простой гипотезы:
    1. $H_0: F_\xi(x) = F_0(x)$.
    2. Задаём уровень значимости $\alpha$.
    3. Разбиваем на $k$ интервалов:
      $(-\infty, a_1]$ $(a_1, a_2]$ $\dots$ $(a_{k-1}, +\infty)$
      $n_1$ $n_2$ $\dots$ $n_k$
      Введём обозначения: \[ p_i^0 = F_0(x_i) - F_0(x_{i-1}) = \prob{ \xi \in (a_{i-1}; a_i] }. \] Критерий: \[ \gamma(X_{[n]}) = \sum_{i=1}^k \frac{(n_i - n p_i^0)^2}{n p_i^0} \sim \chi_{k-1}^2. \]
    4. Критическая область: \[ \paren{ \chi_{1-\alpha, k-1}^2; +\infty }. \]
    Критерий согласия Пирсона $\chi^2$ для проверки сложной гипотезы:
    1. $H_0: F_\xi(x) = F_0(x, \theta)$, где $\theta = (\theta_1, \dots, \theta_l)$.
    2. Задаём уровень значимости $\alpha$.
    3. Разбиваем на $k$ интервалов:
      $(-\infty, a_1]$ $(a_1, a_2]$ $\dots$ $(a_{k-1}, +\infty)$
      $n_1$ $n_2$ $\dots$ $n_k$
      Введём обозначения: \[ p_i^0(\theta) = F_0(x_i, \theta) - F_0(x_{i-1}, \theta) = \prob{ \xi \in (a_{i-1}; a_i] }. \] Критерий: \[ \gamma(X_{[n]}) = \sum_{i=1}^k \frac{(n_i - n p_i^0(\theta))^2}{n p_i^0(\theta)} \sim \chi_{k-l-1}^2. \] Вместо $\theta$ ищем точечную оценку (по методу максимальной правдоподобности либо по методу моментов).
    4. Критическая область: \[ \paren{ \chi_{1-\alpha, k-l-1}^2; +\infty }. \]
    Далее предполагаем, что закон распределения непрерывен.
    Критерий согласия Колмогорова для проверки простой гипотезы:
    1. $H_0: F_\xi(x) = F_0(x)$.
    2. Задаём уровень значимости $\alpha$.
    3. Критерий: \[ \gamma(X_{[n]}) = \sqrt{n} D_n \sim K, \] где:
      • $D_n = \sup\limits_{x \in \mathbb{R}} \abs{F_n^*(x) - F_0(x)}$;
      • $F_n^*(x)$ — эмпирическая функция распределения: \[ F_n^*(x) = \frac{\nu(x)}{n}, \] где $\nu(x)$ — количество элементов выборки, меньших либо равных $x$.
      • $K$ — распределение Колмогорова; функция распределения: \[ K(x) = 1 + 2\sum_{m=1}^\infty (-1)^m e^{-2 m^2 x^2}. \]
      Эквивалентная формула: \[ D_n = \max\limits_{1 \leqslant i \leqslant k} \set{ F_n^*(y_{(i)}) - F_0(y_{(i)}), F_0(y_{(i)}) - F_n^*(y_{(i-0)}) }. \]
    4. Критическая область: \[ \paren{ k_{1-\alpha}; +\infty }, \] где $k_{1-\alpha}$ — квантиль уровня $1 - \alpha$ распределения Колмогорова $K(x)$.
    Критерий согласия Колмогорова для проверки сложной гипотезы (для нормального распределения):
    1. $H_0: F_\xi(x) = F_0(x, \theta)$.
    2. Задаём уровень значимости $\alpha$.
    3. Обозначение: \[ D_n(\theta) = \sup\limits_{x \in \mathbb{R}} \abs{F_n^*(x) - F_0(x, \theta)}. \] Критерий: \[ \gamma(X_{[n]}) = D_n(\theta) \paren{ \sqrt{n} - 0.01 + \frac{0.85}{\sqrt{n}} } \sim K; \] точечную оценку параметра $\theta$ можно найти методом максимального правдопобия или методом моментов.
    4. Критическая область: \[ \paren{ k; +\infty }, \] где $k$ — критическое значение, которое можно найти из таблицы:
      $\alpha$ 0.15 0.10 0.05 0.025 0.01
      Критическое значение 0.775 0.819 0.895 0.955 1.035
    Критерий согласия Колмогорова для проверки сложной гипотезы (для экспоненциального распределения):
    1. $H_0: F_\xi(x) = F_0(x, \theta)$.
    2. Задаём уровень значимости $\alpha$.
    3. Обозначение: \[ D_n(\theta) = \sup\limits_{x \in \mathbb{R}} \abs{F_n^*(x) - F_0(x, \theta)}. \] Критерий: \[ \gamma(X_{[n]}) = \paren{D_n(\theta) - \frac{0.2}{n}} \paren{ \sqrt{n} + 0.26 + \frac{0.5}{\sqrt{n}} } \sim K; \] точечную оценку параметра $\theta$ можно найти методом максимального правдопобия или методом моментов.
    4. Критическая область: \[ \paren{ k; +\infty }, \] где $k$ — критическое значение, которое можно найти из таблицы:
      $\alpha$ 0.15 0.10 0.05 0.025 0.01
      Критическое значение 0.926 0.990 1.094 1.190 1.308
  18. Гипотезы об однородности
    Рассмотрим выборки $X_{[n]}, Y_{[m]}$ из генеральных совокупностей $\xi, \eta$ соответственно, а также их вариационные ряды $x_{(i)}, y_{(i)}$. Пусть $m \leqslant n$, а функции распределения случайных величин $\xi, \eta$ (соответственно $F(x), G(x)$) непрерывны. Требуется проверить, равны ли функции распределения двух генеральных совокупностей.
    Статистика Смирнова: \[ D_{m,n} = \sup\limits_{x \in \mathbb{R}} \abs{G_m(x) - F_n(x)}, \] где $F_n(x), G_m(x)$ — эмпирические функции распределения выборок $X_{[n]}, Y_{[m]}$ соответственно.
    Статистику Смирнова проще вычислять следующим образом: \[ \begin{gathered} \begin{aligned} D_{m,n}^+ &= \max_{1 \leqslant r \leqslant m} \left[ \frac{r}{m} - F_n(y_{(r)}) \right] &&= \max_{1 \leqslant s \leqslant n} \left[ G_m(x_{(s)}) - \frac{s - 1}{n} \right], \\ D_{m,n}^- &= \max_{1 \leqslant r \leqslant m} \left[ F_n(y_{(r)}) - \frac{r - 1}{m} \right] &&= \max_{1 \leqslant s \leqslant n} \left[ \frac{s}{n} - G_m(x_{(s)}) \right], \end{aligned} \\ D_{m,n} = \max \set{ D_{m,n}^+, D_{m,n}^- }. \end{gathered} \]
    Алгоритм критерия однородности двух выборок Колмогорова-Смирнова:
    1. $H_0: F(\cdot) \equiv G(\cdot)$. Альтернативная гипотеза: $H_1: \sup\limits_{x \in \mathbb{R}} \abs{F(x) - G(x)} \gt 0$.
    2. Задаём уровень значимости критерия $\alpha$.
    3. Вычисляем статистику Смирнова $D_{m,n}$ и находим значение статистики критерия: \[ \gamma(X_{[n]}, Y_{[m]}) = \sqrt{\frac{mn}{m+n}} D_{m,n} \sim K. \]
    4. Критическая область: \[ (k_{1-\alpha}, +\infty), \] где $k_{1-\alpha}$ — квантиль уровня $1 - \alpha$ распределения Колмогорова.
    Критерий однородности Вилкоксона:
    1. $H_0: F(\cdot) \equiv G(\cdot)$. Альтернативная гипотеза $H_1: F(\cdot) \neq G(\cdot)$.
    2. Задаём уровень значимости критерия $\alpha$.
    3. Объединим выборки $X_{[n]}$ и $Y_{[m]}$ в общий вариационный ряд. Припишем каждому элементу этого вариационного ряда ранг, равный номеру этого элемента в общем ряду. Равным элементам приписываем средний ранг. Например, если два равных элемента стоят на местах 4 и 5, то каждому из них приписываем 4,5. Обозначим ранги элементов выборки $Y_{[m]}$ в общем вариационном ряду через $r_1, \dots, r_m$.
    4. Вычисляем статистику Вилкоксона: \[ W(X_{[n]}, Y_{[m]}) = r_1 + \dots + r_m. \]
    5. Критическая область: \[ \left[ \frac{m(m+1)}{2}; w_{\alpha,m,n} \right] \cup \left[ m(n + m + 1) - w_{\alpha/2,m,n}; mn + \frac{m(m+1)}{2} \right], \] где $w_{\alpha,m,n}$ — квантиль уровня $\alpha$ предельного распределения статистики $W(X_{[n]}, Y_{[m]})$.
      Если гипотеза $H_0$ выполняется, то \[ \begin{aligned} \mean\gamma &= \frac{m(n+m+1)}{2}, \\ \disp\gamma &= \frac{mn(m+n+1)}{12}. \end{aligned} \]
    Для больших выборок можно использовать аппроксимацию статистики Вилкоксона: \[ W^*(X_{[n]}, Y_{[m]}) = \frac{W - m(n+m+1)/2}{\sqrt{mn(m+n+1)/12}}. \] При справедливости гипотезы $H_0$ статистика $W^* \sim N(0, 1)$, поэтому критическую область можно записать как \[ (-\infty, -u_{1-\alpha/2}) \cup (u_{1-\alpha/2}, +\infty). \]
  19. Анализ таблиц сопряжённости
    $\xi$ $F_\xi(x)$ $X_{[n]}$
    $\eta$ $G_\eta(y)$ $Y_{[m]}$
    Критерий независимости двух выборок:
    1. $H_0: F_{\xi, \eta}(x, y) = F_\xi(x) G_\eta(y)$; альтернативная гипотеза $H_1$: случайные величины зависимы.
    2. Задаём уровень значимости критерия $\alpha$.
    3. Используем критерий согласия Пирсона $\chi^2$, т.е. строим интервалы:
      $\nabla_1$ $\nabla_2$ $\dots$ $\nabla_m$
      $\Delta_1$ $n_{11}$ $n_{12}$ $\dots$ $n_{1m}$
      $\Delta_2$ $n_{21}$ $n_{22}$ $\dots$ $n_{2m}$
      $\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
      $\Delta_k$ $n_{k1}$ $n_{k2}$ $\dots$ $n_{km}$
      Складывая частоты по строкам и столбцам, получим \[ \begin{aligned} n_{\cdot, 1} &= \sum_{i=1}^k n_{i1}, \\ &\dots \\ n_{\cdot, m} &= \sum_{i=1}^k n_{im}, \end{aligned} \qquad \begin{aligned} n_{1, \cdot} &= \sum_{j=1}^m n_{1j}, \\ &\dots \\ n_{k, \cdot} &= \sum_{j=1}^m n_{kj}. \end{aligned} \] Сумма всех частот: \[ n = \sum_{i=1}^m n_{\cdot, i} = \sum_{j=1}^k n_{j, \cdot}. \] Заметим, что \[ \begin{gathered} \frac{n_{i,\cdot}}{n} \overset{\mathbb{P}}{\longrightarrow} p_i^x, \\ \frac{n_{\cdot,j}}{n} \overset{\mathbb{P}}{\longrightarrow} p_j^y, \end{gathered} \] где:
      • $p_i^x$ — вероятность, что $x$ попадёт в $\Delta_i$;
      • $p_j^y$ — вероятность, что $y$ попадёт в $\Delta_j$.
    4. Критерий: \[ \gamma(X_{[n]}, Y_{[m]}) = n \sum_{i=1}^k \sum_{j=1}^m \frac {\paren{n_{ij} - \dfrac{n_{i,\cdot} \cdot n_{\cdot, j}}{n}}^2} {n_{i, \cdot} \cdot n_{\cdot, j}} \sim \chi_{(k-1) \cdot (m-1)}^2. \]
    5. Критическая область: \[ \paren{ \chi_{1-\alpha, (k-1) \cdot (m-1)}^2; +\infty }. \]

    Коэффициент корреляции Пирсона: \[ \hat \rho = \frac {\sum_{i=1}^n (x_i - \overline{x}) (y_i - \overline{y})} {\sqrt{ \sum_{i=1}^n (x_i - \overline{x})^2 \sum_{i=1}^n (y_i - \overline{y})^2 }}. \] Похоже на \[ \rho = \frac {\mean{(\xi - \mean\xi) (\eta - \mean\eta)}} {\sqrt{\disp \xi \disp \eta}}. \]
    1. $H_0: \rho = 0$.
    2. Задаём уровень значимости критерия $\alpha$.
    3. Статистика: \[ \gamma = \frac{\hat\rho \sqrt{n-2}}{\sqrt{1 - \hat\rho^2}} \sim T_{n-2}. \]
    4. Критическая область: \[ (-\infty, -t_{1-\frac{\alpha}{2}, n-2}) \cup (t_{1-\frac{\alpha}{2}, n-2}, +\infty). \]

    Коэффициент ранговой корреляции Спирмена: \[ \tilde\rho = \hat\rho (r(X_{[n]}), r(Y_{[m]})) = 1 - \frac{6\sum_{i=1}^n \paren{r(x_i) - r(y_i)}^2}{n(n-1)(n-2)}, \] где $r(z)$ — ранг элемента $z$ в общем вариационном ряду.
    1. $H_0: \rho_S = 0$.
    2. Задаём уровень значимости критерия $\alpha$.
    3. Статистика: \[ \gamma = \tilde\rho \sqrt{n - 1} \sim N(0, 1). \]
    4. Критическая область: \[ (-\infty, -u_{1-\frac{\alpha}{2}}) \cup (u_{1-\frac{\alpha}{2}}, +\infty). \]