applied_statistics

Форк
0
/
Lecture 6. Monte-Carlo.ipynb 
649 строк · 61.1 Кб
1
{
2
 "cells": [
3
  {
4
   "cell_type": "code",
5
   "execution_count": 3,
6
   "id": "2d8bea35-37cc-4b98-bdeb-471a07352aee",
7
   "metadata": {},
8
   "outputs": [],
9
   "source": [
10
    "from scipy.stats import (\n",
11
    "    norm, binom, expon, t, chi2, pareto, ttest_ind, sem, beta, laplace\n",
12
    ")\n",
13
    "from statsmodels.stats.proportion import proportion_confint\n",
14
    "import numpy as numpy\n",
15
    "from seaborn import distplot\n",
16
    "from matplotlib import pyplot\n",
17
    "import seaborn\n",
18
    "\n",
19
    "import sys\n",
20
    "sys.path.append('.')\n",
21
    "\n",
22
    "import warnings\n",
23
    "warnings.filterwarnings(\"ignore\")"
24
   ]
25
  },
26
  {
27
   "cell_type": "code",
28
   "execution_count": 4,
29
   "id": "ac266211-93ed-4151-ab04-01a8598dff79",
30
   "metadata": {},
31
   "outputs": [],
32
   "source": [
33
    "def inverse_plot_colorscheme():\n",
34
    "    import cycler\n",
35
    "    def invert(color_to_convert): \n",
36
    "        table = str.maketrans('0123456789abcdef', 'fedcba9876543210')\n",
37
    "        return '#' + color_to_convert[1:].lower().translate(table).upper()\n",
38
    "    update_dict = {}\n",
39
    "    for key, value in pyplot.rcParams.items():\n",
40
    "        if value == 'black':\n",
41
    "            update_dict[key] = 'white'\n",
42
    "        elif value == 'white':\n",
43
    "            update_dict[key] = 'black'\n",
44
    "    \n",
45
    "    old_cycle = pyplot.rcParams['axes.prop_cycle']\n",
46
    "    new_cycle = []\n",
47
    "    for value in old_cycle:\n",
48
    "        new_cycle.append({\n",
49
    "            'color': invert(value['color'])\n",
50
    "        })\n",
51
    "    pyplot.rcParams.update(update_dict)\n",
52
    "    pyplot.rcParams['axes.prop_cycle'] = cycler.Cycler(new_cycle)\n",
53
    "    lec = pyplot.rcParams['legend.edgecolor']\n",
54
    "    lec = str(1 - float(lec))\n",
55
    "    pyplot.rcParams['legend.edgecolor'] = lec"
56
   ]
57
  },
58
  {
59
   "cell_type": "code",
60
   "execution_count": 5,
61
   "id": "d6bcb93b-bbed-4415-aa28-9e5c6052d51c",
62
   "metadata": {},
63
   "outputs": [],
64
   "source": [
65
    "inverse_plot_colorscheme()"
66
   ]
67
  },
68
  {
69
   "cell_type": "markdown",
70
   "id": "1276fbd9-51d6-4da1-8a4f-93f8d7d93a28",
71
   "metadata": {},
72
   "source": [
73
    "# Лекция 6. Монте-Карло\n",
74
    "\n",
75
    "Сегодня мы поговорим о методе Монте-Карло, являющимся очень мощным инструментом в статистике. С его помощью мы ответим с вами на 3 вопроса:\n",
76
    "- Как проверить ваш критерий? Валиден он на практике или нет?\n",
77
    "    - Например, работает ли t-test на малых размерах выборок?\n",
78
    "- У вас есть 2 разных критерия. Как понять, какой критерий лучше подходит для вашей задачи?\n",
79
    "<!-- - Как жить, если мы не знаем теор.вер? Как придумывать критерии на практике, если мы не хотим ничего считатать? В некоторых случаях у вас появится ответ на этот вопрос) -->"
80
   ]
81
  },
82
  {
83
   "cell_type": "markdown",
84
   "id": "068ded1b-f874-43a4-9f24-4f32c9db8353",
85
   "metadata": {},
86
   "source": [
87
    "## 1. Проверка критериев\n",
88
    "\n",
89
    "С помощью метода Монте-Карло мы в *общем случае* сможем ответить на вопросы:\n",
90
    "- **Можно ли использовать данный критерий для нашей задачи?**\n",
91
    "- **Верно ли вообще реализован критерий?**\n",
92
    "\n",
93
    "Вся эта глава в первую очередь будет посвящена AB-тестам и как можно проверять критерии для них. Основным критерием для проверки в этой главе станет t-test. Мы с вами:\n",
94
    "- Покажем на практике, что t-test работает для выборок не только из нормального распределения\n",
95
    "- Посмотрим, как определить, с какого размера выборки можно применять t-test. Как мы помним из прошлой лекции, t-test работает теоретически для выборок из любого распределения, если выборка достаточно большая. \n",
96
    "\n",
97
    "\n",
98
    "|                          | маленькая выборка | большая выборка |\n",
99
    "|--------------------------|-------------------|-----------------|\n",
100
    "| нормальное распределение | t-test            | t-test |\n",
101
    "| любое распределение      |                   | t-test |\n",
102
    "\n",
103
    "---\n",
104
    "\n",
105
    "Что значит, что критерий корректен? Давайте пойдем от определения.\n",
106
    "- Критерий уровня значимости $\\alpha$ означает, что вероятность неверно отвергнуть нулевую гипотезу $\\le \\alpha$. \n",
107
    "- А это в свою очередь значит, что если бесконечно много раз повторить один и тот же эксперимент, в котором верна нулевая гипотеза, генерируя заново эксперимент, то число ложноположительных срабатываний будет меньше $\\alpha$ процентов.\n",
108
    "\n",
109
    "На самом деле, здесь уже расказана процедура, как проверить ваш критерий :)\n",
110
    "\n",
111
    "0. Создаем код критерия, который мы будем проверять.\n",
112
    "1. Генерируем как можно больше экспериментов, где верна $H_0$. \n",
113
    "2. Прогоняем на них придуманный критерий.\n",
114
    "3. Проверяем, правда ли, что только в $\\alpha$ процентов случаев критерий отвергается?\n",
115
    "\n",
116
    "А теперь распишем подробнее:\n",
117
    "1. Первым делом надо выбрать распределение, которое будет описывать наши данные. К примеру, если у нас метрика конверсии, то это бернуллевское распределение, а если метрика — выручка, то лучше использовать экспоненциальное распределение в качестве самого простого приближения.\n",
118
    "\n",
119
    "2. Завести счётчик bad_cnt = 0.\n",
120
    "\n",
121
    "3. Далее в цикле размера N, где N — натуральное число от 1000 до бесконечности (чем оно больше, тем лучше):\n",
122
    "   - Симулировать создание выборки из распределения, выбранного на первом шаге. Так, чтобы верна была $H_0$.\n",
123
    "        - А в случае AB-теста симулировать надо не 1 выборку, а 2: для теста и контроля.\n",
124
    "\n",
125
    "    - Запустить на сгенерированных данных проверяемый критерий.\n",
126
    "\n",
127
    "    - Далее проверить, `pvalue < alpha`. Если да, то увеличить счётчик bad_cnt на 1. Здесь мы проверяем, ошибся ли критерий на текущей симуляции, или нет. \n",
128
    "\n",
129
    "4. Посчитать конверсию bad_cnt / N.\n",
130
    "    - Если она примерно совпадает с $\\alpha$, то все хорошо.\n",
131
    "    - Если она меньше $\\alpha$, то в принципе это адекватный критерий на практике, просто он будет менее мощный, чем критерий, который ошибается ровно в $\\alpha$ проценте случаев.\n",
132
    "        - Но на практике стоит проверить: а теоретически такая ситуация возможна? Или это ошибка в коде критерия?\n",
133
    "    - Если критерий ошибается больше, чем в $\\alpha$, то значит он некорректен и им нельзя пользоваться. Используя такой критерий, вы будете ошибаться чаще положенного, а значит ваша  компания будет терять больше денег.\n",
134
    "    \n",
135
    "    \n",
136
    "Рассмотрим процедуру на примере: проверим, можно ли использовать t-test для выборок из нормального распределения?"
137
   ]
138
  },
139
  {
140
   "cell_type": "code",
141
   "execution_count": 6,
142
   "id": "d7e9da0f-3161-49da-97ee-252c2619a077",
143
   "metadata": {},
144
   "outputs": [
145
    {
146
     "name": "stdout",
147
     "output_type": "stream",
148
     "text": [
149
      "FPR: 0.0519\n"
150
     ]
151
    }
152
   ],
153
   "source": [
154
    "numpy.random.seed(42)\n",
155
    "\n",
156
    "bad_cnt = 0\n",
157
    "N = 10000\n",
158
    "alpha=0.05\n",
159
    "\n",
160
    "sample_dist = norm(loc=2, scale=3)\n",
161
    "mu0=sample_dist.expect()\n",
162
    "for i in range(N):\n",
163
    "    # Генерирую выборку теста и контроля\n",
164
    "    test    = sample_dist.rvs(5)\n",
165
    "    control = sample_dist.rvs(5)\n",
166
    "\n",
167
    "    # Запускаю критерий и считаю p-value\n",
168
    "    pvalue = ttest_ind(test, control, alternative='two-sided').pvalue\n",
169
    "    \n",
170
    "    # Проверяю, что pvalue < alpha\n",
171
    "    bad_cnt += (pvalue < alpha)\n",
172
    "\n",
173
    "\n",
174
    "print(f\"FPR: {round(bad_cnt / N, 4)}\")"
175
   ]
176
  },
177
  {
178
   "cell_type": "markdown",
179
   "id": "05713d6c-0e68-4ee3-8e96-151392c61ef9",
180
   "metadata": {},
181
   "source": [
182
    "Хм, мы получили, что FPR=0.0519, хотя он должен был равняться 5%. Правда ли, что критерий некорректен? Ну конечно нет, мы просто не учли шум  конверсии: мы вряд ли сможем получить на конечном числе экспериментов точное равенство `FPR=alpha`.\n",
183
    "\n",
184
    "Поэтому надо чуть улучшить 4 шаг:\n",
185
    "\n",
186
    "4. Посчитать полученный FPR и построить доверительный интервал для него. Если $\\alpha$ лежит в нем, значит все хорошо, а иначе разбираемся, что пошло не так.\n",
187
    "    - Доверительный интервал можно построить разными способами: например, используя идеи построения доверительных интервалов из второй лекции.\n",
188
    "    - Но можно сделать проще: в питоне есть функция, которая строит [доверительный интервал Уилсона](https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval): он не такой точный, как мы выводили ранее, зато он более быстрый и работает из \"коробки\". Его не надо реализовывать самому."
189
   ]
190
  },
191
  {
192
   "cell_type": "code",
193
   "execution_count": 7,
194
   "id": "8ca48be8-2429-43ee-8ab9-e5828a725997",
195
   "metadata": {},
196
   "outputs": [
197
    {
198
     "data": {
199
      "text/plain": [
200
       "(0.04772180742973847, 0.05642233191006188)"
201
      ]
202
     },
203
     "execution_count": 7,
204
     "metadata": {},
205
     "output_type": "execute_result"
206
    }
207
   ],
208
   "source": [
209
    "proportion_confint(count = bad_cnt, nobs = N, alpha=0.05, method='wilson')"
210
   ]
211
  },
212
  {
213
   "cell_type": "markdown",
214
   "id": "cbb87da4-a54a-4c67-82e0-09a181f1c0ca",
215
   "metadata": {},
216
   "source": [
217
    "Мы видим, что 5% попали в доверительный интервал, а значит мы можем считать, что критерий валиден для нашей задачи.\n",
218
    "\n",
219
    "А что, если бы распределение было сложнее?\n",
220
    "\n",
221
    "Расссмотрим пример, когда мат. ожидания в тесте и в контроле равны, но выборки из разных распределений. То есть $H_0$ верна, но распределения разные."
222
   ]
223
  },
224
  {
225
   "cell_type": "code",
226
   "execution_count": 8,
227
   "id": "83115ac4-49da-41f6-99c0-ce58a1b0aa8d",
228
   "metadata": {},
229
   "outputs": [
230
    {
231
     "data": {
232
      "image/png": "\n",
233
      "text/plain": [
234
       "<Figure size 720x360 with 1 Axes>"
235
      ]
236
     },
237
     "metadata": {
238
      "needs_background": "dark"
239
     },
240
     "output_type": "display_data"
241
    }
242
   ],
243
   "source": [
244
    "test_dist = expon(scale = 10)\n",
245
    "control_dist = expon(loc=5, scale = 5)\n",
246
    "\n",
247
    "x = numpy.linspace(0, 100, 1000)\n",
248
    "\n",
249
    "pyplot.figure(figsize=(10, 5))\n",
250
    "pyplot.title('Пример распределений', fontsize=12)\n",
251
    "pyplot.plot(x, test_dist.pdf(x), label='test')\n",
252
    "pyplot.plot(x, control_dist.pdf(x), label='control')\n",
253
    "pyplot.xlabel('Выручка')\n",
254
    "pyplot.ylabel('Плотность')\n",
255
    "\n",
256
    "pyplot.legend(fontsize=12)\n",
257
    "pyplot.grid(linewidth=0.2)\n",
258
    "pyplot.show()"
259
   ]
260
  },
261
  {
262
   "cell_type": "markdown",
263
   "id": "4a6c6226-aa1f-4506-8c3a-c5b541e80006",
264
   "metadata": {},
265
   "source": [
266
    "Например, раньше в среднем выручка от пользователя была примерно 10 руб и она была не меньше 5 рублей, а после введения эффекта часть пользователей стала меньше платить, но средний чек остался таким же: 10 руб."
267
   ]
268
  },
269
  {
270
   "cell_type": "code",
271
   "execution_count": 21,
272
   "id": "56d48d7d-ced4-4b13-9375-7f4ad4590975",
273
   "metadata": {},
274
   "outputs": [],
275
   "source": [
276
    "def check_criterion(test_dist, control_dist, sample_size, N_exps=10000, to_print=True):\n",
277
    "    \"\"\"\n",
278
    "        Функция для проверки t-test критерия для AB-теста\n",
279
    "        Возвращает доверительный интервал для FPR, если флаг to_print = False. Иначе печатает результат.\n",
280
    "    \n",
281
    "        Параметры:\n",
282
    "            - test_dist: Распределение тестовой выборки в эксперименте\n",
283
    "            - control_dist: Распределение контрольной выборки в эксперименте\n",
284
    "            - sample_size: размер выборки теста и контроля\n",
285
    "            - N_exps: число экспериментов, по которым потом считается FPR\n",
286
    "            - to_print: печатать результат или нет. Если нет, то функция возвращает дов. интервал для FPR.\n",
287
    "    \"\"\"\n",
288
    "    \n",
289
    "    numpy.random.seed(35)\n",
290
    "    bad_cnt=0\n",
291
    "    alpha=0.05\n",
292
    "\n",
293
    "    for i in range(N_exps):\n",
294
    "        # Генерирую выборку\n",
295
    "        test    = test_dist.rvs(sample_size)\n",
296
    "        control = control_dist.rvs(sample_size)\n",
297
    "\n",
298
    "        # Запускаю критерий и считаю p-value\n",
299
    "        pvalue = ttest_ind(test, control, equal_var=False, alternative='two-sided').pvalue\n",
300
    "\n",
301
    "        # Проверяю, что pvalue < alpha\n",
302
    "        bad_cnt += (pvalue < alpha)\n",
303
    "\n",
304
    "    if to_print:\n",
305
    "        print(f\"FPR: {round(bad_cnt / N_exps, 4)}\")\n",
306
    "        print(f\"CI={proportion_confint(count = bad_cnt, nobs = N_exps, alpha=0.05, method='wilson')}\")\n",
307
    "    else:\n",
308
    "        return proportion_confint(count = bad_cnt, nobs = N_exps, alpha=0.05, method='wilson')"
309
   ]
310
  },
311
  {
312
   "cell_type": "code",
313
   "execution_count": 22,
314
   "id": "ecfd1be8-5ea2-492f-8996-bbd029ca1645",
315
   "metadata": {},
316
   "outputs": [
317
    {
318
     "name": "stdout",
319
     "output_type": "stream",
320
     "text": [
321
      "FPR: 0.0443\n",
322
      "CI=(0.04043912932872393, 0.04851084678631071)\n"
323
     ]
324
    }
325
   ],
326
   "source": [
327
    "check_criterion(test_dist=test_dist, control_dist=control_dist, sample_size=20)"
328
   ]
329
  },
330
  {
331
   "cell_type": "markdown",
332
   "id": "78390350-13e2-4080-9443-8b5f54f27865",
333
   "metadata": {},
334
   "source": [
335
    "Что ж, мы видим, что t-test не сработал. Истинное $\\alpha$ не лежит в доверительном интервале. Но с какого размера выборк t-test начнет работать правильно?\n",
336
    "\n",
337
    "### Как проверить минимальный размер выборки при котором t-test работает?\n",
338
    "\n",
339
    "Для этого давайте просимулируем эксперимент с разным размером выборок и посмотрим, с какого размеры выборки у нас $\\alpha$% лежит в дов. интервале."
340
   ]
341
  },
342
  {
343
   "cell_type": "code",
344
   "execution_count": 23,
345
   "id": "f240f758-29d8-4203-a7ae-fe196b77744a",
346
   "metadata": {},
347
   "outputs": [
348
    {
349
     "name": "stdout",
350
     "output_type": "stream",
351
     "text": [
352
      "Min sample size: 40\n"
353
     ]
354
    }
355
   ],
356
   "source": [
357
    "scale = numpy.arange(20, 110, 20)\n",
358
    "for N in scale:\n",
359
    "    left, right = check_criterion(test_dist=test_dist, control_dist=control_dist, sample_size=N, N_exps=10000, to_print=False)\n",
360
    "    if left < alpha < right:\n",
361
    "        print(f\"Min sample size: {N}\")\n",
362
    "        break"
363
   ]
364
  },
365
  {
366
   "cell_type": "code",
367
   "execution_count": 24,
368
   "id": "aec8451a-9cf6-4964-8832-c0060c32ab52",
369
   "metadata": {},
370
   "outputs": [
371
    {
372
     "name": "stdout",
373
     "output_type": "stream",
374
     "text": [
375
      "FPR: 0.0488\n",
376
      "CI=(0.04474778133939989, 0.05319873879029866)\n"
377
     ]
378
    }
379
   ],
380
   "source": [
381
    "check_criterion(test_dist=test_dist, control_dist=control_dist, sample_size=60)"
382
   ]
383
  },
384
  {
385
   "cell_type": "markdown",
386
   "id": "2d83355b-58ab-4ba8-8d15-5bd883f53126",
387
   "metadata": {},
388
   "source": [
389
    "Так мы видим, что для выборки размера 60 &mdash; 5% уже попали в дов. интервал. Так что мы можем считать, что для таких распределений нам достаточно выборки размера 60, чтобы использовать t-test. \n",
390
    "\n",
391
    "Но надо понимать, что реальный FPR может быть не 5%: он лежит в доверительном интервале (0.045, 0.053). Если нужна большая точность &mdash; нужно провести больше экспериментов (`N_exps -> infinity`)"
392
   ]
393
  },
394
  {
395
   "cell_type": "markdown",
396
   "id": "d3bde783-98a5-4462-9940-5f304036046c",
397
   "metadata": {},
398
   "source": [
399
    "\n",
400
    "## Итого\n",
401
    "\n",
402
    "Чтобы проверить критерий, надо уметь много раз проводить один и тот же эксперимент.\n",
403
    "- Правильно ли реализорван критерий?\n",
404
    "    - Проверьте его! Можно на специально смоделированных данных.\n",
405
    "- Можно ли использовать данный критерий для нашей задачи?\n",
406
    "    - Проверьте его! Но только нужно **правильно** сгенерировать эксперимент.\n",
407
    "- Как найти минимальный размер выборки у t-test?\n",
408
    "    - Прверьте t-test на разных размерах выборки. С того момента, как $\\alpha$% лежит в доверительном интервале &mdash; можем считать, что t-test будет работать.\n"
409
   ]
410
  },
411
  {
412
   "cell_type": "markdown",
413
   "id": "af342260-70fa-4258-af45-a6ce3cfbaf42",
414
   "metadata": {},
415
   "source": [
416
    "# Как смоделировать эксперимент?\n",
417
    "\n",
418
    "Есть 2 ответа на этот вопрос:\n",
419
    "1. Генерация теста и контроля через искусственное моделирование. С помощью разных распределений можно попытаться приблизить реальное распределение на данных. Например:\n",
420
    "    - Для генерации выручки использовать экспоненциальное распределение. Чем больше выручка от пользователя &mdash; тем меньше таких людей.\n",
421
    "    - Для генерации конверсионных выборок (например, кликнет/не клинкет) использовать бернуллиевскую выборку.\n",
422
    "    - Иногда можно брать смесь распределений: пусть 90% пользователй нашего сайта приносят нулевую выручку. Тогда можно перемножить бернуллиевское распределение на экспоненциальное для моделирования выручки от пользователя.\n",
423
    "    - Также для проверки криетрия не обязательно распределения в тесте и в контроле должны совпадать. Для проверки критерия равенства средних не обязательно должны совпадать распределения в тесте и в контроле. Они могут быть разными, но мат. ожидание совпадет, как было в примере выше.\n",
424
    "    \n",
425
    "---     \n",
426
    "    \n",
427
    "2.  Датасеты на исторических данных компании. У многих компаний есть логирование событий. Тогда мы сможем прямо на реальных данных оценить работоспособность критерия! И не попасться в ловушку того, что на искуственных выборках критерий валиден, а на реальных данных нет. Например, у нас есть данные о транзакциях пользователей за несколько лет. Это уже один готовый датасет: вы делите всех пользователей на тест и контроль и получаете один «эксперимент» для проверки вашего критерия. \n",
428
    "\n",
429
    "Осталось понять, как из одного большого датасета сделать N маленьких датасетов. Я расскажу, как мы это делаем в Авито, но описанная механика применима практически к любой компании.\n",
430
    "\n",
431
    "Наши пользователи размещают объявления. Каждое объявление относится только к одной категории товаров и размещено только в одном регионе. Отсюда возникает незамысловатый алгоритм:\n",
432
    "\n",
433
    " - Разобьём все размещения пользователей на четыре (или N в общем случае) категории: автомобили, спецтехника, услуги и недвижимость. Теперь наш датасет можно разбить на эти подкатегории: к примеру, в одном датасете смотреть выручку пользователя только в этой подкатегории.\n",
434
    "\n",
435
    " - Поделим датасеты по месяцам: датасет трат пользователя за ноябрь, за декабрь и так далее.\n",
436
    "\n",
437
    " - Ещё все метрики можно поделить по субъектам РФ или по группе субъектов: датасет трат пользователя из Москвы, датасет трат пользователя из Хабаровска и так далее.\n",
438
    " \n",
439
    " - Объедним все 3 правила в одно. Например: датасет трат пользователя в Авто за ноябрь в Москве.\n",
440
    "\n",
441
    " - Теперь у нас есть большое число датасетов и в каждом из них есть пользователи. Поделим пользователей случайно на тест и контроль и получим финальные датасеты для валидации придуманных статистических критериев.\n",
442
    "\n",
443
    "Давайте посмотрим на картинках, как такая схема увеличивает количество датасетов:\n",
444
    "    <img src=\"https://habrastorage.org/getpro/habr/upload_files/71a/497/8cb/71a4978cbbb1f177c5edb360456f3e90.png\" width=\"1500\" height=\"200\" />\n",
445
    "\n",
446
    "\n",
447
    "Здесь мы смогли разбить 1 датасет на 16 датасетов. А если добавить ещё и разделение по субъектам РФ, которых больше 80, то мы получим уже 16×80 = 1280 датасетов для проверки. И это всего за 5 месяцев! При этом, как показывает практика, 1000 датасетов достаточно, чтобы отделить некорректный критерий от хорошего.\n",
448
    "\n",
449
    "**Сравним 2 метода**\n",
450
    "\n",
451
    "Главные плюсы искусственных данных в том, что их сколько угодно, они генерируются быстро, и вы полностью контролируете распределение. Можно создать бесконечно много датасетов и очень точно оценить ошибку первого рода вашего критерия. Также, мой опыт говорит, что на начальных этапах дебага нового критерия искусственные данные сильно лучше реальных. Главный минус — вы получили корректность вашего критерия только на искусственных данных! На реальных же данных критерий может работать некорректно.\n",
452
    "\n",
453
    "У датасетов, полученных на настоящих данных, всё наоборот: собрать большое количество датасетов сложно, да и не всегда нормально построен процесс сбора логов. Но адекватная оценка корректности критерия для проверки гипотез в вашей компании возможна только таким способом. Всегда можно реализовать такой критерий, который будет правильно работать на искусственных данных. Но, столкнувшись в реальности с более шумными данными, он может начать ошибаться чаще, чем в 5% случаев. Поэтому важно убедиться, что именно на настоящих данных метод будет работать верно. "
454
   ]
455
  },
456
  {
457
   "cell_type": "markdown",
458
   "id": "c004e55f-8ed6-489a-9083-e70e3087516b",
459
   "metadata": {},
460
   "source": [
461
    "\n",
462
    "----------"
463
   ]
464
  },
465
  {
466
   "cell_type": "markdown",
467
   "id": "de19cddb-efcf-4793-8dab-024bf7c7e2b8",
468
   "metadata": {},
469
   "source": [
470
    "Посмотрим еще раз на табличку:\n",
471
    "\n",
472
    "|                          | маленькая выборка | большая выборка |\n",
473
    "|--------------------------|-------------------|-----------------|\n",
474
    "| нормальное распределение | t-test            | t-test |\n",
475
    "| любое распределение      |                   | t-test |\n",
476
    "\n",
477
    "\n",
478
    "Мы уже поняли, как отличить маленькую выборку от большой. Но остался последний вопрос: чем заполнить последнюю пустующую ячейку?"
479
   ]
480
  },
481
  {
482
   "cell_type": "markdown",
483
   "id": "ddf67821-3776-4d84-b849-2236b0f6f46e",
484
   "metadata": {},
485
   "source": [
486
    "### Можно ли использовать t-test, если выборка мала и не из нормального распределения?\n",
487
    "\n",
488
    "\n",
489
    "На самом деле ответ простой: проверьте критерий на интересующем вас размере выборки: если FPR $\\leq \\alpha$ значит все хорошо, а если нет &mdash; критерий использовать нельзя.\n",
490
    "\n",
491
    "\n",
492
    "|                          | маленькая выборка | большая выборка |\n",
493
    "|--------------------------|-------------------|-----------------|\n",
494
    "| нормальное распределение | t-test               | t-test|\n",
495
    "| любое распределение      | Монте-Карло проверка | t-test |\n",
496
    "\n",
497
    "\n",
498
    "Например, в случае выше с двумя экспоненциальными распределениями &mdash; нельзя. А если бы ошибка была бы меньше 5% то можно. Например:"
499
   ]
500
  },
501
  {
502
   "cell_type": "code",
503
   "execution_count": 25,
504
   "id": "733fcb69-5119-4b65-9516-7bee55662b0d",
505
   "metadata": {},
506
   "outputs": [
507
    {
508
     "name": "stdout",
509
     "output_type": "stream",
510
     "text": [
511
      "FPR: 0.0396\n",
512
      "CI=(0.03595116606388123, 0.04360241963583777)\n"
513
     ]
514
    }
515
   ],
516
   "source": [
517
    "test_dist    = expon(scale=20)\n",
518
    "control_dist = expon(scale=20)\n",
519
    "\n",
520
    "check_criterion(test_dist=test_dist, control_dist=control_dist, sample_size=10)"
521
   ]
522
  },
523
  {
524
   "cell_type": "markdown",
525
   "id": "b30b8197-1331-488d-a3d0-2478ca8eecdd",
526
   "metadata": {},
527
   "source": [
528
    "Здесь FPR стат. значимо меньше 5%, а значит использовать t-test **можно**. Только надо быть готовым, что он будет не очень мощным. "
529
   ]
530
  },
531
  {
532
   "cell_type": "markdown",
533
   "id": "bc0a4522-6eeb-433a-bc6f-93d088c78b88",
534
   "metadata": {},
535
   "source": [
536
    "---"
537
   ]
538
  },
539
  {
540
   "cell_type": "markdown",
541
   "id": "8b8070d4-94ef-443d-aab5-4f0b0ec3e308",
542
   "metadata": {},
543
   "source": [
544
    "## 2. Какой критерий лучше?\n",
545
    "\n",
546
    "Пусть у вас есть 2 критерия, и оба валидны на наших данных. Как понять на практике, какой из них лучше?\n",
547
    "\n",
548
    "Правильный ответ &mdash; надо сравнить мощность 2 критериев! Но как ее узнать?\n",
549
    "\n",
550
    "Предлагается повторить ту же процедуру, что мы делали выше, только вместо генерации эксперимента, когда верна $H_0$, генерировать эксперимент, когда верна альтернатива. В случае сравнения средних &mdash; надо добавить эффект к тесту. И вместо FPR считать TPR &mdash; сколько раз мы отвергли нулевую гипотезу. Чем больше &mdash; тем лучше.\n",
551
    "\n",
552
    "Точно также проверим на t-test."
553
   ]
554
  },
555
  {
556
   "cell_type": "code",
557
   "execution_count": 120,
558
   "id": "aa6ae952-8e97-49f1-9037-9b340b43d141",
559
   "metadata": {},
560
   "outputs": [
561
    {
562
     "name": "stdout",
563
     "output_type": "stream",
564
     "text": [
565
      "TPR или мощность: 0.1938\n"
566
     ]
567
    }
568
   ],
569
   "source": [
570
    "numpy.random.seed(42)\n",
571
    "\n",
572
    "rej_cnt = 0\n",
573
    "N = 10000\n",
574
    "alpha=0.05\n",
575
    "\n",
576
    "sample_dist = norm(loc=2, scale=3)\n",
577
    "mu=sample_dist.expect()\n",
578
    "\n",
579
    "for i in range(N):\n",
580
    "    # Генерирую выборку теста и контроля\n",
581
    "    test    = sample_dist.rvs(15)\n",
582
    "    control = sample_dist.rvs(15) * 2\n",
583
    "\n",
584
    "    # Запускаю критерий и считаю p-value\n",
585
    "    pvalue = ttest_ind(test, control, equal_var=False, alternative='two-sided').pvalue\n",
586
    "    \n",
587
    "    # Проверяю, что pvalue < alpha\n",
588
    "    rej_cnt += (pvalue < alpha)\n",
589
    "\n",
590
    "\n",
591
    "print(f\"TPR или мощность: {round(rej_cnt / N, 4)}\")"
592
   ]
593
  },
594
  {
595
   "cell_type": "markdown",
596
   "id": "de023f81-c39c-42d3-a1d5-25e39bec8c75",
597
   "metadata": {},
598
   "source": [
599
    "Видим, что мощность критерия в данном случае раняется 19%. Если есть второй критерий &mdash; надо запустить такую проверку для 2го критерия и оценить, какой критерий лучше или хуже, не забыв о стат. значимости. Подробнее вы рассмотрите эту процедуру в домашнем задании.\n",
600
    "\n",
601
    "Еще есть вопрос: вы оценили 2 критерия лишь при добавлении одного эффекта, например в случае выше, когда $\\mu_T = \\mu_C * 2$. А если бы было другое изменение, сохранились бы результаты, что этот критерий лучше? Не факт, поэтому поэтому надо идеалогически подбирать такой эффект, который чаще всего встретится на практике. Поэтому ваша задача еще верно сымитировать эффект, похожий на настоящий.\n",
602
    "Логика здесь точно такая же, как и почему лучше генерировать эксперименты на исторических данных, а не на настоящих.\n",
603
    "\n",
604
    "То есть, ваша задача для оценки мощности критерия состоит в:\n",
605
    "1. Создании 1000 экспериментов, на исторических данных, или на симулированных\n",
606
    "2. Подборе эффекта, который будет лучше всего имитировать истинный проверяемый эффект в гипотезе.\n",
607
    "\n",
608
    "\n",
609
    "----"
610
   ]
611
  },
612
  {
613
   "cell_type": "markdown",
614
   "id": "2df78501-eedc-4f36-9ba0-869676a41e7d",
615
   "metadata": {},
616
   "source": [
617
    "# Итог\n",
618
    "\n",
619
    "В чем заключается метод Монте-Карло в каждой из секции? В генерации большого количества экспериментов и подсчета каких-то статистик на нем.\n",
620
    "На текущей лекции мы с вами посмотрели разные способы применения Монте-Карло метода:\n",
621
    "- Как проверять критерий на практике.\n",
622
    "    - Как генерировать эксперименты для проверки\n",
623
    "- Как оценивать мощность критерия.\n",
624
    "<!-- - И как самому приудмать свой критерий, не заниаясь сложной математикой. Метод хороший, но не всегда рабочий. -->\n"
625
   ]
626
  }
627
 ],
628
 "metadata": {
629
  "kernelspec": {
630
   "display_name": "Python 3 (ipykernel)",
631
   "language": "python",
632
   "name": "python3"
633
  },
634
  "language_info": {
635
   "codemirror_mode": {
636
    "name": "ipython",
637
    "version": 3
638
   },
639
   "file_extension": ".py",
640
   "mimetype": "text/x-python",
641
   "name": "python",
642
   "nbconvert_exporter": "python",
643
   "pygments_lexer": "ipython3",
644
   "version": "3.7.4"
645
  }
646
 },
647
 "nbformat": 4,
648
 "nbformat_minor": 5
649
}
650

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.