Spaces:

versus666
/

ABTest_Lab

Runtime error

App Files Files Community

HardWorkingStation commited on Aug 16, 2022

Commit

853a5d2

0 Parent(s):

Initial commit

Browse files

Files changed (13) hide show

.gitattributes +1 -0
.github/workflow/main.yaml +30 -0
.gitignore +1 -0
README.md +10 -0
data/ab_test.csv +3 -0
images/ab-duration.png +0 -0
images/ab-structure.png +0 -0
images/hypotesis.png +0 -0
images/main.jpg +0 -0
images/peeking_problem.png +0 -0
requirements.txt +204 -0
src/app.py +407 -0
src/tools.py +232 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1 @@


1	+ data/* filter=lfs diff=lfs merge=lfs -text

.github/workflow/main.yaml ADDED Viewed

	@@ -0,0 +1,30 @@

+name: Sync to HuggingFace hub
+on:
+  push:
+    branches: [main]
+  pull_request:
+    branches: [main]
+      # to run this workflow manually from the Actions tab
+  workflow_dispatch:
+jobs:
+  check_files:
+    runs-on: ubuntu-latest
+    steps:
+      - name: Check large files
+        uses: ActionsDesk/[email protected]
+        with:
+          filesizelimit: 10485760 # this is 10MB so we can sync to HF Spaces
+  sync-to-hub:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v2
+        with:
+          fetch-depth: 0
+      - name: Push to hub
+        env:
+          HF_TOKEN: ${{ secrets.HF_TOKEN }}
+        run: git push --force https://HF_USERNAME:[email protected]/spaces/versus666/ABTest_Lab main
+    needs: check_files

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ test

README.md ADDED Viewed

	@@ -0,0 +1,10 @@

+---
+title: A/B Lab
+emoji: 🚀 🚀 🚀
+colorFrom: blue
+colorTo: green
+sdk: streamlit
+sdk_version: 1.10.0
+app_file: src/app.py
+pinned: false
+---

data/ab_test.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:573480e296cd1695033e00db0d31c4293b0b048db92a91f1a7a49358bb6711eb
+size 25030766

images/ab-duration.png ADDED Viewed

images/ab-structure.png ADDED Viewed

images/hypotesis.png ADDED Viewed

images/main.jpg ADDED Viewed

images/peeking_problem.png ADDED Viewed

requirements.txt ADDED Viewed

	@@ -0,0 +1,204 @@

+altair==4.2.0
+argon2-cffi==21.3.0
+argon2-cffi-bindings==21.2.0
+asttokens==2.0.5
+attrs==21.4.0
+backcall==0.2.0
+beautifulsoup4==4.11.1
+bleach==5.0.1
+blinker==1.5
+cachetools==5.2.0
+certifi==2022.6.15
+cffi==1.15.1
+charset-normalizer==2.1.0
+click==8.1.3
+colorama==0.4.5
+commonmark==0.9.1
+debugpy==1.6.2
+decorator==5.1.1
+defusedxml==0.7.1
+entrypoints==0.4
+executing==0.9.1
+fastjsonschema==2.16.1
+gitdb==4.0.9
+GitPython==3.1.27
+idna==3.3
+importlib-metadata==4.12.0
+ipykernel==6.15.1
+ipython==8.4.0
+ipython-genutils==0.2.0
+ipywidgets==7.7.1
+jedi==0.18.1
+Jinja2==3.1.2
+jsonschema==4.7.2
+jupyter==1.0.0
+jupyter-client==7.3.4
+jupyter-console==6.4.4
+jupyter-core==4.11.1
+jupyterlab-pygments==0.2.2
+jupyterlab-widgets==1.1.1
+MarkupSafe==2.1.1
+matplotlib-inline==0.1.3
+mistune==0.8.4
+nbclient==0.6.6
+nbconvert==6.5.0
+nbformat==5.4.0
+nest-asyncio==1.5.5
+notebook==6.4.12
+numpy==1.23.1
+packaging==21.3
+pandas==1.4.3
+pandocfilters==1.5.0
+parso==0.8.3
+patsy==0.5.2
+pickleshare==0.7.5
+Pillow==9.2.0
+plotly==5.9.0
+prometheus-client==0.14.1
+prompt-toolkit==3.0.30
+protobuf==3.20.1
+psutil==5.9.1
+pure-eval==0.2.2
+pyarrow==8.0.0
+pycparser==2.21
+pydeck==0.7.1
+Pygments==2.12.0
+Pympler==1.0.1
+pyparsing==3.0.9
+pyrsistent==0.18.1
+python-dateutil==2.8.2
+pytz==2022.1
+pytz-deprecation-shim==0.1.0.post0
+pyzmq==23.2.0
+qtconsole==5.3.1
+QtPy==2.1.0
+requests==2.28.1
+rich==12.5.1
+scipy==1.8.1
+semver==2.13.0
+Send2Trash==1.8.0
+six==1.16.0
+smmap==5.0.0
+soupsieve==2.3.2.post1
+stack-data==0.3.0
+statsmodels==0.13.2
+streamlit==1.11.0
+tenacity==8.0.1
+terminado==0.15.0
+tinycss2==1.1.1
+toml==0.10.2
+toolz==0.12.0
+tornado==6.2
+traitlets==5.3.0
+typing_extensions==4.3.0
+tzdata==2022.1
+tzlocal==4.2
+urllib3==1.26.11
+validators==0.20.0
+watchdog==2.1.9
+wcwidth==0.2.5
+webencodings==0.5.1
+widgetsnbextension==3.6.1
+zipp==3.8.1
+altair==4.2.0
+argon2-cffi==21.3.0
+argon2-cffi-bindings==21.2.0
+asttokens==2.0.5
+attrs==21.4.0
+backcall==0.2.0
+beautifulsoup4==4.11.1
+bleach==5.0.1
+blinker==1.5
+cachetools==5.2.0
+certifi==2022.6.15
+cffi==1.15.1
+charset-normalizer==2.1.0
+click==8.1.3
+colorama==0.4.5
+commonmark==0.9.1
+debugpy==1.6.2
+decorator==5.1.1
+defusedxml==0.7.1
+entrypoints==0.4
+executing==0.9.1
+fastjsonschema==2.16.1
+gitdb==4.0.9
+GitPython==3.1.27
+idna==3.3
+importlib-metadata==4.12.0
+ipykernel==6.15.1
+ipython==8.4.0
+ipython-genutils==0.2.0
+ipywidgets==7.7.1
+jedi==0.18.1
+Jinja2==3.1.2
+jsonschema==4.7.2
+jupyter==1.0.0
+jupyter-client==7.3.4
+jupyter-console==6.4.4
+jupyter-core==4.11.1
+jupyterlab-pygments==0.2.2
+jupyterlab-widgets==1.1.1
+MarkupSafe==2.1.1
+matplotlib-inline==0.1.3
+mistune==0.8.4
+nbclient==0.6.6
+nbconvert==6.5.0
+nbformat==5.4.0
+nest-asyncio==1.5.5
+notebook==6.4.12
+numpy==1.23.1
+packaging==21.3
+pandas==1.4.3
+pandocfilters==1.5.0
+parso==0.8.3
+patsy==0.5.2
+pickleshare==0.7.5
+Pillow==9.2.0
+plotly==5.9.0
+prometheus-client==0.14.1
+prompt-toolkit==3.0.30
+protobuf==3.20.1
+psutil==5.9.1
+pure-eval==0.2.2
+pyarrow==8.0.0
+pycparser==2.21
+pydeck==0.7.1
+Pygments==2.12.0
+Pympler==1.0.1
+pyparsing==3.0.9
+pyrsistent==0.18.1
+python-dateutil==2.8.2
+pytz==2022.1
+pytz-deprecation-shim==0.1.0.post0
+pyzmq==23.2.0
+qtconsole==5.3.1
+QtPy==2.1.0
+requests==2.28.1
+rich==12.5.1
+scipy==1.8.1
+semver==2.13.0
+Send2Trash==1.8.0
+six==1.16.0
+smmap==5.0.0
+soupsieve==2.3.2.post1
+stack-data==0.3.0
+statsmodels==0.13.2
+streamlit==1.11.0
+tenacity==8.0.1
+terminado==0.15.0
+tinycss2==1.1.1
+toml==0.10.2
+toolz==0.12.0
+tornado==6.2
+traitlets==5.3.0
+typing_extensions==4.3.0
+tzdata==2022.1
+tzlocal==4.2
+urllib3==1.26.11
+validators==0.20.0
+watchdog==2.1.9
+wcwidth==0.2.5
+webencodings==0.5.1
+widgetsnbextension==3.6.1
+zipp==3.8.1

src/app.py ADDED Viewed

	@@ -0,0 +1,407 @@

+import pandas as pd
+import numpy as np
+import streamlit as st
+import tools
+STEP_2 = STEP_3 = STEP_4 = STEP_5 = STEP_6 = False
+st.set_page_config(
+	page_title="A/B Tests", page_icon="📈", initial_sidebar_state="expanded"
+)
+st.title('A/B tests lab')
+st.image('images/main.jpg')
+st.write(
+	"""
+	*Внедрять компании новый сервис или нет? Как принять правильное решение?*
+	*Поможет А/В-тестирование.*
+	A/B-тестирование, или сплит-тестирование (англ. A/B testing; Split testing, от англ. «разделять») —
+	техника проверки гипотез. Позволяет оценить, как изменение сервиса или продукта повлияет на пользователей.
+	Проводится так: аудиторию делят на две группы — контрольную (A) и тестовую (В). Группа A видит начальный сервис,
+	без изменений. Группа B получает новую версию, которую и нужно протестировать.
+	Эксперимент длится фиксированное время или по количеству пользователей.
+	В ходе тестирования собираются данные о поведении пользователей в разных группах.
+	Если ключевая метрика в тестовой группе выросла по сравнению с контрольной, новую функциональность внедряют.
+	"""
+)
+st.image('images/ab-structure.png', width=700)
+st.write(
+	"""
+	Кому нужно A/B-тестирование
+	1. _Продакт-менеджеры_ могут тестировать изменения ценовых моделей, направленные на повышение доходов, или оптимизацию части воронки продаж для увеличения конверсии.
+	2. _Маркетологи_ могут тестировать изображения, призывы к действию (call-to-action) или практически любые другие элементы маркетинговой кампании или рекламы с точки зрения улучшения метрик.
+	3. _Продуктовые дизайнеры_ могут тестировать дизайнерские решения (например, цвет кнопки оформления заказа) или использовать результаты тестирования для того, чтобы перед внедрением определить, будет ли удобно пользоваться новой функцией.
+	"""
+)
+st.markdown(
+	"""
+	Вот шесть шагов, которые нужно пройти, чтобы провести тестирование.
+	В некоторые из пунктов включены примеры тестирования страницы регистрации выдуманного стартапа.
+	"""
+)
+with st.expander('Шаг 1. Определите цели', expanded=True):
+	st.write(
+		"""
+		Определите основные бизнес-задачи вашей компании и убедитесь, что цели A/B-тестирования с ними совпадают.
+		Например, можем выпустить обновление приложения и проверить на маленькой группе,
+		что обновление не портит пользовательский опыт. Если метрики не падают, можем выкатывать обновление на всех.
+		"""
+	)
+	purpose = st.radio(
+		'Цели',
+		options=[
+			'Занять делом скучающих сотрудников',
+			'Решить проблему пользователей',
+			'Снизить риски при значительных изменениях',
+			'Обеспечить статистически значимые улучшения'
+		]
+	)
+	match purpose:
+		case 'Занять делом скучающих сотрудников':
+			st.error(
+				"""
+				Этой цели мы безусловно добьемся, но бизнесу от этого легче не станет.
+				"""
+			)
+		case 'Решить проблему пользователей':
+			st.info(
+				"""
+				Посетители приходят на сайт с конкретной целью: больше узнать о продукте или услуге, что-то купить,
+				изучить тему или просто поглазеть. При этом пользователи с разными целями сталкиваются с
+				общими проблемами. Наприме��, кнопка «Купить» расположена неудобно и её сложно найти.
+				Такие нюансы формируют негативный пользовательский опыт (пользоваться сайтом неудобно)
+				и влияют на конверсию.
+				Это актуально для всех сфер: будь то электронная коммерция, туризм, SaaS, образование,
+				СМИ или издательский бизнес.
+				"""
+			)
+			st.error('Да, но сегодня мы будем добиваться другой цели. Выберите другую.')
+		case 'Снизить риски при значительных изменениях':
+			st.info(
+				"""
+				Рекомендуем вносить небольшие и последовательные изменения вместо того, чтобы одновременно делать
+				редизайн всей страницы. Так снизится вероятность ухудшения коэффициента конверсии.
+				A/B-тесты позволяют получать хороший результат и при этом вносить лишь небольшие изменения,
+				что приводит к увеличению ROI.
+				В качестве примера приведём изменения в описании продукта. Вы можете сделать A/B-тест,
+				когда нужно удалить или обновить описание продукта, но при этом не знаете, как посетители будут
+				реагировать на это.
+				Другой пример модификации с низким риском — добавление новой функции. A/B-тест поможет
+				сделать результат внедрения более предсказуемым.
+				"""
+			)
+			st.error('Да, но сегодня мы будем добиваться другой цели. Выберите другую.')
+		case 'Обеспечить статистически значимые улучшения':
+			st.info(
+				"""
+				A/B-тестирование полностью основано на данных и не оставляет места для догадок.
+				Поэтому можно легко определить «победителя» и «проигравшего» на основе статистически значимых
+				улучшений: показателей времени на странице, число запросов пробников, количество
+				брошенных корзин, CTR.
+				"""
+			)
+			st.success('Да, попробуем добиться статистически значимого улучшения метрики.')
+			STEP_2 = True
+if STEP_2:
+	with st.expander('Шаг 2. Определите метрику', expanded=True):
+		st.write(
+			"""
+			На данном этапе необходимо определить метрику, на которую вы будете смотреть, чтобы понять, является ли
+			новая версия сайта более успешной, чем изначальная. Обычно в качестве такой метрики берут
+			коэффициент конверсии, но можно выбрать и промежуточную метрику вроде показателя кликабельности (CTR).
+			"""
+		)
+		metrick = st.radio(
+			'Цели',
+			options=[
+				'Обеспечить лучшую окупаемость инвестиций (ROI)',
+				'Уменьшить показатель отказов',
+				'Повысить конверсию',
+			]
+		)
+		match metrick:
+			case 'Обеспечить лучшую окупаемость инвестиций (ROI)':
+				st.info(
+					"""
+					Маркетологи знают, каким дорогим бывает качественный трафик. A/B-тестирование позволяет эффективно
+					использовать существующий трафик и помогает повысить конверсию без затрат на привлечение нового.
+					Иногда даже незначительные изменения влияют на конверсию.
+					"""
+				)
+				st.error('Сегодня мы будем тестировать не эту метрику. Выберите другую.')
+			case 'Уменьшить показатель отказов':
+				st.info(
+					"""
+					Для оценки эффективности сайта важно отслеживать показатель отказов.
+					Люди покидают сайт по разным причинам: слишком много вариантов товара, несоответствие ожиданиям
+					и другие. Поскольку сайты различаются по аудиториям и целям, нет универсального надёжного способа
+					определения показателя отказов.
+					Но решение есть: в каждом случае поможет A/B-тестирование. Можно протестировать несколько вариантов расположения
+					элементов на сайте и найти оптимальное решение.
+					"""
+				)
+				st.error('Сегодня мы будем тестировать не эту метрику. Выберите другую.')
+			case 'Повысить конверсию':
+				st.info(
+					"""
+					Конверсия — один из главных терминов в маркетинге. Не считая конверсию, сложно
+					оценить эффективность маркетинга и работать с воронкой продаж.
+					Конверсия показывает, какой процент пользователей или потенциальных клиентов совершили
+					целевое действие: оставили заявку, купили товар, подписались на рассылку и так далее.
+					"""
+				)
+				st.success('Правильно! Именно эту метрику мы и будем оптимизировать')
+				STEP_3 = True
+if STEP_3:
+	with st.expander('Шаг 3. Разработайте гипотезу', expanded=True):
+		st.write(
+			"""
+			Затем нужно разработать гипотезу о том, что именно поменяется, и, соответственно, что вы хотите проверить.
+			Нужно понять, каких результатов вы ожидаете и какие у них могут быть обоснования.
+			Нужно определить две гипотезы, которые помогут понять, является ли наблюдаемая разница между версией
+			A (изначальной) и версией B (новой, которую вы хотите проверить) случайностью или результатом изменений,
+			которые вы произвели.
+			* _Нулевая гипотеза_ предполагает, что результаты, А и В на самом деле не отличаются и что наблюдаемые различия случайны. Мы надеемся опровергнуть эту гипотезу.
+			* _Альтернативная гипотеза_ — это гипотеза о том, что B отличается от A, и вы хотите сделать вывод об её истинности.
+			Решите, будет ли это односторонний или двусторонний тест.
+			Односторонний тест позволяет обнаружить изменение в одном направлении,
+			в то время как двусторонний тест позволяет обнаружить изменение по двум направлениям
+			(как положительное, так и отрицательное).
+			"""
+		)
+		st.radio(
+			"Тип теста",
+			options=["Односторонний", "Двусторонний"],
+			index=0,
+			key="hypothesis",
+			help="Односторонний тест позволяет обнаружить изменение в одном направлении, в то время как двусторонний тест позволяет обнаружить изменение по двум направлениям (как положительное, так и отрицательное).  ",
+		)
+		STEP_4 = True
+if STEP_4:
+	with st.expander('Шаг 4. Подготовьте эксперимент', expanded=True):
+		st.write(
+			"""
+			1. _Создайте новую версию (B)_, отражающую изменения, которые вы хотите протестировать.
+			2. _Определите контрольную и экспериментальную группы_.
+				Каких пользователей вы хотите протестировать:
+				всех пользователей на всех платформах или только пользователей из одной страны? Определите группу испытуемых,
+				отобрав их по типам пользователей, платформе, географическим показателям и т.п.
+				Затем определите, какой процент исследуемой группы составляет контрольная группа (групп��, видящая версию A),
+				а какой процент — экспериментальная группа (группа, видящая версию B). Обычно эти группы одинакового размера.
+			3. _Убедитесь, что пользователи будут видеть версии A и B в случайном порядке_.
+				Это значит, у каждого пользователя будет равный шанс получить ту или иную версию.
+			4. _Определите уровень статистической значимости (α)_.
+				Это уровень риска, который вы принимаете при ошибках первого рода (отклонение нулевой гипотезы, если она верна), обычно α = 0.05.
+				Это означает, что в 5% случаев вы будете обнаруживать разницу между A и B,
+				которая на самом деле обусловлена случайностью. Чем ниже выбранный вами уровень значимости,
+				тем ниже риск того, что вы обнаружите разницу, вызванную случайностью.
+			5. _Определите минимальный размер выборки_. Калькулятор есть [здесь](https://vwo.com/tools/ab-test-sample-size-calculator/).
+				Он рассчитывают размер выборки, необходимый для каждой версии. На размер выборки влияют разные параметры и ваши предпочтения.
+				Наличие достаточно большого размера выборки важно для обеспечения статистически значимых результатов.
+			6. _Определите временные рамки_. Калькулятор есть [здесь](https://vwo.com/tools/ab-test-duration-calculator/).
+				Возьмите общий размер выборки, необходимый вам для тестирования каждой версии,
+				и разделите его на ваш ежедневный трафик. Так вы получите количество дней,
+				необходимое для проведения теста. Как правило, это одна или две недели.
+			У A/B-теста есть проблема подглядывания (англ. peeking problem): общий результат искажается, если новые данные
+			поступают в начале эксперимента. Каждый, даже небольшой фрагмент новых данных, велик относительно уже
+			накопленных — статистическая значимость достигается за короткий срок.
+			"""
+		)
+		st.image('images/peeking_problem.png', width=670)
+		st.write(
+			"""
+			На графике разница конверсии между сегментами, полученная в результате смоделированного A/B-теста.
+			Данные собирали из одной генеральной совокупности, и различий в выборочных средних быть не должно.
+			Но из-за флуктуаций (от лат. fluctuatio, колебание) в первые дни тестирования была достигнута
+			статистическая значимость. Если бы это был реальный, а не смоделированный тест, принятое по достижении
+			статистической значимости решение было бы неверным.
+			Чтобы избежать проблемы подглядывания, размер выборки определяют ещё до начала теста.
+			"""
+		)
+		st.slider(
+			"Уровень значимости (α)",
+			min_value=0.01,
+			max_value=0.10,
+			value=0.05,
+			step=0.01,
+			key="alpha",
+			help="Это уровень риска, который вы принимаете при ошибках первого рода (отклонение нулевой гипотезы, если она верна), обычно α = 0.05.",
+		)
+		ab_test_duration = st.select_slider(label='Выберите длительность A/B теста в днях', options=range(3, 31))
+		mean_traff = st.number_input(label='Укажите, среднюю посещаемость сайта в сутки', min_value=150)
+		ab_test_sample_size = st.select_slider(label=f'Укажите размер выборки для группы B (при 20% от средней посещаемости в день, максимальный размер выборки для группы B - {int(mean_traff * 0.2 * ab_test_duration)})', options=range(60, int(mean_traff * 0.2 * ab_test_duration) + 1))
+		st.write(f'Выбрано ~{int((ab_test_sample_size / ab_test_duration) / mean_traff * 100)}% от средней посещаемости в сутки.')
+		STEP_5 = True
+if STEP_5:
+	with st.expander('Шаг 5. Проведите эксперимент', expanded=True):
+		st.write(
+			"""
+			Помните о важных шагах, которые необходимо выполнить:
+			1. Обсудите параметры эксперимента с исполнителями.
+			2. Выполните запрос на тестовой закрытой площадке, если она у вас есть. Это поможет проверить данные. Если ее нет, проверьте данные, полученные в первый день эксперимента.
+			3. В самом начале проведения тестирования проверьте, действительно ли оно работает.
+			4. И наконец, не смотрите на результаты!
+			Преждевременный просмотр результатов может испортить статистическую значимость.
+			"""
+		)
+		with st.form(key='start_ab'):
+			start_test = st.form_submit_button('Провести тест')
+			if start_test:
+				st.write("Посмотрим на проведенный тест")
+				df = tools.get_dataset(ab_test_sample_size, ab_test_duration)
+				visitors_a = df[df['group'] == 'old_version'].shape[0]
+				visitors_b = df[df['group'] == 'new_version'].shape[0]
+				conversions_a = df.groupby(['group', 'converted']).agg('count')['user_id'][3]
+				conversions_b = df.groupby(['group', 'converted']).agg('count')['user_id'][1]
+				st.write(df.sample(7))
+				st.plotly_chart(tools.get_plotly_converted_hist(df), use_container_width=True)
+				STEP_6 = True
+if STEP_6:
+	with st.expander('Шаг 6. Проанализируйте результаты', expanded=True):
+		st.write(
+			"""
+			Вам нужно получить данные и рассчитать значения выбранной ранее метрики успеха для обеих версий
+			(A и B) и разницу между этими значениями.
+			Если не было никакой разницы в целом, вы также можете сегментировать выборку по платформам, типам источников,
+			географическим параметрам и т.п., если это применимо. Вы можете обнаружить,
+			что версия B работает лучше или хуже для определенных сегментов.
+			Проверьте статистическую значимость. Статистическая теория, лежащая в основе этого подхода, объясняется здесь,
+			но основная идея в том, чтобы выяснить, была ли разница в результатах между A и B связана с изменениями
+			или это результат случайности либо естественных изменений. Это определяется путем сравнения
+			тестовых статистических данных (и полученного p-значения) с вашим уровнем значимости.
+			Если p-значение меньше уровня значимости, то можно отвергнуть нулевую гипотезу, если имеются
+			доказательства для альтернативы.
+			Если p-значение больше или равно уровню значимости, мы не можем отвергнуть нулевую гипотезу о том,
+			что A и B не отличаются друг от друга.
+			"""
+		)
+		tools.calculate_significance(
+			conversions_a,
+			conversions_b,
+			visitors_a,
+			visitors_b
+		)
+		mcol1, mcol2 = st.columns(2)
+		with mcol1:
+			st.metric(
+				"Разница",
+				value=f"{(st.session_state.crb - st.session_state.cra):.3g}%",
+				delta=f"{(st.session_state.crb - st.session_state.cra):.3g}%",
+			)
+		with mcol2:
+			st.metric("Различие статзначимо?", value=st.session_state.significant)
+		results_df = pd.DataFrame(
+			{
+				"Group":      ["A", "B"],
+				"Conversion": [st.session_state.cra, st.session_state.crb],
+			}
+		)
+		tools.plot_chart(results_df)
+		table = pd.DataFrame(
+			{
+				"Converted":   [conversions_a, conversions_b],
+				"Total":       [visitors_a, visitors_b],
+				"% Converted": [st.session_state.cra, st.session_state.crb],
+			},
+			index=pd.Index(["A", "B"]),
+		)
+		st.write(table.style.format(formatter={("% Converted"): "{:.3g}%"}))
+		metrics = pd.DataFrame(
+			{
+				"p-value": [st.session_state.p],
+				"z-score": [st.session_state.z],
+				"uplift":  [st.session_state.uplift],
+			},
+			index=pd.Index(["Metrics"]),
+		)
+		st.write(
+			metrics.style.format(
+				formatter={("p-value", "z-score"): "{:.3g}", ("uplift"): "{:.3g}%"}
+			)
+			.applymap(tools.style_negative, props="color:red;")
+			.apply(tools.style_p_value, props="color:red;", axis=1, subset=["p-value"])
+		)
+		st.plotly_chart(tools.get_fig(df), use_container_width=True)

src/tools.py ADDED Viewed

	@@ -0,0 +1,232 @@

+from uuid import uuid4
+from datetime import datetime, timedelta
+import plotly.express as px
+import plotly.graph_objects as go
+import numpy as np
+import pandas as pd
+from scipy.stats import t
+from scipy.stats import norm
+import altair as alt
+import plotly.express as px
+import streamlit as st
+def conversion_rate(conversions, visitors):
+    return (conversions / visitors) * 100
+def lift(cra, crb):
+    return ((crb - cra) / cra) * 100
+def std_err(cr, visitors):
+    return np.sqrt((cr / 100 * (1 - cr / 100)) / visitors)
+def std_err_diff(sea, seb):
+    return np.sqrt(sea ** 2 + seb ** 2)
+def z_score(cra, crb, error):
+    return ((crb - cra) / error) / 100
+def p_value(z, hypothesis):
+    if hypothesis == "One-sided" and z < 0:
+        return 1 - norm().sf(z)
+    elif hypothesis == "One-sided" and z >= 0:
+        return norm().sf(z) / 2
+    else:
+        return norm().sf(z)
+def significance(alpha, p):
+    return "YES" if p < alpha else "NO"
+def plot_chart(df):
+    chart = (
+        alt.Chart(df)
+        .mark_bar(color="#61b33b")
+        .encode(
+            x=alt.X("Group:O", axis=alt.Axis(labelAngle=0)),
+            y=alt.Y("Conversion:Q", title="Conversion rate (%)"),
+            opacity="Group:O",
+        )
+        .properties(width=500, height=500)
+    )
+    chart_text = chart.mark_text(
+        align="center", baseline="middle", dy=-10, color="black"
+    ).encode(text=alt.Text("Conversion:Q", format=",.3g"))
+    return st.altair_chart((chart + chart_text).interactive())
+def style_negative(v, props=""):
+    return props if v < 0 else None
+def style_p_value(v, props=""):
+    return np.where(v < st.session_state.alpha, "color:green;", props)
+def calculate_significance(
+    conversions_a, conversions_b, visitors_a, visitors_b
+):
+    st.session_state.cra = conversion_rate(int(conversions_a), int(visitors_a))
+    st.session_state.crb = conversion_rate(int(conversions_b), int(visitors_b))
+    st.session_state.uplift = lift(st.session_state.cra, st.session_state.crb)
+    st.session_state.sea = std_err(st.session_state.cra, float(visitors_a))
+    st.session_state.seb = std_err(st.session_state.crb, float(visitors_b))
+    st.session_state.sed = std_err_diff(st.session_state.sea, st.session_state.seb)
+    st.session_state.z = z_score(
+        st.session_state.cra, st.session_state.crb, st.session_state.sed
+    )
+    st.session_state.p = p_value(st.session_state.z, st.session_state.hypothesis)
+    st.session_state.significant = significance(
+        st.session_state.alpha, st.session_state.p
+    )
+def get_dataset(size, days) -> pd.DataFrame:
+    end = datetime.today()
+    start = end - timedelta(days=days)
+    data = pd.DataFrame(data={
+        'user_id': [str(uuid4()) for _ in range(size)],
+        'group':   np.random.choice(['old_version', 'new_version'], size=size),
+        'timestamp': pd.date_range(start=start, end=end, periods=size)
+    })
+    old_version_index = data[data['group'] == 'old_version'].index
+    new_version_index = data[data['group'] == 'new_version'].index
+    data.loc[old_version_index, 'converted'] = np.random.choice(
+                                                        [0, 1],
+                                                        size=(len(old_version_index), 1),
+                                                        p=[0.8, 0.2]
+                                                    )
+    data.loc[new_version_index, 'converted'] = np.random.choice(
+                                                        [0, 1],
+                                                        size=(len(new_version_index), 1),
+                                                        p=[0.75, 0.25]
+                                                    )
+    data['converted'] = data['converted'].astype('int')
+    data.loc[old_version_index, 'avg_check'] = np.random.normal(
+                                                        size=len(old_version_index),
+                                                        loc=15,
+                                                        scale=7
+                                                    )
+    data.loc[new_version_index, 'avg_check'] = np.random.normal(
+                                                        size=len(new_version_index),
+                                                        loc=17,
+                                                        scale=6.4
+                                                    )
+    return data
+def get_plotly_converted_hist(data: pd.DataFrame):
+    fig = go.Figure()
+    fig.add_trace(
+        go.Histogram(
+            dict(
+                x=data[data['group'] == 'old_version']['converted'].map({1: 'Да', 0: 'Нет'}),
+                name='old_version'
+            )
+        )
+    )
+    fig.add_trace(
+        go.Histogram(
+            dict(
+                x=data[data['group'] == 'new_version']['converted'].map({1: 'Да', 0: 'Нет'}),
+                name='new_version'
+            )
+        )
+    )
+    fig.update_traces(hovertemplate="Сконвертирован: %{x}<br>"
+                                    "Количество: %{y}")
+    fig.update_layout(
+        title='Распределение конверсий в новой и старой версии сайта'
+    )
+    fig.update_xaxes(
+        title='Сконвертирован'
+    )
+    fig.update_yaxes(
+        title='Количество'
+    )
+    return fig
+def get_fig(df: pd.DataFrame):
+    p = []
+    x = []
+    with st.spinner('Строю график статзначимости...'):
+        for i in range(50, df.shape[0]):
+            visitors_a = df.loc[:i][df['group'] == 'old_version'].shape[0]
+            visitors_b = df.loc[:i][df['group'] == 'new_version'].shape[0]
+            conversions_a = df.loc[:i].groupby(['group', 'converted']).agg('count')['user_id'][3]
+            conversions_b = df.loc[:i].groupby(['group', 'converted']).agg('count')['user_id'][1]
+            calculate_significance(
+                conversions_a,
+                conversions_b,
+                visitors_a,
+                visitors_b
+            )
+            p.append(np.round(p_value(st.session_state.z, st.session_state.hypothesis) * 100, 2))
+            x.append(df['timestamp'].iloc[i])
+    fig = px.line(
+        x=x,
+        y=p,
+        title='Зависимость статзначимости от времени проведения эксперимента')
+    fig.update_xaxes(
+        title='Количество пользователей'
+    )
+    fig.update_yaxes(
+        title='p-value'
+    )
+    fig.update_layout(
+        showlegend=False
+    )
+    fig.add_hline(
+        y=st.session_state.alpha * 100,
+        line_color='green',
+        line_dash='dash'
+    )
+    fig.update_traces(hovertemplate="Время А/B теста: %{x}<br>"
+                                    "Достигнутая статзначимость: %{y}%")
+    return fig
+def get_interval(data):
+    return t.interval(
+        alpha=st.session_state.alpha,
+        df=2,
+        loc=data['avg_check'].mean(),
+        scale=data['avg_check'].sem()
+    )