init files

2025-12-12 20:19:59 +03:00
parent b78fad6cce
commit d1d016b2ed
13 changed files with 126491 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,3 @@
 .idea
 .venv
 __pycache__
--- a/dataset/ds.csv
+++ b/dataset/ds.csv
--- a/dataset/fullinfo.md
+++ b/dataset/fullinfo.md
@@ -0,0 +1,53 @@
 Коммуникации в Городе
 Город в Т-Банке — это группа сервисов, которые помогают пользователям решать
 ежедневные задачи: купить билеты в кино, заказать продукты, путешествовать.
 В банке есть множество видов коммуникаций с клиентами. Первое разделение —
 на внутренние и внешние. Внешние демонстрируются за пределами банка: например,
 реклама в интернете, на телевидении и т. п. Внутренние — в приложении банка:
 например, пуши, баннеры и т. д. Причем внутренние делятся еще на активные
 и пассивные каналы. К активным каналам относятся пуши, СМС, имейлы, чаты;
 к пассивным — баннеры, сторис и фулскрины.
 В текущем датасете вам дано число коммуникаций в разбивке на активные и пассивные
 и то, как клиенты реагировали на них: открыли, совершили покупку или просто получили.
 Учтите, что клиент мог сделать заказ не только день в день коммуникации, но и позже.
 Это в большей степени касается тяжелых сервисов, например путешествий.
 Описание переменных
 id уникальный идентификатор клиента
 business_dt Дата
 active_imp_ent Показы активных коммуникаций (Развлечения)
 active_click_ent Касания активных коммуникаций (Развлечения)
 active_imp_super Показы активных коммуникаций (Супермаркеты)
 active_click_super Касания активных коммуникаций (Супермаркеты)
 active_imp_transport Показы активных коммуникаций (Транспорт)
 active_click_transport Касания активных коммуникаций (Транспорт)
 active_imp_shopping Показы активных коммуникаций (Шопинг)
 active_click_shopping Касания активных коммуникаций (Шопинг)
 active_imp_hotel Показы активных коммуникаций (Отели)
 active_click_hotel Касания активных коммуникаций (Отели)
 active_imp_avia Показы активных коммуникаций (Авиабилеты)
 active_click_avia Касания активных коммуникаций (Авиабилеты)
 passive_imp_ent Показы пассивных коммуникаций (Развлечения)
 passive_click_ent Касания пассивных коммуникаций (Развлечения)
 passive_imp_super Показы пассивных коммуникаций (Супермаркеты)
 passive_click_super Касания пассивных коммуникаций (Супермаркеты)
 passive_imp_transport Показы пассивных коммуникаций (Транспорт)
 passive_click_transport
 Касания пассивных коммуникаций (Транспорт)
 passive_imp_shopping Показы пассивных коммуникаций (Шопинг)
 passive_click_
 shopping
 Касания пассивных коммуникаций (Шопинг)
 passive_imp_hotel Показы пассивных коммуникаций (Отели)
 passive_click_hotel Касания пассивных коммуникаций (Отели)
 passive_imp_avia Показы пассивных коммуникаций (Авиабилеты)
 passive_click_avia Касания пассивных коммуникаций (Авиабилеты)
 orders_amt_ent Число заказов (Развлечения)
 orders_amt_super Число заказов (Супермаркеты)
 orders_amt_transport Число заказов (Транспорт)
 orders_amt_shopping Число заказов (Шопинг)
 orders_amt_hotel Число заказов (Отели)
 orders_amt_avia Число заказов (Авиабилеты)
 gender_cd Пол (M/F)
 age Возраст в годах
 device_platform_cd Обратная связь клиента
--- a/dataset/shortinfo.md
+++ b/dataset/shortinfo.md
@@ -0,0 +1,4 @@
 Т-Банк: коммуникации в городе
 Датасет содержит данные о коммуникациях с клиентами внутри экосистемы Город Т-Банка, включая активные и пассивные каналы и реакцию пользователей на них. Для каждого клиента по дням указано количество показов, кликов и совершенных заказов по разным категориям сервисов: развлечения, транспорт, шопинг, отели, супермаркеты и авиабилеты. Клиент мог совершить покупку как в день коммуникации, так и позже, что особенно важно для сложных сервисов вроде путешествий. Дополнительно доступны демографические признаки клиентов и информация об устройстве.
--- a/preanalysis/01_load_and_clean.ipynb
+++ b/preanalysis/01_load_and_clean.ipynb
--- a/preanalysis/02_univariate_bivariate.ipynb
+++ b/preanalysis/02_univariate_bivariate.ipynb
--- a/preanalysis/03_time_and_lags.ipynb
+++ b/preanalysis/03_time_and_lags.ipynb
--- a/preanalysis/04_clients_segmentation.ipynb
+++ b/preanalysis/04_clients_segmentation.ipynb
--- a/preanalysis/05_exploratory_models.ipynb
+++ b/preanalysis/05_exploratory_models.ipynb
--- a/preanalysis/eda_report.ipynb
+++ b/preanalysis/eda_report.ipynb
@@ -0,0 +1,55 @@
 {
 "cells": [
  {
   "cell_type": "markdown",
   "id": "3d3a9c98",
   "metadata": {},
   "source": [
    "# EDA «Коммуникации в Городе»\n",
    "\n",
    "## Кратко о данных\n",
    "- 118 189 строк, 8 339 клиентов, 35 исходных столбцов + инженерные (totals, CTR/CR, флаги).\n",
    "- Диапазон дат: 2025‑01‑09 — 2025‑11‑04 (284 дня).\n",
    "- Категории сервисов: ent, super, transport, shopping, hotel, avia; активные и пассивные показы/клики, заказы по категориям.\n",
    "- Дубликаты по ключу (id, business_dt): нет.\n",
    "\n",
    "## Качество данных\n",
    "- Пропуски: несущественные (NaN почти нет), отрицательных значений не обнаружено.\n",
    "- Возраст: 15–80 лет, p1/p99 = 22/68, мусора (<14 или >100) нет.\n",
    "- Гендер: 68.5% M, 31.5% F. Платформа после нормализации: ~52.5% iOS, ~46.7% Android, 1.1% iPadOS.\n",
    "- Признаки «заспамленности» и агрегаты на клиента добавлены: imp/click/order totals, CTR/CR, contact_days, avg_impressions_per_contact_day, order_categories_count.\n",
    "\n",
    "## Каналы и эффективность (агрегировано по всем строкам)\n",
    "- Active impressions ≈ 219.5k, passive impressions ≈ 473.1k.\n",
    "- Active clicks ≈ 147.3k (CTR_active ≈ 0.67), passive clicks ≈ 18.1k (CTR_passive ≈ 0.038).\n",
    "- Заказы всего: 12 439; CR click→order ≈ 7.5%, CR imp→order ≈ 1.8%.\n",
    "- Дневных точек: 284; daily агрегаты подготовлены (CTR/CR, day_of_week).\n",
    "\n",
    "## Демография и устройство vs эффективность (по клиентским агрегатам)\n",
    "- Таблицы по полу/возрастным группам/платформам готовы в `04_clients_segmentation.ipynb` (средние impressions/clicks/orders и CTR/CR).\n",
    "- Гипотезы: в 05-м ноутбуке добавлены примеры Mann–Whitney по CTR active vs passive и по полу; можно расширять на платформы и возраст.\n",
    "\n",
    "## Лаги и сезонность\n",
    "- Дневные ряды и метрики CTR/CR по времени и по дням недели — см. `03_time_and_lags.ipynb`.\n",
    "- Лаги: реализованы кросс-корреляции orders vs impressions/clicks (hotel, avia) для lag 0–7; по клиентам — first_imp/click/order и распределения дней до заказа.\n",
    "\n",
    "## Сегменты и «усталость»\n",
    "- Сегменты каналов: only_active / only_passive / both + метрики; бины по числу категорий заказов.\n",
    "- «Заспамленность»: bin по avg_impressions_per_contact_day с CTR/CR; stacked доли категорий заказов по возрасту.\n",
    "\n",
    "## Модели как часть EDA\n",
    "- На клиентском уровне собран датасет для задачи `has_any_order`; pipeline с OHE + StandardScaler + LogisticRegression и RandomForest (ROC-AUC и важности).\n",
    "- Выводы по коэффициентам/важности доступны в `05_exploratory_models.ipynb`.\n",
    "\n",
    "## Что делать дальше\n",
    "- Прогнать все ноутбуки end-to-end (данные готовы, зависимости в `.venv`): `jupyter lab` или `jupyter nbconvert --execute`.\n",
    "- Уточнить нормализацию категорий (при необходимости) и при желании сохранить `dataset/ds_clean.parquet` (флаг в `01_load_and_clean.ipynb`).\n",
    "- Добавить/актуализировать бизнес-гипотезы (категории, платформы, возраст) и зафиксировать p-value в таблице гипотез.\n",
    "- При необходимости усилить визуализацию: календарные heatmap по CTR, ECDF лагов по каждой категории, PDP для топ-фичей модели.\n"
   ]
  }
 ],
 "metadata": {},
 "nbformat": 4,
 "nbformat_minor": 5
 }
--- a/preanalysis/eda_report.md
+++ b/preanalysis/eda_report.md
@@ -0,0 +1,41 @@
 # EDA «Коммуникации в Городе»
 ## Кратко о данных
 - 118189 строк, 8339 клиентов, 35 исходных столбцов + инженерные (totals, CTR/CR, флаги).
 - Диапазон дат: 2025‑01‑09 — 2025‑11‑04 (284 дня).
 - Категории сервисов: ent, super, transport, shopping, hotel, avia; активные и пассивные показы/клики, заказы по категориям.
 - Дубликаты по ключу (id, business_dt): нет.
 ## Качество данных
 - Пропуски: несущественные (NaN почти нет), отрицательных значений не обнаружено.
 - Возраст: 15–80 лет, p1/p99 = 22/68, мусора (<14 или >100) нет.
 - Гендер: 68.5% M, 31.5% F. Платформа после нормализации: ~52.5% iOS, ~46.7% Android, 1.1% iPadOS.
 - Признаки «заспамленности» и агрегаты на клиента добавлены: imp/click/order totals, CTR/CR, contact_days, avg_impressions_per_contact_day, order_categories_count.
 ## Каналы и эффективность (агрегировано по всем строкам)
 - Active impressions ≈ 219.5k, passive impressions ≈ 473.1k.
 - Active clicks ≈ 147.3k (CTR_active ≈ 0.67), passive clicks ≈ 18.1k (CTR_passive ≈ 0.038).
 - Заказы всего: 12439; CR click→order ≈ 7.5%, CR imp→order ≈ 1.8%.
 - Дневных точек: 284; daily агрегаты подготовлены (CTR/CR, day_of_week).
 ## Демография и устройство vs эффективность (по клиентским агрегатам)
 - Таблицы по полу/возрастным группам/платформам готовы в `04_clients_segmentation.ipynb` (средние impressions/clicks/orders и CTR/CR).
 - Гипотезы: в 05-м ноутбуке добавлены примеры Mann–Whitney по CTR active vs passive и по полу; можно расширять на платформы и возраст.
 ## Лаги и сезонность
 - Дневные ряды и метрики CTR/CR по времени и по дням недели — см. `03_time_and_lags.ipynb`.
 - Лаги: реализованы кросс-корреляции orders vs impressions/clicks (hotel, avia) для lag 0–7; по клиентам — first_imp/click/order и распределения дней до заказа.
 ## Сегменты и «усталость»
 - Сегменты каналов: only_active / only_passive / both + метрики; бины по числу категорий заказов.
 - «Заспамленность»: bin по avg_impressions_per_contact_day с CTR/CR; stacked доли категорий заказов по возрасту.
 ## Модели как часть EDA
 - На клиентском уровне собран датасет для задачи `has_any_order`; pipeline с OHE + StandardScaler + LogisticRegression и RandomForest (ROC-AUC и важности).
 - Выводы по коэффициентам/важности доступны в `05_exploratory_models.ipynb`.
 ## Что делать дальше
 - Прогнать все ноутбуки end-to-end (данные готовы, зависимости в `.venv`): `jupyter lab` или `jupyter nbconvert --execute`.
 - Уточнить нормализацию категорий (при необходимости) и при желании сохранить `dataset/ds_clean.parquet` (флаг в `01_load_and_clean.ipynb`).
 - Добавить/актуализировать бизнес-гипотезы (категории, платформы, возраст) и зафиксировать p-value в таблице гипотез.
 - При необходимости усилить визуализацию: календарные heatmap по CTR, ECDF лагов по каждой категории, PDP для топ-фичей модели.
--- a/preanalysis/eda_utils.py
+++ b/preanalysis/eda_utils.py
@@ -0,0 +1,154 @@
 from __future__ import annotations
 from pathlib import Path
 from typing import Dict, Iterable, List
 import numpy as np
 import pandas as pd
 # Paths and column groups
 DATA_PATH = Path("dataset/ds.csv")
 CATEGORIES: List[str] = ["ent", "super", "transport", "shopping", "hotel", "avia"]
 ACTIVE_IMP_COLS = [f"active_imp_{c}" for c in CATEGORIES]
 PASSIVE_IMP_COLS = [f"passive_imp_{c}" for c in CATEGORIES]
 ACTIVE_CLICK_COLS = [f"active_click_{c}" for c in CATEGORIES]
 PASSIVE_CLICK_COLS = [f"passive_click_{c}" for c in CATEGORIES]
 ORDER_COLS = [f"orders_amt_{c}" for c in CATEGORIES]
 NUMERIC_COLS = (
    ACTIVE_IMP_COLS
    + PASSIVE_IMP_COLS
    + ACTIVE_CLICK_COLS
    + PASSIVE_CLICK_COLS
    + ORDER_COLS
    + ["age"]
 )
 CAT_COLS = ["gender_cd", "device_platform_cd"]
 def safe_divide(numerator: pd.Series | float, denominator: pd.Series | float) -> pd.Series:
    """Divide with protection against zero (works for Series and scalars)."""
    if isinstance(denominator, pd.Series):
        denom = denominator.replace(0, np.nan)
    else:
        denom = np.nan if float(denominator) == 0 else denominator
    return numerator / denom
 def normalize_gender(series: pd.Series) -> pd.Series:
    cleaned = series.fillna("UNKNOWN").astype(str).str.strip().str.upper()
    mapping = {"M": "M", "MALE": "M", "F": "F", "FEMALE": "F"}
    return cleaned.map(mapping).fillna("UNKNOWN")
 def normalize_device(series: pd.Series) -> pd.Series:
    cleaned = series.fillna("unknown").astype(str).str.strip()
    lowered = cleaned.str.lower().str.replace(" ", "").str.replace("_", "")
    mapping = {"android": "Android", "ios": "iOS", "ipados": "iPadOS", "ipad": "iPadOS"}
    mapped = lowered.map(mapping)
    fallback = cleaned.str.title()
    return mapped.fillna(fallback)
 def add_age_group(df: pd.DataFrame) -> pd.DataFrame:
    bins = [0, 25, 35, 45, 55, np.inf]
    labels = ["<25", "25-34", "35-44", "45-54", "55+"]
    df["age_group"] = pd.cut(df["age"], bins=bins, labels=labels, right=False)
    return df
 def add_totals(df: pd.DataFrame) -> pd.DataFrame:
    df["active_imp_total"] = df[ACTIVE_IMP_COLS].sum(axis=1)
    df["passive_imp_total"] = df[PASSIVE_IMP_COLS].sum(axis=1)
    df["active_click_total"] = df[ACTIVE_CLICK_COLS].sum(axis=1)
    df["passive_click_total"] = df[PASSIVE_CLICK_COLS].sum(axis=1)
    df["orders_amt_total"] = df[ORDER_COLS].sum(axis=1)
    df["click_total"] = df["active_click_total"] + df["passive_click_total"]
    df["imp_total"] = df["active_imp_total"] + df["passive_imp_total"]
    df["active_ctr"] = safe_divide(df["active_click_total"], df["active_imp_total"])
    df["passive_ctr"] = safe_divide(df["passive_click_total"], df["passive_imp_total"])
    df["ctr_all"] = safe_divide(df["click_total"], df["imp_total"])
    df["cr_click2order"] = safe_divide(df["orders_amt_total"], df["click_total"])
    df["cr_imp2order"] = safe_divide(df["orders_amt_total"], df["imp_total"])
    return df
 def add_flags(df: pd.DataFrame) -> pd.DataFrame:
    df["has_active_comm"] = (df[ACTIVE_IMP_COLS + ACTIVE_CLICK_COLS].sum(axis=1) > 0).astype(int)
    df["has_passive_comm"] = (df[PASSIVE_IMP_COLS + PASSIVE_CLICK_COLS].sum(axis=1) > 0).astype(int)
    df["has_any_order"] = (df[ORDER_COLS].sum(axis=1) > 0).astype(int)
    df["order_categories_count"] = (df[ORDER_COLS] > 0).sum(axis=1)
    return df
 def load_data(path: Path | str = DATA_PATH) -> pd.DataFrame:
    df = pd.read_csv(path)
    df["business_dt"] = pd.to_datetime(df["business_dt"])
    df["gender_cd"] = normalize_gender(df["gender_cd"])
    df["device_platform_cd"] = normalize_device(df["device_platform_cd"])
    df = add_age_group(df)
    df = add_totals(df)
    df = add_flags(df)
    return df
 def describe_zero_share(df: pd.DataFrame, cols: Iterable[str]) -> pd.DataFrame:
    stats = []
    for col in cols:
        series = df[col]
        stats.append(
            {
                "col": col,
                "count": series.count(),
                "mean": series.mean(),
                "median": series.median(),
                "std": series.std(),
                "min": series.min(),
                "q25": series.quantile(0.25),
                "q75": series.quantile(0.75),
                "max": series.max(),
                "share_zero": (series == 0).mean(),
                "p95": series.quantile(0.95),
                "p99": series.quantile(0.99),
            }
        )
    return pd.DataFrame(stats)
 def build_daily(df: pd.DataFrame) -> pd.DataFrame:
    agg_cols = ACTIVE_IMP_COLS + PASSIVE_IMP_COLS + ACTIVE_CLICK_COLS + PASSIVE_CLICK_COLS + ORDER_COLS
    daily = df.groupby("business_dt")[agg_cols].sum().reset_index()
    daily = add_totals(daily)
    daily["day_of_week"] = daily["business_dt"].dt.day_name()
    return daily
 def build_client(df: pd.DataFrame) -> pd.DataFrame:
    agg_spec: Dict[str, str] = {col: "sum" for col in ACTIVE_IMP_COLS + PASSIVE_IMP_COLS + ACTIVE_CLICK_COLS + PASSIVE_CLICK_COLS + ORDER_COLS}
    meta_spec: Dict[str, str | callable] = {
        "age": "median",
        "gender_cd": lambda s: s.mode().iat[0] if not s.mode().empty else "UNKNOWN",
        "age_group": lambda s: s.mode().iat[0] if not s.mode().empty else np.nan,
        "device_platform_cd": lambda s: s.mode().iat[0] if not s.mode().empty else "Other",
    }
    agg_spec.update(meta_spec)
    client = df.groupby("id").agg(agg_spec).reset_index()
    contact_days = df.groupby("id")["business_dt"].nunique().rename("contact_days")
    imp_day = df.copy()
    imp_day["imp_day_total"] = imp_day[ACTIVE_IMP_COLS + PASSIVE_IMP_COLS].sum(axis=1)
    max_imp_day = imp_day.groupby("id")["imp_day_total"].max().rename("max_impressions_per_day")
    client = add_totals(client)
    client = add_flags(client)
    client = client.merge(contact_days, on="id", how="left")
    client = client.merge(max_imp_day, on="id", how="left")
    client = add_contact_density(client)
    return client
 def add_contact_density(df: pd.DataFrame) -> pd.DataFrame:
    # contact_days must already be present
    if "contact_days" in df.columns:
        df["avg_impressions_per_contact_day"] = safe_divide(df["imp_total"], df["contact_days"])
    return df
    return df
--- a/preanalysis/task.md
+++ b/preanalysis/task.md
@@ -0,0 +1,368 @@
 # План полноценного преданализа датасета «Коммуникации в Городе»
 Основано на описании датасета: есть ежедневные коммуникации с клиентами в экосистеме «Город Т-Банка», активные/пассивные каналы, показы/клики и заказы по категориям (ent, super, transport, shopping, hotel, avia), а также демография и устройство.
 Обозначения:
 - `*_imp_*` — показы (impressions) активных/пассивных каналов по категориям (`ent`, `super`, `transport`, `shopping`, `hotel`, `avia`).
 - `*_click_*` — клики/касания по тем же категориям.
 - `orders_amt_*` — число заказов по категориям.
 - `gender_cd`, `age`, `device_platform_cd` — демография и устройство.
 ---
 ## 0. Технический скелет проекта
 Файлы/ноутбуки:
 1. `01_load_and_clean.ipynb` — загрузка, чистка, базовые описания.
 2. `02_univariate_bivariate.ipynb` — распределения и связи признаков.
 3. `03_time_and_lags.ipynb` — время, лаги, сезонность.
 4. `04_clients_segmentation.ipynb` — агрегаты по клиенту, сегменты.
 5. `05_exploratory_models.ipynb` — простые модели как часть EDA.
 6. `eda_report.md` / `eda_report.ipynb` — итоговый отчёт.
 ---
 ## 1. Загрузка и структура данных
 ### Таблицы/выводы
 1. `df.info()` — список столбцов, типы, количество ненулевых.
 2. `df.head(5)` — первые строки для визуальной проверки.
 3. Размерность:
   - `n_rows`, `n_cols`
   - `n_unique_clients = df['id'].nunique()`
   - диапазон дат: `min(business_dt)`, `max(business_dt)`
 4. Проверка ключа:
   - таблица: `df.groupby(['id', 'business_dt']).size().value_counts().head()`  
     (показывает, есть ли дубликаты по ключу)
 5. Среднее число дней на клиента:
   - `df.groupby('id').size().describe()`
 ### Графики
 1. Количество записей по датам:
   - `bar/line`: X = `business_dt`, Y = `count(*)`
   - цель: увидеть провалы/пики выгрузки
 ---
 ## 2. Качество данных и аномалии
 ### Таблицы/метрики
 1. Пропуски:
   - таблица: колонка → количество пропусков → доля пропусков
 2. Базовый `describe` по числовым:
   - `df[num_cols].describe().T`
 3. Доля нулей:
   - таблица: колонка → доля нулей → min/max → 95-й, 99-й перцентили
 4. Логические проверки:
   - все `*_imp_*`, `*_click_*`, `orders_amt_*` должны быть `>= 0`
   - поиск отрицательных/странных значений
 5. Возраст:
   - мин/макс, перцентили (1-й, 99-й), доля мусора (например, `<14` или `>100`)
 6. Категориальные:
   - уникальные значения `gender_cd`, `device_platform_cd`
   - приведение к единому формату (trim, upper, `unknown`)
 ### Графики
 1. Boxplot возраста:
   - Y = `age`
   - цель: выбросы и мусор
 2. Barplot пропусков:
   - X = столбец, Y = доля NaN (только где NaN > 0)
 ---
 ## 3. Одномерный анализ (univariate)
 ### 3.1. Числовые признаки (показы/клики/заказы)
 #### Таблицы
 1. Для каждой группы (`active_imp_*`, `passive_imp_*`, `active_click_*`, `passive_click_*`, `orders_amt_*`):
   - `count, mean, median, std, min, q25, q75, max, share_zero, p95, p99`
 2. Агрегаты по всем категориям:
   - создать `active_imp_total`, `passive_imp_total`, `active_click_total`, `passive_click_total`, `orders_amt_total`
   - таблица `describe()` для них
 #### Графики
 1. Гистограммы (лог-масштаб или `log1p`) для каждой категории и типа:
   - `active_imp_ent`, `active_click_ent`, `passive_imp_ent`, `orders_amt_ent`, …
 2. Boxplot для агрегатов:
   - `active_imp_total`, `passive_imp_total`, `active_click_total`, `passive_click_total`, `orders_amt_total`
 ### 3.2. Категориальные признаки
 #### Таблицы
 1. Распределение `gender_cd`: counts, доли, `unknown`
 2. Распределение `device_platform_cd`: counts, доли
 3. Возрастные группы:
   - `<25`, `25–34`, `35–44`, `45–54`, `55+`
   - таблица: группа → число клиентов → доля
 #### Графики
 1. Barplot пола: X = `M/F/Unknown`, Y = доля
 2. Barplot платформ: X = platform, Y = доля
 3. Гистограмма возраста
 ---
 ## 4. Время и сезонность
 Создать дневные агрегаты:
 - сумма показов/кликов/заказов по дням
 - метрики:
  - `CTR_active = active_click_total / active_imp_total`
  - `CTR_passive = passive_click_total / passive_imp_total`
  - `CR_click2order = orders_amt_total / (active_click_total + passive_click_total)`
  - `CR_imp2order = orders_amt_total / (active_imp_total + passive_imp_total)`
 - день недели: `day_of_week`
 ### Таблицы
 1. `daily.describe()` по дневным агрегатам
 2. Таблица по дням недели:
   - `day_of_week` → среднее `impressions, clicks, orders, CTR, CR`
 ### Графики
 1. Линейные временные ряды:
   - `business_dt` vs total impressions
   - `business_dt` vs total clicks
   - `business_dt` vs total orders
 2. Линии CTR/CR во времени (rolling mean 7 дней по желанию):
   - `active_ctr`, `passive_ctr`, `cr_click2order`
 3. Сезонность по дням недели:
   - barplot для `active_ctr`, `passive_ctr`, `cr_click2order`
 4. (Опционально) календарная heatmap заказов/CTR
 ---
 ## 5. Парные связи (bivariate)
 ### Таблицы
 1. Корреляции Спирмена (на уровне клиента/дня):
   - между всеми числовыми признаками + `age`
 2. Для каждой категории:
   - биннинг показов по квантилям → средний `imp, click, CTR, orders, CR`
 ### Графики
 1. Scatter/hexbin «показы → клики»:
   - `active_imp_*` vs `active_click_*`
   - `passive_imp_*` vs `passive_click_*`
 2. Scatter «клики → заказы»:
   - `*_click_*` vs `orders_amt_*`
 3. CTR по бинам показов (линия/бар)
 4. CR по бинам кликов (линия/бар)
 5. Heatmap корреляций
 ---
 ## 6. Демография и устройство vs эффективность
 Агрегировать по клиенту:
 - суммы показов/кликов/заказов
 - CTR/CR на уровне клиента
 - добавить `gender_cd`, `age_group`, `device_platform_cd`
 ### Таблицы
 1. По полу:
   - средние `impressions, clicks, orders, CTR, CR`
 2. По возрастным группам:
   - те же метрики
 3. По платформам:
   - те же метрики
 4. Тесты гипотез (Mann–Whitney / t-test):
   - разница CTR/CR между группами
 ### Графики
 1. Barplot CTR/CR по полу
 2. Barplot CTR/CR по возрастным группам
 3. Barplot CTR/CR по платформам
 4. Boxplot заказов по возрастным группам
 5. Stacked bar: возраст → доли категорий заказов (наполнение корзины сервисами)
 ---
 ## 7. Поведение по клиенту и сегментация
 ### 7.1. Простые сегменты
 Флаги на уровне клиента:
 - `has_active_comm`, `has_passive_comm`
 - `has_any_order`
 - `order_categories_count` (в скольких категориях есть заказ)
 #### Таблицы
 1. Сегменты каналов:
   - `only_active`, `only_passive`, `both`
   - доля клиентов, средние заказы, CTR/CR
 2. Сегменты мультикатегорийности:
   - `1`, `2`, `3+` категорий заказов
   - средние коммуникации/заказы, демография
 #### Графики
 1. Barplot по сегментам каналов:
   - средние заказы, CTR/CR
 2. Barplot по числу категорий заказов
 3. Stacked bar: сегменты → пол/возраст (по желанию)
 ### 7.2. Кластеризация (расширенный EDA)
 1. Вектор фичей:
   - суммы по категориям + CTR/CR + доли заказов
 2. Нормализация
 3. KMeans / GMM, 3–7 кластеров
 #### Таблицы
 - кластер → размер → средние фичи → краткая интерпретация
 #### Графики
 1. Профили кластеров (bar/radar)
 2. Scatter PCA/UMAP: цвет = кластер
 ---
 ## 8. Воронка: показы → клики → заказы
 ### Таблицы
 1. Общая воронка:
   - `channel_type`, `category`, `impressions`, `clicks`, `orders`, `CTR`, `CR_click2order`, `CR_imp2order`
 2. Воронка по сегментам:
   - пол/возраст/платформа → те же метрики
 ### Графики
 1. Funnel chart active vs passive (общий)
 2. Barplot CTR по категориям + сравнение active/passive
 3. Barplot CR по категориям + сравнение active/passive
 4. Funnel/Bar по возрастным группам
 ---
 ## 9. Временные лаги между коммуникациями и заказами
 С учётом «поздних покупок» (особенно travel).
 ### 9.1. Лаги на дневном уровне
 #### Таблицы
 1. Лаговые признаки `lag1..lag7` для показов/кликов
 2. Кросс-корреляция:
   - lag → corr(orders*t, impressions*{t-lag})
 #### Графики
 1. Линия «lag vs корреляция» по:
   - `hotel`, `avia` (и др. при желании)
   - active vs passive
 ### 9.2. Лаги на клиентском уровне
 #### Таблицы
 1. `first_imp_date`, `first_click_date`, `first_order_date`
 2. `days_to_order`
 3. Квантили `days_to_order` по категориям
 #### Графики
 1. Гистограмма/ECDF `days_to_order` по категориям
 ---
 ## 10. Мультиканальность и «заспамленность»
 ### Таблицы
 1. `contact_days`, `avg_impressions_per_contact_day`, `max_impressions_per_day`
 2. Бины по `avg_impressions_per_contact_day` → средний CTR/CR
 ### Графики
 1. Гистограмма `avg_impressions_per_contact_day`
 2. Линия/бар: CTR/CR vs уровень спама
 ---
 ## 11. Простые модели как часть EDA
 ### 11.1. Бинарная модель «есть заказ / нет заказа»
 Target:
 - `has_any_order`
 Features:
 - суммы показов/кликов по типам и категориям
 - CTR/CR
 - демография и платформа
 #### Таблицы
 1. Логистическая регрессия:
   - коэффы, p-value, odds ratio
 2. Feature importance из дерева/лесов
 #### Графики
 1. Barplot важностей
 2. (Опционально) partial dependence для 2–3 ключевых фичей
 ---
 ## 12. Гипотезы и статтесты
 ### Примеры гипотез
 1. `CTR_active > CTR_passive`
 2. CR различается между категориями сервисов
 3. CTR/CR различаются по полу/возрасту/платформе
 4. «заспамленность» снижает CTR/CR после порога
 ### Таблица гипотез
 - гипотеза, H0/H1, тест, p-value, вывод, бизнес-интерпретация
 Графики для поддержки — использовать из разделов 4–10 (барчики/боксплоты).
 ---
 ## 13. Итоговая документация
 1. Резюме выводов:
   - качество данных
   - эффективность каналов/категорий
   - сегменты, где коммуникации лучше/хуже работают
   - лаги (как быстро покупают после контактов)
   - признаки «усталости» от коммуникаций
 2. Список проблем данных и принятых решений по чистке
 3. Список инсайтов для бизнеса
 4. Список фичей для будущих моделей
 5. Следующие шаги:
   - подготовка ML-пайплайна
   - список A/B-гипотез
   - какие данные добрать (если нужно)
 ---
		`@@ -0,0 +1,4 @@`
							`Т-Банк: коммуникации в городе`

							Датасет содержит данные о коммуникациях с клиентами внутри экосистемы Город Т-Банка, включая активные и пассивные каналы и реакцию пользователей на них. Для каждого клиента по дням указано количество показов, кликов и совершенных заказов по разным категориям сервисов: развлечения, транспорт, шопинг, отели, супермаркеты и авиабилеты. Клиент мог совершить покупку как в день коммуникации, так и позже, что особенно важно для сложных сервисов вроде путешествий. Дополнительно доступны демографические признаки клиентов и информация об устройстве.