PharmaDataLab – Telegram
PharmaDataLab
761 subscribers
50 photos
20 videos
4 files
49 links
Все, что связано с аналитикой данных и построением информационных систем в фарме.

Автор: @geringervv

Гид по каналу: https://news.1rj.ru/str/pharmadatalab/28

Приветствие: https://news.1rj.ru/str/pharmadatalab/30
Download Telegram
Forwarded from Икона Фармы
Главные врачи телеграма (и не только). С уважением.

Сегодня — подборка главных внештатных врачей телеграма от Иконы Фармы. Давайте познакомимся со всеми. С уважением.

Поясни за мед
— врач, главный врач для врачей телеграма, заместитель главного врача по социальной справедливости в своей поликлинике. С уважением.

Дерматоонколог Бейнусов — главный дермактоонколог телеграма, к.м.н., развенчивает мифы, лечит и просвещает людей. С уважением.

Ночная охота — главный анестезиолог-реаниматолог телеграма, заместитель главного врача по сторителлингу. С уважением.

ЮРИСТЫ ЗА ВРАЧЕЙ — главные юристы, дают реальную поддержку и юридическую защиту врачам. в повседневной практике. Обладают открытой и бесплатной базой знаний. С уважением.

Флеболог Астафьева — главный флеболог, который делает вены снова невеликими, а нижние конечности — красивыми. С уважением.

Pediatric surgeon — главный детский хирург, который не боится спасти жизнь самому маленькому пациенту. С уважением.

Твой нутрициолог — главный нутрициолог, а почему? Потому что практикующий клинический фармаколог. С уважением.

НТИ HealthNet — инфраструктурная группа, отвечает за инновации и улучшение врачебной практики. С уважением.

Небольшие каналы с большим потенциалом:

Маркетинг без побочек, Хирургия без галстука, Слава НПВС, PharmaDataLab, Лор здорового человека, Аллерголог Шарова
С уважением

СМИ и смежные блоги
Медицинская Россия — новостной медсоцреализм
Мурашко по коже — новости
Медикал Ксю — новости медтехнологий
ФармМикробиологи — дружественный фармацевтический чат-канал
С уважением
Всем привет ✌️

SFE Академия 05.08 проводит онлайн встречу «DrivenPharma: роль аналитических технологий».
Есть возможность участия спикером - многим в этом канале точно есть чем поделиться.

Для участия напишите, плз, @gordeeva_iulia

Ниже темы (можно высказываться по одной из них/предложить свою).

1. Как построить Data-Driven Organization в фармацевтике
2. Архитектура современных аналитических систем
3. Операционная эффективность аналитического отдела
4. ИИ, Real-time и персонализация в аналитике ФК
ДЕНЬ АНАЛИТИКИ фармацевтической отрасли 5 августа 📊

❗️Участие БЕСПЛАТНОЕ

📌 РЕГИСТРАЦИЯ по ссылке ➡️, ссылка

💬 Чат ДНЯ АНАЛИТИКИ ЗДЕСЬ ➡️ https://news.1rj.ru/str/pharma_analytica
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет ✌️

5 августа 13:00 (начало в 12:00) буду рассказывать про hard и soft skills аналитиков в фарме.

Обсудим зачем нам python, какой уровень sql требуется, чтобы развивать аналитику, как "информационную систему", зачем уметь писать кастомные контейнеры в докере и зачем нужна grafana.

А также скажу, какое качество аналитика я ценю больше всего 😎

Встречаемся на площадке SFE академии, регистрация по ссылке.
👍53
На прошлой неделе прошла встреча: «DrivenPharma: роль аналитических технологий», на которой я намазывал рассуждал на тему: hard skills & soft skill (да-да, именно один soft skill, а не skills) современного аналитика в фарме.

Так как времени всегда на подобных митингах в обрез, не разгуляешься и какие-то мысли могли остаться за кадром, плюс не все из вас там были, то я хочу в этой публикации напомнить о чем была речь.

Для начала я напомнил, что такое "информационная система", и почему именно такой подход к развитию аналитики в фарме является единственным жизнеспособным и эффективным.

Напомню, что основной концепт, который заложен в таком подходе, что "информационная система" - это главный актив, партнёр и точка роста для бизнеса.

Теперь давайте про hard skills & soft skill.

Hard skills

📍 SQL и базы данных

- ACID принцип: атомарность, согласованность, изолированность, надежность
- ER-диаграммы: vault, снежинка, звезда
- Нормализация, слои данных, оптимизация запросов
- Базовые понятия: joins, group by, having, логический и синтаксический порядок
- Структуры данных: cte, view, mat. view, recursion
- Вычисления: агрегационные функции, оконные функции
- Объекты кода: функции, процедуры, триггеры
- Аналитические запросы: case when

📍 Python

- Типы данных:
· mutable: list (список), set (множество), dict (словарь)
· immutable: tuple (кортеж)
- Обработка данных: pandas, numpy
- Получение данных: requests, API, beautifullSoup, selenium
- Работа с БД: sqlAlchemy
- Регулярные выражения: re

📍 Деплой и CI/CD

- Continuous Integration / Continuous Delivery & Deployment - автоматизированный процесс разработки, тестирования и доставки кода в production
- Kubernetes, Docker - понимание принципов – один контейнер для одной задачи
· разворачивание приложения, контейнеризация
· написания Docerkfile, docker-compose.yaml, requirements.txt
- Gitlab
· разворачивание: из контейнера / через omnibus как приложение
· настройка репозитория и проектов, runners, секреты, структура репозитория

📍Автоматизация и конвейеры данных

- Airflow (pentaho, nifi, luigi, argo, Azkaban, metaflow)
- понимать когда нужен Airflow, а когда достаточно cloud functions или cron
- python based инструмент
- DAG - directed acyclic graph (ориентированный ациклический граф)
- context(**kwargs) – аргументы: conf, dag, dag_run, params, run_id и тд
- операторы: BashOperator, PythonOperator, PostgresOperator, S3CopyObjectOperator
- triggers
- Xcom – обмен данными между задачами
- самописные операторы и сенсоры

📍 CLI и BI

- CLI – command line interface (командная строка)
· сервер, airflow, git, дебаггинг кода
- BI – Tableau (PowerBI, Qlik, Looker, PixBI, Datalens, Superset)
· весть etl, вне контура BI, никаких data blend, data relationships
· в BI select * from table
· понимать принципы и оптимизацию sql запросов, все BI инструменты sql based

Soft skill

Стрессоустойчивость
Умение работать с большими объёмами информации и структурировать
Высшее образование
Внимательность
Усидчивость
Ответственность
Аналитический склад ума


- ЛЮБОЗНАТЕЛЬНОСТЬ

Друзья я постарался собрать самые ценные и полезные навыки, которые пригодятся нам, чтобы воплощать в жизнь классные аналитические решения и приносить пользу бизнесу.
Хочу отметить, что этот перечень не "желателен", а "обязателен", это то, что аналитики в IT, банкинге, телекоммуникациях, геймдеве, екоме умеют уже давно и на регулярной основе, именно на этих навыках строятся аналитические команды в бигтехе и в компаниях единорогах.

🔥 Пишите, буду рад обратной связи.
🚀 Всем добра.
👍8
🔥 Топ-10 фишек, которые делают дашборд по-настоящему классным

В одной из предыдущих публикациях я разбирал частые ошибки в дашбордах. Сегодня - антипод: как делать правильно. Делюсь своим опытом и лайфхаками, которые выжили в боях с реальными задачами в фарме и не только.

Здесь нет воды - только то, что реально влияет на эффективность.

1. Данные - это всё. Без компромиссов
Кривые данные = ложные выводы. Особенно в фарме, где цена ошибки высока. Мой принцип: прежде чем браться за визуализацию, я всегда проверяю ETL, сверяю метрики с источником и договариваюсь с бизнесом о формулах расчёта. Иначе всё - красивая картинка с неправильными цифрами.

2. Горячие зоны: куда смотрят пользователи
Внимание человека движется слева направо и сверху вниз. Левый верхний угол - самое ценное место. Здесь: ключевые KPI, фильтры и навигация. Справа и ниже - детализация.
Подробнее я разбирал это здесь.

3. Подложка - секрет «вауэффекта»
Если вы посмотрите на выставочные дашборды, то с 90% вероятностью они построены при помощи подложек. Это не просто «красиво» - это работает:
→ Чёткое зонирование без линий и рамок
→ Фокус на данных, а не на интерфейсе
Пример моего дашборда на Tableau Public - World Soccer`s Portrait

4. Колоркодинг: никакого «вырвиглаз»
Это прям очень важная фича хорошего дашборда. Тут важно использовать пастельные и спокойные тона. Использую Adobe color wheel для подбора палитры.
Проверено: спокойные тона снижают когнитивную нагрузку и повышают время работы с отчётом.

5. Правильный график = понятные данные
Динамика - линейный график. Рейтинг - барчарт. Распределение - гистограмма или боксплот. В фарме часто перегружают дашборды сложными визуализациями, хотя бизнесу чаще всего нужна: таблица, барчарт или лайнчарт.

6. Отступы или паддинги
Пустое пространство - это не пустое место. Это помощник пользователя. Отступы между элементами помогают мозгу легче считывать информацию. Рамки - прошлый век.

7. «Erase non-data ink» (Эдвард Тафти)
Убираю всё, что не несёт смысла. Часто скрываю оси, оставляя подписи значений. Например, в барчарте можно оставить метки только у первого и последнего столбца - это сэкономит место и не потеряет информативность.

8. Интерактивность с умом
Добавляю действия по клику, hover-эффекты, связанные фильтры - но только если пользователь готов. У меня ни раз было такое, что я добавлял action filters в виде фильтрации данных при клике по одному из графиков фильтровались остальные, а пользователи потом писали вопросы, что у них данные не сходятся, хотя человек случайно кликал на график и не замечал, как у него отфильтровывались все остальные визуалки и он думал, что проблема в данных, хотя проблема была в его внимательности.

9. Знайте своих пользователей
Оглядываясь на предыдущий пункт плюс на свой опыт в разных компаний я чётко для себя вывел важность этого пункта. Вы должны понимать кто ваши пользователи и как они работают с дашбордами - это очень помогает деливерить действительно отчётность мечты.

10. Документация — это не опционально
Даже к самому простому дашборду я добавляю описание метрик, дату обновления и контакты ответственного. Это снимает 80% вопросов и повышает доверие.

А по какому принципу вы создаете дашборды? Какие фичи считаете must-have?
🚀Делитесь в комментариях
👍61
Data-Informed культура: почему она упирается не в технологии, а в людей

В недавнем разговоре с коммерческим директором одной фармкомпании я с энтузиазмом рассказывал о возможностях аналитики: как с помощью данных о пользователях можно детально сегментировать аудиторию, предсказывать спрос, оценивать эффективность каналов и в итоге - принимать гораздо более эффективные стратегические решения. Построить по-настоящему data-informed компанию.

Следом последовал вопрос, поставивший меня в тупик:
«А зачем?»

И этот вопрос, как ни странно, оказался самым показательным. Он не про любопытство. Он - про отсутствие запроса. Про непонимание роли аналитики в развитии бизнеса. Вот в такие моменты становится понятно: ты и человек - в параллельных реальностях. Если для C-команды “аналитика” - это отчёт в Excel, а не инструмент влияния на P&L, то неважно, какой у тебя стек, ETL или витрины. Потому что как бы ни была хороша архитектура информационной системы или BI, как бы ни были продуманы витрины, процессы и визуализации — если у команды нет навыков, понимания их ценности, эффекта не будет.

В этот момент я понял две вещи:

1️⃣ Моя вина - я не смог донести ценность на языке бизнес-выгод, а говорил на языке «инсайтов» и «аналитики»

2️⃣ Главное препятствие - самые продвинутые технологии, самые чистые данные и самые сложные модели бессильны, если в компании нет культуры работы с данными и людей, которые задают правильные вопросы

К слову периодические вопросы от их отдела:

- “А куда вводить логин и пароль?”
- “А где здесь скролл в таблице?”

Столкнулся с тем, что команда, которая должна быть главным потребителем аналитики, часто не может совершить базовые действия: найти скролл в таблице или понять, куда вводить логин и пароль. Это не делает их плохими специалистами - это говорит о том, что data-инструменты никогда не были для них приоритетом.

Что с этим делать? Моё мнение:

Говорить на языке бизнеса, а не данных. Вместо «мы построим LTV-модель» — «мы поймем, каких потребителей стоит удерживать, потому что они приносят 80% прибыли, и сэкономим X% на маркетинге».

Начинать с малого. Не пытаться сразу внедрить сложную систему. Показать быстрый win - один дашборд, который решит одну конкретную боль прямо сейчас.

Обучать и вовлекать. Не ждать, что все сами научатся. Создавать простые инструкции, проводить ликбезы, показывать, как данные решают их ежедневные задачи.

Ценность аналитики не в графиках и отчетах. Она в том, чтобы превращать разрозненные цифры в общее понимание ситуации и конкретные действия.

Ну и в заключении, самая важная крамольная мысль.

При масштабировании информационной системы ключевым фактором становится осознанный найм. Нельзя строить информационную систему будущего, если в команду продолжают нанимать людей, для которых Excel - потолок, а любая BI-система вызывает ступор. Нужно целенаправленно искать тех, у кого есть data mindset: любознательность, привычка искать подтверждение в цифрах, отсутствие страха перед новыми инструментами и, как базис, хотя бы минимальная техническая грамотность. Такие люди становятся «агентами влияния» внутри своих отделов и multiplying effect от их работы огромен. Важно не просто нанимать «руки», а выбирать тех, кто понимает, как устроены данные, умеет ставить вопросы и способен превращать цифры в решения. Важно, чтобы продакт-менеджеры, маркетологи, операционные менеджеры и т.д. — все, кто так или иначе работает с BI, умели работать с данными, понимали как они устроены, какое можно получить велью.

Невозможно построить зрелую data-инфраструктуру, если в отделе продаж не могут открыть дашборд, а в маркетинге не видят разницы между метриками ретеншена и вовлечённости.

Аналитика работает только тогда, когда работает вся экосистема:
люди → процессы → данные → решения.
И в этой цепочке первое звено - ключевое.

🔥 А с какими барьерами на пути к data-informed культуре сталкивались вы?
🚀 Давайте обсудим в комментариях.
👍14
Ценовой Индекс Пааше и Ласпейреса

Несколько месяцев назад от бизнеса прилетела задача сделать дашборд для анализа цен с помощью этих индексов. Не самые очевидные показатели, возможно вы слышите о них впервые. Тем не менее это интересные метрики, о них сегодняшняя публикация.

Индекс Пааше – характеризует изменение цен за определённый период времени, отвечающий на вопрос: насколько товары в текущем периоде стали дороже (дешевле), чем в предыдущем, назван по имени предложившего его немецкого статистика, экономиста и политика Германа Пааше (1851–1925).

Формула: Ip = ∑p1*q1 / ∑p0*q1
где p - price, q - продажи в упаковках

Фишка этого индекса в том, что он позволяет взглянуть на объём текущих продаж в ценах предыдущего периода (года, квартала, месяца и т.д.). На примере "года", глядя на формулу видим, что q1 - это продажи текущего года в упаковках, p1 - цена текущего периода, p0 - цена уже предыдущего периода, получается частное объёма продаж в текущих ценах, к такому же объёму, но уже в прошлогодних ценах.

Индекс Ласпейреса - он симметричен по отношению к индексу Пааше, рассчитывается аналогичным образом, но в качестве весов используются объёмы продаж предыдущего периода q0, отвечает на вопрос: во сколько раз товары предыдущего периода могли подорожать (подешеветь) из-за изменения цен на них в текущем периоде, назван по имени предложившего его в 1871 г. немецкого экономиста и статистика Эрнста Ласпейреса (1834–1913)

Формула: Il = ∑p1*q0 / ∑p0*q0
где p - price, q - продажи в упаковках

Фишка этого индекса в том, что он позволяет взглянуть на объём продаж предыдущего периода (года, квартала, месяца и т.д.) в ценах текущего. На примере "года", глядя на формулу видим, что q0 - это продажи предыдущего года в упаковках, p0 - цена предыдущего периода, p1 - цена уже текущего периода, получается частное объёма продаж предыдущего периода в прошлогодних ценах, к такому же объёму, но уже в текущих ценах.

На скриншоте пример расчёта и визуализации именно индекса Пааше (Ласпейреса можно сделать по аналогии). Для корректного анализа нужно вывести объёмы продаж текущего/предыдущего периода, соответствующие цены, получившиеся продажи в рублях, их разницу, а в конце уже сам индекс. Таким элегантным образом в разрезе номенклатуры вы сможете понять по индексу Пааше по каким скю вы успеваете поднимать цены, а по каким увы нет, и по индексу Ласпейреса, сколько могли заработать если бы изменили цены. Есть ещё индекс Фишера, представляет из себя среднее геометрическое из индексов Пааше и Ласпейреса, но в силу сложности расчета и трудности экономической интерпретации на практике используется довольно редко.

Стоит дополнить, что на практике эти индексы - помогают подсветить скю по которым нужно поднимать цены "ТОЧКА". Но они не говорят нам "а на сколько эти цены нужно поднимать". "На сколько" - это уже вопрос анализа эластичности цены и лежит он в плоскости иных подходов к анализу цен, а также ваших потребителей.

Тем не менее индексы Пааше и Ласпейреса довольно полезны и на практике могут применяться, как инструмент управления цен.

🚀 Пишите в комментариях используете эти метрики?
🔥53
Долгожданная ачивка подъехала 🔥

Диплом по курсу "Дата инженер".
Начиная с 2019 года я учился в совокупности 3 года.

⭐️ 2019 - Data Science (1 год)
⭐️ 2020 - Web analysis (0.5 года)
⭐️ 2025 - Data Engineer (1.5 года)

Не то, чтобы я понтуюсь, вы не подумайте, просто на дистанции вижу огромный профит от пройденного образования.

Из примечательного на этом курсе было:

- Продвинутый SQL
- Python для анализа данных (numpy, pandas)
- Tableau
- Data Lake & Hadoop (hdfs, mapreduce, yarn, pig, hive, hbase, cassandra)
- Проектирование DWH
- Потоковые данные (clickhouse, kafka, spark)
- Продвинутые методы инжиниринга данных (spark, airflow, dbt)
- Данные в облаке (yandex.cloud, gcp)
- ML для инженеров
- MLOps (docker, k8s, ansible, CI/CD)

Хочу добавить, что в текущее время наблюдается трансформация аналитиков в "Analytics Engineer", в названии должности мы по прежнему видим: BI-аналитик, Data Engineer, Аналитик данных, Продуктовый аналитик (тут ещё в A/B тесты нужно уметь) и тд, но по своей сути идёт объединение функционала и hard-skills. Всё чаще в компаниях ищут людей способных закрыть BI и DE куски, получается аналитик-инженер, который может и данные подготовить и визуалку накидать.

Перечисленные выше навыки, как референс того, без чего уже сейчас сложно обойтись и дальше развиваться в профессии аналитика.

Как, кто-то однажды сказал: век живи, век учись.
А ещё: больше знаешь, больше умеешь.

Наше направление развивается семимильными шагами, иногда кажется, особенно когда послушаешь агентства, что ты догоняющий, и все уже где-то далеко впереди тебя, но главное тут найти баланс, и выбирать обучение, которое действительно будет полезно для дальнейшего роста и развития.

Всем дбобра 🦫
👍15🔥6
Всем привет.

В эту субботу стартует 2-й поток моего авторского курса в Нетологии.

Курс называется: Data Science в медицине - анализ медицинских данных

По сути это экстеншн основной программы по DS.

В рамках моего блока будут вебинары по следующим темам:
1️⃣ Обзор медицины в сфере Data Science
2️⃣ Онлайн и оффлайн-торговля медицинским ассортиментом, роль онлайн-аптек и маркетплейсов
3️⃣ Государственный сегмент (МДЛП, ЕМИАС, госзакупки, клинические рекомендации)
4️⃣ Работа с табличными медицинскими данными

В качестве итоговой работы надо будет построить модель прогнозирования продаж (линейная / логистическая регрессия либо деревья решений)

Напомню, что на 1-м потоке средний скор моделей был 0.45, это очень низкий показатель, поэтому задача весьма амбициозная.

Когда послушаешь различные агентства, то складывается впечатление, что ты всегда отстаешь и все уже давно впереди, в том числе по внедрению прогнозных моделей, хотя личная практика подсказывает иное.

Поэтому если вы хотите попробовать свои силы в разработке подобных алгоритмов то велкам.

Также курс будет полезен людям, которые работают в других или смежных отраслях и подумывают, чтобы перейти в медицину или фарму. Приходите на следующие потоки, буду рад познакомиться.

🚀 Всем добра
👍4🔥4
Парсинг цен с сайтов аптечных сетей: архитектура решения

Недавно я писал, что получил диплом Data Engineer, сегодня хочу рассказать про дипломную работу, в частности про архитектуру моего решения. Ниже распишу пайплайн и выложу частичный код, вы можете переиспользовать его и создать собственное приложение.

Тема была: парсинг цен с сайтов аптечных сетей

Основная идея - это собирать цены по определённому скоупу номенклатуры предоставляя доступ к данным в дашборде со свободным доступом.

Изначально я решил выбрать скю по категории противодиарейных препаратов, как одной из самой крупных АТС-3 групп по объёму продаж.

Из аптечных сетей взял топ-10 по продажам: апрель, ригла, планета здоровья….остальных вы сами знаете :)

Главным условием была полная автоматизация.

Для проекта нам нужно:
1️⃣ Поднять сервер (виртуальную машину: min 8cpu, 24ram, 100gb)
2️⃣ Создать кастомный docker image
3️⃣ Развернуть gitlab через omnibus (как сервис, ибо через докер сжирает овердофига ресурсов)

Пайплайн выглядит так:

airflow запускает даг по расписанию
⬇️
парсер собирает цены
⬇️
данные записываются в postgres в staging (t0 слой)
⬇️
следом запускается скрипт по триггеру на пополнение таблиц из t0, данные обрабатываются и формируется витрина в t1
⬇️
данные прорастают в дашборд

Кастомный docker image:

➡️ docker-compose.yaml
  # Selenium Hub

selenium-hub:
image: selenium/hub:4.34.0-20250717
container_name: selenium-hub
ports:
- "4442:4442"
- "4443:4443"
- "4444:4444"
networks:
- hipposcan-network

chrome-node-1:
image: selenium/node-chrome:4.34.0-20250717
platform: linux/amd64
shm_size: 2gb
depends_on:
- selenium-hub
environment:
- HUB_HOST=selenium-hub
- SE_EVENT_BUS_HOST=selenium-hub
- SE_EVENT_BUS_PUBLISH_PORT=4442
- SE_EVENT_BUS_SUBSCRIBE_PORT=4443
- SE_VNC_PASSWORD=hippo2025
networks:
- hipposcan-network
ports:
- 7901:7900

➡️ Dockerfile
FROM apache/airflow:2.9.3

USER root

# Install system dependencies if needed
RUN apt-get update && apt-get install -y \
&& apt-get clean \
&& rm -rf /var/lib/apt/lists/*

USER airflow

# Install Python dependencies
COPY requirements.txt /tmp/requirements.txt
RUN pip install --no-cache-dir -r /tmp/requirements.txt

➡️ requirements
selenium
beautifulsoup4
pandas
psycopg2-binary
undetected-chromedriver

➡️ Readme
Architecture

- Airflow 2.9.3 - DAG orchestration
- Selenium Grid - Chrome browser automation
- PostgreSQL - Data storage (separate from Airflow metadata)


Для визуализации данных я использовал Tableau.
Загрузил дашборд в паблик с данными за несколько дней.

‼️ Пока проект на холде, ибо не хватает времени. Если вы шарите за DevOps, умеете работать с данными и вам интересен этот проект, то приглашаю вас к сотрудничеству. Хочется найти заинтересованного любознательного человека с которым мы сможем дальше развивать эту историю. Если метч, то пишите в личку.

🚀 Отмечу, что тут представлена лишь малая часть кода, которая описывает инфраструктурную составляющую, а есть ещё питонячий код с парсерами написанными на Selenium, но в любом случае сама архитектура оптимальная и рабочая, можете брать за основу.

🔥 Всем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97
Прогнозирование и любимый ML

Сейчас, кажется, каждая компания мечтает «предсказывать будущее» с помощью моделей машинного обучения.
Вот только чаще всего забывают спросить себя - а готовы ли данные к этому будущему?

Завершился второй поток курса Data Science в медицине, где я веду доп. блок по анализу медицинских данных.
Студенты начали присылать итоговые проекты - прогнозные модели. Кто-то делает классические линейные и полиномиальные регрессии, кто-то деревья решений, random forest, кто-то XGBoost, LightGBM, Prophet или стекинг. Я не ограничиваю - пусть фантазия работает.

Параллельно на рабочем проекте мы в Core BI решаем похожую задачу - строим прогнозы ключевых бизнес-метрик. Используем стекинг с набором моделей:
• MSTL_classic
• MSTL_theta_trend
• AutoETS
• AutoTheta
• SeasonalNaive

Все они работают с временными рядами, учитывают сезонность и тренды. Где-то ARIMA, где-то экспоненциальное сглаживание, где-то автонормализация. А результат - бывает разный.

🎯 И тут проявляется самое интересное.
Речь именно про задачи прогнозирования. ML не даёт чудес. Он просто берёт прошлое, слегка его припудривает и говорит:
«Вот тебе будущее, почти то же самое, что прошлое, только дороже». И чем сложнее модель, тем сложнее интерпретировать результаты. Иногда кажется, что в этих black box больше поэзии, чем математики.

Одна студентка добилась R² = 0.9, MAPE ~18%, на противомикробных средствах. Впечатляюще. Но без теста на переобучение и кроссвалидацию это, возможно, не инсайт, а совпадение.

💡 К чему я это всё?
ML не панацея.
Сегодня из каждого утюга рассказывают, как “ML-алгоритмы предсказывают продажи и революционизируют маркетинг”.
Но когда начинаешь разбирать конкретные кейсы, оказывается:
1️⃣ допущений больше, чем данных,
2️⃣ гипотез - больше, чем проверок,
3️⃣ интерпретация - фантазия, только без хэппи-энда.

Ресурсов в это зарывается колоссально, а реальная бизнес-ценность чаще всего заканчивается там же, где начинается здравый смысл.

Про похожую тему очень точно написал Саша Бараков (Data Nature)про “пререквизиты” для AI-агентов. ИИ или AI агенты - это одна из самых горячих тем сейчас по ML, как в BI дашборд без дашборда в параллели с прогнозированием.
Если у вас не отстроены базовые слои - core data layer, semantic layer, metric registry, data governance - любые эксперименты с ML превращаются в утилизацию ресурсов.

Не потому что ML плохой, а потому что фундамент ещё не готов держать этот вес.

🧠 В аналитике, как и в строительстве, не спасает дизайнерская крыша, если у дома нет фундамента.
И чем дольше я наблюдаю за волной “прогнозных ML-проектов”, тем больше убеждаюсь: что не всё так однозначно, не всегда можно определить значимое велью для бизнеса, иногда старый добрый и холодный аналитический разум приносят бизнесу больше пользы, чем десяток стекингов, миллион фичей и горящий дедлайн “до понедельника”.

А если модель всё ещё кажется волшебной - значит, вы просто не видели исходные данные.

Добавите?
18👍1
Голая статистика - Чарльз Уилан
(Naked Statistics - Charles Wheelan)


Сегодня хочу поделиться мини рецензией об этой замечательной книге.
Заодно ответить на вечный вопрос: может ли книга про статистику быть живой, понятной и не вызывать флэшбеки с пары по матстату.

На сайте самого Уилана про него написано коротко и нагло:
Author. Professor. Speaker. Political Reformer.

Автро явно не из тех, кто открывал статистику только ради сдачи экзамена. И это чувствуется с первых страниц. Я, как человек, который уже много лет живёт в аналитике, BI и моделях, я довольно скептически отношусь к «популярным» книгам по статистике - но тут история другая:
«Голая статистика» - это, пожалуй, одна из лучших книг по статистике, которые я читал.

А читал я их уже немало - от классики до совсем академического кирпича.

О чём книга (и почему это не скучно)
• Корреляция
• Основы теории вероятностей
• Центральная предельная теорема (ЦПТ)
• Опросы общественного мнения
• Регрессионный анализ

На обложке вообще написано:
«Самая интересная книга о самой скучной науке»

И вот тут Уилан делает магию:
он реально разжёвывает статистику так, что и новичку ок, и человеку с опытом есть что подчеркнуть и переосмыслить.

При этом он объясняет сложные вещи на живых примерах:
загадка Монти Холла, Perry Preschool Study, марафон любителей сосисок, супружеская жизнь Ким Кардашьян (да, и она послужила статистике), исследования Americans Changing Lives и многое другое.

Центральная предельная теорема по-человечески

Отдельный кайф книги - блок про выборки, опросы и ЦПТ.

Вот как сам Уилан описывает ЦПТ:
«Центральная предельная теорема, значение которой для статистики соизмеримо со значением Леброна Джеймса для профессионального баскетбола».

Если перевести на практический язык:
если у нас есть правильно сформированная выборка, то наблюдаемые на ней характеристики с высокой вероятностью отражают свойства всей генеральной совокупности.

Несколько цитат, которые показались особенно точными
«Опираясь на статистику, легко врать, но без статистики очень трудно выяснить истину». - Андрейс Дункельс

«Вы не можете управлять тем, что не в состоянии измерить. Помимо этого, то, что вы измеряете, действительно является тем, чем вы пытаетесь управлять».

«Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений».


И мой любимый образ 🔥:
«Когда увеличивается размер неправильно сформированной выборки, высота мусорной кучи также увеличивается, а вонь от неё становится сильнее».


«Голая статистика» трезво напоминает:
📍 Статистика и анализ данных - это мощный инструмент, чтобы лучше понимать реальность, а не подгонять её под наши фантазии.
📍 Любая модель - всего лишь приближение мира, а не откровение.
📍 Аналитик всегда должен быть не только «человеком формул», но и человеком здравого смысла.

Как я люблю говорить:
мало быть data-driven, важно оставаться data-informed


Как эта книга помогла лично мне

В далёком уже 2019-м я учился на Data Science в Нетологии. Одна из тем была Центральная предельная теорема. Формулы были красивые, преподаватели старались, домашки летели одна за другой - но абсолютно не было понятно, как эту теорему вообще применять в реальной аналитике и зачем она нужна, кроме как для галочки на экзамене.

И вот спустя время попадает мне в руки «Голая статистика».
И Уилан, как настоящий профессор-волшебник, берёт и на примере марафона любителей сосисок(!) объясняет ЦПТ так, что наконец-то становится ясно:
• как она работает
• почему она настолько фундаментальна
• и в каких реальных задачах она решает половину аналитических головоломок.

Так что да - эта книга не только хороша сама по себе,
она ещё и сильно закрывает пробелы, которые другие источники часто оставляют открытыми.
9👍6
Попадание в цель. Почему BI должен решать задачи людей, а не исправлять их привычки

В аналитике есть один забавный феномен: как только заходит разговор о выборе типа графика, обязательно найдётся кто-то, кто скажет: «Таблицы? Фу. Надо всех переучивать смотреть на графики».

И вот тут во мне просыпается не только тот самый занудный любитель правильных дашбордов, но и слегка уставший рационалист: почему мы вообще решили, что задача BI - менять людей?

Нет.
Задача BI - помогать людям работать с данными, а не перевоспитывать их силуэтом барчарта.

За свою практику - от построения BI-каталогов до выстраивания core слоя и стайл-гайдов - я довольно ясно вижу три закономерности:

✔️ Если человек мыслит таблицами - графики ему не помогут. А вот отличная таблица поможет.
✔️ Если пользователю удобнее работать со строками, фильтрами, сортировками и сводными - это не “проблема”, а ТЗ.
✔️ BI - это сервис. А не институт по переподготовке «табличкеров в не табличкеров».

Мы тут не для того, чтобы ломать людей через колено.
Мы здесь, чтобы нести велью для бизнеса и деливерить аналитику, которой пользуются, и которая реально помогает принимать решения.

Три фундаментальные роли BI (которые все почему-то забывают, когда начинают спорить про чарты)

1️⃣ Единая точка входа к данным
Когда бизнесу нужно принять решение, он идёт в 1С, потом в Google Sheets, потом в кабинеты, яндекс метрику, потом просит Excel у коллеги Маши, потом сравнивает это с цифрами в отчёте, потом понимает, что метрики в каждом источнике сильно немного отличаются, ну и дальше вы сами знаете.

BI должен убрать этот хаос.
Одна система. Один источник правды.

2️⃣ Полнота и глубина информации
Динамика заказов сама по себе рассказывает ровно ничего.
Ответы на вопросы бизнеса всегда лежат в плоскости объединения источников:
рынок → конкуренты → продукт → макроэкономика → поведение пользователей.

BI - это про то, чтобы собрать всю мозаику.

3️⃣ Удобство взаимодействия (а не просто «красивые диаграммки»)
В BI важнее всего time-to-insight.
Выдаёшь человеку дашборд, и у него либо:
- «О, понятно»
либо
- «Что здесь происходит и почему это выглядит как диаграммы из 2009?»

Красота важна, но BI - это инструмент принятия решений.

Таблица или график - это не идеология. Это ответ на вопрос: “Как человеку удобно?”

Серьёзно.
Если пользователю удобнее работать в таблице, то нужно дать ему таблицу, от которой он будет в восторге:
фильтры, интерактив, колоркодинг, вычисляемые поля, сортировка, pivot-режим - весь арсенал, в конце концов вкорячьте utf символы в неё.

Не нужно каждый раз устраивать фитнес для мозга, убеждая пользователей «думать графиками».

Это как культовая сцена из «Фитиля», где маляр красил стену не в тот цвет, аргументируя, что «так лучше».
Но заказчица прямым текстом просила красный.
Её задача не менялась от того, что у маляра были эстетические предпочтения.

Так и у нас: если заказчик просит таблицу - сделайте ему лучшую таблицу в его жизни.

И ещё один важный момент: BI - это продукт, а не коллекция графиков

Хороший BI-продукт - это:
• семантический слой данных
• trusted дата объекты
• сертифицированные дашборды
• проектирование взаимодействия
• продуманные процессы
• style-guide
• поддержка
• обучение
• корректные данные
• удобные сценарии для пользователей

И если BI как продукт работает правильно, люди к нему привыкают, им нравится, они получают пользу - и сами приходят за новым функционалом.

Продуктовый подход создаёт лояльность. Переучивание создаёт сопротивление.

Краткое либретто.

BI - это про бизнес велью.
Про удобство.
Про принятие решений.
Про сервис.

А не про то, чтобы всем вокруг доказать, что барчарт лучше таблицы, а таблица «зашквар».

Если пользователь хочет график - дайте график.
Если хочет таблицу - дайте таблицу.
Если хочет Excel - дайте Excel, но из единого слоя данных.

💪 Всё очень просто: попадайте в цель конкретных людей и они вознаградят вас самой главной продуктовой ценностью - своей преданностью.
🚀 Не рисуйте «розовый», если вас просят «красный»
9👍7
Друзья, 5 декабря 15:00-15:30 расскажу про технологии, инфраструктурные характеристики и по верхам хард скиллов для построения аналитики на митинге у моих друзей из SFE академии, залетайте и регистрируйтесь по ссылке ниже

👇👇👇

🚀 ЕЖЕГОДНАЯ НЕДЕЛЯ АНАЛИТИКИ ДЛЯ ФАРМОТРАСЛИ 2025

От вопросов к решениям. От решений к результату

Пришло время не просто анализировать, а действовать! Ежегодная Неделя аналитики — это must-visit событие конца года, которое уже стало традицией для лидеров фармотрасли.

НЕДЕЛЯ АНАЛИТИКИ:

Это 6 дней интенсивной практики, где каждый час приносит реальную пользу:
• 5 дней онлайн-погружения в инструменты и кейсы
• 1 день офлайн-нетворкинга в Москве
• Готовые решения для внедрения в вашей компании

Что делает этот формат уникальным?

Синергия онлайн и офлайн форматов создает кумулятивный эффект:
📊 Онлайн-неделя (1-5 декабря) — глубокое погружение в методологии
🤝 Офлайн-день (6 декабря) — живое общение и выработка решений

Для кого это обязательно?
Для руководителей и специалистов:
• Отделов продаж и маркетинга
• Аналитики и бизнес-планирования
• Повышения эффективности и HR
• Финансовых департаментов
Фармакомпаний и аптечных сетей

Ключевые темы недели:
1 дек — Тренды 2026 и аналитический хаб (Татьяна Тимина)
2 дек — Аналитика как стратегический актив (Михаил Плешанов)
3 дек — Планирование вторичных продаж (Александр Новиков, Эмир Гасанов)
4 дек — Data Mindset (Татьяна Головчина)
5 дек — Аналитическая экосистема (Владимир Герингер)
6 дек — КУЛЬМИНАЦИЯ: День аналитика в Москве!

Регистрация на Неделю аналитики уже открыта.
👉 Зарегистрируйтесь здесь:
Ссылка на регистрацию
🌍 Для коллег из других регионов — будет онлайн-трансляция с возможностью участия!

Вопросы? Если у вас есть кейс, экспертиза или идеи для дискуссии – пишите Лидеру Центра аналитических компетенций SFE&Marketing Excellence Academy Татьяне Тиминой, @timina_tat
9👍5
Вакансия «Руководитель отдела бизнес-аналитики/Head of BI» одной из крупных фармкомпаний.

Кто в курсе, что за BI такая Postgres? Кто уже работал с ней?)))
🔥5👍1
Друзья, напоминаю, что сегодня встречаемся
👇👇👇

День 5. ЕЖЕГОДНАЯ НЕДЕЛЯ АНАЛИТИКИ


📅 5 декабря, 15:00
🔥 Тема: «Технологическая сессия. Инфраструктура и харды»

Мы уже обсудили тренды, процессы и роль аналитики в создании конкурентного преимущества компании. Но это преимущество нельзя построить без надёжного фундамента - современных технологий.

Как построить устойчивую аналитическую экосистему: архитектура хранилищ, пайплайны данных, управление инфраструктурой и безопасность. Всё, что является основой для работы с данными.

И какие компетенции или "харды" необходимы, чтобы внедрять и развивать в фармкомпаниях современные технологии.

📌 Как попасть

Регистрационная форма
Ссылка на встречу

По вопросам участия в аналитических мероприятиях обращайтесь к
Татьяна Тимина, руководитель направления Аналитики SFE & Marketing Excellence Academy, эксперт в области аналитической трансформации


Подписывайтесь ➡️ SFE&Marketing Excellence Academy
🔥61
Проектирование взаимодействия

Мне кажется, что в последние годы наше коммьюнити было слишком сосредоточено на красоте и «эффективности» дашбордов.

Мы много говорили про типы графиков, оси, подписи, шрифты, отступы, документации, сбор обратной связи, гештальт, Тафти, AI, архитектуру хранилища, семантический слой, автоматизацию - и, конечно, про сакральный вопрос: в какой цвет красить коню яйца.

Но при всём этом как будто не хватило внимания самому главному - пользовательскому опыту.

Проектирование взаимодействия - это практика, которая фокусирует процесс разработки вокруг пользователя и его целей.

📍 BI - это не про графики
📍 BI - это про поведение системы
📍 А ещё я за продуктовый подход в развитии BI (и против «давайте просто ещё один дашбордик сделаем»)

Задача дашборда - помогать человеку мыслить и принимать решения, а не демонстрировать архитектуру данных и глубину вашего дата-лейка.

Проблема большинства BI-систем в том, что их делают разработчики «как удобно им», а не «как понятно пользователю».

В итоге дашборд превращается в испытание на внимательность, а не инструмент бизнеса.


В чём проблема?
• дашборды вызывают высокое когнитивное сопротивление
• пользователи - не программисты (и не обязаны ими становиться)
• мы ориентируемся на задачи, а не на цели
• живёт подход «давайте заставим пользователя стать умнее»

Спойлер: он не работает.

Проектирование взаимодействия - это манифест против такого подхода.

Основные тезисы ПВ

▪️ Разработчики делают BI для разработчиков
Часто дашборд построен «как удобно разработчикам», а не «как удобно человеку, принимающему решения».

▪️ Взаимодействие в BI важнее графиков
BI - это не набор визуализаций.
BI - это среда взаимодействия с данными.

▪️ Ключевой инструмент - персонажи
Сначала понимаем, для кого система и зачем.
Пока вы не знаете, зачем человек открывает отчёт - вы не знаете, как его делать.

▪️ Пользователь ≠ самый технический человек в комнате
Люди приходят в дашборд решать задачи, а не разгадывать вашу модель данных как квест.

▪️ Не ломайте пользователя через колено
Не переучиваем табличкеров.
Для многих людей таблица - это способ мышления.
Если пользователю нужна таблица - сделайте лучшую таблицу в его жизни, а не «компромисс ради визуализации».

▪️ Интерфейс должен служить человеку, а не демонстрировать технологии
Не усложняйте.
Не перегружайте.
Каждая лишняя кнопка - минус к time-to-insight
(и плюс к «почему этим никто не пользуется?»).

По моим прикидкам, в крупных компаниях, где дашборды исчисляются сотнями и тысячами, количество мусорных отчётов может доходить до 30-40%.

И это, кажется, очень много.

Нам нужна переупаковка текущих практик.


Проектирование взаимодействия — это:
• процесс определения продукта, а не нотация к разработке
• изобретение таких взаимодействий, которые помогают пользователям достигать бизнес-целей, не мешая личным
• фокус на целях и персонажах
• определение внутренней логики продукта через внешнее поведение

И да, на всякий случай: ПВ ≠ дизайн интерфейса ≠ визуализация данных.

Персонажи - главный инструмент проектирования

Они одушевляют разработку и не дают проектировать «в вакууме».

Мы отвечаем на вопросы:
• зачем человек открывает дашборд
• какую цель он преследует
• какое решение должен принять
• что он сделает после того, как закроет отчёт

Сдвигаем фокус:
с самой разработки → на цели пользователей

Проектирование взаимодействия кладёт счастье в сердечко пользователей
и награждает BI самым важным продуктовым свойством - преданностью аудитории.

Когда BI спроектирован как продукт,
его начинают любить,
а не «терпеть, потому что надо».

В итоге

BI - это система принятия решений.

Она должна быть:
• простой, как дрова
• логичной, как хороший интерфейс
• надёжной, как привычка

И если дашборд понимает только его автор - это не аналитика.
Это хобби.

🚀 Продолжение будет
🦫 Всем дбобра
💯85
Media is too big
VIEW IN TELEGRAM
[8] Проектирование взаимодействия

Мне кажется, что долгое время наше коммьюнити слишком много фокусировалось не на том, а именно на процессе разработки и на том в какой цвет покрасить коню яйца. Хотя самым главным приоритетом должен быть - пользователь! Проектирование взаимодействия фокусирует биай именно на пользователе.

В предыдущей публикации кратко описал концепцию и основные тезисы, в этом выпуске более детально описал процесс. Из чего состоит и какое велью даёт.

Youtube

🚀 Пишите ваши комментарии, что думаете на счет проектирования взаимодействия.
👍4