Datalytics – Telegram
Datalytics
9.04K subscribers
219 photos
17 videos
5 files
674 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from LEFT JOIN
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞
📖 Подробный гайд по кластеризации
Школа анализа данных (ШАД) написали отличную и весьма подробную практическую главу в рамках учебника по ML. Крайне приятно, что погузиться в тему можно даже тем, кто никогда не слышал о кластеризации раньше, ведь все термины вводятся и объясняются постепенно, а также гайд полон визуализаций. В нем разобраны самые современные методы: метод К-средних, DBSCAN и другие. Большое спасибо автору, ждем новых глав!

🙊 DALL-E Mini нашли неожиданное применение: генератор мемов
В начале июня в соцсетях «завирусился» сервис DALL-E Mini: первая версия нейросети от OpenAI, доступная всем пользователям. В результате любого запроса сервис генерирует коллаж из 9 наиболее релевантны изображений и... получается довольно забавно, а иногда и крипово. Этим воспользовался один из пользователей, который в итоге завел отдельную страницу в Twitter и раздел в Reddit, где начал собирать созданные DALL-E Mini изображения.
В ленте твиттера вы можете увидеть коллажи и текст запроса, которые не иначе кроме как "мем" зачастую и не назовешь))

🚫 Современные трудности и способ их преодоления
Ребята из iPhones нашли способ установки удаленных из AppStore приложений (Альфа-Банк, Сбербанк Онлайн и другие), который может помочь установить их на новый телефон, если есть такая необходимость. Важных условий всего два: нужно установить программу iMazing (бесплатного демо-периода будет вполне достаточно), а также приложение, которое вам нужно, должно было быть уже загружено раньше под вашей учетной записью. Пишите в комментариях, если проверяли этот способ или знаете какие-то другие!

👾 Что нового появится в Python 3.11?
Недавно появилась первая бета-версия Python 3.11, в которой есть несколько интересных функций: указание точного места возникновения ошибки (например, в какой части вычисления), добавление примечаний к объектам исключений, встроенная поддержка форматов toml библиотекой tomllib и многие другие более узкоиспользуемые функции. Вдобавок ко всему вышеперечисленному есть еще один плюс: в этой версии Python также стал в среднем на 22% быстрее. К октябрю, когда выйдет финальный релиз, он, возможно, станет работать еще быстрее. Ждете выход новой версии?

#weekly #дайджест
На vc.ru вышел подробный гайд про создание дашборда в DataLens

Гайд освещает все шаги в процессе:
- Создание подключения к базе данных
- Создание датасета
- Настройка полей
- Создание визуализаций (в том числе визуализаций с иерархиями, сводных таблиц, а также визуализаций на карте)
- Формирование дашборда
- Фильтрация данных дашборда

Как по мне, то получилось хорошее пошаговое руководство, которое может быть хорошим первым шагом в изучении DataLens

https://vc.ru/services/453689-kak-proanalizirovat-prodazhi-seti-magazinov-v-yandex-datalens-poshagovaya-instrukciya
Продолжая тему DataLens, затронутую в предыдущем посте

Недавно ребята из DataLens проводили вебинар, посвященный безопасности и разграничении прав доступа в DataLens. Делюсь записью этого вебинара

В рамках вебинара менеджеры по развитию Павел Дубинин и Рами Мулейс осветили такие вопросы:
- DataLens как часть облака в организациях;
- какие бывают учётные записи: федеративные, доменные, социальные и @yandex.ru;
- необходимые роли Yandex Cloud и как их задавать;
- внутренние каталоги объектов DataLens и логика прав;
- как безопасно поделиться дашбордом и что нужно знать о «публикации»;
- как настроить Row-Level Security вручную и через БД;
- общие вопросы безопасности в Yandex DataLens;
- планы развития сервиса.

Сразу спойлерну про планы. В планах развития сервиса Павел Дубинин подсветил появление:
- Групп в Identity ans Access Management
- Групповых операций с объектами
- Рекурсивное назначение прав через папки
- Воркбуков (это мне показалось наиболее интересным, потому что воркбуки объединят между собой подключения, датасеты, чарты, дашборды в единую сущность, к которой можно предоставлять доступ)

https://www.youtube.com/watch?v=NXEiPMfXwPo
Признаки дата-карго-культа (источник)
Интересная статья в блоге Бюро Сервисного Дизайна про различие бизнесов, которые разговаривают только на языке показателей, и бизнесов, говорящих на языке логики

Автор приводит и рассматривает формулировку закона Гудхарта:
Как только статистический показатель становится целью, он перестаёт отражать реальность.

Бизнесы, где менеджмент помешан на метриках, склонны выстраивать между метриками несуществующие казуальные связи, например, выстраивая взаимосвязь между NPS и выручкой. Взаимосвязь действительно есть, но это не линейная зависимость, а значит в её рассмотрении важно понимать как построены процессы, осознавать благодаря каким действиям (проектам) будет осуществлен рост одной метрики (например, NPS) и как изменение клиентского опыта будет влиять на рост другой метрики (в данном случае, выручки)

Для управления действительно нужно обращать внимание на метрики, но этого не достаточно. Управляющее воздействие должно быть обращено не на метрику, а на логику, которая лежит в основе процесса. А метрика – всего лишь показатель, по изменению которой мы судим правильно ли наше управляющее воздействие или его нужно корректировать

Автор находит и ответ на вопрос «Почему так популярна data-driven методология в управлении?». Часто этот подход позволяет закрыть дыры в управленческой компетенции, потому что data-driven подход выигрывает у подхода, когда менеджмент не опирается ни какие данные, а принимает решения интуитивно. Таким образом, метрики часто используются как способ «систематизировать бардак». Но выигрывает подход, при котором есть и метрики, и принятие решений, основанное на понимании логики процессов компании

https://blog.buro.cx/govorim-s-bizniesom-na-iazykie-loghiki/
В последнее время этот телеграм-канал живёт странной жизнью: посты появляются не часто. Всему причина то, что сфера моих профессиональных интересов сместилась из аналитики в сторону управления. Забрасывать канал я не планирую, но пока думаю о том как его переформатировать

И на этом фоне я решил завести заумный канал в Телеграме про сложные системы, их структуру, управление и прочую «системщину». С уклоном в междисциплинарные исследования, поэтому будет не только про столько про технологии, но и про общество, экономику (в т.ч. поведенческую), антропологию, психологию, безмасштабные сети, теорию управления

Вот ссылка на первый содержательный пост
Многих молодых аналитиков, и не только их, работа с исследованиями уводит в темные дебри поиска проблем, планирования, итераций, выводов, а про презентацию результатов и вовсе забывают. Самое досадное случается, когда все потраченные усилия уходят «в стол». И это далеко не редкость для бизнеса.

В последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий.
Forwarded from Ivan Begtin (Ivan Begtin)
Из любопытных инструментов, в Hex, онлайн сервисе тетрадок для машинного обучения, появились no-code cells [1], это когда вместо написания Python или SQL можно выбрать интерактивно параметры, а сервис сам сгенерирует код.

Выглядит удобно как гибридный инструмент, и для тех кто напишет код сам, и для тех кому угодно не в виде кода, и для тех кто поправит за вторыми, то что они не могут сами.

Наступает время гибридных инструментов!

Ссылки:
[1] https://hex.tech/blog/introducing-no-code-cells

#datatools #sql #python
Наткнулся на замечательную подборку шаблонов d3.js у Observable

Например, есть шаблон для анализа Retention, в котором помимо привычного хитмапа по когортам есть отображение кривых убывания когорт, а также детализация когорт в Cycle Plot. Всё это дело кастомизируется под ваши данные, достаточно только загрузить таблицу с количеством пользователей в разбивке по когортам и отчетным периодам

А ещё есть аналогичный шаблон, но с Retention по сегментам
В @ozon_tech вышел второй эпизод подкаста Рандомные Дрова.

Ребята расширили стек и добавили дата-аналитику. Можно послушать про собесы, кейсы, обучение, тех.интервью и процессы в разных компаниях.

В этом эпизоде встретились Ван Хачатрян (Head of ML Ozon), Денис Нечитайло (Head of Product Analytics Ozon) и Сергей Юдин (COO Яндекс Кью).

Обсудили, где пролегает граница между дата-сайентистами и дата-аналитиками, поговорили о том, что нужно дата-сайентисту и что пригодится аналитику данных, рассказали, откуда взялась мода на дата-сайентистов (спойлер: по одной изверсий, из-за этой статьи «Дата-сайентист – самая сексуальная профессия»).

Послушать можно тут:

🎧Яндекс
🎧Apple
🎧Google
Слышали про новый гайд от MyTracker для прогноза LTV приложений? Рассказываю 😉

Команда предиктивной аналитики MyTracker описали, какими моделями пользоваться и как, чтобы самостоятельно построить прогноз LTV мобильного приложения.

Чему можно научиться после практики по гайду:
1️⃣ Работать с сырыми данными, предобратывать их (это изи)
2️⃣ Представлять в виде пригодных данных для анализа (посложнее, но задачка уровня джун+)
3️⃣ Подбирать модели и корректно оценивать их по метрикам (а вот и хардкор)
Из моделей разбираются:
- модель на основе catboost
- модель на основе линейной регрессии
- коэффициентная модель
- модель на основе экстраполяции логарифмом

Для кого полезно? Маркетинг менеджеры, продакты, аналитики
Что нужно уметь? Хотя бы немного в Python, чтобы применить рекомендации на практике (внутри примеры кода)

Если интересно, оставьте свои контакты на лендинге и скачивайте 👉 e-book

А что делать если данных для практики нет?
Даже если у вас нет своего продукта или клиентских данных и на первых страницах возникнет вопрос, — все круто, полезно, а где взять выгрузки, чтобы поиграться с моделями?

Ссылку на сырые данные, ищите на 14-й странице. Внутри:
файл с сырыми данными о транзакциях устройств для большого приложения
файл с данными о кумулятивном (накопленном) LTV устройств

E-book всего 43 страницы, поэтому концентрация пользы максимальная и без воды!
💎 Хочу порекомендовать канал Айти психолог

Вообще в канале бывает много полезного про менеджмент самого себя.
Крис, тимлид команд аналитики с опытом 7 лет в айти, пишет о практической психологии без воды и эзотерики:
🔹как побороть синдром самозванца
🔹как справляться с тревогой
🔹как наладить отношения с заказчиками
🔹как преуспеть на перформанс ревью

Подписывайтесь и больше не выгорайте 🌚
​​Open AI опубликовала крупнейшую нейросеть распознавания речи, обученную на 680 тысячах часов аудио, назвали Whisper — шепот.

Сеть понимает множество языков кроме английского, включая русский.

Качество распознавания сравнимо с сервисами от Google, Amazon, Microsoft и Yandex. При этом сервисы распознавания речи от корпораций стоят по 2 доллара за минуту распознавания, а тут можно скачать и пользоваться этой штукой бесплатно и без подключения к интернету.

Открыта и бесплатна для скачивания не только конечная сеть, но и «развесовка», то есть модель можно тюнить и использовать как составную часть более сложных алгоритмов. Не открыты только 680 тысяч часов аудио, которые использовали для обучения модели.

Пара примеров есть на странице проекта; распознать любые файлы и даже свою речь с микрофона можно попробовать онлайн в неофициальном google colab блокноте (очень классный инструмент!).



Кстати, если у вас айфон — рекомендую обновить iOS и попробовать встроенное распознавание речи. Новая версия iOS внесла одно маленькое изменение — теперь редактирование текста клавиатурой не прерывает процесс распознавания. Можно набрать текст голосом, исправить ошибку пальцами и продолжить набор голосом. Я теперь пишу большинство сообщений на айфоне именно так — гораздо быстрее и легче, чем печатать пальцами.

Интересно, что мы как раз начинаем исследовательский проект для Чайки — встроим распознавание речи в медицинскую информационную систему, чтобы врачи могли заполнять карточки пациентов голосом и тратили на это меньше времени.

Будущее уже совсем близко.
👍1
Forwarded from Ivan Begtin (Ivan Begtin)
Команда Clickhouse, создателей одной из лучших аналитических СУБД, запустили бета версию облачной версии продукта [1]. Сейчас облако работает с поминутной тарификацией на базе инфраструктуры AWS․ Главное достоинство в том что продукт непосредственно от команды разработчиков Clickhouse, а значит можно надеяться на лучшую производительность и техническую поддержку.

При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].

Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.

А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.

Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com

#opensource #startups #dbms #clickhouse
1
В блоге Ozon Tech на Хабре вышла хорошая статья про построение аналитической инфраструктуры для проведения A/B-тестов, а конкретно о платформе сплитования пользователей. Рассматривается несколько различных архитектурных подходов к сплитованию, их плюсы и минусы. В общем, статья достойная с большим количеством технических подробностей

https://habr.com/ru/company/ozontech/blog/689052/
👍1
Forwarded from Максим Цепков (Maxim Tsepkov)
Татьяна Половинкина. Данные в комиксах: От источников до дельты. В докладе был некоторый ликбез по работе аналитика данных как новой специализации, дополняющей существующие специализации бизнес-аналитика и системного аналитика. Отличие в том, что он работает с динамическим потоком данных, строя архитектуру обработки и обеспечивая пользователей нужными данными. Специализация в процессе формирования, так что тут нет устойчивого процесса и терминологии. Но при этом контекст достаточно объемный.

* Фазы понятные: планирование, проектирование, создание-получение, хранение-обслуживание-архивирование, использование. Но потоки данных - меняются, хранение - деформируется.
* Фокусы: осмысленность данных, выгода использования. Доступность в условиях изменчивости. Масштабируемость. Качественность, доверие данным. Безопасность данных. Температура данных - частота обращения.
* Виды данных: Small (обычные БД), Big (с ними просто не получится), Smart (информативные данные, Fast (выявление Smart в Big, Темные (это что мы не знаем).
* Деление по хранению: Широкие (много колонок) Длинные (много строк).
* Сегментирование - партиционирование - шардирование: деление больших данных на группы.
* Виртуализация данных: они лежат везде, 60-70источников - обычная история, идея - промежуточный уровень для абстрагирование от изменений в конкретных источниках.
* Качество данных. Тут много характеристик, было 4, теперь 20.
* Безопасность: генерация, маскирование, шифрование. Маскирование всегда необратимо, а отличие от шифрования, при этом маскирование может быть частичным.
* Обогащение данных. Это не только дополнение, это еще удаление ненужных данных, маскирование для увеличения доступности.
Привет! Если вам интересна или вы работаете/хотите работать в сфере IT аналитики, то вам на канал – ❤️ IT Analyst

На канале ежедневно публикуются материалы по тематике. Канал будет интересен ИТ-аналитикам, таким как: Бизнес-аналитик, Системный аналитик, Аналитик данных, Web-аналитик и т.д.

➡️Тут вы найдёте:
🟢интересные статьи с разных ресурсов
🟢опросы
🟢обучающие видео с ведущими IT-специалистами
🟢актуальные новости
🟢профессиональный юмор

также поразбираемся в сортах аналитиков в индустрии IT😉

Примеры постов с канала:
- Разбор скилов разных аналитиков
- Отношение к ТЗ в современных ИТ проектах
- Аналитик в автоматизации - кто он и чем занимается
- Краткое описание BPMN с примером
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔Что общего у бортпроводников, хирургических бригад и успешных специалистов по анализу данных? Все они используют читлисты. Читлисты – это шпаргалки, в которых собраны базовые действия. Несмотря на то, что каждая операция, каждый проект и каждый полет имеют свои особенности, во всех этих вещах есть необходимые основные шаги.

Мы собрали для вас шпаргалки по Python для анализа данных, чтобы вам не пришлось тратить время на поиск банальных функций:

🔷 Numpy. Практически в каждом проекте по анализу данных есть вычисления с помощью этого модуля. Numpy помогает при работе с массивами, матрицами, операциями из линейной алгебры и другими математическими вычислениями. Сохраняйте шпаргалку по Numpy отсюда.

🔷 Scikit-learn. Полдключение этой библиотеки также встречается почти во всех работах по машинному обучению. Scikit-learn выручает в случаях, когда надо использовать алгоритмы ML. Он предоставляет выбор эффективных инструментов, включая регрессию, классификацию, кластеризацию, подбор гиперпараметров, метрики и оценки и снижение размерности. Читлист по scikit-learn можно найти здесь.

🔷 Pandas. Эта библиотека была создана с целью упростить работу с данными. Pandas облегчает выполнение трудоемких и повторяющихся задач, в том числе: очистку данных, масштабирование, объединения, проверки значений, визуализацию и статистический анализ. Шпаргалка лежит здесь.

🔷 Matplotlib. Эта библиотека отвечает за визуализацию данных и считается самой распространенной среди специалистов по DS. Отрисовка графиков, диаграмм, пайчартов, точечных спектров с уникальным стилем, подписями, легендами и возможностью сохранения в любом удобном формате – весь этот функционал доступен благодаря Matplotlib. Краткий список по этому модулю забираем отсюда.
👍8
➡️Прогноз LTV: как выбрать модель и оценить результат

На ютубе появилась запись вебинара от команды предиктивной аналитики MyTracker

На вебинаре обсуждали:
▶️зачем нужен прогноз LTV;
▶️как выбрать модель под разные кейсы;
▶️как правильно оценивать прогноз;
▶️какие есть ограничения и критерии применимости моделей.

Ссылка на вебинар 🚛 https://www.youtube.com/watch?v=e8JKKAjWoqw
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1