Datalytics – Telegram
Datalytics
9.08K subscribers
218 photos
18 videos
5 files
674 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Если вы хотите смоделировать систему, чтобы больше понимать о ее поведении, то вам понадобится собрав измерения переменных (статистику) внутри системы определить их распределение, чтобы можно было генерировать входные данные для моделирования системы. В этом случае достаточно найти параметры распределения, которые лучше всего соответствуют наблюдениям. Этот процесс известен как статистический вывод. В этой статье рассматривается метод оценки максимального правдоподобия (MLE).

https://richardstartin.github.io/posts/maximum-likelihood-estimation
Пост с различными полезными сниппетами для работы с pandas: от группировки и до method chaining.

https://kadekillary.work/post/embarrassment-of-pandas/
Статья о том как сделать Jupyter Notebook более интерактивным: добавление прогресс-баров, виджетов для ввода, оформление текста. В общем, куча полезных советов, которые сделают ваши блокноты более удобными и красивыми

https://habr.com/ru/post/485318/
Крутая статья про кластеризацию последовательности значений с помощью метода оптимизации Дженкса. Представьте, что у вас есть последовательность чисел, которые распределены не непрерывно, а имеют какие-то разрывы, например, значения после 50 перестают появляться и начинаются вновь только с 500. Алгоритм Дженкса позволяет на основе таких разрывов сформировать кластеры. Это очень удобный метод для того, чтобы сформировать более естественные диапазоны, нежели например с использованием квартилей, так как диапазоны будут можно сказать следовать природе данных.

https://pbpython.com/natural-breaks.html
Генетический алгоритм - это метод решения вычислительных проблем, в основу которого положена теория естественного отбора.

В статье представлены простые и понятные примеры кода с реализацией генетического алгоритма.

https://dev.to/fernandezpablo/introduction-to-genetic-algorithms-in-python-e9p
Наткнулся на интересную библиотеку для прогнозирования временных рядов. С её помощью можно выбрать различные модели прогнозирования, чтобы сравнить их между собой, а также комбинировать их с помощью модели градиентного бустинга. Всего в библиотеке представлено 11 моделей для прогнозирования временных рядов, включая наиболее популярные ARIMA и Prophet

https://github.com/firmai/atspy
Хорошая статья про создание интерактивных дашбордов с помощью Plotly (для визуализации) и Voila (для того, чтобы сделать веб-приложение из ноутбука). На мой взгляд, это очень элегантный и простой подход, позволяющий сделать исследование и делиться выводами по нему с другими людьми без шаринга всего кода. Отдельный бонус: рассматривается два варианта деплоя приложения - в облаке с помощью сервиса binder и на выделенном сервере через tmux.

https://pbpython.com/interactive-dashboards.html
Vit Cheremisinov и Iskandar Mirmakhmadov составили подборку книг, блогов и статей, рекомендуемых для погружения в область экспериментов и математической статистики. Однозначно в закладки!
Библиотека D-Tale позволяет отображать датафрейм в удобной таблице с возможностью сортировки и фильтрации. Чем-то похоже на Qgrid, но более навороченный. Ведь D-Tale умеет не просто отображать данные в ноутбуке, но и создавать в один клик веб-сервис, в котором таблица датафрейма будет доступна для обзора по URL. Это удобно для работы с данными из различных IDE, которые не поддерживаю pretty-вывод датафреймов.

https://github.com/man-group/dtale
Обзор пяти простых, но эффективных, методов pandas: shift, mask, value_counts, nlargest, nsmallest

https://towardsdatascience.com/5-elegant-python-pandas-functions-a4bf395ebef4
Forwarded from DataEng
​​Накатал статейку про введение в Apache Airflow: http://bit.ly/37o3tiD
Статья, освещающая эффективные приемы работы с коллекциями: list comprehension, dict comprehension, использованием модулей collection и itertools.

https://sourcery.ai/blog/effective-collection-handling/
В этом году команда Skyeng начинает делиться обезличенными данными о миллионах уроков с командами, которые пилят исследования и коммерческие проекты в сферах педдизайна, психологии, мотивации, контента, рекомендаций и так далее.

О том, как это будет, какие первые проекты уже в работе, и как найти человека, который курирует всю инициативу, Skyeng рассказали на хабре

https://habr.com/ru/company/skyeng/blog/489010/
DevPractice выпустили бесплатную книгу по Matplotlib. В этой книге в форме уроков дана обширная информация, которая поможет решить большую часть задач при построении графиков.

https://devpractice.ru/matplotlib-book/
Обзор нескольких новых функций в Pandas 1.0: конвертация датафрейма в markdown-формат; универсальная константа pd.NA (вместо np.nan, None или pd.NaT); строковый тип данных (вместо универсального object).

https://towardsdatascience.com/top-3-new-features-in-pandas-1-0-4a92d98a9a8f
Forwarded from GEEK EXPORT
​​🎙{Подкаст #3 - Путь Data Engineer}📊

В третьем эпизоде у нас в гостях Дмитрий Смирнов, кандидат когнитивных нейронаук, консультант в области Big Data и Cloud Computing. Поговорили про то, как работать с таким обширным стэком и что за языки/технологии для этого требуются. Подписывайтесь, ставьте оценки и оставляйте свои комментарии на платформах, которыми пользуетесь - нас это мотивирует продолжать выпускать подкаст!
На канале MoscowPython выложили доклад Николая Фоминых (S7) «Делаем Dashboard для авиакомпании: Dash и не только».

В докладе рассказывается о сильных и слабых сторонах решений для построения дашбордов, а также области применения. Больше всего достанется Dash: пытаясь сделать на нем все, что нужно, S7 набили все возможные шишки.

https://youtu.be/mzIB5zxn6kg