NEW BOT Телеграм, страница

Datalytics

Если вы хотите смоделировать систему, чтобы больше понимать о ее поведении, то вам понадобится собрав измерения переменных (статистику) внутри системы определить их распределение, чтобы можно было генерировать входные данные для моделирования системы. В этом случае достаточно найти параметры распределения, которые лучше всего соответствуют наблюдениям. Этот процесс известен как статистический вывод. В этой статье рассматривается метод оценки максимального правдоподобия (MLE).

https://richardstartin.github.io/posts/maximum-likelihood-estimation

Richard Startin’s Blog

Maximum Likelihood Estimation

Suppose you want to model a system in order to gain insight about its behaviour. Having collected some measurements of the state variables of your system, you want to infer their distribution so you can generate input for a system simulation. With some insight…

3.34K views10:24

Datalytics

Пост с различными полезными сниппетами для работы с pandas: от группировки и до method chaining.

https://kadekillary.work/post/embarrassment-of-pandas/

3.05K views07:20

Datalytics

Статья о том как сделать Jupyter Notebook более интерактивным: добавление прогресс-баров, виджетов для ввода, оформление текста. В общем, куча полезных советов, которые сделают ваши блокноты более удобными и красивыми

https://habr.com/ru/post/485318/

Хабр

Добавляем в Jupyter Notebooks красоту и интерактивность

Многие используют в своей работе Jupyter Notebooks. Но с ростом сложности проекта появляются проблемы. В блокноте появляются ячейки с красными пометками для самого себя «перед запуском укажи число...»...

3.31K views09:22

Datalytics

Крутая статья про кластеризацию последовательности значений с помощью метода оптимизации Дженкса. Представьте, что у вас есть последовательность чисел, которые распределены не непрерывно, а имеют какие-то разрывы, например, значения после 50 перестают появляться и начинаются вновь только с 500. Алгоритм Дженкса позволяет на основе таких разрывов сформировать кластеры. Это очень удобный метод для того, чтобы сформировать более естественные диапазоны, нежели например с использованием квартилей, так как диапазоны будут можно сказать следовать природе данных.

https://pbpython.com/natural-breaks.html

Pbpython

Finding Natural Breaks in Data with the Fisher-Jenks Algorithm

The Fisher-Jenks optimization algorithm can be used to find natural breaks in your data and can be a useful tool for simple clustering of 1 dimensional data.

3.67K views09:14

Datalytics

Библиотека для создания анимированных гифок с помощью matplotlib

https://github.com/maxhumber/gif

GitHub

GitHub - maxhumber/gif: The matplotlib Animation Extension

The matplotlib Animation Extension. Contribute to maxhumber/gif development by creating an account on GitHub.

3.07K views13:45

Datalytics

Генетический алгоритм - это метод решения вычислительных проблем, в основу которого положена теория естественного отбора.

В статье представлены простые и понятные примеры кода с реализацией генетического алгоритма.

https://dev.to/fernandezpablo/introduction-to-genetic-algorithms-in-python-e9p

DEV Community

Introduction to genetic algorithms in Python

What is a genetic algorithm? A genetic algorithm is a method to solve a problem inspired i...

3.3K views09:55

Datalytics

Наткнулся на интересную библиотеку для прогнозирования временных рядов. С её помощью можно выбрать различные модели прогнозирования, чтобы сравнить их между собой, а также комбинировать их с помощью модели градиентного бустинга. Всего в библиотеке представлено 11 моделей для прогнозирования временных рядов, включая наиболее популярные ARIMA и Prophet

https://github.com/firmai/atspy

GitHub

GitHub - firmai/atspy: AtsPy: Automated Time Series Models in Python (by @firmai)

AtsPy: Automated Time Series Models in Python (by @firmai) - firmai/atspy

3.46K views09:20

Datalytics

Хорошая статья про создание интерактивных дашбордов с помощью Plotly (для визуализации) и Voila (для того, чтобы сделать веб-приложение из ноутбука). На мой взгляд, это очень элегантный и простой подход, позволяющий сделать исследование и делиться выводами по нему с другими людьми без шаринга всего кода. Отдельный бонус: рассматривается два варианта деплоя приложения - в облаке с помощью сервиса binder и на выделенном сервере через tmux.

https://pbpython.com/interactive-dashboards.html

Pbpython

Creating Interactive Dashboards from Jupyter Notebooks

This article discusses how to build an interactive dashboard to analyze reddit content and display interactive graphs of the result using Voilà.

6.11K views09:55

Datalytics

Vit Cheremisinov и Iskandar Mirmakhmadov составили подборку книг, блогов и статей, рекомендуемых для погружения в область экспериментов и математической статистики. Однозначно в закладки!

Medium

Материалы по математической статистике и экспериментам 1.0

Нас часто спрашивают, что мы советуем почитать, посмотреть и изучить для большего погружения в тему математической статистики и…

3.31K views12:09

Datalytics

Библиотека D-Tale позволяет отображать датафрейм в удобной таблице с возможностью сортировки и фильтрации. Чем-то похоже на Qgrid, но более навороченный. Ведь D-Tale умеет не просто отображать данные в ноутбуке, но и создавать в один клик веб-сервис, в котором таблица датафрейма будет доступна для обзора по URL. Это удобно для работы с данными из различных IDE, которые не поддерживаю pretty-вывод датафреймов.

https://github.com/man-group/dtale

GitHub

GitHub - man-group/dtale: Visualizer for pandas data structures

Visualizer for pandas data structures. Contribute to man-group/dtale development by creating an account on GitHub.

3.22K views09:24

Datalytics

Обзор пяти простых, но эффективных, методов pandas: shift, mask, value_counts, nlargest, nsmallest

https://towardsdatascience.com/5-elegant-python-pandas-functions-a4bf395ebef4

Medium

5 Elegant Python Pandas Functions

Five beautiful Pandas method for everyday data science usage

3.1K views13:47

Datalytics

Статья с интересными примерами использования pandas для тестирования алгоритмов сбора и обработки данных

https://habr.com/ru/post/486756/

Хабр

Python для тестировщика: как маленькие скрипты c pandas помогают в тестировании больших наборов данных

Я работаю тестировщиком на проекте, суть которого состоит в сборе и хранении различных данных и формировании на их основе разных отчетов и файлов-выгрузок. При ф...

3.16K views09:03

Datalytics

Forwarded from DataEng

Накатал статейку про введение в Apache Airflow: http://bit.ly/37o3tiD

291 views09:58

Show comments

Datalytics

Статья, освещающая эффективные приемы работы с коллекциями: list comprehension, dict comprehension, использованием модулей collection и itertools.

https://sourcery.ai/blog/effective-collection-handling/

sourcery.ai

Getting the most out of Python collections

A guide to comprehensions, generators and useful functions and classes

2.45K views08:08

Datalytics

В этом году команда Skyeng начинает делиться обезличенными данными о миллионах уроков с командами, которые пилят исследования и коммерческие проекты в сферах педдизайна, психологии, мотивации, контента, рекомендаций и так далее.

О том, как это будет, какие первые проекты уже в работе, и как найти человека, который курирует всю инициативу, Skyeng рассказали на хабре

https://habr.com/ru/company/skyeng/blog/489010/

Хабр

Делимся самым большим в РФ пластом данных по онлайн-обучению с проектами по лингвистике, персонализации, педдизайну, ML

Перед Новым годом команда Михаила Sverdlove Свердлова объявила, что готова делиться обезличенными данными уроков Skyeng с внешними исследователями и стартапами.

2.89K views15:22

Datalytics

Статья про ускорение обработки больших датасетов (но не очень больших как вы думаете) с помощью dask и parquet

https://habr.com/ru/post/488594/

Хабр

Пандас и другие для толстых данных

В этой заметке я расскажу о паре простых приемов, полезных при работе с данными, не помещающимися в память локальной машины, но все еще слишком мелкими чтобы наз...

2.95K views12:31

Datalytics

DevPractice выпустили бесплатную книгу по Matplotlib. В этой книге в форме уроков дана обширная информация, которая поможет решить большую часть задач при построении графиков.

https://devpractice.ru/matplotlib-book/

2.74K views08:16

Datalytics

Обзор нескольких новых функций в Pandas 1.0: конвертация датафрейма в markdown-формат; универсальная константа pd.NA (вместо np.nan, None или pd.NaT); строковый тип данных (вместо универсального object).

https://towardsdatascience.com/top-3-new-features-in-pandas-1-0-4a92d98a9a8f

Medium

Top 3 New Features in Pandas 1.0

A couple of new time and nerve saving features

3.06K views09:08

Datalytics

Forwarded from GEEK EXPORT

🎙{Подкаст #3 - Путь Data Engineer}📊

В третьем эпизоде у нас в гостях Дмитрий Смирнов, кандидат когнитивных нейронаук, консультант в области Big Data и Cloud Computing. Поговорили про то, как работать с таким обширным стэком и что за языки/технологии для этого требуются. Подписывайтесь, ставьте оценки и оставляйте свои комментарии на платформах, которыми пользуетесь - нас это мотивирует продолжать выпускать подкаст!

302 views13:19

Apple Podcasts SoundCloud Яндекс.Музыка

Datalytics

На канале MoscowPython выложили доклад Николая Фоминых (S7) «Делаем Dashboard для авиакомпании: Dash и не только».

В докладе рассказывается о сильных и слабых сторонах решений для построения дашбордов, а также области применения. Больше всего достанется Dash: пытаясь сделать на нем все, что нужно, S7 набили все возможные шишки.

https://youtu.be/mzIB5zxn6kg

YouTube

Делаем Dashboard для авиакомпании: Dash и не только / Николай Фоминых (S7)

Moscow Python Conf++ 2019

Зал 3
5 апреля, 17:00

Тезисы и презентация:
http://conf.python.ru/2019/abstracts/4651

У нас в S7 много разных данных, например, мы собираем параметры наших самолетов и определяем лучшее время для техосмотра. Данные сложные,…

3.48K views10:52

Datalytics

Статья про потоковую передачу колоночных данных с помощью Apache Arrow

https://habr.com/ru/company/otus/blog/490050/

Хабр

Потоковая передача колоночных данных с помощью Apache Arrow

Перевод статьи подготовлен специально для студентов курса «Data Engineer». За последние несколько недель мы с Nong Li добавили в Apache Arrow бинарный потоков...

3.27K views08:26

About

Blog

Apps

Platform