Актуальная вещь в духе недавно выпущенного Github Copilot.
GitHub
GitHub Copilot
AI that builds with you
Forwarded from запуск завтра
This media is not supported in your browser
VIEW IN TELEGRAM
Искуственный интеллект™ (модель машинного обучения) переводит просьбы на английском языке в питон-код для обработки и представления данных.
Срочно нужен такой же для перевода с русского на 1С.
https://github.com/deepklarity/jupyter-text2code
Срочно нужен такой же для перевода с русского на 1С.
https://github.com/deepklarity/jupyter-text2code
Возвращаем рубрику гайдов по BI-инструментам!
Всем известно, что наш любимый инструмент для визуализации данных на Python – plotly. Наши исследования подкрепляют диаграммы, сделанные при помощи этой библиотеки, а в блоге неоднократно выходили материалы об интересных визуализациях, которые можно реализовать вместе с plotly: анимированных Motion Chart, Waterfall Chart, Map Chart на российской карте и другие.
Но диаграммы plotly можно объединять в целые дашборды – для этого компания выпустила специальный инструмент Dash, о котором мы подробно рассказываем в новом видео цикла гайдов по BI-системам.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
Все наши материалы о plotly.
Автор дашборда, член команды Valiotti Analytics — Елизавета Мазурова
Всем известно, что наш любимый инструмент для визуализации данных на Python – plotly. Наши исследования подкрепляют диаграммы, сделанные при помощи этой библиотеки, а в блоге неоднократно выходили материалы об интересных визуализациях, которые можно реализовать вместе с plotly: анимированных Motion Chart, Waterfall Chart, Map Chart на российской карте и другие.
Но диаграммы plotly можно объединять в целые дашборды – для этого компания выпустила специальный инструмент Dash, о котором мы подробно рассказываем в новом видео цикла гайдов по BI-системам.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
Все наши материалы о plotly.
Автор дашборда, член команды Valiotti Analytics — Елизавета Мазурова
LEFT JOIN
Обзор дашборда в Dash
Посмотрите и другие наши материалы про plotly Сегодня публикуем не совсем классический выпуск обзора BI-инструментов – потому что речь пойдёт о Dash, фреймворке для Python от plotly. Dash – гибкий инструмент, который предоставляет набор компонентов для работы…
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
22%
1
3%
2
3%
3
8%
4
14%
5
3%
6
3%
7
8%
8
24%
9
14%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
26%
1
0%
2
9%
3
6%
4
20%
5
0%
6
9%
7
11%
8
9%
9
11%
10
Если вдруг, кто не был в курсе, то теперь будете: у команды dbt вышел 🎧 подкаст Analytics Engineering (Apple, Google, Spotify).
Пока доступно всего три выпуска:
1. Robert Chang рассказывает про Minerva в AirBnB, очень интересный эпизод.
2. Venkat Venkataramani про реалтайм бд RocksDB, про Facebook и про бд в целом.
3. Brian Amadio из Stitch Fix (сервис персонального стайлинга в US) про эксперименты, A/B тестирование и multi-arm bandits
Пока доступно всего три выпуска:
1. Robert Chang рассказывает про Minerva в AirBnB, очень интересный эпизод.
2. Venkat Venkataramani про реалтайм бд RocksDB, про Facebook и про бд в целом.
3. Brian Amadio из Stitch Fix (сервис персонального стайлинга в US) про эксперименты, A/B тестирование и multi-arm bandits
Apple Podcasts
The Analytics Engineering Podcast
Tech News Podcast · Updated Biweekly · Tristan Handy has been curating the Analytics Engineering Roundup newsletter since 2015, pulling together the internet’s best data science & analytics articles.
Tristan and co-host Julia Schottenstei…
Tristan and co-host Julia Schottenstei…
Forwarded from DataEng
Стали доступны доклады с Airflow Summit 2021 🔥. Из наиболее интересных тем:
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
YouTube
The new modern data stack Airbyte Airflow DBT
Presented by Michel Tricot at Airflow Summit 2021.
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
Кстати, для тех, кто здесь впервые: инициатива называется Гайд по BI. В рамках нее мы уже построили и рассказали про дашборды в инструментах:
— Redash
— Excel
— Looker
— Yandex DataLens
— Tableau
— QlikSense
— PowerBI
— SAP Analytics Cloud
— Google DataStudio
— Redash
— Excel
— Looker
— Yandex DataLens
— Tableau
— QlikSense
— PowerBI
— SAP Analytics Cloud
— Google DataStudio
LEFT JOIN
Гайд по современным BI-системам
В новой серии постов постараемся подробно изучить различные BI-системы на популярной группе датасетов SuperStore Sales. В основе данных — продажи и прибыль сетевого ритейлера в долларах. В следующем посте обсудим постановку реальной задачи, которая могла бы…
🎓Летняя сессия в Georgia Tech
Неделю назад завершил летнюю сессию в Georgia Tech, поэтому продолжу рассказ о курсах, которые в этом семестре удалось завершить.
Как я и писал ранее, я отказался от курса MGT8803, который посвящен базовым понятиям экономики (этого у меня уж точно было предостаточно по основному образованию) и в результате осталось два обязательных курса: CSE6040 и MGT6203. Я решил, что смогу взять их оба единовременно на этот семестр, именно так и поступил.
Детально с точки зрения контента про каждый курс расскажу чуть позже, а в этом посте больше про объемы информации и про процесс.
CSE6040
Курс CSE6040 (вот, кстати, его вебсайт) сугубо технический, сделан очень интересно, поскольку позволяет посмотреть на массу прикладных аналитических проблем.
Курс построен по принципу: тема для изучения = выполняемый Jupyter NB (с задачами для решения). Я ожидал увидеть довольно стандартные методы решения задач типа линейной регрессии или SVD-разложения, а в курсе подход реализован через математику (линейную алгебру). То есть фактически, приходится детально разбираться в алгоритме и математическом аппарате вместо использования готовых стандартных библиотек, это было очень интересно. Думаю, что чуть позже про ряд ключевых ноутбуков и решаемых задач еще поделюсь.
Помимо 15 домашних задач в курсе три экзамена: Midterm 1, Midterm 2, Final Exam. Каждый экзамен это порядка 10-15 задач, которые ты должен решить на время (от 3 до 6 часов) под наблюдением HonorLock. При этом разрешается использовать любые материалы и google, однако задачи предполагают полное погружение в контекст.
Конечно, под каждую тему помимо Jupyter ноутбуков есть короткие видео, на которых объясняется суть алгоритма (но не очень погружаясь в детали).
По этому предмету я выполнил все задания и все экзамены сдал на 100%, в результате получив оценку A, скорее по той причине, что это была супер-интересная практика на Python.
MGT6203
А вот этот курс оказался для меня очень странный. Авторы напихали туда всего подряд: и финансы, и маркетинг, и управление операциями. Разумеется, по всем направлениям необходимо решать аналтические задачи. В курсе предусмотрены три домашних задания, состоящих из двух частей: практика на R и квиз. Все квизы скучные и предполагают тупо поиск ответов по презентациям-материалам. В курсе два экзамена, опять же состоящих из двух частей: задачи, которые надо решить в ноутбуке на R и квиз. Квизы достаточно сложные и не разрешают использовать ничего кроме cheat-sheet (ниже на фотках мои), а вот практическая часть решается без наблюдения и без ограничения по времени, то есть в целом, ее можно легко решить, когда есть свободное время.
Домашние задания предполагали peer review, то есть надо осмотреть ДЗ твоих однокурсников и поставить им оценку. Я нигде не увидел нотификации по этому поводу, в результате никого не оценил, за это мне срезали баллы (около 30%), в результате финальная оценка за этот предмет B. Но если бы можно было его не выбирать, я бы точно от него отказался, в некотором смысле потраченное впустую время.
#gatech #omsa #учеба
Неделю назад завершил летнюю сессию в Georgia Tech, поэтому продолжу рассказ о курсах, которые в этом семестре удалось завершить.
Как я и писал ранее, я отказался от курса MGT8803, который посвящен базовым понятиям экономики (этого у меня уж точно было предостаточно по основному образованию) и в результате осталось два обязательных курса: CSE6040 и MGT6203. Я решил, что смогу взять их оба единовременно на этот семестр, именно так и поступил.
Детально с точки зрения контента про каждый курс расскажу чуть позже, а в этом посте больше про объемы информации и про процесс.
CSE6040
Курс CSE6040 (вот, кстати, его вебсайт) сугубо технический, сделан очень интересно, поскольку позволяет посмотреть на массу прикладных аналитических проблем.
Курс построен по принципу: тема для изучения = выполняемый Jupyter NB (с задачами для решения). Я ожидал увидеть довольно стандартные методы решения задач типа линейной регрессии или SVD-разложения, а в курсе подход реализован через математику (линейную алгебру). То есть фактически, приходится детально разбираться в алгоритме и математическом аппарате вместо использования готовых стандартных библиотек, это было очень интересно. Думаю, что чуть позже про ряд ключевых ноутбуков и решаемых задач еще поделюсь.
Помимо 15 домашних задач в курсе три экзамена: Midterm 1, Midterm 2, Final Exam. Каждый экзамен это порядка 10-15 задач, которые ты должен решить на время (от 3 до 6 часов) под наблюдением HonorLock. При этом разрешается использовать любые материалы и google, однако задачи предполагают полное погружение в контекст.
Конечно, под каждую тему помимо Jupyter ноутбуков есть короткие видео, на которых объясняется суть алгоритма (но не очень погружаясь в детали).
По этому предмету я выполнил все задания и все экзамены сдал на 100%, в результате получив оценку A, скорее по той причине, что это была супер-интересная практика на Python.
MGT6203
А вот этот курс оказался для меня очень странный. Авторы напихали туда всего подряд: и финансы, и маркетинг, и управление операциями. Разумеется, по всем направлениям необходимо решать аналтические задачи. В курсе предусмотрены три домашних задания, состоящих из двух частей: практика на R и квиз. Все квизы скучные и предполагают тупо поиск ответов по презентациям-материалам. В курсе два экзамена, опять же состоящих из двух частей: задачи, которые надо решить в ноутбуке на R и квиз. Квизы достаточно сложные и не разрешают использовать ничего кроме cheat-sheet (ниже на фотках мои), а вот практическая часть решается без наблюдения и без ограничения по времени, то есть в целом, ее можно легко решить, когда есть свободное время.
Домашние задания предполагали peer review, то есть надо осмотреть ДЗ твоих однокурсников и поставить им оценку. Я нигде не увидел нотификации по этому поводу, в результате никого не оценил, за это мне срезали баллы (около 30%), в результате финальная оценка за этот предмет B. Но если бы можно было его не выбирать, я бы точно от него отказался, в некотором смысле потраченное впустую время.
#gatech #omsa #учеба
cse6040.gatech.edu
CSE 6040 @ GT, Fall 2018
This course is an introduction to programming for data analysis.
Postgres.app — приложение для легкой установки PostgreSQL на Mac
Postgres.app
Postgres.app – the easiest way to get started with PostgreSQL on the Mac
Postgres.app is a full featured PostgreSQL installation packaged as a standard Mac app.
Буквально неделю назад закончил обучение Clickhouse от Altinity (101 Series Training). Мне очень понравилось погружение в Clickhouse со стороны команды, которая по праву считается экспертами в CH, искренне рекомендую это обучение всем, кто заинтересован в расширении знаний о Clickhouse.
Написал заметку о том, что происходит в четырех днях тренинга и делюсь своим конспектом ✍️.
Написал заметку о том, что происходит в четырех днях тренинга и делюсь своим конспектом ✍️.
LEFT JOIN
Тренинг по Clickhouse от Altinity
Буквально на днях закончил обучение Clickhouse от Altinity (101 Series Training). Для тех, кто только знакомится с Clickhouse Altinity предлагает базовый бесплатный тренинг: Data Warehouse Basics. Рекомендую начать с него, если планируете погружаться в обучение.…
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Вводная статья про использование git для SQL - зачем и как. И даётся описание как использовать плагин для dbeaver, который синхронизирует с гит (у нас в даталерн dbeaver основной инструмент, может кто захочет на русском написать туториал и мы в гит добавим?)
Better with Data
How to Version Control Your SQL
A version control tutorial for analysts
И вновь кросс-канальная публикация. Алексей Колоколов в субботу организовывает «Уральский саммит аналитиков», где аналитики готовят различные дашборды.
В рамках мероприятия мне досталась роль наставника и члена жюри по дата-сторителлингу. Коллеги попросили отправить ссылки на опросы, через которые аналитики собирают данные для анализа, однако мне показалось, что перейти по десяти ссылкам и поучаствовать в опросах подписчикам канала будет сложновато, поэтому предлагаю вам пройти рандомный опрос (из предложенного списка) и помочь ребятам собрать данные 🙂
Если вы сами в Екатеринбурге, посетите мероприятие, а если нет — присоединяйтесь онлайн.
В рамках мероприятия мне досталась роль наставника и члена жюри по дата-сторителлингу. Коллеги попросили отправить ссылки на опросы, через которые аналитики собирают данные для анализа, однако мне показалось, что перейти по десяти ссылкам и поучаствовать в опросах подписчикам канала будет сложновато, поэтому предлагаю вам пройти рандомный опрос (из предложенного списка) и помочь ребятам собрать данные 🙂
Если вы сами в Екатеринбурге, посетите мероприятие, а если нет — присоединяйтесь онлайн.
Telegram
Клуб анонимных аналитиков
Канал Алексея Колоколова об аналитике, визуализации данных и дашбордах.
Навигация: https://news.1rj.ru/str/analyst_club/3
Чат клуба: https://news.1rj.ru/str/+1cO-ZjpIJtRkODJi
Заявление на регистрацию в Роскомнадзоре №5207373407
Навигация: https://news.1rj.ru/str/analyst_club/3
Чат клуба: https://news.1rj.ru/str/+1cO-ZjpIJtRkODJi
Заявление на регистрацию в Роскомнадзоре №5207373407
DarTS — python-библиотека для работы с временными рядами и прогнозированием. Еще не успел попробовать, но выглядит интересно.
GitHub
GitHub - unit8co/darts: A python library for user-friendly forecasting and anomaly detection on time series.
A python library for user-friendly forecasting and anomaly detection on time series. - unit8co/darts
Алексей Салынин, уже знакомый нам эксперт, который записывал видео про SAP Analytics Cloud поделился со мной интересной визуализацией: динамика включения BI-инструментов в тот или иной квадрант Gartner. С его позволения публикую эту визуализацию.
Много писал в этом семестре на R и dplyr %>% проникся синтаксисом, хотя раньше он мне казался несколько странноватым.
Начал писать заметку про курс CSE 6040, который завершил в этом семестре.
Одним из классных материалов в нем был интерактивный учебник по линейной алгебре.
Очень живо, красиво и с примерами. Мне кажется, что в современном мире именно так и должны выглядеть учебники.
Одним из классных материалов в нем был интерактивный учебник по линейной алгебре.
Очень живо, красиво и с примерами. Мне кажется, что в современном мире именно так и должны выглядеть учебники.