Подборки каналов
Никак не доберусь до составления собственного списка, поэтому по просьбе ребят из @it_resume делюсь подборкой авторских телеграмм-каналов для аналитиков. В подборке 20 каналов: про анализ данных, программирование, data engineering, data science и так далее. На большинство каналов подписан лично, поэтому согласен и могу рекомендовать 🙂
Детали в посте на хабре.
Никак не доберусь до составления собственного списка, поэтому по просьбе ребят из @it_resume делюсь подборкой авторских телеграмм-каналов для аналитиков. В подборке 20 каналов: про анализ данных, программирование, data engineering, data science и так далее. На большинство каналов подписан лично, поэтому согласен и могу рекомендовать 🙂
Детали в посте на хабре.
Хабр
Большая подборка телеграмм-каналов для аналитиков
Работа аналитика требует постоянного пополнения своих знаний - новые инструменты, обновления и методы создаются, как горячие пирожочки. Но перерабатывать такие объемы информации просто нереально, а...
Forwarded from Reveal the Data
Записал новый выпуск «Лайфхаков в Табло». Этот выпуск пока самый долгий из всех благодаря последнему пункту, который скорее относится к костылям и находится на грани добра и зла. Если что, я вас плохому не учил. 😈
0:00 — Пагинация в таблице
4:45 — Сравнение метрики по разрезам
11:23 — Кастомная подсветка строк в таблице
Ещё я веду реестр лайфхаков, чтобы не терялись и было проще искать. Пока только свои, но хотелось бы сделать отдельно и сборную библиотеку из интернета. Если кто-то хочет помочь поискать лайфхаки на просторах и сделать для них короткие описания с таймингами — приходите. Сами научитесь, поможете другим и будет что положить в портфолио.
#лайфхаки
0:00 — Пагинация в таблице
4:45 — Сравнение метрики по разрезам
11:23 — Кастомная подсветка строк в таблице
Ещё я веду реестр лайфхаков, чтобы не терялись и было проще искать. Пока только свои, но хотелось бы сделать отдельно и сборную библиотеку из интернета. Если кто-то хочет помочь поискать лайфхаки на просторах и сделать для них короткие описания с таймингами — приходите. Сами научитесь, поможете другим и будет что положить в портфолио.
#лайфхаки
YouTube
Лайфхаки Tableau: Пагинация, Сравнение метрики по разрезам, Подсветка строк в таблице
0:00 — Пагинация в таблице
4:45 — Сравнение метрики по разрезам
11:23 — Подсветка строк в таблице
4:45 — Сравнение метрики по разрезам
11:23 — Подсветка строк в таблице
Из актуального: обученная нейронная сеть для генерации несуществующих пляжей на базе StyleGAN2. Ну, и домен хороший 🏖
Thisbeachdoesnotexist
This Beach Does Not Exist
AI-based synthetic beach generator
Из учебного: в этом семестре взял курс CSE 6040, который про алгоритмы анализа данных на Python, курс очень круто подготовлен, обязательно поделюсь более детально.
Иногда просто потрясают датасеты и кейсы внутри. Вот, например, один из них для построения линейной регрессии:
In 1968, Wagner Agahajanian, and Bing conducted a study to determine whether you could improve a student's math test scores using lysergic acid diethylamide, also known as "LSD." (raw data, data file denoscription)
Иногда просто потрясают датасеты и кейсы внутри. Вот, например, один из них для построения линейной регрессии:
In 1968, Wagner Agahajanian, and Bing conducted a study to determine whether you could improve a student's math test scores using lysergic acid diethylamide, also known as "LSD." (raw data, data file denoscription)
👍1
Актуальная вещь в духе недавно выпущенного Github Copilot.
GitHub
GitHub Copilot
AI that builds with you
Forwarded from запуск завтра
This media is not supported in your browser
VIEW IN TELEGRAM
Искуственный интеллект™ (модель машинного обучения) переводит просьбы на английском языке в питон-код для обработки и представления данных.
Срочно нужен такой же для перевода с русского на 1С.
https://github.com/deepklarity/jupyter-text2code
Срочно нужен такой же для перевода с русского на 1С.
https://github.com/deepklarity/jupyter-text2code
Возвращаем рубрику гайдов по BI-инструментам!
Всем известно, что наш любимый инструмент для визуализации данных на Python – plotly. Наши исследования подкрепляют диаграммы, сделанные при помощи этой библиотеки, а в блоге неоднократно выходили материалы об интересных визуализациях, которые можно реализовать вместе с plotly: анимированных Motion Chart, Waterfall Chart, Map Chart на российской карте и другие.
Но диаграммы plotly можно объединять в целые дашборды – для этого компания выпустила специальный инструмент Dash, о котором мы подробно рассказываем в новом видео цикла гайдов по BI-системам.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
Все наши материалы о plotly.
Автор дашборда, член команды Valiotti Analytics — Елизавета Мазурова
Всем известно, что наш любимый инструмент для визуализации данных на Python – plotly. Наши исследования подкрепляют диаграммы, сделанные при помощи этой библиотеки, а в блоге неоднократно выходили материалы об интересных визуализациях, которые можно реализовать вместе с plotly: анимированных Motion Chart, Waterfall Chart, Map Chart на российской карте и другие.
Но диаграммы plotly можно объединять в целые дашборды – для этого компания выпустила специальный инструмент Dash, о котором мы подробно рассказываем в новом видео цикла гайдов по BI-системам.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
Все наши материалы о plotly.
Автор дашборда, член команды Valiotti Analytics — Елизавета Мазурова
LEFT JOIN
Обзор дашборда в Dash
Посмотрите и другие наши материалы про plotly Сегодня публикуем не совсем классический выпуск обзора BI-инструментов – потому что речь пойдёт о Dash, фреймворке для Python от plotly. Dash – гибкий инструмент, который предоставляет набор компонентов для работы…
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
22%
1
3%
2
3%
3
8%
4
14%
5
3%
6
3%
7
8%
8
24%
9
14%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
26%
1
0%
2
9%
3
6%
4
20%
5
0%
6
9%
7
11%
8
9%
9
11%
10
Если вдруг, кто не был в курсе, то теперь будете: у команды dbt вышел 🎧 подкаст Analytics Engineering (Apple, Google, Spotify).
Пока доступно всего три выпуска:
1. Robert Chang рассказывает про Minerva в AirBnB, очень интересный эпизод.
2. Venkat Venkataramani про реалтайм бд RocksDB, про Facebook и про бд в целом.
3. Brian Amadio из Stitch Fix (сервис персонального стайлинга в US) про эксперименты, A/B тестирование и multi-arm bandits
Пока доступно всего три выпуска:
1. Robert Chang рассказывает про Minerva в AirBnB, очень интересный эпизод.
2. Venkat Venkataramani про реалтайм бд RocksDB, про Facebook и про бд в целом.
3. Brian Amadio из Stitch Fix (сервис персонального стайлинга в US) про эксперименты, A/B тестирование и multi-arm bandits
Apple Podcasts
The Analytics Engineering Podcast
Tech News Podcast · Updated Biweekly · Tristan Handy has been curating the Analytics Engineering Roundup newsletter since 2015, pulling together the internet’s best data science & analytics articles.
Tristan and co-host Julia Schottenstei…
Tristan and co-host Julia Schottenstei…
Forwarded from DataEng
Стали доступны доклады с Airflow Summit 2021 🔥. Из наиболее интересных тем:
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
YouTube
The new modern data stack Airbyte Airflow DBT
Presented by Michel Tricot at Airflow Summit 2021.
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
Кстати, для тех, кто здесь впервые: инициатива называется Гайд по BI. В рамках нее мы уже построили и рассказали про дашборды в инструментах:
— Redash
— Excel
— Looker
— Yandex DataLens
— Tableau
— QlikSense
— PowerBI
— SAP Analytics Cloud
— Google DataStudio
— Redash
— Excel
— Looker
— Yandex DataLens
— Tableau
— QlikSense
— PowerBI
— SAP Analytics Cloud
— Google DataStudio
LEFT JOIN
Гайд по современным BI-системам
В новой серии постов постараемся подробно изучить различные BI-системы на популярной группе датасетов SuperStore Sales. В основе данных — продажи и прибыль сетевого ритейлера в долларах. В следующем посте обсудим постановку реальной задачи, которая могла бы…
🎓Летняя сессия в Georgia Tech
Неделю назад завершил летнюю сессию в Georgia Tech, поэтому продолжу рассказ о курсах, которые в этом семестре удалось завершить.
Как я и писал ранее, я отказался от курса MGT8803, который посвящен базовым понятиям экономики (этого у меня уж точно было предостаточно по основному образованию) и в результате осталось два обязательных курса: CSE6040 и MGT6203. Я решил, что смогу взять их оба единовременно на этот семестр, именно так и поступил.
Детально с точки зрения контента про каждый курс расскажу чуть позже, а в этом посте больше про объемы информации и про процесс.
CSE6040
Курс CSE6040 (вот, кстати, его вебсайт) сугубо технический, сделан очень интересно, поскольку позволяет посмотреть на массу прикладных аналитических проблем.
Курс построен по принципу: тема для изучения = выполняемый Jupyter NB (с задачами для решения). Я ожидал увидеть довольно стандартные методы решения задач типа линейной регрессии или SVD-разложения, а в курсе подход реализован через математику (линейную алгебру). То есть фактически, приходится детально разбираться в алгоритме и математическом аппарате вместо использования готовых стандартных библиотек, это было очень интересно. Думаю, что чуть позже про ряд ключевых ноутбуков и решаемых задач еще поделюсь.
Помимо 15 домашних задач в курсе три экзамена: Midterm 1, Midterm 2, Final Exam. Каждый экзамен это порядка 10-15 задач, которые ты должен решить на время (от 3 до 6 часов) под наблюдением HonorLock. При этом разрешается использовать любые материалы и google, однако задачи предполагают полное погружение в контекст.
Конечно, под каждую тему помимо Jupyter ноутбуков есть короткие видео, на которых объясняется суть алгоритма (но не очень погружаясь в детали).
По этому предмету я выполнил все задания и все экзамены сдал на 100%, в результате получив оценку A, скорее по той причине, что это была супер-интересная практика на Python.
MGT6203
А вот этот курс оказался для меня очень странный. Авторы напихали туда всего подряд: и финансы, и маркетинг, и управление операциями. Разумеется, по всем направлениям необходимо решать аналтические задачи. В курсе предусмотрены три домашних задания, состоящих из двух частей: практика на R и квиз. Все квизы скучные и предполагают тупо поиск ответов по презентациям-материалам. В курсе два экзамена, опять же состоящих из двух частей: задачи, которые надо решить в ноутбуке на R и квиз. Квизы достаточно сложные и не разрешают использовать ничего кроме cheat-sheet (ниже на фотках мои), а вот практическая часть решается без наблюдения и без ограничения по времени, то есть в целом, ее можно легко решить, когда есть свободное время.
Домашние задания предполагали peer review, то есть надо осмотреть ДЗ твоих однокурсников и поставить им оценку. Я нигде не увидел нотификации по этому поводу, в результате никого не оценил, за это мне срезали баллы (около 30%), в результате финальная оценка за этот предмет B. Но если бы можно было его не выбирать, я бы точно от него отказался, в некотором смысле потраченное впустую время.
#gatech #omsa #учеба
Неделю назад завершил летнюю сессию в Georgia Tech, поэтому продолжу рассказ о курсах, которые в этом семестре удалось завершить.
Как я и писал ранее, я отказался от курса MGT8803, который посвящен базовым понятиям экономики (этого у меня уж точно было предостаточно по основному образованию) и в результате осталось два обязательных курса: CSE6040 и MGT6203. Я решил, что смогу взять их оба единовременно на этот семестр, именно так и поступил.
Детально с точки зрения контента про каждый курс расскажу чуть позже, а в этом посте больше про объемы информации и про процесс.
CSE6040
Курс CSE6040 (вот, кстати, его вебсайт) сугубо технический, сделан очень интересно, поскольку позволяет посмотреть на массу прикладных аналитических проблем.
Курс построен по принципу: тема для изучения = выполняемый Jupyter NB (с задачами для решения). Я ожидал увидеть довольно стандартные методы решения задач типа линейной регрессии или SVD-разложения, а в курсе подход реализован через математику (линейную алгебру). То есть фактически, приходится детально разбираться в алгоритме и математическом аппарате вместо использования готовых стандартных библиотек, это было очень интересно. Думаю, что чуть позже про ряд ключевых ноутбуков и решаемых задач еще поделюсь.
Помимо 15 домашних задач в курсе три экзамена: Midterm 1, Midterm 2, Final Exam. Каждый экзамен это порядка 10-15 задач, которые ты должен решить на время (от 3 до 6 часов) под наблюдением HonorLock. При этом разрешается использовать любые материалы и google, однако задачи предполагают полное погружение в контекст.
Конечно, под каждую тему помимо Jupyter ноутбуков есть короткие видео, на которых объясняется суть алгоритма (но не очень погружаясь в детали).
По этому предмету я выполнил все задания и все экзамены сдал на 100%, в результате получив оценку A, скорее по той причине, что это была супер-интересная практика на Python.
MGT6203
А вот этот курс оказался для меня очень странный. Авторы напихали туда всего подряд: и финансы, и маркетинг, и управление операциями. Разумеется, по всем направлениям необходимо решать аналтические задачи. В курсе предусмотрены три домашних задания, состоящих из двух частей: практика на R и квиз. Все квизы скучные и предполагают тупо поиск ответов по презентациям-материалам. В курсе два экзамена, опять же состоящих из двух частей: задачи, которые надо решить в ноутбуке на R и квиз. Квизы достаточно сложные и не разрешают использовать ничего кроме cheat-sheet (ниже на фотках мои), а вот практическая часть решается без наблюдения и без ограничения по времени, то есть в целом, ее можно легко решить, когда есть свободное время.
Домашние задания предполагали peer review, то есть надо осмотреть ДЗ твоих однокурсников и поставить им оценку. Я нигде не увидел нотификации по этому поводу, в результате никого не оценил, за это мне срезали баллы (около 30%), в результате финальная оценка за этот предмет B. Но если бы можно было его не выбирать, я бы точно от него отказался, в некотором смысле потраченное впустую время.
#gatech #omsa #учеба
cse6040.gatech.edu
CSE 6040 @ GT, Fall 2018
This course is an introduction to programming for data analysis.
Postgres.app — приложение для легкой установки PostgreSQL на Mac
Postgres.app
Postgres.app – the easiest way to get started with PostgreSQL on the Mac
Postgres.app is a full featured PostgreSQL installation packaged as a standard Mac app.
Буквально неделю назад закончил обучение Clickhouse от Altinity (101 Series Training). Мне очень понравилось погружение в Clickhouse со стороны команды, которая по праву считается экспертами в CH, искренне рекомендую это обучение всем, кто заинтересован в расширении знаний о Clickhouse.
Написал заметку о том, что происходит в четырех днях тренинга и делюсь своим конспектом ✍️.
Написал заметку о том, что происходит в четырех днях тренинга и делюсь своим конспектом ✍️.
LEFT JOIN
Тренинг по Clickhouse от Altinity
Буквально на днях закончил обучение Clickhouse от Altinity (101 Series Training). Для тех, кто только знакомится с Clickhouse Altinity предлагает базовый бесплатный тренинг: Data Warehouse Basics. Рекомендую начать с него, если планируете погружаться в обучение.…
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Вводная статья про использование git для SQL - зачем и как. И даётся описание как использовать плагин для dbeaver, который синхронизирует с гит (у нас в даталерн dbeaver основной инструмент, может кто захочет на русском написать туториал и мы в гит добавим?)
Better with Data
How to Version Control Your SQL
A version control tutorial for analysts
И вновь кросс-канальная публикация. Алексей Колоколов в субботу организовывает «Уральский саммит аналитиков», где аналитики готовят различные дашборды.
В рамках мероприятия мне досталась роль наставника и члена жюри по дата-сторителлингу. Коллеги попросили отправить ссылки на опросы, через которые аналитики собирают данные для анализа, однако мне показалось, что перейти по десяти ссылкам и поучаствовать в опросах подписчикам канала будет сложновато, поэтому предлагаю вам пройти рандомный опрос (из предложенного списка) и помочь ребятам собрать данные 🙂
Если вы сами в Екатеринбурге, посетите мероприятие, а если нет — присоединяйтесь онлайн.
В рамках мероприятия мне досталась роль наставника и члена жюри по дата-сторителлингу. Коллеги попросили отправить ссылки на опросы, через которые аналитики собирают данные для анализа, однако мне показалось, что перейти по десяти ссылкам и поучаствовать в опросах подписчикам канала будет сложновато, поэтому предлагаю вам пройти рандомный опрос (из предложенного списка) и помочь ребятам собрать данные 🙂
Если вы сами в Екатеринбурге, посетите мероприятие, а если нет — присоединяйтесь онлайн.
Telegram
Клуб анонимных аналитиков
Канал Алексея Колоколова об аналитике, визуализации данных и дашбордах.
Навигация: https://news.1rj.ru/str/analyst_club/3
Чат клуба: https://news.1rj.ru/str/+1cO-ZjpIJtRkODJi
Заявление на регистрацию в Роскомнадзоре №5207373407
Навигация: https://news.1rj.ru/str/analyst_club/3
Чат клуба: https://news.1rj.ru/str/+1cO-ZjpIJtRkODJi
Заявление на регистрацию в Роскомнадзоре №5207373407