LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Актуальная вещь в духе недавно выпущенного Github Copilot.
This media is not supported in your browser
VIEW IN TELEGRAM
Искуственный интеллект (модель машинного обучения) переводит просьбы на английском языке в питон-код для обработки и представления данных.

Срочно нужен такой же для перевода с русского на 1С.

https://github.com/deepklarity/jupyter-text2code
Возвращаем рубрику гайдов по BI-инструментам!

Всем известно, что наш любимый инструмент для визуализации данных на Python – plotly. Наши исследования подкрепляют диаграммы, сделанные при помощи этой библиотеки, а в блоге неоднократно выходили материалы об интересных визуализациях, которые можно реализовать вместе с plotly: анимированных Motion Chart, Waterfall Chart, Map Chart на российской карте и другие.

Но диаграммы plotly можно объединять в целые дашборды – для этого компания выпустила специальный инструмент Dash, о котором мы подробно рассказываем в новом видео цикла гайдов по BI-системам.

Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.

Все наши материалы о plotly.

Автор дашборда, член команды Valiotti Analytics — Елизавета Мазурова
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
22%
1
3%
2
3%
3
8%
4
14%
5
3%
6
3%
7
8%
8
24%
9
14%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
26%
1
0%
2
9%
3
6%
4
20%
5
0%
6
9%
7
11%
8
9%
9
11%
10
Если вдруг, кто не был в курсе, то теперь будете: у команды dbt вышел 🎧 подкаст Analytics Engineering (Apple, Google, Spotify).

Пока доступно всего три выпуска:

1. Robert Chang рассказывает про Minerva в AirBnB, очень интересный эпизод.
2. Venkat Venkataramani про реалтайм бд RocksDB, про Facebook и про бд в целом.
3. Brian Amadio из Stitch Fix (сервис персонального стайлинга в US) про эксперименты, A/B тестирование и multi-arm bandits
🎓Летняя сессия в Georgia Tech
Неделю назад завершил летнюю сессию в Georgia Tech, поэтому продолжу рассказ о курсах, которые в этом семестре удалось завершить.
Как я и писал ранее, я отказался от курса MGT8803, который посвящен базовым понятиям экономики (этого у меня уж точно было предостаточно по основному образованию) и в результате осталось два обязательных курса: CSE6040 и MGT6203. Я решил, что смогу взять их оба единовременно на этот семестр, именно так и поступил.

Детально с точки зрения контента про каждый курс расскажу чуть позже, а в этом посте больше про объемы информации и про процесс.

CSE6040
Курс CSE6040 (вот, кстати, его вебсайт) сугубо технический, сделан очень интересно, поскольку позволяет посмотреть на массу прикладных аналитических проблем.
Курс построен по принципу: тема для изучения = выполняемый Jupyter NB (с задачами для решения). Я ожидал увидеть довольно стандартные методы решения задач типа линейной регрессии или SVD-разложения, а в курсе подход реализован через математику (линейную алгебру). То есть фактически, приходится детально разбираться в алгоритме и математическом аппарате вместо использования готовых стандартных библиотек, это было очень интересно. Думаю, что чуть позже про ряд ключевых ноутбуков и решаемых задач еще поделюсь.

Помимо 15 домашних задач в курсе три экзамена: Midterm 1, Midterm 2, Final Exam. Каждый экзамен это порядка 10-15 задач, которые ты должен решить на время (от 3 до 6 часов) под наблюдением HonorLock. При этом разрешается использовать любые материалы и google, однако задачи предполагают полное погружение в контекст.
Конечно, под каждую тему помимо Jupyter ноутбуков есть короткие видео, на которых объясняется суть алгоритма (но не очень погружаясь в детали).
По этому предмету я выполнил все задания и все экзамены сдал на 100%, в результате получив оценку A, скорее по той причине, что это была супер-интересная практика на Python.

MGT6203
А вот этот курс оказался для меня очень странный. Авторы напихали туда всего подряд: и финансы, и маркетинг, и управление операциями. Разумеется, по всем направлениям необходимо решать аналтические задачи. В курсе предусмотрены три домашних задания, состоящих из двух частей: практика на R и квиз. Все квизы скучные и предполагают тупо поиск ответов по презентациям-материалам. В курсе два экзамена, опять же состоящих из двух частей: задачи, которые надо решить в ноутбуке на R и квиз. Квизы достаточно сложные и не разрешают использовать ничего кроме cheat-sheet (ниже на фотках мои), а вот практическая часть решается без наблюдения и без ограничения по времени, то есть в целом, ее можно легко решить, когда есть свободное время.
Домашние задания предполагали peer review, то есть надо осмотреть ДЗ твоих однокурсников и поставить им оценку. Я нигде не увидел нотификации по этому поводу, в результате никого не оценил, за это мне срезали баллы (около 30%), в результате финальная оценка за этот предмет B. Но если бы можно было его не выбирать, я бы точно от него отказался, в некотором смысле потраченное впустую время.

#gatech #omsa #учеба
Буквально неделю назад закончил обучение Clickhouse от Altinity (101 Series Training). Мне очень понравилось погружение в Clickhouse со стороны команды, которая по праву считается экспертами в CH, искренне рекомендую это обучение всем, кто заинтересован в расширении знаний о Clickhouse.

Написал заметку о том, что происходит в четырех днях тренинга и делюсь своим конспектом ✍️.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Вводная статья про использование git для SQL - зачем и как. И даётся описание как использовать плагин для dbeaver, который синхронизирует с гит (у нас в даталерн dbeaver основной инструмент, может кто захочет на русском написать туториал и мы в гит добавим?)
И вновь кросс-канальная публикация. Алексей Колоколов в субботу организовывает «Уральский саммит аналитиков», где аналитики готовят различные дашборды.

В рамках мероприятия мне досталась роль наставника и члена жюри по дата-сторителлингу. Коллеги попросили отправить ссылки на опросы, через которые аналитики собирают данные для анализа, однако мне показалось, что перейти по десяти ссылкам и поучаствовать в опросах подписчикам канала будет сложновато, поэтому предлагаю вам пройти рандомный опрос (из предложенного списка) и помочь ребятам собрать данные 🙂

Если вы сами в Екатеринбурге, посетите мероприятие, а если нет — присоединяйтесь онлайн.
DarTS — python-библиотека для работы с временными рядами и прогнозированием. Еще не успел попробовать, но выглядит интересно.
Алексей Салынин, уже знакомый нам эксперт, который записывал видео про SAP Analytics Cloud поделился со мной интересной визуализацией: динамика включения BI-инструментов в тот или иной квадрант Gartner. С его позволения публикую эту визуализацию.
Много писал в этом семестре на R и dplyr %>% проникся синтаксисом, хотя раньше он мне казался несколько странноватым.
Начал писать заметку про курс CSE 6040, который завершил в этом семестре.
Одним из классных материалов в нем был интерактивный учебник по линейной алгебре.
Очень живо, красиво и с примерами. Мне кажется, что в современном мире именно так и должны выглядеть учебники.