LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Шикарная погода в Санкт-Петербурге ☀️, летняя сессия в Georgia Tech 👨‍🎓и активные трудовые будни 🧑‍🏭 не позволяли публиковать материалы в последнее время, но исправляю эту оплошность.

Спешу познакомить вас с нашим новым трудом, опубликованным в Tableau Public: дашборд с анализом семи альбомов Земфиры. Это продолжение нашего предыдущего материала про анализ текстов альбома "бордерлайн", но без технических деталей, а с интерактивноcтью Tableau.
Классный ресурс от Victor Powell, в котором визуально и понятно объяснены такие темы как PCA, цепи Маркова, OLS Regression, собственные числа и вектора, условные вероятности.

#viz
Подборки каналов
Никак не доберусь до составления собственного списка, поэтому по просьбе ребят из @it_resume делюсь подборкой авторских телеграмм-каналов для аналитиков. В подборке 20 каналов: про анализ данных, программирование, data engineering, data science и так далее. На большинство каналов подписан лично, поэтому согласен и могу рекомендовать 🙂
Детали в посте на хабре.
Рома записал отличный полезный выпуск лайфхаков в Табло
Forwarded from Reveal the Data
Записал новый выпуск «Лайфхаков в Табло». Этот выпуск пока самый долгий из всех благодаря последнему пункту, который скорее относится к костылям и находится на грани добра и зла. Если что, я вас плохому не учил. 😈

0:00 — Пагинация в таблице
4:45 — Сравнение метрики по разрезам
11:23 — Кастомная подсветка строк в таблице

Ещё я веду реестр лайфхаков, чтобы не терялись и было проще искать. Пока только свои, но хотелось бы сделать отдельно и сборную библиотеку из интернета. Если кто-то хочет помочь поискать лайфхаки на просторах и сделать для них короткие описания с таймингами — приходите. Сами научитесь, поможете другим и будет что положить в портфолио.
#лайфхаки
Из учебного: в этом семестре взял курс CSE 6040, который про алгоритмы анализа данных на Python, курс очень круто подготовлен, обязательно поделюсь более детально.
Иногда просто потрясают датасеты и кейсы внутри. Вот, например, один из них для построения линейной регрессии:
In 1968, Wagner Agahajanian, and Bing conducted a study to determine whether you could improve a student's math test scores using lysergic acid diethylamide, also known as "LSD." (raw data, data file denoscription)
👍1
Актуальная вещь в духе недавно выпущенного Github Copilot.
This media is not supported in your browser
VIEW IN TELEGRAM
Искуственный интеллект (модель машинного обучения) переводит просьбы на английском языке в питон-код для обработки и представления данных.

Срочно нужен такой же для перевода с русского на 1С.

https://github.com/deepklarity/jupyter-text2code
Возвращаем рубрику гайдов по BI-инструментам!

Всем известно, что наш любимый инструмент для визуализации данных на Python – plotly. Наши исследования подкрепляют диаграммы, сделанные при помощи этой библиотеки, а в блоге неоднократно выходили материалы об интересных визуализациях, которые можно реализовать вместе с plotly: анимированных Motion Chart, Waterfall Chart, Map Chart на российской карте и другие.

Но диаграммы plotly можно объединять в целые дашборды – для этого компания выпустила специальный инструмент Dash, о котором мы подробно рассказываем в новом видео цикла гайдов по BI-системам.

Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.

Все наши материалы о plotly.

Автор дашборда, член команды Valiotti Analytics — Елизавета Мазурова
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
22%
1
3%
2
3%
3
8%
4
14%
5
3%
6
3%
7
8%
8
24%
9
14%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
26%
1
0%
2
9%
3
6%
4
20%
5
0%
6
9%
7
11%
8
9%
9
11%
10
Если вдруг, кто не был в курсе, то теперь будете: у команды dbt вышел 🎧 подкаст Analytics Engineering (Apple, Google, Spotify).

Пока доступно всего три выпуска:

1. Robert Chang рассказывает про Minerva в AirBnB, очень интересный эпизод.
2. Venkat Venkataramani про реалтайм бд RocksDB, про Facebook и про бд в целом.
3. Brian Amadio из Stitch Fix (сервис персонального стайлинга в US) про эксперименты, A/B тестирование и multi-arm bandits
🎓Летняя сессия в Georgia Tech
Неделю назад завершил летнюю сессию в Georgia Tech, поэтому продолжу рассказ о курсах, которые в этом семестре удалось завершить.
Как я и писал ранее, я отказался от курса MGT8803, который посвящен базовым понятиям экономики (этого у меня уж точно было предостаточно по основному образованию) и в результате осталось два обязательных курса: CSE6040 и MGT6203. Я решил, что смогу взять их оба единовременно на этот семестр, именно так и поступил.

Детально с точки зрения контента про каждый курс расскажу чуть позже, а в этом посте больше про объемы информации и про процесс.

CSE6040
Курс CSE6040 (вот, кстати, его вебсайт) сугубо технический, сделан очень интересно, поскольку позволяет посмотреть на массу прикладных аналитических проблем.
Курс построен по принципу: тема для изучения = выполняемый Jupyter NB (с задачами для решения). Я ожидал увидеть довольно стандартные методы решения задач типа линейной регрессии или SVD-разложения, а в курсе подход реализован через математику (линейную алгебру). То есть фактически, приходится детально разбираться в алгоритме и математическом аппарате вместо использования готовых стандартных библиотек, это было очень интересно. Думаю, что чуть позже про ряд ключевых ноутбуков и решаемых задач еще поделюсь.

Помимо 15 домашних задач в курсе три экзамена: Midterm 1, Midterm 2, Final Exam. Каждый экзамен это порядка 10-15 задач, которые ты должен решить на время (от 3 до 6 часов) под наблюдением HonorLock. При этом разрешается использовать любые материалы и google, однако задачи предполагают полное погружение в контекст.
Конечно, под каждую тему помимо Jupyter ноутбуков есть короткие видео, на которых объясняется суть алгоритма (но не очень погружаясь в детали).
По этому предмету я выполнил все задания и все экзамены сдал на 100%, в результате получив оценку A, скорее по той причине, что это была супер-интересная практика на Python.

MGT6203
А вот этот курс оказался для меня очень странный. Авторы напихали туда всего подряд: и финансы, и маркетинг, и управление операциями. Разумеется, по всем направлениям необходимо решать аналтические задачи. В курсе предусмотрены три домашних задания, состоящих из двух частей: практика на R и квиз. Все квизы скучные и предполагают тупо поиск ответов по презентациям-материалам. В курсе два экзамена, опять же состоящих из двух частей: задачи, которые надо решить в ноутбуке на R и квиз. Квизы достаточно сложные и не разрешают использовать ничего кроме cheat-sheet (ниже на фотках мои), а вот практическая часть решается без наблюдения и без ограничения по времени, то есть в целом, ее можно легко решить, когда есть свободное время.
Домашние задания предполагали peer review, то есть надо осмотреть ДЗ твоих однокурсников и поставить им оценку. Я нигде не увидел нотификации по этому поводу, в результате никого не оценил, за это мне срезали баллы (около 30%), в результате финальная оценка за этот предмет B. Но если бы можно было его не выбирать, я бы точно от него отказался, в некотором смысле потраченное впустую время.

#gatech #omsa #учеба