LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Интервью совершенно точно полезно начинающим и не только аналитикам. Алексей делится здравым смыслом, а Анатолий задает правильные вопросы. Самое то для просмотра в конце рабочей недели 🙂
Сегодня в канале много разного контента, не обошлось и без статьи. Интересная библиотека pandas-profiling, которая за вас попробует автоматически построить EDA (exploratory data analysis).
Подробности в материале блога.

Результаты библиотеки на датасете Superstore отдельной .html-страницей.
LEFT JOIN
Давайте посмотрим на наш рыночный срез: а как вы сейчас отдаёте результаты аналитики бизнесу?
В результате: дашборды у нас еще не могут быть мертвы, так как не успели родиться 😂

47% всё ещё отдают результаты аналитической работы в книжках Excel / Google Sheets или презентациях.
Altinity выпустили обзор сравнения перфоманса Clickhouse и Redshift, несколько ключевых выводов:
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.
Диалог @a_nikushin и @data_karpov о доступном образовании для аналитиков на Youtube вдохновил меня рассказать одну свою историю и поделиться ссылками.

Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).

Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.

Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.

Материалы к видео:
Часть 1. Занятия и материалы
Часть 2. Занятия и материалы
В новом материале обозреваем лучшие практики по созданию таблиц: разбираемся, как правильно выравнивать столбцы, выделять ячейки, оформлять строки и какой функционал пойдёт данным на пользу.

https://leftjoin.ru/all/guide-to-designing-tables/
Как-то раз с Ромой Буниным мы придумали совместный проект: построить красивый и функциональный дашборд с анализом рынка вакансий аналитиков по данным HeadHunter и максимально автоматизировать эту работу. Мы собрали уже более 12 тысяч вакансий, а Рома построил по ним дашборд Tableau, опубликовал в Tableau Public и записал видеоролик на Youtube о том, как использовать дашборд. Сегодня выпускаем материал о том, как мы собирали данные и какие инсайты можно извлечь из нашего проекта: https://leftjoin.ru/all/hh-dashboard-bi-and-analysts-market/

@leftjoin
Channel photo updated
С 8 по 9 сентября прошла онлайн-конференция FutureData. На днях организаторы опубликовали записи докладов, и я собрал в пост всё, что меня заинтересовало. Среди авторов в подборке: сооснователь Tableau, создатель dbt, главный технолог DataBricks, CDO из Alteryx, а также Co-Founder Imply. Спикеры обсуждают, что сегодня происходит с аналитикой, данными и чего ждать от индустрии в будущем.

https://leftjoin.ru/all/futuredata-conf/
В Datalytics и data fm уже появлялись подборки Telegram-каналов о машинном обучении и аналитике, но по Instagram такого топа ещё никто не делал. Сегодня изучим библиотеку PyInstagram для сбора данных из этой социальной сети и соберём подборку десяти популярнейших Instagram-аккаунтов нашей индустрии.

https://leftjoin.ru/all/python-instagram/
Продолжаем строить дашборд по российским пивоварням Untappd: сегодня при помощи Dash Bootstrap Components сделаем таблицу популярнейших пивоварен России, а затем добавим к ней фильтр по городам с Dropdown-меню.

https://leftjoin.ru/all/untappd-bootstrap-dashboard-part-2/
На этой неделе начинаем новый цикл материалов: будем обозревать современные BI-системы на примере популярной группы датасетов SuperStore Sales. В рамках каждого материала при помощи конкретной системы построим дашборд и выставим каждой BI-системе оценку по нескольким внутренним критериям.

Планируемые к обзору системы: Metabase, Redash, Apache Superset, Dash, Google Studio, Yandex Datalens, PowerBI, Tableau, Looker, Excel и другие.

Если вы эксперт по какой-нибудь из перечисленных BI-систем и хотите поучаствовать в проекте, пишите мне в личные сообщения. Авторство будет соблюдено.

Подробности: https://leftjoin.ru/all/modern-bi-systems/
Я делал обзор на DataLens в 2019 году, тогда он мне показался сыроватым. На текущей презентации Yandex Scale интерфейс выглядит поинтереснее, поэтому обязательно изучим новые возможности DataLens в цикле материалов про разнообразные BI-инструменты. И, конечно, рекомендую записаться на марафон от DataYoga.
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Сегодня Рома Колеченков из Yandex DataLens анонсировал 7-дневный самообразовательный марафон. Марафон позволит освоить навыки работы с сервисом визуализации и анализа данных

Для кого это:
• Аналитиков, решивших освоить новый инструмент анализа и визуализации данных
• Дата-журналистов, находящихся в поиске удобного и функционального сервиса визуализации
• Айтишников, стремящихся повысить свою профессиональную ценность
• Студентов, ищущих возможности карьерного роста

Старт - 15 октября

Как проходит:
- Каждый день участники марафона будут получать обучающие материалы, которые подобраны с опорой на практику.
- Ежедневное обсуждение в чате. Изучение материалов займет у вас от 30 минут до 2 часов в день.

Для первых 1500 участников, кто зарегистрируется на Марафон до 14 октября, Яндекс пришлет промокоды на 6 000 рублей для пользования сервисами Yandex Cloud

Регистрация здесь

@internetanalytics
LEFT JOIN попал в список рекомендуемых каналов от Александра Богачева.

У Александра крутейший канал Чартомойка про визуализацию данных, который я уже давненько почитываю. В частности, интересен разбор графиков коронавируса. Саша много пишет про визуализацию и, в частности, в ближайшее время будет опубликована его книга «Графики, которые убеждают всех». Я себе уже заказал, рекомендую и вам поддержать автора 🎖
Forwarded from Чартомойка
Продолжаю делиться ссылками на хорошие каналы по визуализации данных и смежным с ней областям.

Канал Дашбордец. Ведет сотрудница Сибура, в целом посвящен работе в PowerBI, но подойдет всем составителям дэшбордов.

Клуб анонимных аналитиков. Акцент на дэшборды и PowerBI. Регулярно встречаются переводные статьи из англоязычного сегмента интернета на тему визуализации данных и дэшбордов. Плюсом задорные статьи Алексея Колоколова о трудовых буднях руководителя компании, занимающейся бизнес-дэшбордами.

Leftjoin. Больше упор на работу с данными и хардкор-аналитику.

Канал Инжиниринг данных Дмитрия Аношина. Дмитрий работает дата-инженером в Амазон и ведет широкую просветительскую деятельность. На сайте datalearn.ru есть бесплатный курс по введению в Инжиниринг данных и аналитику, плюс Дмитрий ведет отличный ютуб-канал по той же тематике: https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg

И еще о бесплатных движухах по визуализации данных. Сервис DataLens совместно с Datayoga
предлагает всем желающим поучаствовать в марафоне по визуализации данных. Начало 15 октября. Марафон Yandex DataLens – это 7-дневная самообразовательная программа освоения навыков работы с сервисом визуализации и анализа данных от Яндекса. Эксперты Yandex DataLens и DataYoga в деталях рассмотрят функционал сервиса и объяснят все тонкости простым языком. Записаться тут: https://datayoga.ru/datalens