LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Буквально пару дней назад завершили работу над сайтом консалтинговой аналитической компании имени меня.
Мы занимаемся построением аналитических хранилищ данных и настраиваем аналитику в основном для мобильных и digital-стартапов.
Приглашаю вас на наш новый сайт по адресу: https://valiotti.com.
На сайте вы сможете узнать чем мы занимаемся, изучить наши кейсы и убедиться, что мы супер! 😜
Недавно мне на глаза попалась статья про то, что дашборды мертвы. Интересная точка зрения, однако под соусом их смерти продается работа с notebooks в целом и на одном конкретном сервисе в частности.

Подготовили перевод этой статьи на русский язык:
http://leftjoin.ru/all/dashbords-are-dead/
Полезно ознакомиться по нескольким причинам:
1) отличная возможность познакомиться с kaggle тем, кто не знаком
2) повторить pandas никогда не бывает лишним 🙂
3) у Алексея отличные заметки по Python, рекомендую его канал к изучению
Forwarded from Datalytics
Нашёл на Kaggle микрокурс по изучению Pandas, оформленный в виде ноутбуков. Включает в себя разбор всех базовых функций, так что для ознакомления с возможностями библиотеки отлично подходит

https://www.kaggle.com/learn/pandas
Сентябрь наступил, и начинается активная пора всевозможных ивентов. Большая часть в этом году, как все уже понимают, будет в удаленном формате. На этой неделе опубликован список первой части докладов Матемаркетинга-2020, на котором в этом году приму участие.

Из зарубежных конференций рекомендую обратить внимание на https://www.futuredata.org/, которая состоится уже через 4 дня.

Чуть позже будут и другие анонсы.

#events
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
опубликовали половину программы Матемаркетинга

https://www.facebook.com/nikushin.av/posts/3476071119124454
Интервью совершенно точно полезно начинающим и не только аналитикам. Алексей делится здравым смыслом, а Анатолий задает правильные вопросы. Самое то для просмотра в конце рабочей недели 🙂
Сегодня в канале много разного контента, не обошлось и без статьи. Интересная библиотека pandas-profiling, которая за вас попробует автоматически построить EDA (exploratory data analysis).
Подробности в материале блога.

Результаты библиотеки на датасете Superstore отдельной .html-страницей.
LEFT JOIN
Давайте посмотрим на наш рыночный срез: а как вы сейчас отдаёте результаты аналитики бизнесу?
В результате: дашборды у нас еще не могут быть мертвы, так как не успели родиться 😂

47% всё ещё отдают результаты аналитической работы в книжках Excel / Google Sheets или презентациях.
Altinity выпустили обзор сравнения перфоманса Clickhouse и Redshift, несколько ключевых выводов:
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.
Диалог @a_nikushin и @data_karpov о доступном образовании для аналитиков на Youtube вдохновил меня рассказать одну свою историю и поделиться ссылками.

Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).

Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.

Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.

Материалы к видео:
Часть 1. Занятия и материалы
Часть 2. Занятия и материалы
В новом материале обозреваем лучшие практики по созданию таблиц: разбираемся, как правильно выравнивать столбцы, выделять ячейки, оформлять строки и какой функционал пойдёт данным на пользу.

https://leftjoin.ru/all/guide-to-designing-tables/
Как-то раз с Ромой Буниным мы придумали совместный проект: построить красивый и функциональный дашборд с анализом рынка вакансий аналитиков по данным HeadHunter и максимально автоматизировать эту работу. Мы собрали уже более 12 тысяч вакансий, а Рома построил по ним дашборд Tableau, опубликовал в Tableau Public и записал видеоролик на Youtube о том, как использовать дашборд. Сегодня выпускаем материал о том, как мы собирали данные и какие инсайты можно извлечь из нашего проекта: https://leftjoin.ru/all/hh-dashboard-bi-and-analysts-market/

@leftjoin
Channel photo updated
С 8 по 9 сентября прошла онлайн-конференция FutureData. На днях организаторы опубликовали записи докладов, и я собрал в пост всё, что меня заинтересовало. Среди авторов в подборке: сооснователь Tableau, создатель dbt, главный технолог DataBricks, CDO из Alteryx, а также Co-Founder Imply. Спикеры обсуждают, что сегодня происходит с аналитикой, данными и чего ждать от индустрии в будущем.

https://leftjoin.ru/all/futuredata-conf/
В Datalytics и data fm уже появлялись подборки Telegram-каналов о машинном обучении и аналитике, но по Instagram такого топа ещё никто не делал. Сегодня изучим библиотеку PyInstagram для сбора данных из этой социальной сети и соберём подборку десяти популярнейших Instagram-аккаунтов нашей индустрии.

https://leftjoin.ru/all/python-instagram/