Сегодня в канале много разного контента, не обошлось и без статьи. Интересная библиотека pandas-profiling, которая за вас попробует автоматически построить EDA (exploratory data analysis).
Подробности в материале блога.
Результаты библиотеки на датасете Superstore отдельной .html-страницей.
Подробности в материале блога.
Результаты библиотеки на датасете Superstore отдельной .html-страницей.
leftjoin.ru
Обзор библиотеки pandas-profiling на примере датасета Superstore Sales
LEFT JOIN
Давайте посмотрим на наш рыночный срез: а как вы сейчас отдаёте результаты аналитики бизнесу?
В результате: дашборды у нас еще не могут быть мертвы, так как не успели родиться 😂
47% всё ещё отдают результаты аналитической работы в книжках Excel / Google Sheets или презентациях.
47% всё ещё отдают результаты аналитической работы в книжках Excel / Google Sheets или презентациях.
Altinity выпустили обзор сравнения перфоманса Clickhouse и Redshift, несколько ключевых выводов:
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.
Altinity | Run open source ClickHouse® better
ClickHouse Software And Services | Altinity
Deploy and operate ClickHouse, a lightning fast, open source SQL data warehouse for real-time analytics, time series, and log analysis.
Диалог @a_nikushin и @data_karpov о доступном образовании для аналитиков на Youtube вдохновил меня рассказать одну свою историю и поделиться ссылками.
Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).
Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.
Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.
Материалы к видео:
— Часть 1. Занятия и материалы
— Часть 2. Занятия и материалы
Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).
Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.
Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.
Материалы к видео:
— Часть 1. Занятия и материалы
— Часть 2. Занятия и материалы
YouTube
Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы
https://compscicenter.ru/
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Не так давно Redash привлек инвестиции от Databricks, а следом и похожая тулза PopSQL для коллаборативного SQL: https://techcrunch.com/2020/09/08/popsql-raises-3-4m-seed-round-for-its-collaborative-sql-editor/?tpcc=ECTW2020
TechCrunch
PopSQL raises a $3.4M seed round for its collaborative SQL editor
PopSQL, a startup that builds a collaborative SQL editor for teams, today announced that it has raised a $3.4 million seed round led by Google’s AI-focused Gradient Ventures fund. Other participants include Y Combinator and FundersClub, as well as angel investors…
В новом материале обозреваем лучшие практики по созданию таблиц: разбираемся, как правильно выравнивать столбцы, выделять ячейки, оформлять строки и какой функционал пойдёт данным на пользу.
https://leftjoin.ru/all/guide-to-designing-tables/
https://leftjoin.ru/all/guide-to-designing-tables/
leftjoin.ru
Полное руководство по созданию таблиц
Как-то раз с Ромой Буниным мы придумали совместный проект: построить красивый и функциональный дашборд с анализом рынка вакансий аналитиков по данным HeadHunter и максимально автоматизировать эту работу. Мы собрали уже более 12 тысяч вакансий, а Рома построил по ним дашборд Tableau, опубликовал в Tableau Public и записал видеоролик на Youtube о том, как использовать дашборд. Сегодня выпускаем материал о том, как мы собирали данные и какие инсайты можно извлечь из нашего проекта: https://leftjoin.ru/all/hh-dashboard-bi-and-analysts-market/
@leftjoin
@leftjoin
Telegram
Reveal the Data
Канал Ромы Бунина про визуализацию данных, дашборды и развитие BI-систем.
Подробнее про канал, рубрики, правила и контакты — https://news.1rj.ru/str/revealthedata/386
Сайт и блог — https://revealthedata.com/
Подробнее про канал, рубрики, правила и контакты — https://news.1rj.ru/str/revealthedata/386
Сайт и блог — https://revealthedata.com/
С 8 по 9 сентября прошла онлайн-конференция FutureData. На днях организаторы опубликовали записи докладов, и я собрал в пост всё, что меня заинтересовало. Среди авторов в подборке: сооснователь Tableau, создатель dbt, главный технолог DataBricks, CDO из Alteryx, а также Co-Founder Imply. Спикеры обсуждают, что сегодня происходит с аналитикой, данными и чего ждать от индустрии в будущем.
https://leftjoin.ru/all/futuredata-conf/
https://leftjoin.ru/all/futuredata-conf/
www.futuredata.org
Future Data: Data Conference for Decision Makers and Data Teams
Future Data conference is the premiere event for data forward leaders, modern data technologists, and critical decision enablers defining the future of data.
В Datalytics и data fm уже появлялись подборки Telegram-каналов о машинном обучении и аналитике, но по Instagram такого топа ещё никто не делал. Сегодня изучим библиотеку PyInstagram для сбора данных из этой социальной сети и соберём подборку десяти популярнейших Instagram-аккаунтов нашей индустрии.
https://leftjoin.ru/all/python-instagram/
https://leftjoin.ru/all/python-instagram/
Telegram
Datalytics
Как и обещал, делюсь ссылками на каналы в сфере анализа данных, только начинающие свой путь, а также некоторые каналы, которые существуют уже давно, но по какой-то причине не набрали ещё много подписчиков:
🔷Канал Саши Михайлова, не только про аналитику,…
🔷Канал Саши Михайлова, не только про аналитику,…
Продолжаем строить дашборд по российским пивоварням Untappd: сегодня при помощи Dash Bootstrap Components сделаем таблицу популярнейших пивоварен России, а затем добавим к ней фильтр по городам с Dropdown-меню.
https://leftjoin.ru/all/untappd-bootstrap-dashboard-part-2/
https://leftjoin.ru/all/untappd-bootstrap-dashboard-part-2/
leftjoin.ru
Создаём дашборд на Bootstrap (Часть 2)
На этой неделе начинаем новый цикл материалов: будем обозревать современные BI-системы на примере популярной группы датасетов SuperStore Sales. В рамках каждого материала при помощи конкретной системы построим дашборд и выставим каждой BI-системе оценку по нескольким внутренним критериям.
Планируемые к обзору системы: Metabase, Redash, Apache Superset, Dash, Google Studio, Yandex Datalens, PowerBI, Tableau, Looker, Excel и другие.
Если вы эксперт по какой-нибудь из перечисленных BI-систем и хотите поучаствовать в проекте, пишите мне в личные сообщения. Авторство будет соблюдено.
Подробности: https://leftjoin.ru/all/modern-bi-systems/
Планируемые к обзору системы: Metabase, Redash, Apache Superset, Dash, Google Studio, Yandex Datalens, PowerBI, Tableau, Looker, Excel и другие.
Если вы эксперт по какой-нибудь из перечисленных BI-систем и хотите поучаствовать в проекте, пишите мне в личные сообщения. Авторство будет соблюдено.
Подробности: https://leftjoin.ru/all/modern-bi-systems/
LEFT JOIN
Гайд по современным BI-системам
В новой серии постов постараемся подробно изучить различные BI-системы на популярной группе датасетов SuperStore Sales. В основе данных — продажи и прибыль сетевого ритейлера в долларах. В следующем посте обсудим постановку реальной задачи, которая могла бы…
Я делал обзор на DataLens в 2019 году, тогда он мне показался сыроватым. На текущей презентации Yandex Scale интерфейс выглядит поинтереснее, поэтому обязательно изучим новые возможности DataLens в цикле материалов про разнообразные BI-инструменты. И, конечно, рекомендую записаться на марафон от DataYoga.
leftjoin.ru
Обзор Yandex DataLens
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Сегодня Рома Колеченков из Yandex DataLens анонсировал 7-дневный самообразовательный марафон. Марафон позволит освоить навыки работы с сервисом визуализации и анализа данных
Для кого это:
• Аналитиков, решивших освоить новый инструмент анализа и визуализации данных
• Дата-журналистов, находящихся в поиске удобного и функционального сервиса визуализации
• Айтишников, стремящихся повысить свою профессиональную ценность
• Студентов, ищущих возможности карьерного роста
Старт - 15 октября
Как проходит:
- Каждый день участники марафона будут получать обучающие материалы, которые подобраны с опорой на практику.
- Ежедневное обсуждение в чате. Изучение материалов займет у вас от 30 минут до 2 часов в день.
Для первых 1500 участников, кто зарегистрируется на Марафон до 14 октября, Яндекс пришлет промокоды на 6 000 рублей для пользования сервисами Yandex Cloud
Регистрация здесь
@internetanalytics
Для кого это:
• Аналитиков, решивших освоить новый инструмент анализа и визуализации данных
• Дата-журналистов, находящихся в поиске удобного и функционального сервиса визуализации
• Айтишников, стремящихся повысить свою профессиональную ценность
• Студентов, ищущих возможности карьерного роста
Старт - 15 октября
Как проходит:
- Каждый день участники марафона будут получать обучающие материалы, которые подобраны с опорой на практику.
- Ежедневное обсуждение в чате. Изучение материалов займет у вас от 30 минут до 2 часов в день.
Для первых 1500 участников, кто зарегистрируется на Марафон до 14 октября, Яндекс пришлет промокоды на 6 000 рублей для пользования сервисами Yandex Cloud
Регистрация здесь
@internetanalytics
LEFT JOIN попал в список рекомендуемых каналов от Александра Богачева.
У Александра крутейший канал Чартомойка про визуализацию данных, который я уже давненько почитываю. В частности, интересен разбор графиков коронавируса. Саша много пишет про визуализацию и, в частности, в ближайшее время будет опубликована его книга «Графики, которые убеждают всех». Я себе уже заказал, рекомендую и вам поддержать автора 🎖
У Александра крутейший канал Чартомойка про визуализацию данных, который я уже давненько почитываю. В частности, интересен разбор графиков коронавируса. Саша много пишет про визуализацию и, в частности, в ближайшее время будет опубликована его книга «Графики, которые убеждают всех». Я себе уже заказал, рекомендую и вам поддержать автора 🎖
Telegram
Чартомойка
О графиках: плохих, хороших и других. От восхищения до ненависти — один chart.
Заметили подозрительный график, присылайте — @bogachev11
Заметили подозрительный график, присылайте — @bogachev11
Forwarded from Чартомойка
Продолжаю делиться ссылками на хорошие каналы по визуализации данных и смежным с ней областям.
Канал Дашбордец. Ведет сотрудница Сибура, в целом посвящен работе в PowerBI, но подойдет всем составителям дэшбордов.
Клуб анонимных аналитиков. Акцент на дэшборды и PowerBI. Регулярно встречаются переводные статьи из англоязычного сегмента интернета на тему визуализации данных и дэшбордов. Плюсом задорные статьи Алексея Колоколова о трудовых буднях руководителя компании, занимающейся бизнес-дэшбордами.
Leftjoin. Больше упор на работу с данными и хардкор-аналитику.
Канал Инжиниринг данных Дмитрия Аношина. Дмитрий работает дата-инженером в Амазон и ведет широкую просветительскую деятельность. На сайте datalearn.ru есть бесплатный курс по введению в Инжиниринг данных и аналитику, плюс Дмитрий ведет отличный ютуб-канал по той же тематике: https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg
И еще о бесплатных движухах по визуализации данных. Сервис DataLens совместно с Datayoga
предлагает всем желающим поучаствовать в марафоне по визуализации данных. Начало 15 октября. Марафон Yandex DataLens – это 7-дневная самообразовательная программа освоения навыков работы с сервисом визуализации и анализа данных от Яндекса. Эксперты Yandex DataLens и DataYoga в деталях рассмотрят функционал сервиса и объяснят все тонкости простым языком. Записаться тут: https://datayoga.ru/datalens
Канал Дашбордец. Ведет сотрудница Сибура, в целом посвящен работе в PowerBI, но подойдет всем составителям дэшбордов.
Клуб анонимных аналитиков. Акцент на дэшборды и PowerBI. Регулярно встречаются переводные статьи из англоязычного сегмента интернета на тему визуализации данных и дэшбордов. Плюсом задорные статьи Алексея Колоколова о трудовых буднях руководителя компании, занимающейся бизнес-дэшбордами.
Leftjoin. Больше упор на работу с данными и хардкор-аналитику.
Канал Инжиниринг данных Дмитрия Аношина. Дмитрий работает дата-инженером в Амазон и ведет широкую просветительскую деятельность. На сайте datalearn.ru есть бесплатный курс по введению в Инжиниринг данных и аналитику, плюс Дмитрий ведет отличный ютуб-канал по той же тематике: https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg
И еще о бесплатных движухах по визуализации данных. Сервис DataLens совместно с Datayoga
предлагает всем желающим поучаствовать в марафоне по визуализации данных. Начало 15 октября. Марафон Yandex DataLens – это 7-дневная самообразовательная программа освоения навыков работы с сервисом визуализации и анализа данных от Яндекса. Эксперты Yandex DataLens и DataYoga в деталях рассмотрят функционал сервиса и объяснят все тонкости простым языком. Записаться тут: https://datayoga.ru/datalens
LEFT JOIN
С 8 по 9 сентября прошла онлайн-конференция FutureData. На днях организаторы опубликовали записи докладов, и я собрал в пост всё, что меня заинтересовало. Среди авторов в подборке: сооснователь Tableau, создатель dbt, главный технолог DataBricks, CDO из Alteryx…
Оказалось, что доступ к докладам FutureData был весьма ограничен и доступен только людям с билетами. Организаторы выложили доклады на youtube, так что теперь их могут посмотреть все желающие 🙂
Хороший мануал по оконным функциям от канала @thisisdata. Было бы здорово дополнить его для какой нотации SQL написаны все текущие команды, т.к. местами исполнение отличается.
К примеру, в Impala есть функция NTILE.
К примеру, в Impala есть функция NTILE.
Forwarded from This is Data
Наконец-то закончил статью на одну из самых сложных для понимания тем - оконные функции в SQL.
На ее написание ушло почти пять месяцев с перерывом на отпуск :)
В статье на простых примерах с картинками разбирается принцип работы данных функций, а в конце вас ждут кейсы с расчетом моделей атрибуции «Первый клик» и «С учетом давности взаимодействий».
На ее написание ушло почти пять месяцев с перерывом на отпуск :)
В статье на простых примерах с картинками разбирается принцип работы данных функций, а в конце вас ждут кейсы с расчетом моделей атрибуции «Первый клик» и «С учетом давности взаимодействий».
