В ответ на пост про pandas пришли дополнения от слушателей Яндекс.Практикума.
Только сейчас добрался, изучил, делюсь:
- ссылка 1;
- ссылка 2.
Только сейчас добрался, изучил, делюсь:
- ссылка 1;
- ссылка 2.
Telegram
Я у мамы аналитик
А ещё тут подъехала шпаргалка по pandas с практическими примерами использования и датасетом для тестов.
Ссылка:
https://habr.com/ru/company/ruvds/blog/494720/
Ссылка:
https://habr.com/ru/company/ruvds/blog/494720/
В последнее время, у меня чаще на фоне играют подкасты, чем музыка.
Из последнего больше всего запомнилось интервью Ивана Замесина со специалистом по машинному обучению из Яндекса, который занимается разработкой self-drive - самоуправляющегося автомобиля.
Интересно послушать про сложности и задачи в подобного рода инновационных проектах.
Ссылка:
https://www.youtube.com/watch?v=nPpXXWy_gQg
Из последнего больше всего запомнилось интервью Ивана Замесина со специалистом по машинному обучению из Яндекса, который занимается разработкой self-drive - самоуправляющегося автомобиля.
Интересно послушать про сложности и задачи в подобного рода инновационных проектах.
Ссылка:
https://www.youtube.com/watch?v=nPpXXWy_gQg
YouTube
#2: Боря Янгель рассказывает про self-drive в Яндексе и историю создания Алисы
Боря Янгель—тимлид группы «предсказания дорожной ситуации» селф-драйва в Яндексе.
Про что говорим с Борей:
• краткая история создания Алисы такой, какая она есть сейчас
• из каких технологических компонентов состоит селф-драйв
• какие самые большие технологические…
Про что говорим с Борей:
• краткая история создания Алисы такой, какая она есть сейчас
• из каких технологических компонентов состоит селф-драйв
• какие самые большие технологические…
Искали на работе способы визуализировать в Power BI данные из Redis, в итоге нашёл коннектор на cdata. Он работает, правда не поддерживает нативные запросы (можно дописать на чем-нибудь типа python).
Еще из минусов - триал на 30 дней.
С другой стороны, для коротких проектов или исследований подходит неплохо. Помимо этого, есть еще много кастомных коннекторов (к примеру, для Elasticsearch), которые могут пригодиться.
Полный список:
https://www.cdata.com/powerbi/
Еще из минусов - триал на 30 дней.
С другой стороны, для коротких проектов или исследований подходит неплохо. Помимо этого, есть еще много кастомных коннекторов (к примеру, для Elasticsearch), которые могут пригодиться.
Полный список:
https://www.cdata.com/powerbi/
CData Software
Power BI Connectors | CData Software
Certified High-performance Microsoft Power BI Connectors with real-time data access (Direct Query).
Божественная статья про визуализацию данных, внутри которой можно найти:
- небольшой экскурс в историю;
- примеры хороших и плохих визуализаций (в том числе, примеры манипуляций и искажения данных);
- обобщённый взгляд на процесс визуализации;
- внушительный список дополнительных материалов в конце статьи.
Из-за объёма читать лучше на свежую голову.
Ссылка:
https://towardsdatascience.com/the-power-of-visualization-in-data-science-1995d56e4208
- небольшой экскурс в историю;
- примеры хороших и плохих визуализаций (в том числе, примеры манипуляций и искажения данных);
- обобщённый взгляд на процесс визуализации;
- внушительный список дополнительных материалов в конце статьи.
Из-за объёма читать лучше на свежую голову.
Ссылка:
https://towardsdatascience.com/the-power-of-visualization-in-data-science-1995d56e4208
Немного ранее мы читали про Data Governance, пришла пора дополнить общую картину аналитического мира информацией о платформах управления данными.
В обзоре можно почитать про:
- общее назначение;
- виды;
- основные компоненты
- существующие решения на рынке.
Ссылка:
https://habr.com/ru/company/ruvds/blog/500028/
В обзоре можно почитать про:
- общее назначение;
- виды;
- основные компоненты
- существующие решения на рынке.
Ссылка:
https://habr.com/ru/company/ruvds/blog/500028/
Давно хотел поделиться этим исследованием, но чего-то не хватало для полноты картины. Мемасик стал последним куском головоломки.
В сообществах аналитиков часто встречаются жалобы на сложности с внедрением BI-инструментов, так как excel проще и привычнее.
Так вот, ребята решили перестать бороться со злом и примкнуть к нему, только своим, особым способом. Они разрабатывают плагин для браузера, который позволит пользователям управлять контентом веб-страниц через табличный интерфейс. В статье есть видео с примерами работы бета-версии, рекомендую посмотреть.
По-моему, замечательный пример того, как привычные сценарии поведения могут стать источником инноваций.
Ссылка на описание:
https://www.geoffreylitt.com/wildcard/salon2020/
В сообществах аналитиков часто встречаются жалобы на сложности с внедрением BI-инструментов, так как excel проще и привычнее.
Так вот, ребята решили перестать бороться со злом и примкнуть к нему, только своим, особым способом. Они разрабатывают плагин для браузера, который позволит пользователям управлять контентом веб-страниц через табличный интерфейс. В статье есть видео с примерами работы бета-версии, рекомендую посмотреть.
По-моему, замечательный пример того, как привычные сценарии поведения могут стать источником инноваций.
Ссылка на описание:
https://www.geoffreylitt.com/wildcard/salon2020/
Небольшая статья про то, как можно заменить рутинные операции Excel с помощью Python и pandas.
Забавно, конечно, но смысл этого в мире, где есть Power BI, мне до конца не ясен.
Ссылка:
https://habr.com/ru/company/ruvds/blog/500426/
Забавно, конечно, но смысл этого в мире, где есть Power BI, мне до конца не ясен.
Ссылка:
https://habr.com/ru/company/ruvds/blog/500426/
Хабр
Python, pandas и решение трёх задач из мира Excel
Excel — это чрезвычайно распространённый инструмент для анализа данных. С ним легко научиться работать, есть он практически на каждом компьютере, а тот, кто его освоил, может с его помощью решать...
Крутая визуализация возраста зданий в Санкт-Петербурге:
https://how-old-is-this.house/
Вот тут можно почитать подробно про реализацию проекта и используемые инструменты.
https://how-old-is-this.house/
Вот тут можно почитать подробно про реализацию проекта и используемые инструменты.
how-old-is-this.house
How old is this house.
Карта возраста домов Петербурга.
Вышел очередной обзор рынка аналитики от Cnews, подводят итоги 2019 года.
Из интересного:
- Мировой рынок аналитики, по прогнозам, будет расти на 12,5 % в год, чего стоило ожидать вследствие массовой популяризации data science, ml, ai и прочих весёлых аббревиатур из этой области;
- В России рынок поставщиков решений по аналитике данных также вырос (судя по табличке, аж на 53%), хотя у большинства компаний доходы от таких проектов удручают (больше миллиарда - только у 5 компаний);
- на рынке BI-инструментов особых изменений нет (хотя интересно будет посмотреть на Magic Quadrant 2021 года, после того как будут объединены Tableau с Salesforce).
Ссылка на статью:
https://www.cnews.ru/reviews/analitika_30_2020/articles/rynok_analitiki_rastet_i_stanovitsya
#анализ_рынка
Из интересного:
- Мировой рынок аналитики, по прогнозам, будет расти на 12,5 % в год, чего стоило ожидать вследствие массовой популяризации data science, ml, ai и прочих весёлых аббревиатур из этой области;
- В России рынок поставщиков решений по аналитике данных также вырос (судя по табличке, аж на 53%), хотя у большинства компаний доходы от таких проектов удручают (больше миллиарда - только у 5 компаний);
- на рынке BI-инструментов особых изменений нет (хотя интересно будет посмотреть на Magic Quadrant 2021 года, после того как будут объединены Tableau с Salesforce).
Ссылка на статью:
https://www.cnews.ru/reviews/analitika_30_2020/articles/rynok_analitiki_rastet_i_stanovitsya
#анализ_рынка
CNews.ru
Рынок аналитики растет и становится все более разнообразным. Обзор: Аналитика 3.0 – 2020 - CNews
Мировой рынок аналитических средств в 2019 г. продолжил рост несмотря на общую стагнацию в сфере ИТ, поскольку именно анализ данных лежит в основе цифровой трансформации. При этом все более важную роль играет анализ не только «классических» транзакционных…
Начнём рабочую неделю с очередного сравнения двух инструментов в борьбе с одной и той же задачей - когортным анализом. На ринге сегодня Power BI и Python.
Автор статьи любезно не предоставил ссылку на оригинальное видео, но найти его было несложно (ссылка на ютуб).
Сама статья:
https://habr.com/ru/post/501492/
Автор статьи любезно не предоставил ссылку на оригинальное видео, но найти его было несложно (ссылка на ютуб).
Сама статья:
https://habr.com/ru/post/501492/
Добрая и замечательная статья про мощь и историю MS Excel, на котором, как известно, держится чуть более, чем всё.
Ссылка:
https://habr.com/ru/company/it-grad/blog/507114/
Ссылка:
https://habr.com/ru/company/it-grad/blog/507114/
Хабр
Ода Excel: 34 года волшебства
Примечание: статья была написана в 2019 году, а в этом Microsoft Excel отмечает уже 35-летний юбилей. Чему инструмент, выдержавший проверку временем, может нау...
30 июня собираюсь послушать доклады онлайн-конференции Data Start. Ключевые темы - Data Science, Big Data, Machine Learning.
Участие - бесплатное.
В конфе 2 потока, на данный момент, технический для меня слишком хардкорен, но в бизнес-потоке есть несколько крутых спикеров, другие выступления которых - топ (ребята из Yandex.Taxi, ScrumTrek, Rubbles).
Ссылка:
https://datastart.ru/online-summer-2020/
Участие - бесплатное.
В конфе 2 потока, на данный момент, технический для меня слишком хардкорен, но в бизнес-потоке есть несколько крутых спикеров, другие выступления которых - топ (ребята из Yandex.Taxi, ScrumTrek, Rubbles).
Ссылка:
https://datastart.ru/online-summer-2020/
Нашёл забавный симулятор работы продуктового аналитика/продакта:
- приоритезируем гипотезы;
- смотрим на результаты A/B тестирования;
- оцениваем влияние на продажи;
- релизим, либо не релизим.
Вроде бы простенько, но каждая сессия - новая увлекательная борьба за показатели бизнеса, мне нравится.
Ссылка:
https://www.lukasvermeer.nl/confidence/
- приоритезируем гипотезы;
- смотрим на результаты A/B тестирования;
- оцениваем влияние на продажи;
- релизим, либо не релизим.
Вроде бы простенько, но каждая сессия - новая увлекательная борьба за показатели бизнеса, мне нравится.
Ссылка:
https://www.lukasvermeer.nl/confidence/
Про метод документирования знаний Zettelkasten действительно уже есть ряд популярных статей (на Хабре - в том числе). Но тут меня пленил не он сам, а реализация в Notion, реально мотивирует попробовать самому.
Ссылка:
https://habr.com/ru/post/509756/
Ссылка:
https://habr.com/ru/post/509756/
Хабр
Как я веду Zettelkasten в Notion уже год: стартовый набор и полезные трюки
Zettelkasten — крутой метод хранения идей и знаний — сейчас на слуху, его уже обсуждали на Хабре. Я веду такой в Notion уже год, потому что Notion лучше всех воплощает три главных принципа...
Сегодняшний пост, чуть более, чем полностью, обязан своим существованием Алексею Макарову и его замечательному каналу @datalytx.
Я никогда не занимался всерьёз продвижением своего канала и особенно приятно, что он попал в подборку без моего прямого запроса (стоит отметить, что я хотел написать автору, но постеснялся). Пользуясь случаем, хочу поприветствовать новоприбывших из его канала, постараюсь быть полезным.
Триумфальное возвращение стоило бы посвятить, как обычно, аналитике, но я позволю себе авторский пост.
За месяц молчания я реально ощутил на себе всю значимость повторяющихся ритуалов. Двухнедельный отпуск без адекватного интернета стал причиной поломки двух привычек, которые я прививал себе последний год: ежедневное чтение и еженедельное написание 1-2 постов в канал.
Если на восстановление чтения потребовалось 2 недели, то этот пост я еле-еле родил за месяц. Плюс, есть и внешние причины, но об этом позднее.
С точки зрения профессионального развития, для меня это очередное подтверждение того факта, что для любой +- аналитической (ну и менеджерской, естественно) профессии требуется особо рьяное отношение к личной эффективности и дисциплине.
Из последнего чтива в этом направлении можно ознакомиться с "Джедайскими техниками" Дорофеева, который, по сути, написал реферат по большинству популярных методов достижения личной эффективности. Это не панацея, но можно подобрать что-то подходящее для дальнейшего изучения.
Я никогда не занимался всерьёз продвижением своего канала и особенно приятно, что он попал в подборку без моего прямого запроса (стоит отметить, что я хотел написать автору, но постеснялся). Пользуясь случаем, хочу поприветствовать новоприбывших из его канала, постараюсь быть полезным.
Триумфальное возвращение стоило бы посвятить, как обычно, аналитике, но я позволю себе авторский пост.
За месяц молчания я реально ощутил на себе всю значимость повторяющихся ритуалов. Двухнедельный отпуск без адекватного интернета стал причиной поломки двух привычек, которые я прививал себе последний год: ежедневное чтение и еженедельное написание 1-2 постов в канал.
Если на восстановление чтения потребовалось 2 недели, то этот пост я еле-еле родил за месяц. Плюс, есть и внешние причины, но об этом позднее.
С точки зрения профессионального развития, для меня это очередное подтверждение того факта, что для любой +- аналитической (ну и менеджерской, естественно) профессии требуется особо рьяное отношение к личной эффективности и дисциплине.
Из последнего чтива в этом направлении можно ознакомиться с "Джедайскими техниками" Дорофеева, который, по сути, написал реферат по большинству популярных методов достижения личной эффективности. Это не панацея, но можно подобрать что-то подходящее для дальнейшего изучения.
Telegram
Datalytics
Как и обещал, делюсь ссылками на каналы в сфере анализа данных, только начинающие свой путь, а также некоторые каналы, которые существуют уже давно, но по какой-то причине не набрали ещё много подписчиков:
🔷Канал Саши Михайлова, не только про аналитику,…
🔷Канал Саши Михайлова, не только про аналитику,…
Сегодня у нас подборка из 11 (да, URL ниже привирает) бесплатных инструментов для быстрой визуализации.
Ну реально же иногда есть готовый набор данных и нужна просто нормальная визуализация, а не эти наши "excel-графики". Не тащить же ради этого все в BI, в самом деле.
Я как-то использовал Data Wrapper именно по причине простоты и скорости работы (но это на небольших объемах данных).
В большинстве сервисов данные просто загружаются копипастой или табличным файлом, а дальше начинаем играться типом и форматом диаграмм.
Что удобно в статье - для каждого инструмента есть gif-ка с примером использования.
Ссылка:
https://towardsdatascience.com/10-free-tools-to-instantly-get-started-with-data-visualisation-d7fadb5f6dce
Ну реально же иногда есть готовый набор данных и нужна просто нормальная визуализация, а не эти наши "excel-графики". Не тащить же ради этого все в BI, в самом деле.
Я как-то использовал Data Wrapper именно по причине простоты и скорости работы (но это на небольших объемах данных).
В большинстве сервисов данные просто загружаются копипастой или табличным файлом, а дальше начинаем играться типом и форматом диаграмм.
Что удобно в статье - для каждого инструмента есть gif-ка с примером использования.
Ссылка:
https://towardsdatascience.com/10-free-tools-to-instantly-get-started-with-data-visualisation-d7fadb5f6dce
Medium
11 Free tools to get started with Data Visualisation-Easily & Instantly.
Jump right into the Data Visualisation process with these easy and intuitive tools.
Каждый раз, когда я сталкиваюсь с какими-то хайповыми вещами, замечаю, что они вызывают неоднозначные чувства, некую смесь интереса с недоверием. Поэтому они часто лежат где-то вдали на полочке, пока руки не дойдут, хайп не спадет или до никогда.
Такая же история была бы с Machine Learning, но так вышло, что уже 3 недели подряд я слышу это словосочетание раз по 5 в день и терпеть больше не смог. Конкретно с этим кейсом разобрался с помощью статьи с разбором ограничений машинного обучения от ребят из Selectel.
С ML для меня проблема в том, что оно, как-будто, воспринимается и позиционируется как панацея, типа "ща ядер и памяти докинем и все вопросики порешаем".
Безусловно, есть разумное, доброе и вечное применение машинного обучения для решения боевых задач бизнеса, науки и создания дипфейков с Друзями. Ну и до потолка по технологиям ещё (вроде) далеко. Просто хотелось бы не забывать про то, что у всего есть свои границы применения и ограничения.
Ссылка:
https://habr.com/ru/post/518062/
Такая же история была бы с Machine Learning, но так вышло, что уже 3 недели подряд я слышу это словосочетание раз по 5 в день и терпеть больше не смог. Конкретно с этим кейсом разобрался с помощью статьи с разбором ограничений машинного обучения от ребят из Selectel.
С ML для меня проблема в том, что оно, как-будто, воспринимается и позиционируется как панацея, типа "ща ядер и памяти докинем и все вопросики порешаем".
Безусловно, есть разумное, доброе и вечное применение машинного обучения для решения боевых задач бизнеса, науки и создания дипфейков с Друзями. Ну и до потолка по технологиям ещё (вроде) далеко. Просто хотелось бы не забывать про то, что у всего есть свои границы применения и ограничения.
Ссылка:
https://habr.com/ru/post/518062/
Хабр
Стагнация машинного обучения. Многие задачи не будут решены никогда?
Последние годы глубокого обучения — сплошная череда достижений: от победы над людьми в игре Го до мирового лидерства в распознавании изображений, голоса, переводе текста и других задачах. Но...
У меня назревает смена стэка, поэтому сел разгребать отложенные материалы по Power BI.
Вот тут уже затрагивал тему интеграции в него Рython-скриптов, хотя не могу сказать, что много этим пользовался.
Но вот кейс с кластерным анализом достоин упоминания. Например, вместо пиления костылей в Excel (вроде такого) можно воспользоваться Python-библиотекой PyCaret и нехитрыми манипуляциями получить готовый столбец в таблицу с данными.
Ссылка на подробное описание всех возможностей библиотеки (кластеризация - в самом начале статьи):
https://www.kdnuggets.com/2020/05/machine-learning-power-bi-pycaret.html
Вот тут уже затрагивал тему интеграции в него Рython-скриптов, хотя не могу сказать, что много этим пользовался.
Но вот кейс с кластерным анализом достоин упоминания. Например, вместо пиления костылей в Excel (вроде такого) можно воспользоваться Python-библиотекой PyCaret и нехитрыми манипуляциями получить готовый столбец в таблицу с данными.
Ссылка на подробное описание всех возможностей библиотеки (кластеризация - в самом начале статьи):
https://www.kdnuggets.com/2020/05/machine-learning-power-bi-pycaret.html
Антон Владимирович мне товарищ, по каким-то вопросам - наставник, а также периодически помогает с материалами для канала.
Сегодня мы всем миром поздравляем его с первой (известной нам) экспертной публикацией в блоге.
Про кубернетес аналитикам, быть может, и не особо полезно читать, но первая статья из списка круто описывает то, почему многие сейчас ковыряются в Big Data (и некоторые даже успешно).
Ссылка:
https://news.1rj.ru/str/SelectelNews/507
Сегодня мы всем миром поздравляем его с первой (известной нам) экспертной публикацией в блоге.
Про кубернетес аналитикам, быть может, и не особо полезно читать, но первая статья из списка круто описывает то, почему многие сейчас ковыряются в Big Data (и некоторые даже успешно).
Ссылка:
https://news.1rj.ru/str/SelectelNews/507
Telegram
Selectel Newsfeed
6 статей на английском про Kubernetes, API и корпоративную культуру ⚡️
Ежемесячная подборка из Medium от Антона Чунаева
1. 4 способа, как использовать данные для снижения затрат и увеличения прибыли.
— Про практическое применение больших данных, которые…
Ежемесячная подборка из Medium от Антона Чунаева
1. 4 способа, как использовать данные для снижения затрат и увеличения прибыли.
— Про практическое применение больших данных, которые…
Давно ничего не было по dataviz’у, на этой неделе немного восстановлю справедливость.
На самом деле, я удивлён, что до сих пор ничего не репостил из блога Datawrapper (хотя и упоминал их где-то выше), они крутые.
К примеру, несколько мыслей из статьи по работе с цветами в визуализациях:
* Если появилась необходимость иметь более 7 цветов на графике - меняем его тип (а ещё лучше - группируем данные);
* Используем одинаковые цвета для переменных во всех визуализациях (это супер-очевидно, но косячки проскакивают, лучше перепроверять);
* В ту же копилку - использование интуитивно понятных цветов (красный для плохого, зеленый для хорошего и светлые оттенки для низких и тёмные для высоких значений);
* Ну и про мой «любимый» контраст - вот эта штука поможет проверить, не вытекут ли у пользователей глаза от сочетания цветов фона и текста на нём.
Еще больше советов и примеры - по ссылке:
https://blog.datawrapper.de/colors/
На самом деле, я удивлён, что до сих пор ничего не репостил из блога Datawrapper (хотя и упоминал их где-то выше), они крутые.
К примеру, несколько мыслей из статьи по работе с цветами в визуализациях:
* Если появилась необходимость иметь более 7 цветов на графике - меняем его тип (а ещё лучше - группируем данные);
* Используем одинаковые цвета для переменных во всех визуализациях (это супер-очевидно, но косячки проскакивают, лучше перепроверять);
* В ту же копилку - использование интуитивно понятных цветов (красный для плохого, зеленый для хорошего и светлые оттенки для низких и тёмные для высоких значений);
* Ну и про мой «любимый» контраст - вот эта штука поможет проверить, не вытекут ли у пользователей глаза от сочетания цветов фона и текста на нём.
Еще больше советов и примеры - по ссылке:
https://blog.datawrapper.de/colors/
Еще один материал от Datawrapper, в этот раз - про более хардкорный выбор цветов для визуализаций (с тонами, насыщенностями, яркостями и всяким таким).
На первый взгляд, она больше для дизайнеров, но в этом и прелесть - можно глубже разобраться с теорией (особенно в случае, когда ты сам выбираешь цвета по принципуот балды «нравится-не нравится»).
К примеру, абсолютное большинство визуализаций, которые отмечены в статье как «BETTER», мне реально больше импонируют, чем «NOT IDEAL»-версии, теперь стало немного понятнее, почему так происходит.
А еще добрые люди озадачились эту статью перевести на русский.
Ссылка:
https://habr.com/ru/post/520812/
На первый взгляд, она больше для дизайнеров, но в этом и прелесть - можно глубже разобраться с теорией (особенно в случае, когда ты сам выбираешь цвета по принципу
К примеру, абсолютное большинство визуализаций, которые отмечены в статье как «BETTER», мне реально больше импонируют, чем «NOT IDEAL»-версии, теперь стало немного понятнее, почему так происходит.
А еще добрые люди озадачились эту статью перевести на русский.
Ссылка:
https://habr.com/ru/post/520812/
Хабр
Как выбрать красивые цвета для вашей инфографики
Очень трудно выбрать хорошие цвета для инфографики. Постараемся разобраться с этой проблемой. Прочитав эту статью, вы почувствуете себя более уверенно в выбор...