LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Старенький, но прикольный тематический пост о том, как сделать диаграмму в виде сердца в Tableau. Актуально, чтобы порадовать свою вторую половину симпатичным датавизом ❤️ 🙂
👍19🔥5
В коммьюнити часто обсуждается тема как интересно переквалифироваться и стать аналитиком / дата саентистом, но, например, есть и другая сторона медали.

Недавно мне попался интересный пост на реддите, где чел рассуждает о том, что карьера дата саентиста крайне сложна и требует постоянного развития и улучшения навыков, просто чтобы оставаться "в игре". Автор пишет, что такая работа для него постоянный стресс и противопоставляет карьеру дата саентиста с водителем поезда / электрика, которые всего лишь каждый день выполняют свою работу. А дата саентист как будто всегда остается джуниором, если не улучшает свои навыки, потому что они регулярно устаревают.

Что думаете? Согласны ли с этим утверждением?
👍61
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞

🪄 Секреты мультипликации: как визуализировать сказку
Как человеку, незнакомому с киноиндустрией, а, тем более, индустрией анимации, мне всегда было интересно узнать, как много нужно времени, чтобы идея превратилась в яркую сказочную историю, как персонажи обретают мимику, движения и привычки, а самое главное, кто за этим всем стоит. И сколько вообще человек работают над созданием одного мультфильма? Всемирно известная компания Disney рассказывает о том из чего состоит мультфильм на общих данных и на конкретном примере – новом мультике Энканто. Например, в среднем, создание одного полнометражного мультфильма занимает от 3 до 5 лет!

👨‍💼 Как прийти на собеседование во всеоружии?
Как вы обычно готовитесь к собеседованию? Наверняка, как и многие, вы правите резюме, вспоминаете самые важные достижения и проекты, освежаете какие-то полезные знания, придумываете ответы на классические вопросы о планах и развитии в компании. Однако, потенциальный кандидат может также задавать вопросы и это скорее повысит его шансы получить должность, чем наоборот, ведь вы проявите интерес к компании и сможете понять, подходят ли вам существующие в ней условия работы. Напимер, следует уточнить есть ли в компании дресс-код, возможности для повышения квалификации на курсах, как выстроена внерабочая коммуникация, есть ли бюджет на посещение конференций и многое другое.

⚙️ Настройки и зачем они нужны
Иногда в приложениях пользователю нужно настроить слишком много всего для удобного использования, потому что дизайнеры поленились и не смогли выяснить, какие именно расположение элементов, цвета и функции должны быть в финальной верстке. И отправили все эти функции в настройки, мол, сами решайте. Дизайнер из Linear рассуждает на тему того, нужны ли на самом деле пользователю настройки и, если коротко, то да, нужны. Дело в том, что часть настроек продукта, действительно должна быть продумана по умолчанию, однако, другая их часть отвечает за соответствие личным предпочтениям. Именно благодаря этим настройкам мы можем установить светлую или темную тему и поставить любимую картинку на заставку, подстроив приложение “под себя“.

👨‍🎨 Мона Лиза и разработчики
Разработчики программного обеспечения, всегда стремятся к улучшению всех используемых инструментов, но вот шрифт… Он всегда остается “за кадром“. Тем не менее, разработчики проводят большую часть наших дней, глядя на экран, читая и создавая код (который, разумеется, написан определенным шрифтом). Использование обычного Times New Roman может негативно сказаться на производительности программиста и даже привести к ошибкам, поэтому и был придуман идеальный шрифт MonoLisa. Все её особенности и преимущества описаны на сайте создателей, на сам шрифт и его модификации (например, курсивную версию) можно посмотреть там же.

📺 Убыточный формат рекламы (или нет?)
Трое ученых из разных университетов объединились, чтобы провести большое исследование рекламы на телевидении. Они выяснили, что почти треть телерекламы вещает о преимуществах нового пылесоса или удивительного Nespresso в совершенно пустых комнатах, а зрители в четыре раза вероятнее уйдут из комнаты (за вафелькой), чем переключают канал. К огромному сожалению для рекламодателей, ценообразование на рекламу зависит от того, на скольких телевизорах включен определенный канал, а не от того, смотрят ли люди в эти телевизоры на самом деле. В исследовании, конечно, в разы больше полезных выводов о поведении человека во время рекламной паузы, что лучше его удерживает у экрана телевизора, а что хуже (спойлер: реклама лекарства от изжоги).

#weekly #дайджесто
👍9🔥4👎2🥰2
Влюблены в аналитику? VK подготовил для вас что-то крутое :)

26 и 27 февраля компания проведёт Weekend Offer по двум направлениям: экосистемной и продуктовой аналитике. А теперь коротко, но подробно, чем занимаются ребята в Data Office:

• Экосистемная аналитика. Вы можете погрузиться в мир growth hacking, исследований и формирований гипотез для роста, разбор в кросс-девайсном и кросс-продуктовом матчинге при работе с сервисами VK.
• Продуктовая аналитика. Это про формулирование гипотез, проведение исследований и A/Б-экспериментов, настройку аналитических мониторингов и отчётов. Ну и, конечно, вместе с командой вы будете запускать фичи внешних и внутренних сервисов экосистемы. Звучит круто!

Аналитики, интересно? Тогда, не пропустите — у вас появилась возможность поменять работу всего за два дня. Успейте отправить заявку на участие до 25 февраля. Удачи!
#реклама
👍5
Любопытный пост на Observable и симпатичный график-гантелька о том, какие слова лучше знают мужчины, чем женщины (и наоборот). Признаться, большинства слов из списка не знаю, ну разве что кроме checksum, разумеется. 🙃
Такой же чарт есть про сравнение знания слов в UK и US.
👍1
Нужен ли нам Airflow или куча отдельных инструментов?
Несколько дней назад в сети появился пост, который активно обсуждают до сих пор. Давайте разберемся, в чем дело и из-за чего сыр-бор.

⚡️ Итак, автор поста обращает внимание на эволюцию любых больших платформ: старт, развитие и неизбежную фрагментацию на более удобные и узкоспециализированные инструменты. Автор приводит пример, что много лет назад такое случилось с платформой Craigslist, а теперь, вероятно, это случится (или уже случилось) с Airflow.
Airflow сейчас позволяет выполнять множество задач, связанных с данными; от операций по выгрузке и загрузке данных до создания отчетов, обработки с помощью Python и SQL-скриптов и синхронизации данных с BI-инструментами. Однако, уже существуют отличные самостоятельные инструменты, которые выполняют все эти задачи гораздо лучше, чем Airflow. Например, Fivetran и Airbyte можно использовать для загрузки и выгрузки данных, dbt — для преобразования данных, Census и Hightouch — для обратного ETL, Transform, Metriql, Supergrain — для метрик, Eppo — для экспериментов, MLOps — для машинного обучения. Все эти инструменты “отбирают” часть задач у Airflow и значительно трансформируют современный стек, который раньше часто строился внутри одного инструмента (платформы).
⚡️ Некоторые компании пытаются создать улучшенную версию Airflow, упрощая развертывание задач, делая их более масштабируемыми и т.д. Самой важной и обсуждаемой частью этого рассуждения стало то, что автор сомневается, что вообще есть необходимость в улучшении Airflow. Как он сам говорит: “Это похоже на попытку оптимизировать написание кода, который вообще не должен был быть написан“.

Тристан из dbt комментирует:
⚡️ Кейсы Craigslist и Airflow серьезно отличаются, как минимум потому, что пользователь первой платформы мог нуждаться лишь в одной из функций, а вот специалисты в сфере работы с данными нуждаются во всех инструментах платформы, поскольку они тесно взаимосвязаны.
⚡️ Затем, он предлагает свое видение развития Airflow: поскольку одному специалисту или даже команде не бывают нужны сразу все инструменты, удобнее было бы иметь 3 платформы с инструментами для задач инженеров данных, аналитиков и ML-разработчиков.

Тристан, как и прежде форсирует свою тему аналитических инженеров и отделяет их от всех остальных, что, конечно, dbt-юзерам очень нравится.


А вы что думаете про Airflow? Используете ли, пробовали ли Airflow как сервис в managed-исполнении?
👍13
Если визуализация – это инструмент анализа, который обеспечивает наиболее эффективную работу по изучению данных, то инфографика – это уже готовые выводы, оформленные и структурированные показатели и закономерности.

Собрали небольшую подборку хороших работ с канала Инфографика и факты:

- Индекс айфона 2021
- Чем богаты депутаты ГосДумы 2021
- Почему растут цены на бензин
- Почему вакцинацию стали искать чаще футбола и порно
👍4
Выглядит полезно 🙂
В связи с законом о военной цензуре этот пост выпилен, но вы его видели, а я его заскринил.
Хочу выходить из затишья и постепенно публиковать контент, относящийся к делу.
Я знаю, что сейчас многие талантливые как начинающие, так и более опытные ребята начинают искать работу. Мы продолжаем делать свои проекты в рамках Valiotti Analytics по всем направлениям.

Ищем и джунов и миддлов с крепким знанием SQL / Python.
Поэтому если вам интересно, откликайтесь на вакансию, а если вы миддл присылайте свое резюме мне в ЛС, а в ответ получите тестовое задание.
👍21
BI-аналитика в условиях ограничений

Сейчас в России люди многих профессий вынуждены отказываться от удобных рабочих решений ввиду новых ограничений, которые появляются ежедневно. Как известно, ограничения эти вводятся почти молниеносно, а когда они будут отменены – не известно. Но мы не собираемся еще сильнее вводить вас в панику или тревогу. Наоборот, мы считаем важным помогать вам своими знаниями и опытом настолько, насколько это возможно. Например, многие сейчас ищут качественную замену таким сервисам как Tableau и Power BI. В нашем гайде вы можете посмотреть на часть BI-инструментов (платные и бесплатные) и реализованные в них дашборды, отдельное внимание стоит уделить open-source инструментам.
У нас также готов дашборд по Superset, но пока не успели записать видео.

Stay tuned! ⚡️
👍5
Состояние веб-парсинга в 2022
К 2022 году парсинг веб-сайтов стал чуть ли необходимостью, как для обычного человека (с небольшим знанием программирования), так и для бизнеса. Найти и просмотреть вручную все сайты с нужной информацией - крайне затратный по времени процесс и все, кто хочет его оптимизировать так или иначе нуждаются в методах парсинга.
Сейчас мы вам расскажем все, что нужно знать о парсинге веб-данных и современных тенденциях.

Если навыки программирования и желание есть:
▫️Language Agnostic Tools (Playwright, Selenium)
▫️Python и его библиотеки (Scrapy, Beautiful Soup, MechanicalSoup, Pyppeteer)
▫️JS (Cheerio, Puppeteer, Apify SDK)
▫️Java (Jaunt, jsoup)
▫️Ruby (Kimurai, Mechanize and Nokogiri Gems)
▫️PHP (Goutte)

Если вы не умеете программировать или вам не хочется тратить на это время:
Scraper API (для тех, кому нужно самое простое и бюджетное решение задачи)
Apify (для тех, кому хочется найти лучшее соотношение цены и качества)
Parsehub (для тех, кто готов потратиться, но совершенно не хочет использовать код)
Diffbot (для тех, кто ищет самый дорогой сервис с полным доступом к найденным данным)
Octoparse (похож на Parsehub, тоже минимально используется код)
ScrapingBee (для тех, кто хочет пользоваться поддержкой от разработчиков)

Не забывайте, что за окном 2022 (как тут забыть, конечно), а это значит, что все действия по парсингу веб сайтов должны соответствовать законам и этическим нормам:
Парсить сайты лучше в непопулярное для посещения время, чтобы не перегружать сайт, который вы изучаете
Используйте только одно IP-соединение
Соблюдайте правила сайта/социальной сети, которую вы парсите
На некоторых веб-сайтах есть файл robots.txt, в котором перечислены правила и ограничения, которым должны следовать парсеры при автоматическом парсинге и взаимодействии с веб-сайтами.
Не нарушайте правила GDPR или CCPA

Какие тренды в веб-парсинге в 2022 году?
🌎Такие платформы как LinkedIn, Facebook и Instagram стараются сделать все возможное, чтобы их сайты парсить стало труднее. Скорее всего в 2022 их политика будет ужесточаться и будут вводиться самые изощренные анти-бот системы.
🌎К счастью, данные, которые находятся в открытом доступе, запретить парсить практически невозможно. Единственное, что может быть не вполне легитимно - парсинг сайта при входе в систему. Будьте осторожны, если занимаетесь этим!

Конечно, в 2022 году веб-скрапинг столкнется с некоторыми усложнениями и юридическими проблемами, однако в течение последних нескольких лет он сталкивался с этими проблемами ежегодно и благодаря этому стал сильнее. Пока что методы парсинга веб-сайтов стабильно на пару шагов опережают способы борьбы с ними. So far so good!
👍2🤔1
В трудные времена нужно помогать друг другу 🤝☺️

Сейчас мы живем в реальности, где ежедневно сервисы анонсируют новые ограничения или повышают цены. В связи с этим, небольшой update для пользователей MProve: сервис Mprove Cloud будет бесплатным как минимум до 2023 года. На странице расценок сервисов показаны отличия между версиями Open Source, Cloud и Enterprise. Как видите, пока что мы оставляем открытым и бесплатным почти весь функционал Mprove.

Небольшой список обновлений функционала:
1. ⚡️FINALLY! Появилась поддержка Clickhouse ⚡️
2. Появились дашборды
Дашборды и визуализации можно полностью создавать и редактировать через UI. Эти изменения автоматически отражаются в соответствующих файлах. Благодаря файлам можно легко обновлять SQL модели данных и поддерживать все в актуальном состоянии.
3. Создание фильтров и привязка фильтра к конкретному отчету дашборда при помощи кнопки “Edit Listeners”
4. Проработано разграничение по ролям
Обновлен механизм контроля доступа к моделям, визуализациям и дашбордам (все подробности – в документации).
5. Теперь в демо-проекте показаны примеры моделей для BigQuery PostgreSQL и ClickHouse на основе одного датасета.

Мелкие улучшения:
🪄Добавлены подсказки
🪄 Улучшено отображение фильтров
🪄 Улучшено отображение меню
🪄 Улучшено отображение ошибок при валидации файлов
🪄 Обновлена документация

Регистрируйтесь, пробуйте, изучайте!
🎉1
Snowflake купил Streamlit. Почему это важно? 🌎

Несмотря на то, что в мире сейчас много политических изменений и экономических последствий этих изменений, мировой рынок технологий отнюдь не замирает. Некоторые сделки продолжаются в области анализа данных.

🥱 Как это обычно происходит?
Рядовые пользователи зачастую не замечают ровным счетом никаких изменений после покупки одного бизнеса другим. Шрифты слегка меняются на общие корпоративные, появляются инфраструктурные интеграции обоих сервисов и… по большей части, это все. Однако, кажется, что у этой сделки бОльшие последствия. Бен Стенсил в своей еженедельной рассылке рассказал о большой сделке и объяснил ее важность.

🎰 Кто кого купил?
Коротко пройдемся по основным моментам для большего понимания ситуации: Snowflake – очень популярная в Америке СУБД, Streamlit – open-source инструмент на базе Python для создания приложений и визуализации данных. На первый взгляд, ничего впечатляющего и цена покупки компании вполне средняя для этого рынка.

💸 В чем же кроется суть сделки?
Покупка Streamlit – это серьезное стратегически взвешенное решение. Компания помогает создавать приложения для обработки данных с помощью пары строк кода. Такие приложения не являются классическими инструментами бизнес-аналитики, но они весьма популярны среди аналитиков.
Давайте сравним эту сделку с другой громкой новостью: Google уволил весь персонал службы поддержки Looker в США. Зачем же это было сделано? BigQuery является центром притяжения стека данных Google. В то время как Looker получает стабильный доход, баланс Google отражает только те операции, которые приносят огромные доходы. Для Google Looker слишком велик, чтобы потерпеть неудачу, но слишком дорог для масштабирования.

📉 Зачем тогда Snowflake, самому прямому конкуренту BigQuery, вкладывать большие средства в Streamlit, в то время как Google поступает иначе?
Ответ прост: потому что это не то, чем они обычно занимаются. Streamlit никогда не ступит в магический квадрант приложений Gartner и, скорее всего, даже не попытается вывести на рынок классический продукт. Вместо этого он станет чем-то более фундаментальным: платформой на которой создаются и продаются все остальные коммерческие приложения для работы с данными. Возможно, Streamlit даже станет катализатором серьезного сдвига в ландшафте данных, когда они разработают магазин приложений Snowflake. Таким образом, они смогут создать новую полноценную инфраструктуру, в которой все способствует удобной разработке приложений для работы с данными, а также существует маркетплейс для их размещения и распространения.
👍19🤔53
💬 Интервью про карьеру в Data Science никогда не бывает много 🎤

До отъезда из России (об этом отдельно и чуть попозже) мы записали интервью с моим участием. Интервьюер – автор канала Start Career in DS Роман Васильев. Помимо нашего разговора, на канале есть куча полезной информации для новичков в профессии, настоятельно рекомендую вам изучить их. Рома – профессионал, поэтому наш разговор получился очень живым, удалось затронуть много актуальных тем и, надеюсь, раскрыть полезные детали карьерного пути 😎

Подписчики канала в комментариях уже шутят, что Рома – “Дудь в DS”. Действительно очень похоже, потому что от последних интервью вообще не оторваться: блестящее интервью с Толей Карповым (кстати, Толя всерьез посоревнуется за звание “Дудя в DS” c его собственными вью на ютубе), с Валерой Бабушкиным и другими гостями.

Смотрите интервью, пока Youtube еще доступен в России, шерьте, комментируйте и подписывайтесь на канал Романа!
👍14🥰4
🍟 Где поесть в незнакомом городе? ☕️

В середине февраля мы с женой были в Грузии (несколько опередили массовую эмиграцию туда), где отмечали мой день рождения. Когда мы там оказались возник вопрос: какие заведения лучше посетить? Раньше я решал этот вопрос с использованием Foursquare, но он безнадежно устарел. Тут подключилась моя жена и начала поиски в инстаграм, которые меня безумно заинтересовали с точки зрения алгоритма.

У нас было около десяти рекомендаций заведений от друзей, большое желание попасть в приятные места, доступ к интернету и Instagram (деятельность признана экстремистской и запрещена в Российской Федерации). Не то, чтобы всё это было абсолютно необходимо в поездке, но если уж начал собирать коллекцию, то к делу надо подходить серьёзно 😎

Так вот, супруга начала смотреть отметки людей в этих заведениях, а затем применяла какую-то магию, чтобы найти другие класные заведения, похожие на уже посещенные. Меня это очень заинтересовало и я подумал, что этот алгоритм можно автоматизировать.

Так родилась идея рекомендатора через отметки в инстаграмме, который мы разбираем в новой статье.

⚡️ Очередное огромное спасибо Андрею за участие в работе над задачей!
👍32🔥96
🍟 Яндекс, который не оправдал доверия пользователей
Наверное, вы уже в курсе: Яндекс конкретно облажался. Весь рунет не первый день разглядывает карту заказов Яндекс.Еды, где и мы с вами, и ваши соседи, и все-все-все. Как минимум, все это крипово.

Чем это опасно?
В публичный доступ попали наши с вами персональные данные, которые обожают мошенники. Поэтому будьте бдительны, если вам теперь в точности назовут ваш адрес, смогут озвучить сумму ваших трат, назовут вас по имени и даже смогут сказать дату вашего заказа. Это прекрасно работает в социальной инженерии. Искренне считаю это позором службы безопасности Яндекса и крайне неудовлетворен официальным объяснением инцидента.
Личный совет: по возможности, не указывайте свои реальные данные там, где нет необходимости это делать и не сохраняйте свои платежные данные во имя удобства оплаты. Раз хакерам удалось украсть эти данные, то значит и кража платежных данных тоже возможна. И в этом уж точно ничего хорошего не будет.

Прекращаем нагонять ужас
Раз так уже произошло мы будем как аналитики использовать эти данные во благо. Нет ничего круче, чем настоящий живой датасет для различных экспериментов.
Мы скачали данные в полном объеме и загрузили их в Clickhouse, поэтому в скором времени постараемся поизучать датасет, поискать интересности в нем и показать наши находки, ведь интересные данные там точно присутствуют. Конечно, мы не собираемся потворствовать распространению личных данных клиентов и все результаты представим в обобщенном и обезличенном виде.
Будьте осторожны и ждите актуальной аналитики услуг Яндекс.Еды 🍽
👍75😱14🤔116🤯2
Обсудим географию и миграции подписчиков канала.

После 24го февраля вы:
Anonymous Poll
9%
Уже жил не в РФ/РБ/Украине
76%
Жил в РФ/РБ и остался там
7%
Жил в Украине и остался там
9%
Мигрировал
🤔8🤯53
Полагаю, что другое — это те, кто хотел посмотреть результаты опроса (забыл включить этот пункт, сорри).
Поставьте, палец вверх, плиз, если это так, чтобы потом перевзвесить результаты.
👍565🤩1