LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
🦸🏼‍♂️ Data Heroes обзавелись супер красивым веб-сайтом 💻

Лично мне очень важно, чтобы каждый проект имел какой-то законченный вид. Поэтому путь развития нашего подкаста Data Heroes неизбежно пришел к этой стадии: ему очень не хватало отдельного сайта и мы решили его сделать.

Теперь без тени смущения готов показать вам офицальную страницу нашего подкаста Data Heroes. Тут вы можете найти и послушать все выпуски, прочесть их описания, узнать несколько забавных фактов и разобраться в профессиональном сленге, который мы часто используем в эпизодах. Самое главное, теперь вы сможете оставлять свои комментарии через форму обратной связи, ведь это лучший драйвер любого проекта 😎
Оставляйте любые реакции, если вам также как и нам нравится наш новый сайт 🔥
А еще, пожалуйста, поставьте оценку подкаста на платформах, ведь именно это мотивирует нас продолжать создавать новые эпизоды Data Heroes👾

Все ссылки на наши проекты, чтобы вы могли сохранить их или делиться с друзьями:
👾 Подкаст Data Heroes
🔵 Блог Leftjoin
🔷 Сайт компании Valiotti Analytics
🔶 Блог Valiotti Analytics
🔥19👍16👏1
📈 Grammar of graphics in a nutshell 📖
Вас когда-нибудь интересовало как работают такие фреймворки, как Observable Plot, ggplot2 или Vega-Lite? Автора этой статьи всерьез заинтересовал этот вопрос, поэтому он посмотрел множество реализаций, прочитал кучу статей, и кое-что придумал.
Пересказывать изучение визуализации целиком было бы глупо (важную чсть исследования составляют примеры и код), поэтому мы вкратце пройдемся по самым важным моментам, а полную цепочку преобразований лучше увидеть своими глазами на сайте.

🤔 Что вообще такое грамматика графики (GoG)?
Грамматика графики (GoG) — это язык для определения статистической графики, такой как гистограммы, диаграммы рассеяния и линейные графики из составных частей. Возможно, вы слышали или даже использовали библиотеку, построенную на GoG, такую ​​как Observable Plot, ggplot2, Vega-Lite и Swift Charts.

🔗 Конвейер GoG
Грубо говоря, GoG разделяет визуализацию данных на два отдельных этапа: данные - кодировки + метки -> абстрактное пространство - масштабы-> экранное пространство.

Все начинается с формы
Прежде чем мы сможем перейти к реальным компонентам GoG, нам нужен способ рендеринга элемнтов на экране. Для этого используется SVG и создается несколько простых основных элементов: прямоугольник и круг. С помощью этих элементов, впоследствии, будет выстроена вся визуализация. Кстати, некоторое время назад я частично рассказывал про d3.js и даже делился примером.

⚖️ Веса и абстрактное пространство
Чтобы сопоставить абстрактное визуальное пространство и пространство пикселей экрана, используются шкалирование.
В чем разница между абстрактным и экранным пространством? Экранное пространство — (во всех смыслах и целях) декартова система координат, а абстрактное пространство не обязательно должно быть таковым. Шкалы используются для построения отображений из абстрактного пространства в пространство экрана, чтобы точно передавать информацию, которая заключается в данных.

Затем в статье объясняются нюансы меток, кодировок, осей и легенды графика, но тут без визуальных объяснений не обойтись, поэтому переходите на сайт.

🚀 В целом, это, конечно, маленькая и неполная версия грамматики графики. Тем не менее, она позволяет рассмотреть весь путь создания визуализации: от исходных данных до графика на экране.
👍20🔥4
👨🏻‍💻 Valiotti Analytics Linkedin 🔗
Мы потихоньку начинаем вести профили в разных социальных сетях: неделю назад мы наконец активировали Linkedin и начали наполнять страницу полезным контентом. Подписывайтесь, если хотите получать больше новостей о нашей компании (мы планируем делиться там с вами интересными фактами о прошлом, настоящем и будущем Valiotti Analytics).
Также, давайте соединяться и в личном профиле!
17👍10
На связи Data Heroes и мы ищем спикеров! 📢

Если вы HR или IT-рекрутер с опытом найма аналитиков — приглашаем вас поучаствовать в подкасте! 🔥
Отклики присылайте моей коллеге @Milanchezaa в личном сообщении.

Будем рады новым героям! Все подробно объясним, расскажем и покажем 👾
🔥15👍1
🛠 SQL запросы и ни строчки кода вручную 🗄
Сейчас многие IT-компании нацелены на то, чтобы автоматизировать простые процессы и облегчить жизнь сотрудникам отрасли. Например, недавно мы вам рассказывали про библиотеку, которая позволяет работать с таблицами в Python без знания кода.
Сегодня на повестке дня похожий инструмент, который недавно запустила компания Rasgo: SQL Generator. Это браузерный инструмент, который позволяет любому человеку (особенно тем, у кого нет опыта работы с SQL) создавать сложные SQL-запросы, не написав ни строчки кода. Создатели продукта постарались и теперь генератор может написать за вас нужный SQL-запрос и сэкономит драгоценное время, которое можно использовать для более нетривиальных задач.
Если вы хотите больше обзорных постов про современные инструменты, то оставляйте реакцию, а если вам хочется узнать больше именно про SQL Generator, то есть гайд по его использованию 🚀
🔥42👍5👏2🤔1
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞
📖 Подробный гайд по кластеризации
Школа анализа данных (ШАД) написали отличную и весьма подробную практическую главу в рамках учебника по ML. Крайне приятно, что погузиться в тему можно даже тем, кто никогда не слышал о кластеризации раньше, ведь все термины вводятся и объясняются постепенно, а также гайд полон визуализаций. В нем разобраны самые современные методы: метод К-средних, DBSCAN и другие. Большое спасибо автору, ждем новых глав!

🙊 DALL-E Mini нашли неожиданное применение: генератор мемов
В начале июня в соцсетях «завирусился» сервис DALL-E Mini: первая версия нейросети от OpenAI, доступная всем пользователям. В результате любого запроса сервис генерирует коллаж из 9 наиболее релевантны изображений и... получается довольно забавно, а иногда и крипово. Этим воспользовался один из пользователей, который в итоге завел отдельную страницу в Twitter и раздел в Reddit, где начал собирать созданные DALL-E Mini изображения.
В ленте твиттера вы можете увидеть коллажи и текст запроса, которые не иначе кроме как "мем" зачастую и не назовешь))

🚫 Современные трудности и способ их преодоления
Ребята из iPhones нашли способ установки удаленных из AppStore приложений (Альфа-Банк, Сбербанк Онлайн и другие), который может помочь установить их на новый телефон, если есть такая необходимость. Важных условий всего два: нужно установить программу iMazing (бесплатного демо-периода будет вполне достаточно), а также приложение, которое вам нужно, должно было быть уже загружено раньше под вашей учетной записью. Пишите в комментариях, если проверяли этот способ или знаете какие-то другие!

👾 Что нового появится в Python 3.11?
Недавно появилась первая бета-версия Python 3.11, в которой есть несколько интересных функций: указание точного места возникновения ошибки (например, в какой части вычисления), добавление примечаний к объектам исключений, встроенная поддержка форматов toml библиотекой tomllib и многие другие более узкоиспользуемые функции. Вдобавок ко всему вышеперечисленному есть еще один плюс: в этой версии Python также стал в среднем на 22% быстрее. К октябрю, когда выйдет финальный релиз, он, возможно, станет работать еще быстрее. Ждете выход новой версии?

#weekly #дайджест
👍34🔥3
⬜️ Работа с .xlsx, .xls и .ods как к виртуальными таблицами в SQLite 🪄
Итак, перед вами новая удобная функция – XLite — расширение SQLite, написанное на языке программирования Rust. Основная его цель — организация работы с электронными таблицами Excel-like из SQLite, представляя их как виртуальные таблицы.

Как поставить?
cargo build --release

Как использовать?
sqlite3 # will open SQLite CLI
> .load libxlite


После этой команды расширение xlite загружено и теперь его можно использовать для создания виртуальных таблиц и любой работы с ними в рамках SQLite ✌️
👍23
💸 Как создать open-source SaaS с годовым регулярным доходом в 1 миллион долларов? 🥳
Однажды, в рамках нашей подборки альтернатив Google Analytics, мы рассказывали вам о классном open-source варианте Plausible. Недавно они достигли важного рубежа развития проекта: вышли на 1 миллион долларов годового регулярного дохода (ARR).

Plausible – полностью независимая, самофинансируемая команда из четырех человек. Несмотря на крайне небольшой размер команды, доверяют более 7 000 платных подписчиков, и они активно собирают статистику по более чем 50 000 веб-сайтов с более чем миллиардом просмотров страниц в месяц.

Недавно они подробно рассказали всю историю своего пути с 2018 года, когда они только начали разработку, до 2022, попутно раскрывая все секреты, цели и методы их достижения. Если вам интересно узнать, как создаются подобные продукты и что для этого нужно – рекомендую прочитать, если у вас есть свой бизнес в схожей отрасли, то крайне настоятельно рекомендую прочитать!

Если коротко, то ребята отлично структурировали развитие проекта, чтобы достичь первого ежемесячного регулярного дохода (MRR) в размере 400 долларов США (с платных подписок). Затем произошел новый виток развития, благодаря паре постов в блоге, которые привлекли много трафика. Затем потребовалось еще 19 месяцев, чтобы достичь ARR в размере 500 000 долларов США, и теперь, спустя восемь месяцев, они смогли достичь рубежа в 1 миллион долларов ARR 🎉

В общем, у ребят получилась весьма вдохновляющая (на качественную работу) история 💪
🔥29👍17
На связи Data Heroes и у нас приятные новости!

Как бы нам не было грустно это сообщать, первый сезон нашего подкаста подошел к концу. Хотя, чего это мы нагоняем тоску? Мы уже вовсю готовимся ко второму сезону, а также сегодня (по секрету) расскажем про дополнительный выпуск.
На протяжении всего первого сезона мы поднимали важные темы и делали это не занудно, но познавательно: вдоль и поперек обсудили все нюансы онлайн-курсов, релокацию IT-специалистов, незаменимость тайм-менеджмента и даже о психологические аспекты работы в IT. Если какая-то из этих тем сейчас встретилась вам впервые – очень рекомендуем наверстать! Вам понравилось путешествовать по Data-Вселенной вместе с нами? Оставляйте любую реакцию здесь или отзыв о подкасте на любой платформе, где он доступен, так мы точно будем знать, что все не напрасно 💫 

Спасибо всем, кто участвовал в наших выпусках и тем, кто давал обратную связь: только так мы можем становиться лучше и работать над ошибками!

Итак, для всех кто уже соскучился по нашему подкасту – бонусный эпизод: в нем мы будем говорить с эйчарами и рекрутерами об идеальном кандидате-аналитике и узнаем, являются ли онлайн-курсы плюсом или минусом в резюме 🤔

Мы уже ждем новой встречи с вами через месяц во втором сезоне подкаста Data Heroes. Пишите в комментариях, какие темы вам будут интересны, мы постараемся учесть ваши пожелания 😉

До встречи в новых эпизодах! 🦸

#подкаст #DataHeroes
🎉34🔥33👍21👏5
🗺 Google Street View: процесс создания 🌏
Думаю, каждый из вас хоть раз пользовался Google Street View. Возможно, вам было интересно отправиться в виртуальное путешествие в пандемию, изучить локацию предполагаемого дома или квартиры, или вам нужно было показать конкретный перекресток во время урока в автошколе (ох уж эта цифровизация!). В общем, способов применения несчетное множество.

🤔 Но как же эти данные собирались?
Данные состоят из 3 слоев: информация, полученнная со спутника, данные от организаций и ведомств, а также собрынные вручную данные. Самым интересным слоем является третий: при помощи специальных (весьма футуристичных) установок с углом обзора 360° происходит покадровая фиксация локации. Такие установки есть как для машин (с кучей оборудования и жеских дисков внутри), так и для пеших сотрудников (установка полегче, но все равно массивная). Именно благодаря портативным камерам мы можем посмотреть на виды с Мачу Пикчу или узких улочек, по которым машина проехать не может. Затем, конечно, все данные обрабатываются, люди попавшие в кадр блюрятся, а также проиводится точное соответствие между данными с двух других слоев и реальной сьемкой.

Подобные рассказы лучше всего дополняются визуальной составляющей, поэтому смотрите видео Wired про Google Street View и рассказывайте, для чего вам пригождался этот инструмент 📸
🔥13🤔4
📌 Диаграммы в Python ↩️

Это, конечно, дело вкуса и привычки, кому-то больше нравится создавать визуализации вручную. Но я, например, люблю решать с помощью кода любые задачи, которые таким способом можно решить (например, верстка статей или презентаций с помощью latex – улет, по крайней мере с точки зрения визуальной составляющей результата, про сам язык, конечно, этого не скажешь!).

Так вот, новый пакет diagrams для Python (который работает на базе graphviz) позволяет нарисовать архитектуру облачной системы в коде Python. Изначально, пакет был создан для создания прототипа новой или уже существующей системной архитектуры без каких-либо инструментов проектирования. В настоящее время Diagrams поддерживает такие инструменты как AWS, Azure, GCP, Kubernetes, Alibaba Cloud, Oracle Cloud, а также локальные узлы, SaaS и основные платформы и языки программирования.
На сайте примеры диаграмм, которые созданы с помощью этого пакета, как вам?
🔥27👍12😱12
🤷‍♂️ Что вам нужно знать о базах данных? 🗄
Некоторым аналитикам не сильно много известно о том, как работают базы данных. Это, конечно, опрометчиво, учитывая, что они хранят почти всю информацию с которой нужно ежедневно и (желательно) эффективно работать. Именно поэтому Юсуф Махди (автор классного блога Architecture Notes) решил разобрать основной принцип работы баз данных: индексация таблиц и почему вообще это важно. Если вы уже работаете с какими-то БД, то вам это наверняка отлично известно, но на всякий случай мы тезисно отметим самое важное.

🔢 Индексы..?
Индекс — это структура данных, которая помогает сократить время поиска нужной информации в БД. Индексы достигают этого за счет дополнительных затрат на хранение, память и поддержание их в актуальном состоянии, что позволяет нам пропустить утомительную задачу проверки каждой строки таблицы. Подобно указателю в конце учебника, он помогает вам попасть на нужную страницу.

🛠 А можно как-то без них обойтись?
Небольшие объемы данных поддаются ручной обработке (например, список посещаемости учеников класса), но когда они становятся больше (например, реестр рождений для большого города), они становятся менее управляемыми. Все, что раньше работало быстро, становится медленным-медленным-медленным и в итоге совершенно тормозит процессы. По мере роста системы собирают и хранят больше данных, что в конечном итоге приводит к описанной выше проблеме.

📈 В итоге, для работы с хоть сколько нибудь большими данными нужны индексы, которые помогают получить результаты запроса как можно быстрее.

Кстати, эта статья является первой в цикле статей "Things you should know about". Рассказывать вам о выходе следующих? 🤔
👍1009🔥6
🤔 Хотите стать частью команды Valiotti Analytics? 👨🏻‍💻
Наша команда не перестает расширяться и с каждым месяцем нам нужно все больше профессионалов своего дела. Поэтому, если вы хотели поработать вместе с нами, сегодня ваш шанс 🥳

На данный момент открыты две вакансии:
👨‍💻 DevOps Инженер
📕 Автор обучающего контента по SQL/Python

С нас все самое лучшее:
👯‍♂️ Крутейшая современная команда лучших и самых талантливых спецов своего дела
🇬🇧 Корпоративный английский язык (всегда актуально)
🛋 Удаленная работа и соответствующий стек инструментов

Оставляйте отклики на HH или отправляйте ваши резюме мне в телеграм @valiotti (не забудьте отметить на какую вакансию вы откликаетесь) 🚀
👍30
🥳 Краткий дайджест успехов коллег из индустрии 🚀

▪️ Продюсер небезызвестного Матемаркетинга, автор телеграм-канала Интернет-Аналитика Алексей Никушин устраивает конференцию Aha!'22 про эффективность и продуктовую аналитику маркетплейсов. Если эти темы кажутся вам интересными, ловите промокод 15% на участие в конференции – LEFTJOIN.

▪️ Андрей Демидов и Data Yoga выпустили книгу про визуализацию данных. Электронная версия книги бесплатна, так что знания и навыки, описанные в ней, может получить каждый, кто заполнит коротенькую анкету. В книге целых 282 страницы полезных советов, которые помогут с нуля создать и даже презентовать дашборд. Must read!

▪️ Никита Рокотян выпустил cosmograph.app – приложение для визуализации графов, которое позволяет изучать комплексные графы в режиме реального времени. Cosmograph — это веб-приложение, которое будет работать в вашем браузере и никуда не отправит ваши данные. Все расчеты будут производиться прямо на вашем графическом процессоре: чем он быстрее, тем лучше результат.

▪️ Рома Бунин достиг отметки в 10к канала Reveal The Data (поздравляем Рому!) и недавно выпустил классные мокапы дашбордов (делился выше). А еще они вместе с Таней Мисютиной запускают курс по визуализации данных на Яндекс.Практикуме.

▪️ Саша Бараков рассказывает про клевый проект для QlikView 🔝, дизайн которого просто невозможно не отметить! Он сделал корпоративный стайл-гайд здорового человека для QlikSense. Поскольку на базе Qlik куда реже создаются достойные дизайны, Саша решил окончательно и бесповоротно это исправить. У него получилось.

▪️ Наташа Киселева и Настя Кузнецова вновь активно пишут актуальные заметки про dataviz. Искренне recommended к посещению!
🔥27👍41
👍82🔥17🤔12👏4🤯2
👨🏻‍💻 Альтернатива SQL – Prequel 🗄
Буквально несколько дней назад случился финальный релиз PRQL — нового языка для преобразования данных. Мы уже говорили об этом, и, с моей точки зрения, сам подход вызывает вопросы, но в прошлый раз у нас получилась информативная дискуссия.

Что такое PRQL?
Вкратце, создатели заявляют, что это простая, мощная конвейерная замена SQL. Они заранее решили, что PRQL всегда будет open-source языком и никогда не будет иметь коммерческого продукта, так как подобные языки находятся глубоко в стеке данных и лучший шанс создать качественный и широко используемый язык — сделать его открытым.
Как и SQL, он удобочитаемый, явный и декларативный. Однако, в отличие от SQL, он формирует логический конвейер преобразований и поддерживает такие абстракции, как переменные и функции.

Что изменилось с последнего релиза?
В течение последних месяцев работы, создатели языка постепенно создавали компилятор, развивали язык и работали над интеграциями. На данный момент возможности использования PRQL сосредоточены на двух интеграциях:
◽️ dbt-prql позволяет писать PRQL в моделях dbt. Для этого нужно установить dbt-prql с помощью pip, и тогда любой текст между тегами {% prql %} и {% endprql %} будет скомпилирован из PRQL.
◽️ Jupyter позволяет писать на PRQL в Jupyter notebook или IPython repl с помощью %%prql. Помимо подключения к существующим БД, есть интеграция с DuckDB, которая позволяет обращаться к датафреймам pandas, файлам CSV и Parquet и записывать результат в новый датафрейм.
Помимо этих двух интеграций, очень легко добавить PRQL в другие приложения с помощью специальных привязок для Rust, Python и JS.

Что я думаю о PRQL?
Ребята, конечно же, молодцы, что развивают свой проект дальше! Наверное, это может стать достойной частью какого-то инструмента в будущем, однако для меня SQL существенно привычнее и удобнее для решения тех же задач.
👍37🔥1
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞

Планирование в этом нестабильном мире
Red Engine — это современная среда планирования для приложений на базе Python. Он предоставляет больше возможностей, чем Crontab и APScheduler, и его гораздо проще использовать, чем Airflow. К сожалению, Red Engine не может стать планировщиком корпоративных пайплайнов, в отличие от Airflow, но с легкостью подойдет для приложений Python.
Что заявляют разработчики?
У фреймворка есть мощный синтаксис планирования, есть возможности распараллеливания, параметризации и конвейеризации задач. Также, есть опция внесения изменений в сеанс даже во время выполнения.

🔫 Насколько внимательно вы играли в GTA?
Теперь слова "я играю в GTA с 15 лет" можно проверить на деле: в интернете появился тест, в котором вы должны угадть локацию из GTA на карте Los Santos. У теста есть 4 уровня сложности, кастомные опции (вроде добавления таймера), а также можно попробовать пройти его с друзьями и выяснить, кто играл внимательно, а кто нет.

🤔 Необычный клиент Slack для macOS
Если (ну вдруг) привычные возможности Slack вам наскучили и вы хотите чего-то большего – установите Shrugs.
Чем он отличается от классического клиента?
Во-первых, Shrugs.app не ограничен одним окном: открывайте столько основных окон для чатов или тредов, сколько хотите. Во-вторых, можно редактировать изображения и документы в самом приложении без необходимости использования других программ и последующих сохранения и отправки. Этих двух плюсов уже могло быть достаточно, чтобы попробовать, но есть еще 4 преимущества, о которых подробно рассказано на сайте приложения.

📚 Новая книга издательства O'Reilly об анализе данных
В формате open-access выходит третье издание книги "Python for Data Analysis". В печать она поступит позже, а пока что ее можно прочесть и дать фидбек авторам для улучшения текста и исключения ошибок.
Что в ней новенького?
Основное изменение – конечно, адаптация всех методов к новым версиям Python и pandas.

#weekly #дайджест
👍293
Идеальный кандидат на должность аналитика – какой он? Обсуждаем в бонусном эпизоде Data Heroes! 👾

Мы уже завершили первый сезон подкаста Data Heroes, но не могли же мы взять перерыв, не порадовав вас бонусным выпуском. Тем более, таким актуальным! 💥
В этом эпизоде говорим с теми, кто помогает компаниям найти классных специалистов - с первоклассными рекрутерами и эйчарами. Они поделятся с нами опытом найми аналитиков всех грейдов и областей. Вы узнаете, кто такой идеальный кандидат (и существует ли такой вообще), как правильно оформить резюме и что общего между онлайн-курсами в резюме и молотком? 🤯

Спикеры: Мария Бушаала, Зайнулина Калина, Анна Любимова, Сурен Погосян

Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Google, Yandex, Overcast, Mave, Castbox, Telegram (↓)

Дисклеймер: прошу прощения за мое качество записи в этом выпуске. В этот раз что-то пошло не так. В следующих эпизодах исправлюсь 🙂

#подкаст #DataHeroes
👍18🔥5
Audio
👍20
LEFT JOIN pinned a photo
🤓 Автоматическая верстка документов и презентаций, о которой многие уже знают 📝
Рискую побыть капитаном очевидность, но фидбек в личке показал, что не все знают про этот классный сервис: Overleaf. Дело в том, что чаще всего знакомство с ним происходит в академической среде: преподаватели вузов иногда просят присылать отчеты проектов или презентации, созданные в LaTeX. Однако, этот способ подачи информации полезен и за пределами университетской жизни.

📚 Что за сервис?
Это веб-сервис, который предоставляет возможность быстро (особенно, если вы знаете базовый синтаксис LaTeX) сверстать информацию в слайды презентации, отчет или даже статью для научного журнала с помощью кода без ручного выбора шрифтов и размещения объектов. Все более чем просто: есть множество how-to гайдов и обучающих видео, которые помогают разобраться в начале работы, а затем (спустя 1-2 проекта) Overleaf может значительно ускорить оформление результата вашей работы: рабочих или учебных проектов.

🤔 Дайте знать, если вы никогда раньше о нем не слышали!
🔥 Или вы уже продвинутый пользователь?
🤔67👍13🔥12