LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
На связи Data Heroes и мы ищем спикеров! 📢

Если вы HR или IT-рекрутер с опытом найма аналитиков — приглашаем вас поучаствовать в подкасте! 🔥
Отклики присылайте моей коллеге @Milanchezaa в личном сообщении.

Будем рады новым героям! Все подробно объясним, расскажем и покажем 👾
🔥15👍1
🛠 SQL запросы и ни строчки кода вручную 🗄
Сейчас многие IT-компании нацелены на то, чтобы автоматизировать простые процессы и облегчить жизнь сотрудникам отрасли. Например, недавно мы вам рассказывали про библиотеку, которая позволяет работать с таблицами в Python без знания кода.
Сегодня на повестке дня похожий инструмент, который недавно запустила компания Rasgo: SQL Generator. Это браузерный инструмент, который позволяет любому человеку (особенно тем, у кого нет опыта работы с SQL) создавать сложные SQL-запросы, не написав ни строчки кода. Создатели продукта постарались и теперь генератор может написать за вас нужный SQL-запрос и сэкономит драгоценное время, которое можно использовать для более нетривиальных задач.
Если вы хотите больше обзорных постов про современные инструменты, то оставляйте реакцию, а если вам хочется узнать больше именно про SQL Generator, то есть гайд по его использованию 🚀
🔥42👍5👏2🤔1
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞
📖 Подробный гайд по кластеризации
Школа анализа данных (ШАД) написали отличную и весьма подробную практическую главу в рамках учебника по ML. Крайне приятно, что погузиться в тему можно даже тем, кто никогда не слышал о кластеризации раньше, ведь все термины вводятся и объясняются постепенно, а также гайд полон визуализаций. В нем разобраны самые современные методы: метод К-средних, DBSCAN и другие. Большое спасибо автору, ждем новых глав!

🙊 DALL-E Mini нашли неожиданное применение: генератор мемов
В начале июня в соцсетях «завирусился» сервис DALL-E Mini: первая версия нейросети от OpenAI, доступная всем пользователям. В результате любого запроса сервис генерирует коллаж из 9 наиболее релевантны изображений и... получается довольно забавно, а иногда и крипово. Этим воспользовался один из пользователей, который в итоге завел отдельную страницу в Twitter и раздел в Reddit, где начал собирать созданные DALL-E Mini изображения.
В ленте твиттера вы можете увидеть коллажи и текст запроса, которые не иначе кроме как "мем" зачастую и не назовешь))

🚫 Современные трудности и способ их преодоления
Ребята из iPhones нашли способ установки удаленных из AppStore приложений (Альфа-Банк, Сбербанк Онлайн и другие), который может помочь установить их на новый телефон, если есть такая необходимость. Важных условий всего два: нужно установить программу iMazing (бесплатного демо-периода будет вполне достаточно), а также приложение, которое вам нужно, должно было быть уже загружено раньше под вашей учетной записью. Пишите в комментариях, если проверяли этот способ или знаете какие-то другие!

👾 Что нового появится в Python 3.11?
Недавно появилась первая бета-версия Python 3.11, в которой есть несколько интересных функций: указание точного места возникновения ошибки (например, в какой части вычисления), добавление примечаний к объектам исключений, встроенная поддержка форматов toml библиотекой tomllib и многие другие более узкоиспользуемые функции. Вдобавок ко всему вышеперечисленному есть еще один плюс: в этой версии Python также стал в среднем на 22% быстрее. К октябрю, когда выйдет финальный релиз, он, возможно, станет работать еще быстрее. Ждете выход новой версии?

#weekly #дайджест
👍34🔥3
⬜️ Работа с .xlsx, .xls и .ods как к виртуальными таблицами в SQLite 🪄
Итак, перед вами новая удобная функция – XLite — расширение SQLite, написанное на языке программирования Rust. Основная его цель — организация работы с электронными таблицами Excel-like из SQLite, представляя их как виртуальные таблицы.

Как поставить?
cargo build --release

Как использовать?
sqlite3 # will open SQLite CLI
> .load libxlite


После этой команды расширение xlite загружено и теперь его можно использовать для создания виртуальных таблиц и любой работы с ними в рамках SQLite ✌️
👍23
💸 Как создать open-source SaaS с годовым регулярным доходом в 1 миллион долларов? 🥳
Однажды, в рамках нашей подборки альтернатив Google Analytics, мы рассказывали вам о классном open-source варианте Plausible. Недавно они достигли важного рубежа развития проекта: вышли на 1 миллион долларов годового регулярного дохода (ARR).

Plausible – полностью независимая, самофинансируемая команда из четырех человек. Несмотря на крайне небольшой размер команды, доверяют более 7 000 платных подписчиков, и они активно собирают статистику по более чем 50 000 веб-сайтов с более чем миллиардом просмотров страниц в месяц.

Недавно они подробно рассказали всю историю своего пути с 2018 года, когда они только начали разработку, до 2022, попутно раскрывая все секреты, цели и методы их достижения. Если вам интересно узнать, как создаются подобные продукты и что для этого нужно – рекомендую прочитать, если у вас есть свой бизнес в схожей отрасли, то крайне настоятельно рекомендую прочитать!

Если коротко, то ребята отлично структурировали развитие проекта, чтобы достичь первого ежемесячного регулярного дохода (MRR) в размере 400 долларов США (с платных подписок). Затем произошел новый виток развития, благодаря паре постов в блоге, которые привлекли много трафика. Затем потребовалось еще 19 месяцев, чтобы достичь ARR в размере 500 000 долларов США, и теперь, спустя восемь месяцев, они смогли достичь рубежа в 1 миллион долларов ARR 🎉

В общем, у ребят получилась весьма вдохновляющая (на качественную работу) история 💪
🔥29👍17
На связи Data Heroes и у нас приятные новости!

Как бы нам не было грустно это сообщать, первый сезон нашего подкаста подошел к концу. Хотя, чего это мы нагоняем тоску? Мы уже вовсю готовимся ко второму сезону, а также сегодня (по секрету) расскажем про дополнительный выпуск.
На протяжении всего первого сезона мы поднимали важные темы и делали это не занудно, но познавательно: вдоль и поперек обсудили все нюансы онлайн-курсов, релокацию IT-специалистов, незаменимость тайм-менеджмента и даже о психологические аспекты работы в IT. Если какая-то из этих тем сейчас встретилась вам впервые – очень рекомендуем наверстать! Вам понравилось путешествовать по Data-Вселенной вместе с нами? Оставляйте любую реакцию здесь или отзыв о подкасте на любой платформе, где он доступен, так мы точно будем знать, что все не напрасно 💫 

Спасибо всем, кто участвовал в наших выпусках и тем, кто давал обратную связь: только так мы можем становиться лучше и работать над ошибками!

Итак, для всех кто уже соскучился по нашему подкасту – бонусный эпизод: в нем мы будем говорить с эйчарами и рекрутерами об идеальном кандидате-аналитике и узнаем, являются ли онлайн-курсы плюсом или минусом в резюме 🤔

Мы уже ждем новой встречи с вами через месяц во втором сезоне подкаста Data Heroes. Пишите в комментариях, какие темы вам будут интересны, мы постараемся учесть ваши пожелания 😉

До встречи в новых эпизодах! 🦸

#подкаст #DataHeroes
🎉34🔥33👍21👏5
🗺 Google Street View: процесс создания 🌏
Думаю, каждый из вас хоть раз пользовался Google Street View. Возможно, вам было интересно отправиться в виртуальное путешествие в пандемию, изучить локацию предполагаемого дома или квартиры, или вам нужно было показать конкретный перекресток во время урока в автошколе (ох уж эта цифровизация!). В общем, способов применения несчетное множество.

🤔 Но как же эти данные собирались?
Данные состоят из 3 слоев: информация, полученнная со спутника, данные от организаций и ведомств, а также собрынные вручную данные. Самым интересным слоем является третий: при помощи специальных (весьма футуристичных) установок с углом обзора 360° происходит покадровая фиксация локации. Такие установки есть как для машин (с кучей оборудования и жеских дисков внутри), так и для пеших сотрудников (установка полегче, но все равно массивная). Именно благодаря портативным камерам мы можем посмотреть на виды с Мачу Пикчу или узких улочек, по которым машина проехать не может. Затем, конечно, все данные обрабатываются, люди попавшие в кадр блюрятся, а также проиводится точное соответствие между данными с двух других слоев и реальной сьемкой.

Подобные рассказы лучше всего дополняются визуальной составляющей, поэтому смотрите видео Wired про Google Street View и рассказывайте, для чего вам пригождался этот инструмент 📸
🔥13🤔4
📌 Диаграммы в Python ↩️

Это, конечно, дело вкуса и привычки, кому-то больше нравится создавать визуализации вручную. Но я, например, люблю решать с помощью кода любые задачи, которые таким способом можно решить (например, верстка статей или презентаций с помощью latex – улет, по крайней мере с точки зрения визуальной составляющей результата, про сам язык, конечно, этого не скажешь!).

Так вот, новый пакет diagrams для Python (который работает на базе graphviz) позволяет нарисовать архитектуру облачной системы в коде Python. Изначально, пакет был создан для создания прототипа новой или уже существующей системной архитектуры без каких-либо инструментов проектирования. В настоящее время Diagrams поддерживает такие инструменты как AWS, Azure, GCP, Kubernetes, Alibaba Cloud, Oracle Cloud, а также локальные узлы, SaaS и основные платформы и языки программирования.
На сайте примеры диаграмм, которые созданы с помощью этого пакета, как вам?
🔥27👍12😱12
🤷‍♂️ Что вам нужно знать о базах данных? 🗄
Некоторым аналитикам не сильно много известно о том, как работают базы данных. Это, конечно, опрометчиво, учитывая, что они хранят почти всю информацию с которой нужно ежедневно и (желательно) эффективно работать. Именно поэтому Юсуф Махди (автор классного блога Architecture Notes) решил разобрать основной принцип работы баз данных: индексация таблиц и почему вообще это важно. Если вы уже работаете с какими-то БД, то вам это наверняка отлично известно, но на всякий случай мы тезисно отметим самое важное.

🔢 Индексы..?
Индекс — это структура данных, которая помогает сократить время поиска нужной информации в БД. Индексы достигают этого за счет дополнительных затрат на хранение, память и поддержание их в актуальном состоянии, что позволяет нам пропустить утомительную задачу проверки каждой строки таблицы. Подобно указателю в конце учебника, он помогает вам попасть на нужную страницу.

🛠 А можно как-то без них обойтись?
Небольшие объемы данных поддаются ручной обработке (например, список посещаемости учеников класса), но когда они становятся больше (например, реестр рождений для большого города), они становятся менее управляемыми. Все, что раньше работало быстро, становится медленным-медленным-медленным и в итоге совершенно тормозит процессы. По мере роста системы собирают и хранят больше данных, что в конечном итоге приводит к описанной выше проблеме.

📈 В итоге, для работы с хоть сколько нибудь большими данными нужны индексы, которые помогают получить результаты запроса как можно быстрее.

Кстати, эта статья является первой в цикле статей "Things you should know about". Рассказывать вам о выходе следующих? 🤔
👍1009🔥6
🤔 Хотите стать частью команды Valiotti Analytics? 👨🏻‍💻
Наша команда не перестает расширяться и с каждым месяцем нам нужно все больше профессионалов своего дела. Поэтому, если вы хотели поработать вместе с нами, сегодня ваш шанс 🥳

На данный момент открыты две вакансии:
👨‍💻 DevOps Инженер
📕 Автор обучающего контента по SQL/Python

С нас все самое лучшее:
👯‍♂️ Крутейшая современная команда лучших и самых талантливых спецов своего дела
🇬🇧 Корпоративный английский язык (всегда актуально)
🛋 Удаленная работа и соответствующий стек инструментов

Оставляйте отклики на HH или отправляйте ваши резюме мне в телеграм @valiotti (не забудьте отметить на какую вакансию вы откликаетесь) 🚀
👍30
🥳 Краткий дайджест успехов коллег из индустрии 🚀

▪️ Продюсер небезызвестного Матемаркетинга, автор телеграм-канала Интернет-Аналитика Алексей Никушин устраивает конференцию Aha!'22 про эффективность и продуктовую аналитику маркетплейсов. Если эти темы кажутся вам интересными, ловите промокод 15% на участие в конференции – LEFTJOIN.

▪️ Андрей Демидов и Data Yoga выпустили книгу про визуализацию данных. Электронная версия книги бесплатна, так что знания и навыки, описанные в ней, может получить каждый, кто заполнит коротенькую анкету. В книге целых 282 страницы полезных советов, которые помогут с нуля создать и даже презентовать дашборд. Must read!

▪️ Никита Рокотян выпустил cosmograph.app – приложение для визуализации графов, которое позволяет изучать комплексные графы в режиме реального времени. Cosmograph — это веб-приложение, которое будет работать в вашем браузере и никуда не отправит ваши данные. Все расчеты будут производиться прямо на вашем графическом процессоре: чем он быстрее, тем лучше результат.

▪️ Рома Бунин достиг отметки в 10к канала Reveal The Data (поздравляем Рому!) и недавно выпустил классные мокапы дашбордов (делился выше). А еще они вместе с Таней Мисютиной запускают курс по визуализации данных на Яндекс.Практикуме.

▪️ Саша Бараков рассказывает про клевый проект для QlikView 🔝, дизайн которого просто невозможно не отметить! Он сделал корпоративный стайл-гайд здорового человека для QlikSense. Поскольку на базе Qlik куда реже создаются достойные дизайны, Саша решил окончательно и бесповоротно это исправить. У него получилось.

▪️ Наташа Киселева и Настя Кузнецова вновь активно пишут актуальные заметки про dataviz. Искренне recommended к посещению!
🔥27👍41
👍82🔥17🤔12👏4🤯2
👨🏻‍💻 Альтернатива SQL – Prequel 🗄
Буквально несколько дней назад случился финальный релиз PRQL — нового языка для преобразования данных. Мы уже говорили об этом, и, с моей точки зрения, сам подход вызывает вопросы, но в прошлый раз у нас получилась информативная дискуссия.

Что такое PRQL?
Вкратце, создатели заявляют, что это простая, мощная конвейерная замена SQL. Они заранее решили, что PRQL всегда будет open-source языком и никогда не будет иметь коммерческого продукта, так как подобные языки находятся глубоко в стеке данных и лучший шанс создать качественный и широко используемый язык — сделать его открытым.
Как и SQL, он удобочитаемый, явный и декларативный. Однако, в отличие от SQL, он формирует логический конвейер преобразований и поддерживает такие абстракции, как переменные и функции.

Что изменилось с последнего релиза?
В течение последних месяцев работы, создатели языка постепенно создавали компилятор, развивали язык и работали над интеграциями. На данный момент возможности использования PRQL сосредоточены на двух интеграциях:
◽️ dbt-prql позволяет писать PRQL в моделях dbt. Для этого нужно установить dbt-prql с помощью pip, и тогда любой текст между тегами {% prql %} и {% endprql %} будет скомпилирован из PRQL.
◽️ Jupyter позволяет писать на PRQL в Jupyter notebook или IPython repl с помощью %%prql. Помимо подключения к существующим БД, есть интеграция с DuckDB, которая позволяет обращаться к датафреймам pandas, файлам CSV и Parquet и записывать результат в новый датафрейм.
Помимо этих двух интеграций, очень легко добавить PRQL в другие приложения с помощью специальных привязок для Rust, Python и JS.

Что я думаю о PRQL?
Ребята, конечно же, молодцы, что развивают свой проект дальше! Наверное, это может стать достойной частью какого-то инструмента в будущем, однако для меня SQL существенно привычнее и удобнее для решения тех же задач.
👍37🔥1
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞

Планирование в этом нестабильном мире
Red Engine — это современная среда планирования для приложений на базе Python. Он предоставляет больше возможностей, чем Crontab и APScheduler, и его гораздо проще использовать, чем Airflow. К сожалению, Red Engine не может стать планировщиком корпоративных пайплайнов, в отличие от Airflow, но с легкостью подойдет для приложений Python.
Что заявляют разработчики?
У фреймворка есть мощный синтаксис планирования, есть возможности распараллеливания, параметризации и конвейеризации задач. Также, есть опция внесения изменений в сеанс даже во время выполнения.

🔫 Насколько внимательно вы играли в GTA?
Теперь слова "я играю в GTA с 15 лет" можно проверить на деле: в интернете появился тест, в котором вы должны угадть локацию из GTA на карте Los Santos. У теста есть 4 уровня сложности, кастомные опции (вроде добавления таймера), а также можно попробовать пройти его с друзьями и выяснить, кто играл внимательно, а кто нет.

🤔 Необычный клиент Slack для macOS
Если (ну вдруг) привычные возможности Slack вам наскучили и вы хотите чего-то большего – установите Shrugs.
Чем он отличается от классического клиента?
Во-первых, Shrugs.app не ограничен одним окном: открывайте столько основных окон для чатов или тредов, сколько хотите. Во-вторых, можно редактировать изображения и документы в самом приложении без необходимости использования других программ и последующих сохранения и отправки. Этих двух плюсов уже могло быть достаточно, чтобы попробовать, но есть еще 4 преимущества, о которых подробно рассказано на сайте приложения.

📚 Новая книга издательства O'Reilly об анализе данных
В формате open-access выходит третье издание книги "Python for Data Analysis". В печать она поступит позже, а пока что ее можно прочесть и дать фидбек авторам для улучшения текста и исключения ошибок.
Что в ней новенького?
Основное изменение – конечно, адаптация всех методов к новым версиям Python и pandas.

#weekly #дайджест
👍293
Идеальный кандидат на должность аналитика – какой он? Обсуждаем в бонусном эпизоде Data Heroes! 👾

Мы уже завершили первый сезон подкаста Data Heroes, но не могли же мы взять перерыв, не порадовав вас бонусным выпуском. Тем более, таким актуальным! 💥
В этом эпизоде говорим с теми, кто помогает компаниям найти классных специалистов - с первоклассными рекрутерами и эйчарами. Они поделятся с нами опытом найми аналитиков всех грейдов и областей. Вы узнаете, кто такой идеальный кандидат (и существует ли такой вообще), как правильно оформить резюме и что общего между онлайн-курсами в резюме и молотком? 🤯

Спикеры: Мария Бушаала, Зайнулина Калина, Анна Любимова, Сурен Погосян

Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Google, Yandex, Overcast, Mave, Castbox, Telegram (↓)

Дисклеймер: прошу прощения за мое качество записи в этом выпуске. В этот раз что-то пошло не так. В следующих эпизодах исправлюсь 🙂

#подкаст #DataHeroes
👍18🔥5
Audio
👍20
LEFT JOIN pinned a photo
🤓 Автоматическая верстка документов и презентаций, о которой многие уже знают 📝
Рискую побыть капитаном очевидность, но фидбек в личке показал, что не все знают про этот классный сервис: Overleaf. Дело в том, что чаще всего знакомство с ним происходит в академической среде: преподаватели вузов иногда просят присылать отчеты проектов или презентации, созданные в LaTeX. Однако, этот способ подачи информации полезен и за пределами университетской жизни.

📚 Что за сервис?
Это веб-сервис, который предоставляет возможность быстро (особенно, если вы знаете базовый синтаксис LaTeX) сверстать информацию в слайды презентации, отчет или даже статью для научного журнала с помощью кода без ручного выбора шрифтов и размещения объектов. Все более чем просто: есть множество how-to гайдов и обучающих видео, которые помогают разобраться в начале работы, а затем (спустя 1-2 проекта) Overleaf может значительно ускорить оформление результата вашей работы: рабочих или учебных проектов.

🤔 Дайте знать, если вы никогда раньше о нем не слышали!
🔥 Или вы уже продвинутый пользователь?
🤔67👍13🔥12
📕 Срочно рассказываем вам про Overleaf 💻
В недавнем посте я с удивлением обнаружил, что немногие из вас знают про Overleaf и, если честно, был удивлен, поскольку сейчас любые учебные проекты мне нужно оформлять в LaTeX. Немного поразмыслив, я вспомнил, что до учебы в GT я и сам им нечасто пользовался, поэтому удивление прошло. А желание рассказать вам о нем подробнее осталось!

Что это такое?
Overleaf – это веб-сервис, который позволяет создавать любые документы с помощью LaTeX. Он позволяет удобно прописывать математические (и не только) формулы, выделять заголовки, менять шрифты, добавлять изображения и выбирать расположение элемента в документе без ручной подгонки. Изначально пользоваться Overleaf, конечно, сложнее чем Microsoft Word или PowerPoint, однако спустя несколько проектов он начнет экономить вам кучу времени.

🤓 Очевидные плюсы:
* Мгновенная компиляция документа: пишете код в левой части, запускаете компиляцию и сразу видите, как будет выглядеть исходный документ в левой части документа
* Доступ к проекту через веб-ресурс, поэтому поправить документ можно с любого устройства в любой момент
* (Платная) возможность работать с документом совместно и оставлять комментарии, так как все правки отображаются в режиме реального времени (как в Google Docs)
* Нет необходимости устанавливать LaTeX, поскольку вся компиляция происходит в самом Overleaf
* Можно отслеживать изменения в документе, откатываться к предыдущей версии при необходимости

📝 Что можно делать с его помощью?
* Учебные проекты и презентации (например, курсовые и ВКР можно оформить очень быстро с помощью пакета Beamer, так как там есть все нужные функции: списки, акценты, вставка изображения или таблицы, титульный лист)
* Научные статьи сразу под требования журнала (у многих научных журналов есть свои шаблоны, в которых легко разместить текст и не заморачиваться с ручной версткой глав, колонок и прочего)

👉 Зачем он (скорее всего) пригодится вам?
Если предыдущие два пункта пригодятся по большей части студентам и научным сотрудникам, то этот пригодится всем: можно оформить красивое резюме международного формата.
Даже если вы не соираетесь устраиваться в зарубежные компании, оригинальное оформление резюме при внутреннем поиске работы – однозначный плюс для соискателя, ведь на HH заполнить шаблон может каждый, но не каждый может выполнить это как-то иначе.
Существует целая галерея разных шаблонов, но я советую этот – простой и лаконичный, вся информация о вас на одном листе А4 – радость для любого работодателя!
👍49🔥24👏172🥰2
🔢 Ранжирование файлов в проекте
Сегодняшняя новость будет актуальна по большей части разработчикам, однако, я не мог не поделиться ей. Коротко рассказываю о новой библиотеке Deprank (ничего общего с пранками она не имеет, к сожалению): используя алгоритм PageRank эта библиотека позволяет найти наиболее значимые файлы в вашем проекте. В процессе ранжирования изучаются ссылки на другие файлы кода, импорт библиотек и так далее.
Deprank использует dependency-cruiser для построения графа зависимостей ваших исходных файлов, а затем ранжирует их в зависимости от их важности.
Интересно, много ли среди подписчиков LeftJoin разработчиков или за каналом следят по большей части аналитики данных?
Оставляйте такую реакцию 🐳, если вы разработчик!
🐳29👍16🤔1
🙉 Личные данные пользователей в сети. Снова?! 🙅‍♂️
Вчера мы выяснили, что разработчиков среди подписчиков нашего канала не так уж и много. Поэтому сегодня расширим тематику и расскажем о новости, которая мало кого может оставить безучастной.
Казалось бы, современные технологии должны качественно защищать личные данные, однако, что-то всегда идет не так. Итак, есть предобученная модель GPT-3, которая обучалась на корпусе данных доступных в сети Интернет. В интернете, естественно, есть имена и фамилии людей и их логины. И вот мы подходим к важной и неприятной правде: в нейронной сети есть прочные связи между логином пользователя и его именем и фамилией. Поэтому, когда кто-то начинает генерить текст, используя в качестве ключевого слова логин, то в результате выдается полноценная информация о пользователе, которая может попасть отнюдь не в самые добрые руки.
👍15🔥14😱11