LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
А вы знаете, что произошло в начале 2024?
Конечно, на этот вопрос можно дать несколько разных ответов, но нас интересует одно из самых крупных изменений в Polars — изменение структуры данных для строк.

Почему вспоминаем про это сейчас?
Потому что это все еще интересно — статья рассказывает про тонкости работы Polars, про которые кто-то может и не задумывался.

В чем суть?
Изначально Polars следовали спецификации Apache Arrow, но решили отойти от этого формата, чтобы улучшить производительность.

В Apache Arrow данные строкового типа «проходят» через три буфера: буфер валидности, общий буфер data и дополнительный буфер с оффсетами для определения начала и окончания каждой строки. Такой формат обеспечивал компактность, но у него были и недостатки:
🔵Сложно заранее определить, сколько памяти надо выделить под строки,
🔵Операции gather и filter начинали тормозить при работе с длинными строками.

Это и подтолкнуло к переходу на формат, который используется в Hyper/Umbra. Здесь строки хранятся в «представлениях» — колонках фиксированной ширины по 16 байт. Короткие строки до 12 байт встраиваются напрямую, длинные — в отдельный буфер. В оригинале статьи есть наглядные схемы, как это работает.

Новый подход обеспечивал быстрый доступ к коротким строкам, поддержку интернирования для длинных, стабильное время выполнения операций filter и gather и вообще в целом оказался удобнее. Минусы у него тоже были — например, пришлось пожертвовать компактностью в пользу скорости обработки данных.

🔜 Но все было не зря — судя по бенчмаркам в конце статьи, переход на новый формат дал значительный прирост производительности, особенно при работе с «тяжелыми» строками.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍311🔥1😍1
Когда BI — это не просто отчеты, а полезный инструмент для бизнеса
Во многих компаниях аналитика ограничивается созданием пачки дашбордов, которые существуют как будто просто для красоты. Они есть, пользователи в них иногда задумчиво смотрят, но для принятия решений все так же используют интуицию, а не данные.

Зато когда BI-стратегия выстроена правильно, она становится частью управленческой системы: помогает расставлять приоритеты и контролировать результаты. Но чтобы к этому прийти, понадобится не только знание инструментов, но и стратегический взгляд и понимание потребностей бизнеса.

🔜 Как подружить все эти вещи и внедрить BI в рабочие процессы рассказывает BI-эксперт Александр Бараков на курсе «Разработка BI-стратегии». Он пройдет онлайн с 18 июня по 11 июля 2025 года.

За 11 встреч участники узнают как выявить те самые потребности бизнеса, сформировать BI-стратегию и воплотить ее в жизнь, собрать BI-команду и оценить эффективность всей этой деятельности. А в конце даже соберут макет BI-стратегии для своей компании.

Курс рассчитан на тех, кто руководит BI-направлением и развивает аналитику в компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍1
«Аналитика для руководителей» уже в продаже!
Купить книгу Николая Валиотти вы можете на Литрес, Ozon, WIldeberries, Book24 и в Читай-городе. Все ссылки собрали здесь.

Мы много говорим про то, как важно аналитикам уметь понимать требования и запросы бизнеса, но не менее важно и бизнесу понимать, как работать с аналитикой:
🔵Как она работает и какую пользу может принести?
🔵Из чего состоит система аналитики и зачем нужен каждый из ее компонентов?
🔵Чем занимаются разные специалисты в дата-команде?
🔵Что вообще такое «решения на основе данных» и как их принимать?

Про все это и рассказывает «Аналитика для руководителей» — понятым языком и с наглядными примерами из практики. Она рассчитана на бизнес-пользователей, продактов, маркетологов и руководителей разного уровня, которые каждый день работают с цифрами и данными и хотят научиться делать это еще эффективнее.

А вы уже купили «Аналитику для руководителей»?
❤️ — Да!
🌚 — Еще нет…
Please open Telegram to view this post
VIEW IN TELEGRAM
28🌚21🔥9👍4🙈2
Что объединяет аналитиков, продактов, CPO, CDO и ML-разработчиков?
Aha!25 — конференция про то, как решать продуктовые задачи с помощью ML, аналитики и data-driven подхода.

2 дня, 16 тематических потоков, более 1200 участников и доклады от практиков из Яндекса, Авито, OZON, Т-Банка, Альфа-Банка, а также исследователей из ИТМО, РЭШ, МФТИ и других научных центров. На Aha!25 обсудят актуальные вопросы, над которыми многие задумываются, но не все находят ответ.

• Что делать, когда A/B-тест дает противоречивые результаты?
• Как проводить эксперименты и трактовать результаты?
• Как встраивать ML и ИИ в продукты с пользой для дела — а как это делать точно не надо?
• Как поведенческая экономика помогает принимать решения и развивать продукт?

👀 Программа доступна по ссылке. Знакомьтесь, и если увидите что-то интересное — регистрируйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93👌2🔥1
От запроса до результата: как работает SQL-движок
SQL-движок — это логический уровень между пользователем и данными в базе, который отвечает за обработку запроса и формирование результата. Но как он это делает?

Один из авторов проекта Dolt (как его описывают сами разработчики — БД, которая работает, как репозиторий на GitHub) написал целую статью про опыт работы с их движком go-mysql-server. Хотя акцент именно на этот движок, он также рассказывает про разные подходы и принципы работы SQL-движков в целом.

Если кратко:
🔵Выполнение запроса можно разделить на 7 шагов — парсинг, привязка к данным в БД, упрощение плана выполнения, оптимизация порядка выполнения джойнов, оценка эффективности плана, выполнение, вывод результатов.
🔵Сначала движок проверяет корректность запроса. Он формирует абстрактное синтаксическое дерево на этапе парсинга, а затем сопоставляет его с данными в базе.
🔵Если запрос был составлен правильно, то движок начинает формировать оптимальный план работы — наиболее быстрый и требующий минимально необходимое количество ресурсов, с учетом всех функций, джойнов и агрегаций. Для этого он старается как можно скорее «отбросить» все строки и колонки, которые не нужны в запросе, а также просчитывает разные варианты выполнения и выбирает самый быстрый.
🔵В конце концов, движок конвертирует выбранный план в исполняемый формат и выдает юзеру долгожданный результат.

Автор каждый пункт разбирает подробно — как движок парсит запрос, с какими сущностями в БД сопоставляет на стадии привязки и как подбирает оптимальный способ выполнения запроса, еще и с картинками. В общем, почитать любопытно, даже если с Dolt работать не планируете.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍632
DataLens открывает галерею дашбордов и не только
Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?

Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.

Кроме того, DataLens запускает:
🔵Editor JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.
🔵Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.
🔵Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3273👍1
This media is not supported in your browser
VIEW IN TELEGRAM
"Нашу маму и там, и тут показывают" — LEFT JOIN на Aha!25

Пусть в этом году команда LEFT JOIN не смогла присоединиться к конференции физически, мы все равно не могли это пропустить.

Передаем привет и желаем послушать как можно больше крутых выступлений — а перерывах поймать наше видео на экранах в фойе "Ломоносова"!
15👍103🔥1
Быстрее, выше, сильнее: что нового у dbt
28 мая dbt провела Launch Showcase, где представила сразу несколько крупных изменений.
🔵dbt Fusion — новый движок, который будет в 30 раз быстрее старого. Он сможет проверять правильность SQL-запроса и выдавать подсказки с учетом контекста, а также на 10% (а то и больше!) снизить расходы на хранение данных.
🔵Расширение dbt VS Code — чтобы все новые фичи dbt стали доступны и в VS Code.
🔵dbt MCP Server — инструмент для интеграции LLM в проекты в dbt.
🔵dbt Canvas, dbt Insights и dbt Catalog (бывший dbt Explorer) — инструменты для аналитиков, которые сделают удобнее и проще работу с данными. В Canvas можно будет простым drag-and-drop строить и редактировать модели. С помощью Insights (который понимает как SQL, так и запросы на естественном языке) — исследовать данные, искать инсайты и проверять гипотезы. В обновленном Catalog пользователи смогут просматривать таблицы и представления в Snowflake. Поддержку остальных хранилищ тоже обещают подвезти, но попозже.

Как вам такие новости?
👀 Впечатлены?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124🌚3
Много ли пользы от ИИ в науке?
ChatGPT и генерация картинок в духе «советские плакаты в стиле Ghibli» — это не предел возможностей современного ИИ, который активно применяется в науке. Один из самых известных примеров (но далеко не единственный) — это AlphaFold, ИИ, предсказывающий пространственные структуры белков.

Надежд на ИИ много, но вот насколько он оправдывает ожидания?
🔜 Физик Ник МакГрейви решил использовать ИИ для решения дифференциальных уравнений в частных производных. Изначально он к этой идее относился с большим энтузиазмом, но быстро разочаровался — нейросети оказались ненадежным инструментом с нестабильными и недостоверными результатами.

Разочаровали и статьи коллег об использовании ИИ в этой сфере. Да, в них много писали о том, что с помощью нейросетей уравнения решаются в миллионы раз быстрее, чем стандартными методами, но Ник на своем опыте это подтвердить не смог.
🔵Оказалось, что авторы научных работ часто сравнивали эффективность ИИ с устаревшими вычислительными методами. По сравнению с более современными подходами нейросети зачастую давали незначительное преимущество или вообще справлялись хуже.
🔵Ник не единственный, кто обратил внимание на проблемы с воспроизводимостью результатов ИИ. Уже есть целый список научных публикаций, данные в которых оказались недостоверными и неточными из-за утечек данных при обучении ML-моделей.
🔵Еще один пример — из портфолио DeepMind, которые и разработали знаменитый AlphaFold. Они заявили, что другой ИИ-инструмент, GNoME открыл миллионы новых кристаллических структур. Но когда часть этих структур проанализировали ученые, они обнаружили, что большинство из них ценности не имеют.
🔵Трезво оценить возможности ИИ не дает еще и ошибка выжившего — исследования, где он не помог добиться желаемого, часто не доходят до публикации.

То есть это все хайп и маркетинг, а ИИ для науки бесполезен?
Конечно, нет — польза от ИИ есть и, скорее всего, будет расти. Но на его достижения надо смотреть трезво и не вестись на громкие заголовки в прессе. И, как оказалось, даже серьезные научные публикации на эту тему стоит воспринимать со здоровым скепсисом.

А что вы думаете про ИИ в науке?
❤️ — Верю, что за ним будущее
🙈 — Сомневаюсь, что от него на самом деле будет много пользы…
Please open Telegram to view this post
VIEW IN TELEGRAM
23🙈15👍2🔥1
Звездное небо на дашборде
Иногда полезно отвлечься от работы, SQL и графиков и посмотреть на звезды — пусть даже на очередном Viz of the Day из архивов Tableau Public.

Stargazer's Map — интерактивная карта звездного неба. Можно настроить отображение созвездий или показать настоящие цвета звезд, а помощью отдельного ползунка подкрутить время, чтобы увидеть, как двигаются звезды по небосклону в течение суток.

Красиво?
❤️ — Красиво!
🌚 — Можно и покрасивее
62🌚4👍2🥰1
Неуверенный калькулятор
Было бы здорово, если бы все в этом мире было точно и однозначно, особенно, когда речь идет о цифрах. Например, когда вы планируете переезд в другой город или хотите прикинуть доход от инвестиций.

Но так бывает не всегда, и нам регулярно приходится иметь дело с неопределенностью, когда в уравнении слишком много переменных. Вместо точных цифр — размытое «зарплата от 50 до 150к», «ремонт будет стоить то ли 10 000, то ли 100 000 и займет где-то от недели до полугода» и все в таком духе.

И как быть?

🔜 Вечный вопрос, на который у нас наконец-то есть ответ — использовать неуверенный калькулятор. Суть проста: вы вносите в него не точные цифры, а диапазон от минимального возможного значения до максимального. Таких диапазонов в расчетах может быть несколько, и в ответе он тоже выдаст диапазон — от минимального результата, который вы можете получить с вашими вводными, до максимального.

Калькулятор не рассчитывает никакие вероятности, ковариантности и прочее, но помогает хотя бы обрисовать границы, на что вы можете рассчитывать.

🔜 Автор пишет, что вариантов использования у его разработки множество — от расчета эффективности маркетинговой кампании до вычисления количества инопланетных цивилизаций, с которыми человечество может вступить в контакт.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25👍51
Как работают data-специалисты в 2025?
Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?

А хотите не только про себя рассказать, но и узнать, как дела у коллег?
🔵Узнать про тренды в индустрии и набирающие популярность инструменты.
🔵Увидеть, как обстоят дела на рынке труда и сколько работодатели готовы специалистам вашего профиля.
🔵Подсмотреть, как устроены рабочие процессы в других компаниях и перенять лучший опыт.

Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.

🔜 Пройти опрос

P.S. А тут можно посмотреть результаты за прошлый год 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Forwarded from 🔋 Труба данных (Simon Osipov)
Редкое явление для нашего острова!
Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
👍14🔥3😱21
Forwarded from 🔋 Труба данных (Simon Osipov)
🔋 Труба данных
Редкое явление для нашего острова! Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!

Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
👍71🔥1
А вы видели топ книжных бестселлеров мая?
«Причем здесь аналитика и книжные бестселлеры?» — спросите вы.

А при том, что в этот топ попала книга Николая Валиотти «Аналитика для руководителей»! 🔥

Мы про нее уже много раз рассказывали на этом канале, поэтому не будем повторяться — ну почти. Просто напомним про лендинг c ссылками на все магазины, где вы можете ее купить, если еще этого не сделали.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥233👍3
Про превосходство таблиц над пончиками
Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.

🔜 С одной стороны, это один из самых популярных чартов, которые хотя бы иногда используют все: от аналитиков и спецов по датавизу до школьников и студентов, которые готовят презентации для уроков. Это очевидный и интуитивный способ показать соотношение долей.

🔜 С другой стороны, многие их не любят, считая неудобными и неинформативными: якобы все, что можно изобразить на пайчарте, можно намного эффективнее и понятнее показать на каком-нибудь другом графике.

Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.

Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.

🔜 Первая же правка, которую предложил специалист Datawrapper — отказаться от пайчартов в пользу старой доброй таблицы. Было-стало прикрепили к посту, ну а по ссылке вы можете более подробно почитать про остальные изменения и логику, которая за ними стоит.

Как вам результат? Стало лучше или можно было предложить другой вариант?
👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1710👍7🔥3
Онлайн-магистратура по дата-аналитике: набор открыт!
Онлайн-курсам часто не хватает фундаментальной вузовской базы, а многие университетские программы не успевают за развитием индустрии и не дают актуальные знания.

Институт искусственного интеллекта и анализа больших данных BASAND.AI ТГУ совместно с Академией Дата-Дайвинг разработали онлайн-магистратуру, которая решает обе эти проблемы. Программа «Дата-аналитика для бизнеса» создана, чтобы готовить специалистов, которые умеют не просто строить графики, а решать реальные бизнес-задачи с помощью данных по трем направлениям:
🔵продуктовая аналитика,
🔵маркетинговая аналитика,
🔵BI-аналитика.

Студенты учатся онлайн, но со всеми плюсами очного образования, включая студенческие льготы и отсрочки от армии. Их наставниками будут как преподаватели ТГУ, так и практики из Авито, Газпромнефти, Ситимобил и других компаний, которые у всех на слуху.

В результате выпускники изучат современные инструменты и технологии анализа данных и получат сразу два диплома: магистратура ТГУ и профпереподготовка от Академии Дата-Дайвинг. Они поучаствуют в проектах с реальными бизнес-кейсами, в том числе — у генерального партнера Wildberries & Russ.

Программа подойдет:
🔵студентам старших курсов и выпускникам бакалавриата,
🔵специалистам из смежных областей, готовым к смене профессии,
🔵аналитикам, желающим расти до уровня тимлидов или менеджеров.

Старт обучения — 18 сентября 2025 года. Длительность программы — 2 года.

🔜 Узнайте подробнее и оставьте заявку на сайте.

Количество мест ограничено.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥322👍2
Почему разговаривать с компьютерами — плохая идея
Но не всегда.

Скорое наступление эры умных компьютеров, с которыми можно говорить, как с человеком, предсказывают еще с момента появления голосовых ассистентов вроде Siri. Потом были умные колонки вроде Alexa, а вот теперь — ИИ-помощники и чат-боты с LLM под капотом, которых добавляют во все сервисы и приложения подряд.

Но теперь давайте честно — сколько людей на самом деле пользуются этими ИИ-ассистентами? Если что, вопрос не риторический, пишите ответы в комментах.

Каждая новая технология оказывается на деле не такой прорывной, как на словах, и все ждут следующую итерацию, которая точно изменит мир.

👀 Но может быть на самом деле нам это не нужно?

Естественный язык, которому все так хотят обучить компьютеры, — это не идеальный способ передачи информации. В этом эссе автор приводит любопытные аргументы:
🔵Мы принимаем информацию намного быстрее, чем передаем — можно слушать подкаст на скорости х2, а вот записывать его таким образом уже не получится.
🔵При общении с людьми мы используем способы «компрессии» информации. Можно сказать: «Я с тобой согласен», а можно просто кивнуть — сжать информацию то есть.
🔵При «общении» с компьютером тоже есть способы ускорить обмен данными, и они удобнее, чем команды на естественном языке. Проще посмотреть на виджет с температурой за окном, чем спрашивать: «Окей, Гугл, какая сегодня погода?» Кликнуть мышкой, нажать на кнопку, открыть приложение в большинстве случаев будет быстрее и удобнее, чем писать или проговаривать указания для ИИ.

Получается, что хотя технологии и становятся лучше, но наши встроенные человеческие ограничения никуда не деваются. Но это не значит, что учить компьютеры говорить на естественном языке не надо!

🔜 Ценность ИИ-помощников можно найти не в скорости, а в том, что с ними обсудить задачу и поискать решение вместе. ИИ нужен не для того, чтобы заменить людей, привычные рабочие инструменты или процессы, а для того, чтобы дополнить их. Speech-to-text не замена клавиатуре с мышкой, а альтернатива для случаев, когда неудобно печатать.

А что вы думаете — начнем мы когда-нибудь общаться с компьютерами, как с людьми?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🔥3
У аналитиков свои марафоны
С приходом тепла все парки (и соцсети заодно) захватывают любители бега, хвастаются медалями и преодоленными километрами. А на выходных еще и дороги перекрывают для очередного городского марафона.

У нас тоже есть свой марафон — только особенный, специально для тех, кто бегать не хочет и дороги перекрывать не собирается.

🔜 Это, конечно, «Марафон данных» — бесплатный курс по SQL и Python, разработанный нашей командой.

Курс рассчитан на людей, которые начинают знакомство с аналитикой — для студентов, джунов и тех, кто только задумывается о работе в этой сфере.

«Марафон данных» не просто дает теорию по SQL и Python, но и помогает получше узнать, что из себя представляет профессия аналитика на практике: какие задачи надо решать и что из себя представляют реальные данные.

Курс состоит из 18 уроков с задачами и тестами, а на прохождение понадобится около 10 часов.

🔜 Пройти курс
Please open Telegram to view this post
VIEW IN TELEGRAM
22🔥11🥰5
Где хранить данные?
Локально или в облаке? SSD или HDD?

Облако может упасть, диски подвержены ошибкам и сбоям, которые могут повредить данные, зато рукописи, как известно, не горят. Разные способы кодирования позволяют довольно плотно упаковать данные на листе бумаги, а некоторые потом (теоретически) даже можно прочитать и декодировать самостоятельно без сканера или камеры.

🔵Первый же скрин в этом посте — программа, закодированная по стандарту Base64. Этот метод называется OCR (optical character recognition, оптическое распознавание символов). У автора скрина, в зависимости от размера шрифта и стандарта кодирования, получалось «упаковать» до 17 килобайт на листе А4. Правда, чем убористее текст, тем сложнее потом с ним работать.
🔵 Другой метод — черно-белые QR-коды. В один код помещается до 2953 байт — немного, но ведь и на листе можно разместить несколько кодов. Количество зависит только от качества печати. Тот же автор смог уместить на листе 24 читабельных QR или 71 килобайт, скрин в статье тоже есть. Но тут уже самостоятельно информацию не прочитать, нужен специальный софт.
🔵Более красивый способ — шифрование цветными точками. Выглядит намного эффектнее, чем скучные одноцветные QR, емкость данных выше, но нужен не просто очень хороший принтер, но еще и цветной. Иначе толку от этой красоты не будет.

Как вам такие способы хранить данные? Готовы сделать бекап базы на бумаге?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍765🔥2