LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Поступление в ШАД: даже одна попытка откроет путь к большим возможностям
Попробовать поступить в Школу анализа данных Яндекса может каждый, кто увлечен Data Science: неважно, учитесь вы в вузе, работаете в IT или просто любите разбираться в сложном. Если вас тянет к задачам, над которыми ломают голову лучшие умы, — попробовать точно стоит!

В ШАДе вас ждет не просто теория — здесь с первого дня погружаются в практику: осваивают сложные концепции машинного обучения, решают ИИ-задачи, которые еще вчера казались невозможными, и получают мощный буст для карьеры.

🔥Классные плюшки для студентов: обучение бесплатное, а если в вашем городе нет филиала, заниматься можно онлайн.

🔜 Подайте заявку на поступление до 4 мая и откройте перед собой новые горизонты!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍2🤣1
О любви к CSV ❤️
Формат данных CSV — Comma-Separated Values, «значения, разделенные запятыми» — появился еще в 70-х, и с тех пор люди ничего лучше не придумали.

Ладно, может быть, и придумали, но CSV, так или иначе, жил, жив и будет жить еще долго. Он все еще часто используется для хранения данных, несмотря на то что за эти 50 лет разработали множество других форматов.

Почему так?
Юзер с гитхаба уже ответил за нас и перечислил целых 9 причин, почему этот формат заслуживает нашей любви. Как любят писать в кликбейтных статьях, пункт 9 вас поразит!

1️⃣ CSV простой — вся суть формата отражена в названии. Ничего лишнего.
2️⃣ CSV никому не принадлежит, а потому навсегда останется бесплатным и доступным.
3️⃣ CSV — это простой текст, который можно открыть и отредактировать в любом редакторе без всяких сложностей. Для этого не нужен никой специальный платный софт.
4️⃣ CSV не требователен к ресурсам и к памяти компьютера.
5️⃣ В CSV-документы можно легко и эффективно дописывать новые строки.
6️⃣ CSV динамически типизирован — тут есть свои минусы, но это делает его очень гибким при работе с разными типами данных.
7️⃣ CSV лаконичен.
8️⃣ Обратный CSV все еще CSV — информация не потеряется, даже если прочитать документ не с начала, а с конца, байт за байтом.
9️⃣ Excel ненавидит CSV — а значит, уже за это формат заслуживает уважения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥21🤣171
Как оптимизировать таблицы в Postgres
А вы знали, что правильный порядок столбцов может на 20% уменьшить размер таблицы в Postgres?

🔜 Минимальный возможный размер строки — 24 байта. Он меняется в зависимости от количества столбцов и типов данных — какие-то весят больше, какие-то меньше. Но на итоговый размер строки влияет также такой момент, как последовательность, в которой идут друг за другом разные типы данных.

Это связано с выравниваем данных на диске — чтобы оптимизировать его, Postgres может добавлять отступы между разными типами данных. Это и приводит к увеличению размера строки. При этом способ выравнивания зависит от типа данных. Эта же логика распространяется и на индексы.

🔜 Разбор реальных примеров показывает, что «правильный» порядок столбцов на 15-20% уменьшает вес и таблицы, и индекса. Там же можно подробнее почитать про то, как этого добиться, но если кратко, то можно придерживаться такого подхода: сначала размещаем «тяжелые» данные вроде int8, float8, timestamp, а затем — более легкие.

Конечно, никто не предлагает начинать срочно переставлять столбцы во всех таблицах в базе, чтобы сэкономить лишние два байта на диске — для многих компаний такие «оптимизации» будут явно избыточны. Но все же это стоит иметь в виду.

А вы учитываете особенности выравнивания данных в работе?
❤️ — Да, конечно!
🌚 — Нет, мне это не нужно
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚26👍186🔥53
Как на самом деле ИИ может помочь в работе?
Вокруг только и разговоров, что про ИИ — он успевает и писать, и рисовать, и кодить, и работу у честных трудяг отбирать. Но это все в теории и в новостях, а вот как на самом деле внедрять его в работу, не очень понятно. Особенно если вы уже пробовали, потратили кучу времени на написание промптов и получили сомнительный результат, который не стоит затраченных усилий.

Именно для тех, кто хочет научиться решать реальные практические задачи с помощью ИИ, Институт Бизнес-Аналитики Алексея Колоколова проводит свой новый бизнес-квест. Участники попробуют использовать нейросети для решения разноплановых кейсов — от расчета сметы до составления презентации.

🔵Мероприятие пройдет 15 мая в отеле Cosmos Smart Moscow Dubininskaya в Москве и займет примерно 4 часа.
🔵Основной фокус — на решении реальных задач, которыми может столкнуться офисный сотрудник (не считая визита Илона Маска). Делать картинки для соцсетей учить не будут.

🔜 Готовы научиться внедрять ИИ в работу? Читайте программу и регистрируйтесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈9👍6🔥21🤣1
ИИ (не) против таблиц
Сегодня ИИ-агенты — это самое близкое, что у нас есть к умным роботам из книг и фильмов, которые помогают людям в их повседневных делах. Но функционал у них все еще не фантастический — например, многие из них неважно справляются с структурированными данными. Учитывая, что ИИ-агентов часто используют для работы, им нужно уметь эффективно работать с таблицами и не бояться Excel.

С этой проблемой столкнулись в Dust, компании, которая занимается созданием ИИ-агентов. Команда проекта рассказала, как учила искусственный интеллект «понимать» табличные данные.
🔵Все началось с того, что нужно было научить LLM анализировать CSV-файлы. Для этого решили «прикрутить» к ней SQLite, которая отвечала за то распознавание структуры данных и обработку SQL-запросов.
🔵Запросы при этом генерировал сам ИИ-агент на основании промпта пользователя. Он отправлял этот запрос в БД и возвращал ответ от нее.

На одних CSV-файлах не остановились и пошли дальше, постепенно научив своих агентов работать с таблицами в Notion, Google Sheets и Office 365. Эти источники добавили своих сложностей.
🔵Чтобы обрабатывать таблицы в Notion, пришлось научиться гибко работать с данных разных типов.
🔵В Google и Office у файлов часто бывает сложная структура — несколько листов, заголовки, объединенные ячейки, встроенные графики. Все это нужно было быстро (и желательно незаметно от юзера) обработать.

🔜 В итоге в Dust разработали единый уровень абстракции для всех источников, каждый из которых представляли в виде таблицы с несколькими колонками: Уникальным ID, Названием и описанием, Схемой (колонками и их типами), URL-источником.

После этого команда смола пойти дальше и даже начать работать с данными в DWH — для этого пришлось отказаться от SQLite и научить LLM работать с большими объемами строк и разными диалектами SQL.

В посте в блоге немного технической информации, но все же в ней есть интересные мысли и выводы для тех, кто работает с таблицами и ИИ — и хочет их друг с другом подружить.

А вы используете ИИ-агентов для работы?
❤️ — Использую и расскажу про это в комментариях
🌚 — Нет, не приходилось
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚17🔥12👍87
This media is not supported in your browser
VIEW IN TELEGRAM
Кому подойдет Metabase?
К Metabase часто относятся снисходительно и иногда даже не считают этот тул полноценной BI-платформой. Да и мы тоже такие комментарии получали, когда писали, что много с ним работаем…

Metabase действительно достаточно простой инструмент, особенно если сравнивать с чем-то вроде Tableau. Многих это отпугнет, но кого-то это станет главным преимуществом. Рассказываем, кому подойдет Metabase и что вообще можно сделать в этом BI в нашем новом видео.

Что вас ждет?
🔵Обзор интерфейса и демонстрация возможностей по визуализации и написанию SQL-запросов.
🔵Разбор кейса клиента, который ушел с более продвинутого и сложного инструмента на Metabase и остался полностью доволен.
🔵Плюсы, минусы и рекомендации по использованию тула.

🔜 Смотрите на Youtube и в VK
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍632😍1
А вы идете на Tech Week?
«Синергия» вновь проводит Tech Week, а LEFT JOIN вновь становится ее инфопартнером!

Как и в прошлый раз, конференция будет посвящена технологиям, инновациям и тому, как подружить их с бизнесом.

🔵Как стремительное развитие технологий влияет на современные подходы к лидерству, управлению и работе с людьми?
🔵Какие инновации стоят вашего внимания (и денег)?
🔵Как новые технологии меняют бизнес, промышленность и торговлю?

И, конечно, не обошлось без ИИ и нейросетей — им выделили сразу несколько треков. Среди спикеров — директора и основатели крупных российских компаний, эксперты по ИИ, маркетингу и даже нейрофизиологии.

🔜 26-27 мая пройдет основная часть с конференциями и выставками, 28 — день обучения, где участникам помогут разработать стратегию развития бизнеса.
🔜 Обещают и другие нестандартные форматы, чтобы посетители не скучали на лекциях — например, быстрые бизнес-свидания, тренинги и мастермайнды.
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1
Хотите заглянуть внутрь БД в SQLite?
С этим поможет SQLite File Format Viewer — веб-приложение, куда можно закинуть файлик БД, и посмотреть, что у него внутри. На сайте уже есть семпловая база данных, по которой можно полазить и изучить, как она устроена.

Главный минус тут в том, что запустить приложение локально нельзя — по крайней мере пока. Так что никакие конфиденциальные данные и важные БД туда закидывать не рекомендуется. Но если у вас есть под рукой какой-нибудь файл SQLite, который не жалко, и вы хотите поближе познакомиться с работой этой СУБД, это приложение под эти цели отлично подойдет.
4👍4🔥2
Yandex Cloud расскажет, как превратить данные бизнеса в результат
Аналитики и дата-инженеры часто фокусируются на хард-скиллах: SQL, работе с инструментами, тонкостях обработки данных. Это важно, но недостаточно, чтобы строить карьеру и браться за действительно интересные проекты. Ключевой навык — стратегическое мышление: понимать, как ваша работа решает бизнес-задачи, а не просто закрывает текучку.

🔜 Как это делать?
Хороший вариант — перенимать опыт экспертов. Например, на профессиональных конференциях таких как та, что проводит Yandex Cloud 28 мая.

В программе Data&ML2Business:
🔵как «Кама» объединила телеметрию, производство и клиентские данные в одну BI-систему,
🔵опыт построения гибридных платформ с аналитикой в реальном времени,
🔵кейсы от Яндекса, ЦИАН и партнёров, работающих с большими потоками данных и ML-технологиями для их анализа,
🔵подходы к внедрению речевых технологий и ML в продуктах.

А также ожидаются новинки в data- и ML-направлениях Yandex Cloud:
🔵BI-системе DataLens,
🔵Data Platform,
🔵ML- и AI-сервисах.

Хотите познакомиться с новыми технологиями, узнать лучшие практики и развить стратегическое мышление? Регистрируйтесь — участие бесплатное.

🔜 Прочитать подробности и зарегистрироваться!
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍92🔥1
А вы знаете, что произошло в начале 2024?
Конечно, на этот вопрос можно дать несколько разных ответов, но нас интересует одно из самых крупных изменений в Polars — изменение структуры данных для строк.

Почему вспоминаем про это сейчас?
Потому что это все еще интересно — статья рассказывает про тонкости работы Polars, про которые кто-то может и не задумывался.

В чем суть?
Изначально Polars следовали спецификации Apache Arrow, но решили отойти от этого формата, чтобы улучшить производительность.

В Apache Arrow данные строкового типа «проходят» через три буфера: буфер валидности, общий буфер data и дополнительный буфер с оффсетами для определения начала и окончания каждой строки. Такой формат обеспечивал компактность, но у него были и недостатки:
🔵Сложно заранее определить, сколько памяти надо выделить под строки,
🔵Операции gather и filter начинали тормозить при работе с длинными строками.

Это и подтолкнуло к переходу на формат, который используется в Hyper/Umbra. Здесь строки хранятся в «представлениях» — колонках фиксированной ширины по 16 байт. Короткие строки до 12 байт встраиваются напрямую, длинные — в отдельный буфер. В оригинале статьи есть наглядные схемы, как это работает.

Новый подход обеспечивал быстрый доступ к коротким строкам, поддержку интернирования для длинных, стабильное время выполнения операций filter и gather и вообще в целом оказался удобнее. Минусы у него тоже были — например, пришлось пожертвовать компактностью в пользу скорости обработки данных.

🔜 Но все было не зря — судя по бенчмаркам в конце статьи, переход на новый формат дал значительный прирост производительности, особенно при работе с «тяжелыми» строками.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍311🔥1😍1
Когда BI — это не просто отчеты, а полезный инструмент для бизнеса
Во многих компаниях аналитика ограничивается созданием пачки дашбордов, которые существуют как будто просто для красоты. Они есть, пользователи в них иногда задумчиво смотрят, но для принятия решений все так же используют интуицию, а не данные.

Зато когда BI-стратегия выстроена правильно, она становится частью управленческой системы: помогает расставлять приоритеты и контролировать результаты. Но чтобы к этому прийти, понадобится не только знание инструментов, но и стратегический взгляд и понимание потребностей бизнеса.

🔜 Как подружить все эти вещи и внедрить BI в рабочие процессы рассказывает BI-эксперт Александр Бараков на курсе «Разработка BI-стратегии». Он пройдет онлайн с 18 июня по 11 июля 2025 года.

За 11 встреч участники узнают как выявить те самые потребности бизнеса, сформировать BI-стратегию и воплотить ее в жизнь, собрать BI-команду и оценить эффективность всей этой деятельности. А в конце даже соберут макет BI-стратегии для своей компании.

Курс рассчитан на тех, кто руководит BI-направлением и развивает аналитику в компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍1
«Аналитика для руководителей» уже в продаже!
Купить книгу Николая Валиотти вы можете на Литрес, Ozon, WIldeberries, Book24 и в Читай-городе. Все ссылки собрали здесь.

Мы много говорим про то, как важно аналитикам уметь понимать требования и запросы бизнеса, но не менее важно и бизнесу понимать, как работать с аналитикой:
🔵Как она работает и какую пользу может принести?
🔵Из чего состоит система аналитики и зачем нужен каждый из ее компонентов?
🔵Чем занимаются разные специалисты в дата-команде?
🔵Что вообще такое «решения на основе данных» и как их принимать?

Про все это и рассказывает «Аналитика для руководителей» — понятым языком и с наглядными примерами из практики. Она рассчитана на бизнес-пользователей, продактов, маркетологов и руководителей разного уровня, которые каждый день работают с цифрами и данными и хотят научиться делать это еще эффективнее.

А вы уже купили «Аналитику для руководителей»?
❤️ — Да!
🌚 — Еще нет…
Please open Telegram to view this post
VIEW IN TELEGRAM
28🌚21🔥9👍4🙈2
Что объединяет аналитиков, продактов, CPO, CDO и ML-разработчиков?
Aha!25 — конференция про то, как решать продуктовые задачи с помощью ML, аналитики и data-driven подхода.

2 дня, 16 тематических потоков, более 1200 участников и доклады от практиков из Яндекса, Авито, OZON, Т-Банка, Альфа-Банка, а также исследователей из ИТМО, РЭШ, МФТИ и других научных центров. На Aha!25 обсудят актуальные вопросы, над которыми многие задумываются, но не все находят ответ.

• Что делать, когда A/B-тест дает противоречивые результаты?
• Как проводить эксперименты и трактовать результаты?
• Как встраивать ML и ИИ в продукты с пользой для дела — а как это делать точно не надо?
• Как поведенческая экономика помогает принимать решения и развивать продукт?

👀 Программа доступна по ссылке. Знакомьтесь, и если увидите что-то интересное — регистрируйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93👌2🔥1
От запроса до результата: как работает SQL-движок
SQL-движок — это логический уровень между пользователем и данными в базе, который отвечает за обработку запроса и формирование результата. Но как он это делает?

Один из авторов проекта Dolt (как его описывают сами разработчики — БД, которая работает, как репозиторий на GitHub) написал целую статью про опыт работы с их движком go-mysql-server. Хотя акцент именно на этот движок, он также рассказывает про разные подходы и принципы работы SQL-движков в целом.

Если кратко:
🔵Выполнение запроса можно разделить на 7 шагов — парсинг, привязка к данным в БД, упрощение плана выполнения, оптимизация порядка выполнения джойнов, оценка эффективности плана, выполнение, вывод результатов.
🔵Сначала движок проверяет корректность запроса. Он формирует абстрактное синтаксическое дерево на этапе парсинга, а затем сопоставляет его с данными в базе.
🔵Если запрос был составлен правильно, то движок начинает формировать оптимальный план работы — наиболее быстрый и требующий минимально необходимое количество ресурсов, с учетом всех функций, джойнов и агрегаций. Для этого он старается как можно скорее «отбросить» все строки и колонки, которые не нужны в запросе, а также просчитывает разные варианты выполнения и выбирает самый быстрый.
🔵В конце концов, движок конвертирует выбранный план в исполняемый формат и выдает юзеру долгожданный результат.

Автор каждый пункт разбирает подробно — как движок парсит запрос, с какими сущностями в БД сопоставляет на стадии привязки и как подбирает оптимальный способ выполнения запроса, еще и с картинками. В общем, почитать любопытно, даже если с Dolt работать не планируете.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍632
DataLens открывает галерею дашбордов и не только
Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?

Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.

Кроме того, DataLens запускает:
🔵Editor JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.
🔵Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.
🔵Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3273👍1
This media is not supported in your browser
VIEW IN TELEGRAM
"Нашу маму и там, и тут показывают" — LEFT JOIN на Aha!25

Пусть в этом году команда LEFT JOIN не смогла присоединиться к конференции физически, мы все равно не могли это пропустить.

Передаем привет и желаем послушать как можно больше крутых выступлений — а перерывах поймать наше видео на экранах в фойе "Ломоносова"!
15👍103🔥1
Быстрее, выше, сильнее: что нового у dbt
28 мая dbt провела Launch Showcase, где представила сразу несколько крупных изменений.
🔵dbt Fusion — новый движок, который будет в 30 раз быстрее старого. Он сможет проверять правильность SQL-запроса и выдавать подсказки с учетом контекста, а также на 10% (а то и больше!) снизить расходы на хранение данных.
🔵Расширение dbt VS Code — чтобы все новые фичи dbt стали доступны и в VS Code.
🔵dbt MCP Server — инструмент для интеграции LLM в проекты в dbt.
🔵dbt Canvas, dbt Insights и dbt Catalog (бывший dbt Explorer) — инструменты для аналитиков, которые сделают удобнее и проще работу с данными. В Canvas можно будет простым drag-and-drop строить и редактировать модели. С помощью Insights (который понимает как SQL, так и запросы на естественном языке) — исследовать данные, искать инсайты и проверять гипотезы. В обновленном Catalog пользователи смогут просматривать таблицы и представления в Snowflake. Поддержку остальных хранилищ тоже обещают подвезти, но попозже.

Как вам такие новости?
👀 Впечатлены?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124🌚3