LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
ИИ (не) против таблиц
Сегодня ИИ-агенты — это самое близкое, что у нас есть к умным роботам из книг и фильмов, которые помогают людям в их повседневных делах. Но функционал у них все еще не фантастический — например, многие из них неважно справляются с структурированными данными. Учитывая, что ИИ-агентов часто используют для работы, им нужно уметь эффективно работать с таблицами и не бояться Excel.

С этой проблемой столкнулись в Dust, компании, которая занимается созданием ИИ-агентов. Команда проекта рассказала, как учила искусственный интеллект «понимать» табличные данные.
🔵Все началось с того, что нужно было научить LLM анализировать CSV-файлы. Для этого решили «прикрутить» к ней SQLite, которая отвечала за то распознавание структуры данных и обработку SQL-запросов.
🔵Запросы при этом генерировал сам ИИ-агент на основании промпта пользователя. Он отправлял этот запрос в БД и возвращал ответ от нее.

На одних CSV-файлах не остановились и пошли дальше, постепенно научив своих агентов работать с таблицами в Notion, Google Sheets и Office 365. Эти источники добавили своих сложностей.
🔵Чтобы обрабатывать таблицы в Notion, пришлось научиться гибко работать с данных разных типов.
🔵В Google и Office у файлов часто бывает сложная структура — несколько листов, заголовки, объединенные ячейки, встроенные графики. Все это нужно было быстро (и желательно незаметно от юзера) обработать.

🔜 В итоге в Dust разработали единый уровень абстракции для всех источников, каждый из которых представляли в виде таблицы с несколькими колонками: Уникальным ID, Названием и описанием, Схемой (колонками и их типами), URL-источником.

После этого команда смола пойти дальше и даже начать работать с данными в DWH — для этого пришлось отказаться от SQLite и научить LLM работать с большими объемами строк и разными диалектами SQL.

В посте в блоге немного технической информации, но все же в ней есть интересные мысли и выводы для тех, кто работает с таблицами и ИИ — и хочет их друг с другом подружить.

А вы используете ИИ-агентов для работы?
❤️ — Использую и расскажу про это в комментариях
🌚 — Нет, не приходилось
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚17🔥12👍87
This media is not supported in your browser
VIEW IN TELEGRAM
Кому подойдет Metabase?
К Metabase часто относятся снисходительно и иногда даже не считают этот тул полноценной BI-платформой. Да и мы тоже такие комментарии получали, когда писали, что много с ним работаем…

Metabase действительно достаточно простой инструмент, особенно если сравнивать с чем-то вроде Tableau. Многих это отпугнет, но кого-то это станет главным преимуществом. Рассказываем, кому подойдет Metabase и что вообще можно сделать в этом BI в нашем новом видео.

Что вас ждет?
🔵Обзор интерфейса и демонстрация возможностей по визуализации и написанию SQL-запросов.
🔵Разбор кейса клиента, который ушел с более продвинутого и сложного инструмента на Metabase и остался полностью доволен.
🔵Плюсы, минусы и рекомендации по использованию тула.

🔜 Смотрите на Youtube и в VK
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍632😍1
А вы идете на Tech Week?
«Синергия» вновь проводит Tech Week, а LEFT JOIN вновь становится ее инфопартнером!

Как и в прошлый раз, конференция будет посвящена технологиям, инновациям и тому, как подружить их с бизнесом.

🔵Как стремительное развитие технологий влияет на современные подходы к лидерству, управлению и работе с людьми?
🔵Какие инновации стоят вашего внимания (и денег)?
🔵Как новые технологии меняют бизнес, промышленность и торговлю?

И, конечно, не обошлось без ИИ и нейросетей — им выделили сразу несколько треков. Среди спикеров — директора и основатели крупных российских компаний, эксперты по ИИ, маркетингу и даже нейрофизиологии.

🔜 26-27 мая пройдет основная часть с конференциями и выставками, 28 — день обучения, где участникам помогут разработать стратегию развития бизнеса.
🔜 Обещают и другие нестандартные форматы, чтобы посетители не скучали на лекциях — например, быстрые бизнес-свидания, тренинги и мастермайнды.
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1
Хотите заглянуть внутрь БД в SQLite?
С этим поможет SQLite File Format Viewer — веб-приложение, куда можно закинуть файлик БД, и посмотреть, что у него внутри. На сайте уже есть семпловая база данных, по которой можно полазить и изучить, как она устроена.

Главный минус тут в том, что запустить приложение локально нельзя — по крайней мере пока. Так что никакие конфиденциальные данные и важные БД туда закидывать не рекомендуется. Но если у вас есть под рукой какой-нибудь файл SQLite, который не жалко, и вы хотите поближе познакомиться с работой этой СУБД, это приложение под эти цели отлично подойдет.
4👍4🔥2
Yandex Cloud расскажет, как превратить данные бизнеса в результат
Аналитики и дата-инженеры часто фокусируются на хард-скиллах: SQL, работе с инструментами, тонкостях обработки данных. Это важно, но недостаточно, чтобы строить карьеру и браться за действительно интересные проекты. Ключевой навык — стратегическое мышление: понимать, как ваша работа решает бизнес-задачи, а не просто закрывает текучку.

🔜 Как это делать?
Хороший вариант — перенимать опыт экспертов. Например, на профессиональных конференциях таких как та, что проводит Yandex Cloud 28 мая.

В программе Data&ML2Business:
🔵как «Кама» объединила телеметрию, производство и клиентские данные в одну BI-систему,
🔵опыт построения гибридных платформ с аналитикой в реальном времени,
🔵кейсы от Яндекса, ЦИАН и партнёров, работающих с большими потоками данных и ML-технологиями для их анализа,
🔵подходы к внедрению речевых технологий и ML в продуктах.

А также ожидаются новинки в data- и ML-направлениях Yandex Cloud:
🔵BI-системе DataLens,
🔵Data Platform,
🔵ML- и AI-сервисах.

Хотите познакомиться с новыми технологиями, узнать лучшие практики и развить стратегическое мышление? Регистрируйтесь — участие бесплатное.

🔜 Прочитать подробности и зарегистрироваться!
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍92🔥1
А вы знаете, что произошло в начале 2024?
Конечно, на этот вопрос можно дать несколько разных ответов, но нас интересует одно из самых крупных изменений в Polars — изменение структуры данных для строк.

Почему вспоминаем про это сейчас?
Потому что это все еще интересно — статья рассказывает про тонкости работы Polars, про которые кто-то может и не задумывался.

В чем суть?
Изначально Polars следовали спецификации Apache Arrow, но решили отойти от этого формата, чтобы улучшить производительность.

В Apache Arrow данные строкового типа «проходят» через три буфера: буфер валидности, общий буфер data и дополнительный буфер с оффсетами для определения начала и окончания каждой строки. Такой формат обеспечивал компактность, но у него были и недостатки:
🔵Сложно заранее определить, сколько памяти надо выделить под строки,
🔵Операции gather и filter начинали тормозить при работе с длинными строками.

Это и подтолкнуло к переходу на формат, который используется в Hyper/Umbra. Здесь строки хранятся в «представлениях» — колонках фиксированной ширины по 16 байт. Короткие строки до 12 байт встраиваются напрямую, длинные — в отдельный буфер. В оригинале статьи есть наглядные схемы, как это работает.

Новый подход обеспечивал быстрый доступ к коротким строкам, поддержку интернирования для длинных, стабильное время выполнения операций filter и gather и вообще в целом оказался удобнее. Минусы у него тоже были — например, пришлось пожертвовать компактностью в пользу скорости обработки данных.

🔜 Но все было не зря — судя по бенчмаркам в конце статьи, переход на новый формат дал значительный прирост производительности, особенно при работе с «тяжелыми» строками.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍311🔥1😍1
Когда BI — это не просто отчеты, а полезный инструмент для бизнеса
Во многих компаниях аналитика ограничивается созданием пачки дашбордов, которые существуют как будто просто для красоты. Они есть, пользователи в них иногда задумчиво смотрят, но для принятия решений все так же используют интуицию, а не данные.

Зато когда BI-стратегия выстроена правильно, она становится частью управленческой системы: помогает расставлять приоритеты и контролировать результаты. Но чтобы к этому прийти, понадобится не только знание инструментов, но и стратегический взгляд и понимание потребностей бизнеса.

🔜 Как подружить все эти вещи и внедрить BI в рабочие процессы рассказывает BI-эксперт Александр Бараков на курсе «Разработка BI-стратегии». Он пройдет онлайн с 18 июня по 11 июля 2025 года.

За 11 встреч участники узнают как выявить те самые потребности бизнеса, сформировать BI-стратегию и воплотить ее в жизнь, собрать BI-команду и оценить эффективность всей этой деятельности. А в конце даже соберут макет BI-стратегии для своей компании.

Курс рассчитан на тех, кто руководит BI-направлением и развивает аналитику в компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍1
«Аналитика для руководителей» уже в продаже!
Купить книгу Николая Валиотти вы можете на Литрес, Ozon, WIldeberries, Book24 и в Читай-городе. Все ссылки собрали здесь.

Мы много говорим про то, как важно аналитикам уметь понимать требования и запросы бизнеса, но не менее важно и бизнесу понимать, как работать с аналитикой:
🔵Как она работает и какую пользу может принести?
🔵Из чего состоит система аналитики и зачем нужен каждый из ее компонентов?
🔵Чем занимаются разные специалисты в дата-команде?
🔵Что вообще такое «решения на основе данных» и как их принимать?

Про все это и рассказывает «Аналитика для руководителей» — понятым языком и с наглядными примерами из практики. Она рассчитана на бизнес-пользователей, продактов, маркетологов и руководителей разного уровня, которые каждый день работают с цифрами и данными и хотят научиться делать это еще эффективнее.

А вы уже купили «Аналитику для руководителей»?
❤️ — Да!
🌚 — Еще нет…
Please open Telegram to view this post
VIEW IN TELEGRAM
28🌚21🔥9👍4🙈2
Что объединяет аналитиков, продактов, CPO, CDO и ML-разработчиков?
Aha!25 — конференция про то, как решать продуктовые задачи с помощью ML, аналитики и data-driven подхода.

2 дня, 16 тематических потоков, более 1200 участников и доклады от практиков из Яндекса, Авито, OZON, Т-Банка, Альфа-Банка, а также исследователей из ИТМО, РЭШ, МФТИ и других научных центров. На Aha!25 обсудят актуальные вопросы, над которыми многие задумываются, но не все находят ответ.

• Что делать, когда A/B-тест дает противоречивые результаты?
• Как проводить эксперименты и трактовать результаты?
• Как встраивать ML и ИИ в продукты с пользой для дела — а как это делать точно не надо?
• Как поведенческая экономика помогает принимать решения и развивать продукт?

👀 Программа доступна по ссылке. Знакомьтесь, и если увидите что-то интересное — регистрируйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93👌2🔥1
От запроса до результата: как работает SQL-движок
SQL-движок — это логический уровень между пользователем и данными в базе, который отвечает за обработку запроса и формирование результата. Но как он это делает?

Один из авторов проекта Dolt (как его описывают сами разработчики — БД, которая работает, как репозиторий на GitHub) написал целую статью про опыт работы с их движком go-mysql-server. Хотя акцент именно на этот движок, он также рассказывает про разные подходы и принципы работы SQL-движков в целом.

Если кратко:
🔵Выполнение запроса можно разделить на 7 шагов — парсинг, привязка к данным в БД, упрощение плана выполнения, оптимизация порядка выполнения джойнов, оценка эффективности плана, выполнение, вывод результатов.
🔵Сначала движок проверяет корректность запроса. Он формирует абстрактное синтаксическое дерево на этапе парсинга, а затем сопоставляет его с данными в базе.
🔵Если запрос был составлен правильно, то движок начинает формировать оптимальный план работы — наиболее быстрый и требующий минимально необходимое количество ресурсов, с учетом всех функций, джойнов и агрегаций. Для этого он старается как можно скорее «отбросить» все строки и колонки, которые не нужны в запросе, а также просчитывает разные варианты выполнения и выбирает самый быстрый.
🔵В конце концов, движок конвертирует выбранный план в исполняемый формат и выдает юзеру долгожданный результат.

Автор каждый пункт разбирает подробно — как движок парсит запрос, с какими сущностями в БД сопоставляет на стадии привязки и как подбирает оптимальный способ выполнения запроса, еще и с картинками. В общем, почитать любопытно, даже если с Dolt работать не планируете.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍632
DataLens открывает галерею дашбордов и не только
Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?

Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.

Кроме того, DataLens запускает:
🔵Editor JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.
🔵Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.
🔵Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3273👍1
This media is not supported in your browser
VIEW IN TELEGRAM
"Нашу маму и там, и тут показывают" — LEFT JOIN на Aha!25

Пусть в этом году команда LEFT JOIN не смогла присоединиться к конференции физически, мы все равно не могли это пропустить.

Передаем привет и желаем послушать как можно больше крутых выступлений — а перерывах поймать наше видео на экранах в фойе "Ломоносова"!
15👍103🔥1
Быстрее, выше, сильнее: что нового у dbt
28 мая dbt провела Launch Showcase, где представила сразу несколько крупных изменений.
🔵dbt Fusion — новый движок, который будет в 30 раз быстрее старого. Он сможет проверять правильность SQL-запроса и выдавать подсказки с учетом контекста, а также на 10% (а то и больше!) снизить расходы на хранение данных.
🔵Расширение dbt VS Code — чтобы все новые фичи dbt стали доступны и в VS Code.
🔵dbt MCP Server — инструмент для интеграции LLM в проекты в dbt.
🔵dbt Canvas, dbt Insights и dbt Catalog (бывший dbt Explorer) — инструменты для аналитиков, которые сделают удобнее и проще работу с данными. В Canvas можно будет простым drag-and-drop строить и редактировать модели. С помощью Insights (который понимает как SQL, так и запросы на естественном языке) — исследовать данные, искать инсайты и проверять гипотезы. В обновленном Catalog пользователи смогут просматривать таблицы и представления в Snowflake. Поддержку остальных хранилищ тоже обещают подвезти, но попозже.

Как вам такие новости?
👀 Впечатлены?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124🌚3
Много ли пользы от ИИ в науке?
ChatGPT и генерация картинок в духе «советские плакаты в стиле Ghibli» — это не предел возможностей современного ИИ, который активно применяется в науке. Один из самых известных примеров (но далеко не единственный) — это AlphaFold, ИИ, предсказывающий пространственные структуры белков.

Надежд на ИИ много, но вот насколько он оправдывает ожидания?
🔜 Физик Ник МакГрейви решил использовать ИИ для решения дифференциальных уравнений в частных производных. Изначально он к этой идее относился с большим энтузиазмом, но быстро разочаровался — нейросети оказались ненадежным инструментом с нестабильными и недостоверными результатами.

Разочаровали и статьи коллег об использовании ИИ в этой сфере. Да, в них много писали о том, что с помощью нейросетей уравнения решаются в миллионы раз быстрее, чем стандартными методами, но Ник на своем опыте это подтвердить не смог.
🔵Оказалось, что авторы научных работ часто сравнивали эффективность ИИ с устаревшими вычислительными методами. По сравнению с более современными подходами нейросети зачастую давали незначительное преимущество или вообще справлялись хуже.
🔵Ник не единственный, кто обратил внимание на проблемы с воспроизводимостью результатов ИИ. Уже есть целый список научных публикаций, данные в которых оказались недостоверными и неточными из-за утечек данных при обучении ML-моделей.
🔵Еще один пример — из портфолио DeepMind, которые и разработали знаменитый AlphaFold. Они заявили, что другой ИИ-инструмент, GNoME открыл миллионы новых кристаллических структур. Но когда часть этих структур проанализировали ученые, они обнаружили, что большинство из них ценности не имеют.
🔵Трезво оценить возможности ИИ не дает еще и ошибка выжившего — исследования, где он не помог добиться желаемого, часто не доходят до публикации.

То есть это все хайп и маркетинг, а ИИ для науки бесполезен?
Конечно, нет — польза от ИИ есть и, скорее всего, будет расти. Но на его достижения надо смотреть трезво и не вестись на громкие заголовки в прессе. И, как оказалось, даже серьезные научные публикации на эту тему стоит воспринимать со здоровым скепсисом.

А что вы думаете про ИИ в науке?
❤️ — Верю, что за ним будущее
🙈 — Сомневаюсь, что от него на самом деле будет много пользы…
Please open Telegram to view this post
VIEW IN TELEGRAM
23🙈15👍2🔥1
Звездное небо на дашборде
Иногда полезно отвлечься от работы, SQL и графиков и посмотреть на звезды — пусть даже на очередном Viz of the Day из архивов Tableau Public.

Stargazer's Map — интерактивная карта звездного неба. Можно настроить отображение созвездий или показать настоящие цвета звезд, а помощью отдельного ползунка подкрутить время, чтобы увидеть, как двигаются звезды по небосклону в течение суток.

Красиво?
❤️ — Красиво!
🌚 — Можно и покрасивее
62🌚4👍2🥰1
Неуверенный калькулятор
Было бы здорово, если бы все в этом мире было точно и однозначно, особенно, когда речь идет о цифрах. Например, когда вы планируете переезд в другой город или хотите прикинуть доход от инвестиций.

Но так бывает не всегда, и нам регулярно приходится иметь дело с неопределенностью, когда в уравнении слишком много переменных. Вместо точных цифр — размытое «зарплата от 50 до 150к», «ремонт будет стоить то ли 10 000, то ли 100 000 и займет где-то от недели до полугода» и все в таком духе.

И как быть?

🔜 Вечный вопрос, на который у нас наконец-то есть ответ — использовать неуверенный калькулятор. Суть проста: вы вносите в него не точные цифры, а диапазон от минимального возможного значения до максимального. Таких диапазонов в расчетах может быть несколько, и в ответе он тоже выдаст диапазон — от минимального результата, который вы можете получить с вашими вводными, до максимального.

Калькулятор не рассчитывает никакие вероятности, ковариантности и прочее, но помогает хотя бы обрисовать границы, на что вы можете рассчитывать.

🔜 Автор пишет, что вариантов использования у его разработки множество — от расчета эффективности маркетинговой кампании до вычисления количества инопланетных цивилизаций, с которыми человечество может вступить в контакт.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25👍51
Как работают data-специалисты в 2025?
Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?

А хотите не только про себя рассказать, но и узнать, как дела у коллег?
🔵Узнать про тренды в индустрии и набирающие популярность инструменты.
🔵Увидеть, как обстоят дела на рынке труда и сколько работодатели готовы специалистам вашего профиля.
🔵Подсмотреть, как устроены рабочие процессы в других компаниях и перенять лучший опыт.

Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.

🔜 Пройти опрос

P.S. А тут можно посмотреть результаты за прошлый год 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Forwarded from 🔋 Труба данных (Simon Osipov)
Редкое явление для нашего острова!
Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
👍14🔥3😱21
Forwarded from 🔋 Труба данных (Simon Osipov)
🔋 Труба данных
Редкое явление для нашего острова! Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!

Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
👍71🔥1
А вы видели топ книжных бестселлеров мая?
«Причем здесь аналитика и книжные бестселлеры?» — спросите вы.

А при том, что в этот топ попала книга Николая Валиотти «Аналитика для руководителей»! 🔥

Мы про нее уже много раз рассказывали на этом канале, поэтому не будем повторяться — ну почти. Просто напомним про лендинг c ссылками на все магазины, где вы можете ее купить, если еще этого не сделали.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥233👍3
Про превосходство таблиц над пончиками
Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.

🔜 С одной стороны, это один из самых популярных чартов, которые хотя бы иногда используют все: от аналитиков и спецов по датавизу до школьников и студентов, которые готовят презентации для уроков. Это очевидный и интуитивный способ показать соотношение долей.

🔜 С другой стороны, многие их не любят, считая неудобными и неинформативными: якобы все, что можно изобразить на пайчарте, можно намного эффективнее и понятнее показать на каком-нибудь другом графике.

Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.

Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.

🔜 Первая же правка, которую предложил специалист Datawrapper — отказаться от пайчартов в пользу старой доброй таблицы. Было-стало прикрепили к посту, ну а по ссылке вы можете более подробно почитать про остальные изменения и логику, которая за ними стоит.

Как вам результат? Стало лучше или можно было предложить другой вариант?
👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1710👍7🔥3