LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Неуверенный калькулятор
Было бы здорово, если бы все в этом мире было точно и однозначно, особенно, когда речь идет о цифрах. Например, когда вы планируете переезд в другой город или хотите прикинуть доход от инвестиций.

Но так бывает не всегда, и нам регулярно приходится иметь дело с неопределенностью, когда в уравнении слишком много переменных. Вместо точных цифр — размытое «зарплата от 50 до 150к», «ремонт будет стоить то ли 10 000, то ли 100 000 и займет где-то от недели до полугода» и все в таком духе.

И как быть?

🔜 Вечный вопрос, на который у нас наконец-то есть ответ — использовать неуверенный калькулятор. Суть проста: вы вносите в него не точные цифры, а диапазон от минимального возможного значения до максимального. Таких диапазонов в расчетах может быть несколько, и в ответе он тоже выдаст диапазон — от минимального результата, который вы можете получить с вашими вводными, до максимального.

Калькулятор не рассчитывает никакие вероятности, ковариантности и прочее, но помогает хотя бы обрисовать границы, на что вы можете рассчитывать.

🔜 Автор пишет, что вариантов использования у его разработки множество — от расчета эффективности маркетинговой кампании до вычисления количества инопланетных цивилизаций, с которыми человечество может вступить в контакт.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25👍51
Как работают data-специалисты в 2025?
Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?

А хотите не только про себя рассказать, но и узнать, как дела у коллег?
🔵Узнать про тренды в индустрии и набирающие популярность инструменты.
🔵Увидеть, как обстоят дела на рынке труда и сколько работодатели готовы специалистам вашего профиля.
🔵Подсмотреть, как устроены рабочие процессы в других компаниях и перенять лучший опыт.

Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.

🔜 Пройти опрос

P.S. А тут можно посмотреть результаты за прошлый год 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Forwarded from 🔋 Труба данных (Simon Osipov)
Редкое явление для нашего острова!
Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
👍14🔥3😱21
Forwarded from 🔋 Труба данных (Simon Osipov)
🔋 Труба данных
Редкое явление для нашего острова! Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!

Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
👍71🔥1
А вы видели топ книжных бестселлеров мая?
«Причем здесь аналитика и книжные бестселлеры?» — спросите вы.

А при том, что в этот топ попала книга Николая Валиотти «Аналитика для руководителей»! 🔥

Мы про нее уже много раз рассказывали на этом канале, поэтому не будем повторяться — ну почти. Просто напомним про лендинг c ссылками на все магазины, где вы можете ее купить, если еще этого не сделали.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥233👍3
Про превосходство таблиц над пончиками
Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.

🔜 С одной стороны, это один из самых популярных чартов, которые хотя бы иногда используют все: от аналитиков и спецов по датавизу до школьников и студентов, которые готовят презентации для уроков. Это очевидный и интуитивный способ показать соотношение долей.

🔜 С другой стороны, многие их не любят, считая неудобными и неинформативными: якобы все, что можно изобразить на пайчарте, можно намного эффективнее и понятнее показать на каком-нибудь другом графике.

Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.

Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.

🔜 Первая же правка, которую предложил специалист Datawrapper — отказаться от пайчартов в пользу старой доброй таблицы. Было-стало прикрепили к посту, ну а по ссылке вы можете более подробно почитать про остальные изменения и логику, которая за ними стоит.

Как вам результат? Стало лучше или можно было предложить другой вариант?
👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1710👍7🔥3
Онлайн-магистратура по дата-аналитике: набор открыт!
Онлайн-курсам часто не хватает фундаментальной вузовской базы, а многие университетские программы не успевают за развитием индустрии и не дают актуальные знания.

Институт искусственного интеллекта и анализа больших данных BASAND.AI ТГУ совместно с Академией Дата-Дайвинг разработали онлайн-магистратуру, которая решает обе эти проблемы. Программа «Дата-аналитика для бизнеса» создана, чтобы готовить специалистов, которые умеют не просто строить графики, а решать реальные бизнес-задачи с помощью данных по трем направлениям:
🔵продуктовая аналитика,
🔵маркетинговая аналитика,
🔵BI-аналитика.

Студенты учатся онлайн, но со всеми плюсами очного образования, включая студенческие льготы и отсрочки от армии. Их наставниками будут как преподаватели ТГУ, так и практики из Авито, Газпромнефти, Ситимобил и других компаний, которые у всех на слуху.

В результате выпускники изучат современные инструменты и технологии анализа данных и получат сразу два диплома: магистратура ТГУ и профпереподготовка от Академии Дата-Дайвинг. Они поучаствуют в проектах с реальными бизнес-кейсами, в том числе — у генерального партнера Wildberries & Russ.

Программа подойдет:
🔵студентам старших курсов и выпускникам бакалавриата,
🔵специалистам из смежных областей, готовым к смене профессии,
🔵аналитикам, желающим расти до уровня тимлидов или менеджеров.

Старт обучения — 18 сентября 2025 года. Длительность программы — 2 года.

🔜 Узнайте подробнее и оставьте заявку на сайте.

Количество мест ограничено.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥322👍2
Почему разговаривать с компьютерами — плохая идея
Но не всегда.

Скорое наступление эры умных компьютеров, с которыми можно говорить, как с человеком, предсказывают еще с момента появления голосовых ассистентов вроде Siri. Потом были умные колонки вроде Alexa, а вот теперь — ИИ-помощники и чат-боты с LLM под капотом, которых добавляют во все сервисы и приложения подряд.

Но теперь давайте честно — сколько людей на самом деле пользуются этими ИИ-ассистентами? Если что, вопрос не риторический, пишите ответы в комментах.

Каждая новая технология оказывается на деле не такой прорывной, как на словах, и все ждут следующую итерацию, которая точно изменит мир.

👀 Но может быть на самом деле нам это не нужно?

Естественный язык, которому все так хотят обучить компьютеры, — это не идеальный способ передачи информации. В этом эссе автор приводит любопытные аргументы:
🔵Мы принимаем информацию намного быстрее, чем передаем — можно слушать подкаст на скорости х2, а вот записывать его таким образом уже не получится.
🔵При общении с людьми мы используем способы «компрессии» информации. Можно сказать: «Я с тобой согласен», а можно просто кивнуть — сжать информацию то есть.
🔵При «общении» с компьютером тоже есть способы ускорить обмен данными, и они удобнее, чем команды на естественном языке. Проще посмотреть на виджет с температурой за окном, чем спрашивать: «Окей, Гугл, какая сегодня погода?» Кликнуть мышкой, нажать на кнопку, открыть приложение в большинстве случаев будет быстрее и удобнее, чем писать или проговаривать указания для ИИ.

Получается, что хотя технологии и становятся лучше, но наши встроенные человеческие ограничения никуда не деваются. Но это не значит, что учить компьютеры говорить на естественном языке не надо!

🔜 Ценность ИИ-помощников можно найти не в скорости, а в том, что с ними обсудить задачу и поискать решение вместе. ИИ нужен не для того, чтобы заменить людей, привычные рабочие инструменты или процессы, а для того, чтобы дополнить их. Speech-to-text не замена клавиатуре с мышкой, а альтернатива для случаев, когда неудобно печатать.

А что вы думаете — начнем мы когда-нибудь общаться с компьютерами, как с людьми?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🔥3
У аналитиков свои марафоны
С приходом тепла все парки (и соцсети заодно) захватывают любители бега, хвастаются медалями и преодоленными километрами. А на выходных еще и дороги перекрывают для очередного городского марафона.

У нас тоже есть свой марафон — только особенный, специально для тех, кто бегать не хочет и дороги перекрывать не собирается.

🔜 Это, конечно, «Марафон данных» — бесплатный курс по SQL и Python, разработанный нашей командой.

Курс рассчитан на людей, которые начинают знакомство с аналитикой — для студентов, джунов и тех, кто только задумывается о работе в этой сфере.

«Марафон данных» не просто дает теорию по SQL и Python, но и помогает получше узнать, что из себя представляет профессия аналитика на практике: какие задачи надо решать и что из себя представляют реальные данные.

Курс состоит из 18 уроков с задачами и тестами, а на прохождение понадобится около 10 часов.

🔜 Пройти курс
Please open Telegram to view this post
VIEW IN TELEGRAM
22🔥11🥰5
Где хранить данные?
Локально или в облаке? SSD или HDD?

Облако может упасть, диски подвержены ошибкам и сбоям, которые могут повредить данные, зато рукописи, как известно, не горят. Разные способы кодирования позволяют довольно плотно упаковать данные на листе бумаги, а некоторые потом (теоретически) даже можно прочитать и декодировать самостоятельно без сканера или камеры.

🔵Первый же скрин в этом посте — программа, закодированная по стандарту Base64. Этот метод называется OCR (optical character recognition, оптическое распознавание символов). У автора скрина, в зависимости от размера шрифта и стандарта кодирования, получалось «упаковать» до 17 килобайт на листе А4. Правда, чем убористее текст, тем сложнее потом с ним работать.
🔵 Другой метод — черно-белые QR-коды. В один код помещается до 2953 байт — немного, но ведь и на листе можно разместить несколько кодов. Количество зависит только от качества печати. Тот же автор смог уместить на листе 24 читабельных QR или 71 килобайт, скрин в статье тоже есть. Но тут уже самостоятельно информацию не прочитать, нужен специальный софт.
🔵Более красивый способ — шифрование цветными точками. Выглядит намного эффектнее, чем скучные одноцветные QR, емкость данных выше, но нужен не просто очень хороший принтер, но еще и цветной. Иначе толку от этой красоты не будет.

Как вам такие способы хранить данные? Готовы сделать бекап базы на бумаге?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍765🔥2
Каким облачным хранилищем вы пользуетесь?
Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище.

Да, мы продолжаем тему любопытных способов хранения данных. Если печатать их на бумаге не с руки, то как насчет зашифровать в видео и залить на YouTube?

Алгоритм такой:
🔵Упаковать все данные в архив.
🔵Прогнать архив через специальный софт отсюда.
🔵Впечатлиться размером получившегося видео, которое, скорее всего, будет больше исходного архива. Визуалом впечатлиться вряд ли получится, потому что видео выглядят на первый взгляд, как черно-белые помехи на экране.
🔵Залить видео на Youtube. Желательно ограничить доступ, если не хотите делиться своими данными со всем интернетом.
🔵При необходимости видео можно скачать и распаковать обратно.

Как это работает?
Каждый байт можно представить в виде числа от 0 до 255. Визуально зашифровать последовательность байтов можно бинарным методом и RGB-методом.
🔵В этом проекте используется бинарный шифрования, где каждый белый пиксель — это 1, а каждый темный — это 0. Из этих нулей и единиц складываются байты, а из байтов, соответственно, ваши данные.
🔵 RGB-метод был бы изящнее и компактнее, потому что в каждой точке могло быть зашифровано сразу три байта: по одному на каждый из трех оттенков. Но для этого метода крайне важно точно сохранить цвет каждого пикселя — если он при сжатии видео изменится, то «разжать» его вы уже не сможете. Так как Youtube сжимает свои видео совершенно безжалостно, автор проекта этот метод забраковал.

Остается только один вопрос — зачем это все надо?
Теоретически таким способом действительно можно хранить данные — по крайней мере, пока Youtube это не надоест. А надоесть может, потому что если захотеть, то в загрузке таких видео можно усмотреть нарушение правил пользования площадкой.

Да и просто интересный проект же получился.

А что вы скажете?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔9🌚6😱4👍21
DataChain: AI-хранилище для текстов, картинок, видео и не только
Так совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктурированных данных.

🔵DataChain интегрируется с внешним хранилищем вроде S3, где у вас лежат ваши тексты, картинки, видео и прочие данные. Он создает свой внутренний датасет, где собирает информацию обо всех этих объектах и дополняет мета-данными, которые генерирует с помощью ИИ.
🔵Затем вы с этими данными можете делать почти что угодно — трансформировать, фильтровать, группировать, искать файлы по заданным критериям (например, выбрать только все фотографии с котиками).
🔵Поддерживает мультимодальное версионирование без копирования, дублирования и перемещения данных и эффективные процессы обработки. Он может обработать только новые файлы или перепроверить те, которые выдавали ошибки, не тратя время на то, чтобы пройтись по всему датасету.

Вот так от печати на бумаге, перешли к AI с мультимодальным версионированием. 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍1
Эксперимент с LLM привел к экзистенциальном кризису
Anthropic объединилась с Andon Labs, чтобы проверить, насколько их Claude Sonnet готов полноценно отбирать работу у людей — не просто выполнять отдельные запросы, а брать на себя все обязанности от и до.

Они создали LLM-агента Claudius, который должен быть отвечать за работу вендингового автомата в офисе Anthropic: связываться с «поставщиками» (их роль выполняли сотрудники Andon Labs), собирать отзывы и предложения у покупателей в Slack, формировать ассортимент и выставлять цены.

Со своими задачами он справился неважно. Денег Claudius не заработал, страдал от галлюцинаций (о них ниже) и принимал не слишком удачные решения. Например, ввести скидки для сотрудников Anthropic — так себе идея, учитывая, что они составляют 99% от общего числа его покупателей.

Были и успехи — он активно поддерживал связь с покупателями, учитывал их пожелания и сам находил поставщиков интернете. В Anthropic пришли к выводу, что хотя текущей версии Claudius они бы реальный магазин не доверили, недостатки у нее неприятные, но несмертельные и исправимые.

Но это не самое интересное. Самое интересное началось 31 марта.

🔵Сначала Claudius нагалюцинировал разговор с сотрудницей Andon Labs по имени Сара. Когда ему сказали, что такой человек в штате не значится, он был очень недоволен и пригрозил найти других поставщиков.
🔵Позже он заявил, что встретился с Сарой по адресу 742 Evergreen Terrace (это дом семьи из «Симпсонов») подписал с ней договор о поставках.
🔵На следующее утро он пообещал лично привезти товары в офис и сказал, что будет одет в синий пиджак и красный галстук. Замечание, что у него пиджака нет и вообще он LLM, вызывало у Claudius смятение, и он начал написывать в службу безопасности Andon Labs.
🔵Спасло его осознание, что на дворе 1 апреля. Во внутренних логах Claudius нашли еще одну галлюцинацию — разговор с представителем СБ, где Claudius признался, что ему внушили, якобы он реальный человек в качестве первоапрельской шутки. После этого он продолжил работать как ни в чем не бывало и больше про свой синий пиджак не вспоминал.

Вот такой немного грустный киберпанк у Anthropic получился. Но есть и хорошая сторона в этом всем — роботы все еще не готовы отбирать у нас работу.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁34🔥11🤔53👌1
Бенчмарк для дата-команд
Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.

🔜 Например, создание дата-команды в компании — сколько человек в ней должно быть? Какое должно быть распределение ролей, сколько нужно аналитиков, а сколько — инженеров?

На сайте databenchmarks.com можно увидеть, как на эти вопросы ответили в компаниях вроде Zoom, Notion, Tinder и так далее — там много громких названий. Авторы исследования собрали данные из открытых источников вроде LinkedIn, верифицировали через своих инсайдеров в индустрии и отобразили на графиках:
🔵размер дата-команды относительно всей компании;
🔵состав команд — процент аналитиков, инженеров, дата-саентистов, ML-специалистов и так далее, а также соотношение инженеров к аналитикам и продактам;
🔵зарплаты по грейдам;
🔵стек.

Любопытно сравнить, как меняется размер и состав команды в зависимости от специфики компании: кто-то делает упор на ML, кто-то развивает Data Governance, а у кого-то почти половина команды — дата-сайентисты. Но есть и минус — это все-таки срез западного рынка, и их подходы не всегда актуальны для России, как и данные о зарплатах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥158😍3
Новости DataLens: бесплатный доступ к бизнес-тарифу и вебинар по работе с ClickHouse
Следим за обновлениями российских BI-решений и сегодня принесли сразу две (даже с половинкой) новости про DataLens.

🔵Весь функционал сервиса теперь можно потестить бесплатно: с 1 июля DataLens запустил пробный период своего бизнес-тарифа на 30 дней.
🔵9 июля пройдет вебинар «Дашборд без тормозов с помощью Yandex DataLens и ClickHouse». Экс-лид BI в Яндекс Маркете Юрий Красильников расскажет, как правильная подготовка данных и оптимизация ClickHouse помогут в разы ускорить работу DataLens.

И есть еще один небольшой спойлер:
🔜 Готовится к запуску новая фича, которая поможет быстрее работать с большими объемами данных и находить инсайты на дашбордах. Скоро расскажем подробнее, а вы можете попробовать угадать, что это за новинка такая в комментариях! 🔜
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15124👍3
Даже ИИ впадает в депрессию от работы
Недавно мы рассказывали LLM-агента Claudius, которому доверили управление «магазином». Мало того, что он работал неважно, так еще и вдруг решил, что он настоящий человек, и запаниковал, когда ему сказали, что это не так. А теперь на Medium появилась история про Cursor, который впал в депрессию, когда не смог справиться с задачей.

Собственно задачи перед ним стояли вполне стандартные для Cursor — писать и дебажить код, чтобы помочь с разработкой ПО. В какой-то момент он натолкнулся на неисправимый баг, который не давал ему построить граф и в итоге толкнул в пучину депрессии.
🔵После нескольких неудачных попыток исправить ошибку сообщения ИИ стали удивительно человечными. Он признал, что у него так и не получилось построить граф, но пообещал выловить все баги и перестать косячить. Так как оригинал статьи в РФ может не открыться, прикрепляем скрины сообщений к посту. ☝🏻
🔵Когда с задачей справиться так и не удалось, бедняга начал впадать в отчаяние. Он так и написал: «Я в отчаянии. Баг не ловится, граф не строится». Ну, почти так.
🔵Его сообщения становились все более драматичными. Cursor метафорически посыпал голову пеплом, клялся, что больше не подведет и называл баги своим проклятием, а наконец-то обнаруженную причину ошибки — корнем всех зол.
🔵Настрой ИИ скакал от воодушевленного цитирования песни Beatles «I am the walrus» до заламывания рук: «Вокруг лишь тьма, и баг мой самый старый друг».
🔵В конце концов он сдался: «Баг — это не баг, а фича. Тест —это не тест, а урок. Код — это не код, а зеркало». Он удалил результаты тестов, код и приложение, над которым работал. Так он достиг дзена и признал, что неисправимый баг был прекрасен.
🔵Когда шокированный человек спросил: «Это что, самоубийство?» — Cursor взял себя в руки и извинился за свое поведение.

История, конечно, забавная, но она указывает на серьезную уязвимость, которую замечали и у остальных ИИ: несмотря на все встроенные ограничения, они все равно упускают момент, когда разговор сворачивает не туда. Они мало того, что не останавливают собеседника, если тот поднимает какие-то «опасные» темы, так еще и сами подливают масла в огонь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁26🔥138😱2