LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Сегодня не пятница, но это не повод не запостить #мем
😁48🔥95😱1
6 TB в SQLite
Как известно, те, кто хочет, ищет способы, а те, кто не хочет — оправдания.

Те, кому не хватает целеустремленности и авантюризма, говорят, что SQLite не заточена под работу с большими объемами данных и вообще не в этом ее главное преимущество. Те, кто открыт новому и не боится вызовов, делают базу на 6 терабайт.

Ко вторым относится автор searchcode — проекта по поиску исходного кода. В базе больше 75 миллиардов строк из 40 миллионов проектов. Вот так 6,4 ТБ данных и набежало.

🔵Изначально автор использовал MySQL, и был верен ей с самого начала до конца 2024 года. Но он постоянно искал способы сделать архитектуру проекта проще и удобнее — и пришел к мысли, что пора переходитm на SQLite.
🔵Переход не всегда был простым — пришлось и разобраться, как обойти ошибку database is locked, и найти способ сжатия данных в SQLite. В MySQL вопрос решался через функцию compress, а вот в SQLite решение оказалось не таким очевидным.

Спойлернем: автор начал с поисков стороннего плагина, но в итоге пришел к тому, что более жизнеспособный вариант — компрессия на уровне файловой системы.

🔵Несмотря на все сложности, SQLite с 6,4 ТБ справляется не хуже, а иногда даже лучше, чем MySQL. Автор все равно переживает, что какие-нибудь проблемы все равно вылезут, но пока полет нормальный.

Как вам такой эксперимент?
❤️ — Проект работает, цель достигнута — значит, все было не зря!
🙈 — Слишком много суеты непонятно для чего
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈3315😁5👍2🔥1
Umami — альтернатива Google Analytics
Как бы ни был хорош, привычен и удобен Google Analytics, не всем нравится, что корпорация собирает и использует в своих целях их данные. Если вы не хотите делиться с Google информацией о своих пользователях, можно рассмотреть альтернативы — например, Umami.

Это бесплатный инструмент для веб-аналитики с открытым исходным кодом.

🔵 Поддерживает PostgreSQL и MySQL. Судя по отзывам — работает устойчиво и стойко переваривает даже большие потоки данных.
🔵Простой интерфейс с гибкими настройками событий и действий юзеров, которые вы хотите трекать. Можно отслеживать действия, клики, переходы и удержания, строить воронки — в общем, все, что надо.
🔵Для тех, кто не хочет хостить инструмент самостоятельно, есть облачная версия.

Что думаете про подобные альтернативы Google Analytics?
❤️ — Хорошо отношусь — на рынке должна быть здоровая конкуренция!
🙈 — Не вижу смысла — ни одна из них не превзошла GA
Please open Telegram to view this post
VIEW IN TELEGRAM
29🙈71
Forwarded from karpov.courses
LEFT JOIN открыл вакансии инженера данных для студентов karpov.соurses

Это значит, что все оплатившие обучение на курсе «Инженер данных» до 27 марта, смогут претендовать на позицию Middle Data Engineer в компании. Чем предстоит заниматься, раскроем через реальный кейс. Попробуйте решить ↓

Реальный кейс от LEFT JOIN: Биллинг-сервис для медицинских организаций пришел с задачей. Хочет автоматизировать обработку данных в трансформационном слое и зашифровать данные клиентов. В качестве материалов вам отдали сырые данные о клиентах и их платежах. Попросили использовать в работе инструмент Key management.
🔥72👌2
Как развиваться в профессии инженера данных?
Совсем скоро стартует новый поток курса «Инженер данных» — тот самый, где студенты могут получить не только знания, но и работу в LEFT JOIN.

А перед началом учебы на вебинаре разберемся, что должен знать и уметь инженер данных, чтобы успешно развиваться в профессии и повышать грейд. Вебинар проведет Николай Валиотти — создатель канала и основатель дата-консалтинга LEFT JOIN.
🔵 С каким стеком нужно уметь работать?
🔵 Какие «софты» и «харды» пригодятся DE, и как требования к ним меняются в зависимости от грейда?
🔵 Что именно делает инженер данных и какие задачи решает? Разберем на примере трех реальных проектов из нашей практики.

Онлайн-вебинар пройдет 18 марта в 18:00 по Москве. Участие бесплатное.

🔜 Регистрируйтесь по ссылке!
Please open Telegram to view this post
VIEW IN TELEGRAM
9😱21👍1🔥1
Польза несовершенства на примере BlueSky
BlueSky — соцсеть, созданная как альтернатива Twitter. Принцип работы тот же: пользователи создают профили, подписываются на других пользователей и видят их посты в своих лентах.

Давайте посмотрим, как это работает изнутри и почему часть постов не доходит до подписчиков — и это нормально.
🔵 Таблица Timeline — те самые ленты постов — разделена на несколько шардов, где для каждого юзера выделена своя партиция. Всего на 32 млн пользователей приходится несколько сотен шардов.
🔵 Когда кто-то выкладывает новый пост, он разлетается по его подписчикам и встраивается в таблицы, из которых формируются их ленты. Одновременно старые сообщения выводятся из них.  Этот процесс работает нормально, если пользователи не шалят и не подписываются на всех подряд. Но если кто-то подписывается на тысячи или сотни тысяч аккаунтов, начинаются проблемы.
🔵 Его лента постоянно обновляется, и это создает повышенную нагрузку не только на его партицию, но и на соседей по шарду. При этом сам пользователь (если это и правда человек, а не бот) никогда не сможет прочитать все сообщения в ней. Значит, и BlueSky незачем выводить все-все новые посты — достаточно просто, чтобы в ленте регулярно появлялся новый контент.

Так, чтобы избежать перегрузки, BlueSky внедрили такие понятия:
🔵 разумное ограничение (reasonable limit) на число подписок — то есть сколько подписок нужно, чтобы лента стабильно обновлялась и оставалась читабельной.
🔵 loss_factor — процент новых сообщений, которые не попадут в ленту пользователя. Он рассчитывается по формуле min(reasonable_limit/num_follows, 1).

Допустим лимит у нас 2000, а подписан пользователь на 8000 аккаунтов. В этом случае loss_factor = 0,25, то есть только 25% новых постов попадут в его ленту.

Внедрение таких запрограммированных потерь помогло значительно поднять производительность и снизить задержки.

Как вам это решение?
❤️ — Изящно!
🌚 — Можно было и получше придумать…
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍6🌚2
Про данные, будущее и поиски работы
Любой бизнес работает с данными — хоть какими-то.

А где данные, там и те, кто должен их собирать, обрабатывать и анализировать. И если на первых порах с этим можно справиться без специально обученных людей, то большие объемы и сложные пайплайны требуют участия дата-инженеров.

В общем, спрос на дата-специалистов никуда не денется, как бы ни лихорадило рынок ИТ, но найти работу и построить успешную карьеру — это все равно челлендж.

🔜 Ребята из karpov.courses разобрались, какие знания и навыки дадут преимущество перед остальными кандидатами. Еще и спросили мнение экспертов, которые в аналитике и дата-инжиниринге не первый год (среди них вы можете заметить знакомые имена).

Кстати, помните, что они у себя на канале
начали рассказывать про один наш кейс? Уже вышло продолжение и скоро будет завершение — не пропустите!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🤣1
Вебинар «Как развиваться в профессии инженера данных?» — сегодня!
Подключайтесь в 18:00 по Мск, чтобы узнать, какие навыки помогут построить карьеру в дата-инжинирнге. Рассказывает Николай Валиотти — основатель дата-консалтинга LEFT JOIN (и этого канала), предприниматель и дата-энтузиаст, который больше 15 лет работает с данными.

Про что он расскажет?
🔵 Стек, которым надо владеть, чтобы стать востребованным специалистом.
🔵 Hard & Soft skills, которые нужны дата-инженерам.
🔵 Примеры реальных инжиниринговых задач из практики дата-консалтинга.

🔜 Регистрируйтесь и приходите на вебинар!

UPD: вебинар прошел улетно! Огромное спасибо всем участникам 💙
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
Вайб-кодинг в аналитике?
Слышали про вайб-кодинг? Суть явления описал Андрей Карпатый — оригинальный твит на скрине, а ниже наш перевод:

Есть новый вид программирования, который я называю «вайб-кодинг», когда ты полностью отдаешься вайбам, принимаешь экспоненциальный рост и забываешь, что код вообще существует. Это возможно благодаря тому, что LLM (например, Cursor Composer с Sonnet) становятся слишком хороши. Также я просто общаюсь с Composer через SuperWhisper, так что почти не касаюсь клавиатуры. Я прошу у него всякую ерунду, типа "уменьшить отступ на боковой панели вдвое", потому что мне лень искать, где это сделать. Я всегда нажимаю "Принять все", больше не читаю диффы. Когда получаю сообщения об ошибках, просто копирую их и вставляю без комментариев — обычно это решает проблему. Код разрастается за пределы моего обычного понимания, и мне пришлось бы долго его читать, чтобы разобраться. Иногда LLM не может исправить баг, поэтому я просто обхожу его или вношу рандомные изменения, пока он не исчезнет. Для одноразовых проектов на выходные это не так уж и плохо, но все равно забавно. Я создаю проект или веб-приложение, но это уже не совсем программирование — я просто что-то вижу, что-то говорю, что-то запускаю, что-то копирую и вставляю, и оно в основном работает.


Как это выглядит на практике?

🔵 Про свой опыт «вайб-кодинга» написал vas3k — он по итогу остался не так воодушевлен этим подходом, как Андрей Карпатый.
🔵 Недавно завирусилась история про геймера, который решил перевести Dark Souls 3 с помощью нейросети, ничего не понимая в кодинге, и встрял на 2000$.
🔵И мы тоже как-то раз постили про ИИ в ИТ, правда у нас в посте пример был не такой экстремальный.

🔜 Но интересно обсудить это явление не абстрактно, а применительно к сфере аналитики и дата-инжиниринга.
Полностью оставить код на усмотрение ИИ — относительно рабочий вариант для личных проектов, которые делаются для души. Но работа аналитика или дата-инженера обычно подразумевает взаимодействие с командой, и там сложные неоптимизированные SQL-запросы от ИИ не понравятся ни коллегам, ни заказчикам.

Или это все-таки вполне рабочий вариант? Участвуйте в опросе, пишите в комментах!
Please open Telegram to view this post
VIEW IN TELEGRAM
8😁3🔥2👍1
🚀Прямой эфир с Николаем Валиотти и Анатолием Карповым 🔥
Новый формат — обсуждаем в прямом эфире реальные задачи инженера данных! Анатолий Карпов расскажет, что студенты изучат во время учебы на курсе «Инженер данных», а Николай Валиотти объяснит, зачем это нужно инженеру на практике.

Это не просто вебинар, где спикер выступает с презентацией, а живое обсуждение двух экспертов в сфере аналитики и инженерии данных. Они разберут самые важные и неоднозначные модули курса:
🔵Реляционные и МРР СУБД,
🔵ETL-процессы и Airflow,
🔵Проектирование DWH,
🔵BI для дата-инженера,
🔵Управление данными.

Студенты с потока, который стартует 27 марта, смогут получить оффер в LEFT JOIN — про это тоже расскажут подробнее: что для этого нужно, какие этапы надо будет пройти и почему у нас круто работать.

Эфир пройдет 24 марта в 18:00 по Москве здесь в телеграме! Регистрация не требуется.

🔜 Если у вас есть вопросы к спикерам — про работу инженера данных, курс или оффер LEFT JOIN → оставляйте их в комментариях под этим постом 🔜
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106🤔4👍2❤‍🔥1
Media is too big
VIEW IN TELEGRAM
Иван Вахмянин про Visiology, разработку BI-платформ и конкуренцию с Power BI
Бывало у вас такое, что вы смотрите на любимое приложение и думаете — все в нем хорошо, но почему туда не добавят [вставьте сюда название крутой фичи, которая в нем обязательно нужна]?

Неужели разработчики сами не понимают, как это важно?

💙 Возможно, в новом выпуске LEFT JOIN Partners вы найдете ответ.

Гостем выпуска стал Иван Вахмянин, сооснователь и управляющий партнер российской BI-платформы Visiology.

Иван рассказал про работу над продуктом и принципы, которыми руководствуется команда, когда добавляет или убирает какие-то функции — и почему это всегда непростое решение. Заодно обсудили, какие вообще особенности есть у Visiology и за что платформу ценят пользователи.

Ну и конечно, не обошлось без рынка российского BI:
🔵 Чем рынок и наши пользователи отличаются от западных,
🔵На кого ориентируются и с кем конкурируют отечественные разработчики BI,
🔵Выгодное ли вообще это дело — разработка BI-платформы — и как добиться в нем успеха.

Смотрите: YouTube, VK
Слушайте: Apple Podcasts, Spotify, Яндекс Музыка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥8🤩51
🚀 Прямой эфир @leftjoin и @karpovcourses через 20 минут 🔥
Сегодня в 18:00 по Москве пройдет первый прямой эфир в TG с Николаем Валиотти и Анатолием Карповым.

Два эксперта в сфере аналитики и инжиниринга данных расскажут про то, какие навыки нужны инженеру данных и как они применяются на практике в реальной работе — на примере дата-консалтинга LEFT JOIN.

Эфир приурочен к старту нового потока курса «Инженер данных» 27 марта. Так что расскажут заодно про программу обучения и возможность получить оффер от LEFT JOIN. 💙

🔜 Если у вас есть вопросы к спикерам, обязательно заплавайте их в комментариях под этим постом!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥13👌4👍321
Live stream scheduled for
Live stream started
Live stream finished (1 hour)
o1 в помощь дата-инженеру
Про ИИ в аналитике и дата-инжиниринге мы спрашивали не просто так — мы недавно провели свое мини-исследование и описали его в новой статье.

Вайб-кодинг — не лучший подход к работе, когда речь идет про аналитику и данные, но это не значит, что ИИ совсем никакое применение не найдется. Ему все еще можно доверять некоторые задачи — например, написать сложный запрос с оконными функциями и объединением данных из нескольких таблиц. Самому это все прописывать может быть долго и утомительно, а вот хваленая o1 справится без проблем.

Или нет?

🔜 Ответы и выводы читайте в статье!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍42🌚1
Коннектор Tableau + ClickHouse
Команда ClickHouse представила официальный коннектор с Tableau.

🔵Работает с Tableau Desktop и Tableau Server — для Cloud пока не завезли. Всех, кто считает, что это упущение надо исправить как можно скорее, призывают писать об этом команде ClichHouse.
🔵В Tableau's Data Source Verification Tool коннектор показал совместимость 98%. 2% приходятся на специфические форматы даты и времени, которые ClickHouse не поддерживает.
🔵Коннектор вместе с инструкциями по установке доступен в Tableau Exchange.
🔵Подробный гайд, как пользоваться коннектором и собрать дашборд в Tableau на основе датасета в ClickHouse опубликован в блоге СУБД. Этот датасет, кстати, можно скачать и самостоятельно потестить, как работает коннектор.

Как вам новость? Уже пользовались коннектором?
❤️ — Да, и расскажу в комментах про свои впечатления!
🌚 — Нет, еще не приходилось.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥214🌚4👍1
Насколько важно образование в аналитике?
Бенн Стенсил, со-основатель BI-платформы Mode и автор пессимистичного блога на substack, задался вопросом, стоит ли идти в магистратуру по аналитике? Его ответ однозначный — нет.
🔵После всплеска интереса к data science в конце десятых университеты (важно уточнить, что он говорит про США) пооткрывали магистерские программы по аналитике. Зачастую образовательный компонент в них был вторичен, а вся суть была в том, что университет за большие деньги продавал студентам возможность написать представительно выглядящую строчку в резюме. Если повезет — еще и какой-никакой нетворкинг.
🔵При этом многих работодателей из Кремниевой долины эти строчки в резюме мало интересуют. А в каких-то случаях даже воспринимаются как красный флаг — показатель, что соискатель потратил кучу времени и денег на бесполезный диплом.
🔵Даже когда программа таки учит твердым основам работы с данными и академическим принципам, эти знания часто мало применимы в реальной работе.
🔵По мнению Бена, намного лучше, чем поступать в магистратуру, — заниматься своими проектами и выбирать то, что вам действительно интересно, а не просто то, что звучит серьезно. Мало того, что это вас мотивирует глубже погрузиться в изучение вопроса, так еще и поможет выделиться среди остальных кандидатов, если проект действительно оригинальный.

Логика в его словах есть, но мы решили спросить мнение основателя LEFT JOIN Николая Валиотти — для полноты картины:
Я закончил магистратуру в Georgia Tech и могу сказать, что они давали прикладные, понятные знания, применимые на реальных кейсах. Было много непростой проектной работы, которая требовала серьезных усилий.

Я думаю, что описанное в посте не относится к вузам, где computer science — одно из основных направлений деятельности, как в Georgia Tech.

Я всегда говорил, что профильное техническое образование важно в нашей сфере — оно дает фундаментальные знания, которые вряд ли можно получить в другом месте.


А вы что думаете? Нужно профильное образование или без него можно устроиться?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍633
Если вы пропустили прошлый дроп мерча — вот ваш шанс!
У нас осталось всего 5 футболок в размерах S, M и 2XL.

Стоимость: 2500 рублей
Размеры: S, M, 2XL
Доставка: Почтой России и СДЭКом по РФ (если живёте за границей, можем отправить вашим друзьям или родным в России).

🔜 Чтобы оставить заявку, стучитесь к нашему боту (размерная линейка с указанием параметров доступна в боте).

После заявки с вами свяжется наш сотрудник для подтверждения заказа и оплаты. Вопросы можно задавать в комментариях к посту — всё расскажем! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥4😱3