LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Media is too big
VIEW IN TELEGRAM
BI-рай: Роман Бунин про Datalens, дата-культуру и эмиграцию
💙 А вот и обещанный новый проект — подкаст LEFT JOIN Partners! Это серия интервью с экспертами в области данных, аналитиками, дата-инженерами, руководителями дата-команд и фаундерами компаний.

Первый гость — вам хорошо известный Рома Бунин, Head of Data в Nebius Group и автор блога Reveal the Data.

В общем, про это все в выпуске и поговорили:
💬 Про работу в Яндексе — про дата-культуру и, конечно, про Datalens. Обсудили, чем он хорош и чем лучше (а чем хуже) конкурентов.
💬 Про жизнь и работу в Европе, культурный шок и Кипр. Кому есть смысл релоцироваться на Запад, а кто от этого не особо выиграет?
💬 Про личные проекты и в том числе про то, как ведение блога помогает найти работу (но это не должно быть его главной целью).

🔜 Смотрите на YouTube!

Как вам подкаст?
❤️ — Круто, давайте еще
👾 — Можно и лучше!
Please open Telegram to view this post
VIEW IN TELEGRAM
51🔥2413😱5👌5
Утренние пробки и офисные сплетни: ужасы для взрослых
За окном Хеллоуин — самое время поговорить про что-нибудь страшное. Например, то, с каким упорством Amazon гонит своих сотрудников с удаленки в офис, потому что руководство компании сердцем чувствует, что так будет лучше.

👀 Да, если в детстве ужасы — это что-то про вампиров и зомби, то во взрослой жизни — это необходимость каждый день по пробкам ездить на работу. Ну, или корпорация, где такие важные решения обосновывают с помощью аргумента «мы верим», а не данными. Хотелось верить, что такая огромная компания, как Amazon ворочает своими миллиардами прибыли и управляет тысячами сотрудников на основе метрик и показателей, но оказалось, что искренней веры в свою правоту достаточно.

Даже не знаем, что из этого страшнее.

Хотя для кого-то это может быть не так уж страшно. Немало людей, которые не против офиса или даже любят там работать.

А в каком лагере вы?
❤️ — Я за удаленку!
⚡️ — Я за офис!
Please open Telegram to view this post
VIEW IN TELEGRAM
13633👍9🤔5😱1
Лауреаты Yandex ML Prize 2024
Вы просили больше новостей науки — они есть у нас!

У Яндекса есть научная премия — Yandex ML Prize, которую вручают ученым, исследователям и преподавателям за достижения в сферах AI и ML. Ее вручают с 2019 года

Что значит «достижения в сфере AI и ML»?
Это перспективные и инновационные разработки в пяти областях:
🔵распознавание и синтез речи,
🔵компьютерное зрение,
🔵информационный поиск,
🔵обработка естественного языка,
🔵обучение генеративных моделей.

Да, это все то, что Яндекс сам использует в своих продуктах вроде Алисы или поиска. Премия помогает развивать технологии, которые могут изменить нашу жизнь, а также медицину, промышленность и другие области.

А если конкретнее?
Вчера объявили лауреатов 2024, так что за какие достижения дают премию, покажем на реальных примерах.

💬 Артем Лыков занимается когнитивной робототехникой — это наука на стыке ИИ и инженерии, которая изучает создание роботов, способных к обучению и выполнению сложных задач. Его команда ученых представила робота-собаку, которая понимает обращенную к ней речь. Таких умных роботов можно использовать в науке и промышленности.

💬 Алексей Скрынник исследует и разрабатывает алгоритмы, которые улучшают навигацию в многоагентных системах— то есть таких, где одновременно существуют несколько агентов. Например, роботов на складе, которые перемещают товары на полках. Разработки его команды позволят таким роботам действовать автономно — то есть, склад не встанет, даже если там упадет Wi-Fi.

💬 Александр Коротин руководит группой ученых, разрабатывающих новые методы обучения генеративных моделей на основе теории оптимального транспорта. Их работу можно будет исследовать в проектировании техники, материалов и химических соединений.

Всего лауреатами премии стали 14 человек — они получат денежные призы, а также гранты на использование Yandex Cloud и доступ к сервисам Яндекс 360. Полный список есть по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥157
Скоро этот мем потеряет актуальность 😔
СЕО Google Сундар Пичаи рассказал, что больше четверти всего кода в компании пишется с помощью ИИ, и это помогает серьезно ускорить и упростить работу инженеров.

Уверены, что скоро больше компаний последуют примеру Google. Такими темпами уйдет эпоха Stack Overflow и копирования поисков вдохновения в коде коллег — потому что зачем это все делать, если ChatGPT сама все напишет, а человеку надо будет только проверить?

И наверняка это случится не только в IT.

Давайте проверим эту теорию на аудитории отдельного взятого TG-канала.

Вы используете ИИ, чтобы упростить себе работу?
❤️ — Да, частенько!
🌚 — Бывает, но не часто
👾 — Никогда!
136🌚131👾47🔥3👍1
Мир и то, что в нем происходит, через призму данных
Вы и сами знаете, как мы любим данные, статистику и датавиз. И знаем, что вы тоже их любите — иначе вы бы нас не читали.

Так что думаем, что вам понравится Pornstat — один из старейших телеграм-каналов со статистикой, между прочим.

Что там есть?
🔵Актуальная информация об экономической ситуации в России и в мире.
🔵Важные социальные вопросы и размышления о происходящих в нашем мире процессах.
🔵Рассуждения о последних технологических трендах и перспективах развития технологий, политических событиях и обо всем, что происходит вокруг нас.

🔜 Взгляните на мир глазами статистики!
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍18🔥11😁1
Черная пятница начинается в понедельник!
То есть сегодня.

🔜 С 4 по 29 ноября наш курс «SQL База» можно купить со скидкой 25% по промокоду BLACKFRIDAY.

Курс дает возможность почувствовать себя настоящим Junior-аналитиком в онлайн-магазине. Во время обучения вы познакомитесь с основами SQL и решите почти 150 задач для коллег из разных отделов. Так вы не только язык изучите, но и узнаете, как на практике выглядит работа начинающего аналитика.

Для кого курс?
🔵 Для студентов, начинающих специалистов и интересующихся — тех, кто еще не имел дел с аналитикой, но хочет узнать, что это такое.
🔵 А еще пригодится тем, кто хочет изучить основы SQL для работы — продактам, проджектам, маркетологам.

Как проходит обучение?
🔵 «SQL База» состоит из 7 модулей, которые познакомят вас с выборкой данных, фильтрацией, агрегацией, написанием подзапросов и соединением таблиц, а также главными понятиями и аналитическими терминами.
🔵 В каждом уроке вас ждут легко и понятно описанная теория и много практики. Между прочим, задания основаны на настоящих задачах и данных реально существующего магазина.
🔵 Вы не останетесь без поддержки — команда курса отвечает на вопросы в комментариях и помогает разобраться со сложными заданиями.

Чем отличается от остальных?
🔥 Акцентом на практику. Вам предстоит решать задачи, максимально похожие на реальные: сегментировать клиентов, помочь оптимизировать маршрут доставки, выгрузить информацию о заказах клиентов. Это не оторванная от жизни теория, а задачи, которые на самом деле выполняют джуны-аналитики.

Сколько это стоит?
🔥 1330 997 рублей до 29 ноября.

🔜 Записывайтесь сами и зовите друзей!
Please open Telegram to view this post
VIEW IN TELEGRAM
29🥰12🔥11👍41
Нейроконтент для алгоритмов
Бывает у вас такое, что заходите на сайт, смотрите, что там написано, и не можешь понять, для кого вообще это все? Неужели кому-то может быть интересно читать или смотреть это?

💬 Мы нашли ответ — это все делается для алгоритмов Google.

Автор сайта The Luddite решил монетизировать какой-нибудь из своих проектов одним из простейших доступных ему способов — прикрутив к нему рекламу. Выбор пал на сайт Apportionment Calculator с алгоритмом, который рассчитывает, сколько мест в конгрессе получит каждый штат получит на основе переписи населения.

В общем, что-то на американском, но это и не так важно. Главное, что это был простой маленький сайт с одной-единственной задачей.

Google это не понравилось
Когда автор подал заявку в AdSense, ему почти сразу пришел отказ с формулировкой «сайт не отвечает требованиям платформы».  Он навел справки и выяснил, что Google любит, когда на странице много оригинального, но необязательно качественного контента. А кто справляется с созданием такого контента лучше нейросети?

С помощью друзей и ChatGPT автор сайта добавил на него:
🔵 историческую справку,
🔵 страничку с рецептами (там есть, кстати, рецепт десерта «алгоритмический восторг»),
🔵 поэтический уголок,
🔵 загадки,
🔵 и, конечно же, блог.

Весь контент, кроме иллюстраций, был сгенерирован ChatGPT. Особенно хорошо получились загадки. Вот одна из них — чтобы сохранить дух оригинала, перевели ее тоже нейросетью.

В загадках о власти я ключом становлюсь,
Ты в сделках найдёшь меня наяву.
Соглашение – цель, что нам всем по пути,
Встретиться в середине, где интересы нашли.
Что я?

Ответ: Найти компромисс


Как вам?
Google тоже понравилось, и заявку автора на размещение рекламы на этот раз одобрили. История получилась смешная, но при этом немного грустная. Роботы и алгоритмы все больше вытесняют людей из интернета. 🤖

А вы часто натыкаетесь на такой же бестолковый контент «для алгоритмов»?
❤️ — Нет, мне везет
🌚 — Да, бывает ☹️
Please open Telegram to view this post
VIEW IN TELEGRAM
29🌚29🔥14👍6
SQLite под капотом у Notion
Приятно, когда большие и известные проекты делятся своими техническими решениями. Недавно Notion рассказал, как ускорил свою веб-версию с помощью SQLite на 20%. В некоторых странах с медленным интернетом результат еще круче —до 33%.

Как это сделали?
Ускорить Notion в браузерах удалось благодаря реализации SQLite на WebAssembly.

🔵 Для сохранения данных между сессиями используется API Origin Private File System или OPFS, который позволяет сайту читать и записывать файлы на устройстве пользователя.
🔵Работу OPFS обеспечивают Web Workers — скрипты, которые запускаются в фоновом режиме и отвечают за создание и запуск баз данных SQLite.
🔵 Они также внедрили SharedWorker. У каждой вкладки, где открыт Notion, есть свой веб воркер. Они все могут делать запросы к файлу SQLite, но делать записи может только веб воркер активной вкладки. SharedWorker (если совсем просто говорить) отвечает за определение активной вкладки и переключение между веб-воркерами в соответствии с действиями пользователя.

Вот так все просто?
На самом деле совсем не просто, но менее сложные решения, которые рассматривали в Notion, не сработали.

💬 Во время тестирования новой архитектуры, часть юзеров столкнулась с багом, из-за которого видели на странице неправильные данные — комментарий, обращенный к одному человеку, оказывался обращен к кому-то другому.

Это происходило из-за того, что несколько веб-воркеров могли одновременно делать записи в базу, а API OPFS не мог обеспечить согласованность данных.

Это не единственная проблема, которая возникла у команды Notion, но самая эффектная. Представляете, какой хаос бы начался, если бы они не отловили этот баг и Notion по всему миру начал бы рандомно менять данные в пользовательских файлах?

А вы пользуетесь Notion?
❤️ — Да
🌚 — Использовал до того, как он ушел из России
👾 — Нет
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚60👾5241👍5😍1
Язык графиков
Vega — декларативный язык для создания интерактивных визуализаций данных. Он позволяет описать, как график должен выглядеть и как с ним взаимодействовать. То, что получится в результате, можно вставить на страницу сайта или сохранить в PNG.

🔵 Возможностей языка хватит для создания как простых и привычных линейных графиков и пайчартов до векторных полей.
🔵 Ко всем визуализациям можно прикрутить какой-нибудь интерактив — зум, выделение части данных, переключение между разными видами графиков, всплывающие подсказки. С помощью Vega можно даже Пакмана собрать! Или платформер.

У проекта есть свой сайт с весьма обширной документацией, Гитхаб и онлайн-версия.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2513👌52👾1
Призраки ИТ-индустрии
Сколько вакансий по вашей специальности сейчас открыто на hh.ru или на LinkedIn?

А сколько из них реальные? 👀

Последние годы для ИТ-индустрии во всем мире были непростыми. Период роста закончился, и маятник качнулся в другую сторону. Начались сокращения — и бюджетов, и рабочих мест. Эти изменения затронули даже гигантов вроде Google, Apple и остальных — наверняка видели новости про массовые сокращения.

Это привело к любопытному эффекту — росту числа «призрачных» вакансий, которые компании выкладывают на сайты, не планируя никого нанимать.

Как их опознать?
🔵 Вакансия постоянно открыта несколько месяцев.
🔵 Она размещена только на какой-то одной площадке, ее нет на сайте компании, в соцсетях или других сайтах по поиску работы.
🔵 У нее размытое описание и слишком широкая зарплатная вилка (если она вообще есть).

Сайт MyPerfectResume провел исследование, в ходе которого выяснилось:
🔵 81% рекрутеров выкладывали «призрачные» вакансии.
🔵 25% сказали, что это помогло создать у сотрудников ощущение, будто их легко заменить.
🔵 23% признались, что таким образом создавали иллюзию роста компании.

Также оказалось, что некоторые рекрутеры используют фейковые вакансии для нетворкинга и рекламы своих услуг.

Карьерный коуч Джон Ловиг рассказал, что некоторые его клиенты попадали в такие ситуации. Они приходили на собеседование в новую компанию, а HR вдруг заводил разговор о том, что на их текущем месте работы открыто много вакансий, которые он мог бы помочь закрыть.

Это совсем уже наглость, конечно.

В основном исследования или истории, как та, что выше, — про рынок на западе. Но случается это по всему миру, и особенно сильно страдает IT. Хотя знаем мы один канал с вакансиями для аналитиков, где точно такого нет.

А вы когда-нибудь сталкивались с «призрачными» вакансиями?
🔥 — Нет, и был уверен, что это миф
👾 — Да, видел такие
🙈 — Да, сам выкладывал
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40👾36🙈3👍1😱1
Please open Telegram to view this post
VIEW IN TELEGRAM
130💔76
LEFT JOIN (и не только) отмечает 11.11
11 ноября — день скидок и безумных распродаж, и мы решили, что это прекрасный повод устроить розыгрыш звезд TG.

💙 Чтобы поучаствовать, надо подписаться на три канала — LEFT JOIN, Карьера в Data и Коля Валиотти • Дата консалтинг, а затем ждать объявления победителей 22 ноября.
Please open Telegram to view this post
VIEW IN TELEGRAM
31
LEFT JOIN pinned «»
Экономика open source: сколько денег приносит бесплатный проект
Spliit — приложение для совместного ведения расходов. С его помощью можно вести совместный семейный бюджет или планировать траты в поездке с друзьями. Приложение бесплатное, без премимум-фич и рекламы, а еще требует от создателя небольших, но регулярных затрат ~100 долларов в месяц — в основном на хостинг.

💬 Можно ли при таком сценарии заработать на своем проекте? Давайте разбираться.
Приложению уже несколько лет, но версия, о которой пойдет речь ниже, появилась всего год назад.

🔵 За это время в приложение зашли 152к раз, из них 29к — по ссылке. То есть кто-то создал группу и пригласил в нее друзей или родных. В неделю в Spliit заходят 5000-6000 раз.
🔵 Пользователи создали 15к групп и 162к записей о расходах. В неделю создают в среднем по 300 групп и 2000 записей.

Получается, что пользуются им довольно активно. Так как оно бесплатное, поддержать автора можно донатами — либо через сервис Stripe, либо через GitHub.

Суммы донатов разные — от 6 долларов в месяц до 107, но большинство в пределах от 20 до 40.

Вот такая экономика — кажется, что заработать на бесплатном проекте, исключительно на людской доброте и благодарности, будет сложновато.

А вы донатите любимым проектам?
❤️ — Да
👾 — Нет
Please open Telegram to view this post
VIEW IN TELEGRAM
👾4626👍10🔥2🙈1
Как Discord хранит данные
У мессенджера Discord больше 150 млн активных пользователей и 19 млн серверов, где эти люди общаются и генерируют миллиарды сообщений.

💬 Как компания хранит такой огромный массив данных?
Об этом команда Discord рассказала в блоге проекта. Приводим оттуда самое любопытное.
🔵 Сообщения пользователей хранились в БД Cassandra. В 2017 году было 12 нодов с миллиардами сообщений. В 2022 — 177 с триллионами.
🔵 Сообщения из одного канала хранились в одной партиции и реплицировались на три нода. Такой подход не вызывал проблем с небольшими каналами, зато активные сообщества на сотни юзеров создавали большую нагрузку. В Dicsord это называли «hot partition» — не оригинально, но понятно.
🔵 Ситуацию усугубляло то, что в Cassandra чтение файлов «дороже» для системы, чем запись. Из-за этого «hot partition» могло спровоцировать сообщение, отправленное на всех юзеров в большом канале. Когда они все разом открывали приложение, начинали оставлять ответы и реакции, это приводило к серьезным лагам.

💬 Проблемы из-за «горящих партиций» возникали слишком часто, и команда решила переехать на другую базу — ScyllaDB. Но очевидно, что простая смена базы не решила бы проблему.

🔵 В Discord разработали сервисы, через которые данные просеивались прежде, чем попасть в базу. Если поступало одновременно много запросов к одной и той же строке в базе, сервис аккумулировал и только после этого отправлял в ScyllaDB.
🔵 В итоге она оказалась намного более стабильной и эффективной базой. Данные, которые в Cassandra хранились в 177 нодах, в ScyllaDB уместились на 72.
🔵 ScyllaDB с поддержкой дата-сервисов не уронил даже Чемпионат Мира по футболу. Забавно, что на графиках Discord было хорошо видно ключевые моменты матчей — нагрузка резко возрастала в ответ на каждый гол Месси.

У Discord ситуация не уникальная, но не частая — не так много компаний, которые ворочают такими массивами данных. И все же надеемся, что вы почерпнули из их опыта что-то полезное для себя.

А вы пользуетесь Discord?
❤️ — Конечно!
👾 — Знаю про него, но не пользуюсь
🤔 — После блокировки в РФ перестал(а)
🌚 — Впервые слышу
Please open Telegram to view this post
VIEW IN TELEGRAM
67👾43🤔17🌚11👍6
«Сделать по ТЗ» vs «Решить задачу»
…И почему это разные вещи.

Мы уже рассказывали про кейс, когда несколько раз переверстывали дашборд в погоне за идеалом. Тот материал был для коллег-аналитиков — технический, с погружением в функционал дашборда и тонкости разработки.

Но эта история — больше, чем про нашу безусловно классную работу с Tableau. Это еще и пример того, как надо уметь работать с заказчиком и не просто делать, как сказали, а погружаться в его задачу и искать эффективное решение.

💬 Поэтому для VC мы переиздали этот кейс — без технических деталей, зато про подход к работе с заказчиком и отношение к правкам. Знаем, что тема для многих наболевшая

Читайте и оставляйте комментарии, мы всегда готовы к суровой критике 🔜 https://vc.ru/dev/1651286
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3612🔥103
Отпуск на максималках с помощью алгоритмов
Приближается конец года, а значит — время, когда многие компании составляют календари отпусков. Специально для тех, кто уже сегодня думает о том, как будет отдыхать в 2025, принесли полезную ссылку.

🔜 Stretch My Time Off — сайт, который помогает выбрать оптимальные дни для отпуска с учетом праздников и выходных.

Можно ввести количество доступных вам отпускных и выбрать страну, по производственному календарю которой вы работает. Удобно для удаленщиков, которые работают в иностранных компаниях.

Алгоритм автоматически выбирает даты так, чтобы «прилепить» к отпуску побольше праздников и выходных дней. Так получится отдохнуть подольше, а отпускных потратить поменьше.

Уже запланировали отпуска на 2025?
❤️ — Да, отпуск это святое
🙈 — Нет, этот год бы дожить
😱 — Что такое отпуск?
Please open Telegram to view this post
VIEW IN TELEGRAM
36🙈31😱18🤔3🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
Праздник к нам приходит — теперь с ИИ
Coca-Cola выпустила свою традиционную новогоднюю рекламу с грузовичками, но в этом году ролик особенный — сгенерированный с помощью ИИ.

Мнения общественности разделились: кого-то впечатляет качество картинки, а кто-то возмущается, что бездушный ИИ-арт добрался до святого.

А вам как?
🔥 — Отлично и по-новогоднему
😱 — И правда без души…
😱86🔥32🤣96👍1
Как не запороть собеседование на дата-инженера
Собеседования — это стресс для многих людей, даже серьезных специалистов с большим опытом. Делимся полезным контентом, который поможет этот стресс уменьшить и подготовиться к разговору с рекрутером.

Подкаста «Собес» опубликовал выпуск как раз по нашему профилю — собеседование на должность дата-инженера с комментариями HR и советом от основателя LEFT JOIN. 👇🏻
👍22🔥97
Forwarded from Либо🔺Либо
В новом эпизоде «Собеса» дата-инженер с классным опытом Саша Михайлов проходит тренировочное собеседование в ML-команду ABBYY.

Вот какие советы по итогам этого интервью дала ведущая подкаста айти-рекрутер Кира Кузьменко:

🔺Одная простая и очевидная мысль — готовьтесь к интервью. 80% вашего успеха — это подготовка.

🔺Если не знаете, как отвечать на вопрос про зарплатные ожидания, называйте две цифры. Первая — минимальная, та, ниже которой вы точно не хотите. А вторая повыше. Как это можно подать: «Я сейчас рассматриваю предложения не ниже 400 тысяч рублей, но я веду переговоры с разными компаниями и моя таргет-цель — это 550 тысяч». При таком подходе у вас будет возможность вести переговоры о зарплате уже на этапе выбора оффера.

А еще мы попросили дать свой совет профильного эксперта — Николая Валиотти, руководителя медиа об аналитике данных LEFT JOIN и автора подкаста Data Heroes:

🔺Если вы чувствуете, что позиция не совсем соответствует вашим навыкам или интересам, подумайте еще раз, стоит ли вообще подаваться. Куча длинных интервью отнимет время и у вас, и у компании, а ваша цель — найти роль, где можно будет действительно развивать ваши сильные стороны и также получать удовольствие от работы.

Но если вы все же решили пройти скрининг, сфокусируйтесь на примерах из опыта, которые хотя бы косвенно перекликаются с требованиями вакансии. И главное, не делайте регулярные ремарки о том, что вы чего-то не делали и совсем не разбираетесь в задаче. Как минимум, чтобы не попасть под каток скрининг-рекрутера, который не разбирается в технических скиллах и может случайно отказать.

Больше советов — в подкасте «Собес». Слушайте его по ссылке
25👍13🔥8