LEFT JOIN – Telegram
LEFT JOIN
44.9K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Советы по SQL: полезные фичи и рекомендации
Нашли классный документ на гитхабе с лайфхаками по SQL, как сделать код читабельнее и избежать частых ошибок. Советы подойдут не всем (уже предчувствуем, что многим не понравится первый пункт в блоке «Formatting/readability»), но ознакомиться стоит.

Еще немного рекомендаций (и обсуждений злосчастной запятой из первого пункта) можно найти в треде на Hacker News.

Сохраняйте пост себе, пересылайте знакомым — пригодится! 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥147
Данные были ошибкой
Как-то раз мы обсуждали статью Бенна Стенсила, где тот спрашивал, нужна ли на самом деле аналитика. Сегодня пойдем дальше и спросим, а нужны ли нам данные в том виде, в котором мы собираем и используем их сейчас?

Источник вдохновения для поста: статья What If Data Is a Bad Idea? Ниже — краткий пересказ основных идей, но рекомендуем прочитать материал целиком, он того стоит.

🔜 Речь не о обо всех данных, а о персональных, которые собирают о пользователях сайты, соцсети и приложения.
Проблема в том, что эти данные лежат где-то на недоступных частных серверах корпораций. Такой подход к сбору и хранению информации не делает разницы между данными о погоде и данными о живых, думающих людях, совершающих действия и принимающих решения.

Это лишает людей контроля над данными о себе и превращает их в ресурс. Многие с этим смирились и приняли как данность, что конфиденциальности в интернете давно нет. Сейчас каждый сайт собирает наши куки и отправляет Большому Брату.

🔜 Но что, если можно жить по-другому?
Всю эту систему можно (в теории) сделать более человечной и близкой к нам, а также вернуть людям хотя бы частично контроль над их данными.

🔵 Более близкой ее можно сделать вполне буквально — благодаря проекту Solid и принципу Local-first software.
🔵 Контроль и право собственности на свои данные предоставляют такие инициативы, как Verifiable Credentials. Они дают возможность подтверждать личность, не разглашая о себе лишнего. То есть не отправлять важную информацию о себе кому попало.

Если кратко, суть в том, чтобы наконец-то создать прекрасный децентрализованный интернет будущего. Идея хорошая, но вот как прийти к этому состоянию — пока непонятно. Этот подход решает часть проблем, но создает новые, и решения есть не для всех из них.

А вы что думаете — когда уже это случится и корпорации и дата центры перестанут собирать данные о каждом нашем клике?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🔥296🤡2
Матемаркетинг’24 пройдет 7 и 8 ноября
…а также 29 октября.

В Москве специалисты по аналитике и маркетингу уже в шестой раз соберутся на конференции Матемаркетинг, чтобы поговорить про данные, технологии и продвижение.
🔵Как и из чего выстраивать аналитическую инфраструктуру в текущих реалиях?
🔵Как можно использовать ML для продуктовой аналитики?
🔵Как эффективно работать с платными каналами продвижения и не терять деньги?

Всего обещают больше 120 докладов и выступлений от специалистов из Ecommerce, EdTech, Retail и других областей. Особенно ждем выступление Ромы Бунина! ❤️

Будет еще кое-кто, кого мы в LEFT JOIN тоже очень хотим послушать — но про это расскажем позже.

Конференция будет идти три дня — но не подряд

29 октября пройдет онлайн-эфир со спикерами, которые находятся не в России.

7 и 8 ноября пройдет основная часть выступлений сразу в двух форматах.
🔵Офлайн — по адресу МГУ, кластер «Ломоносов», Раменский бульвар, 1, с кофе-брейками и нетворкингом.
🔵Онлайн-трансляции и записи — для спикеров и посетителей, которые не смогут приехать.

Участие платное и по билетам. Обладатели билетов получат доступ к закрытой платформе мероприятия на 6 месяцев. Там собраны материалы с конференций прошлых лет.

🔜 И кстати — до 13 октября по промокоду LEFTJOIN15 билет можно купить со скидкой 15%.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍65🤡4🔥3
Состоялся релиз PostgreSQL 17!
В новой версии СУБД улучшили производительность и расширили функционал.

Среди изменений:
🔵 Команда VACUUM для очистки и оптимизации БД теперь выполняется быстрее и потребляет в 20 раз меньше памяти.
🔵 Благодаря улучшениям в обработке журнала предзаписи (WAL, Write-Ahead Logging) вдвое выросла пропускная способность операций записи в системах с большим количеством параллельно выполняющихся запросов.
🔵Добавились новые функции для работы с данными в формате JSON: JSON, JSON_SCALAR, JSON_SERIALIZE, JSON_EXISTS, JSON_QUERY, JSON_VALUE. Появилась поддержка JSON-TABLE, которая конвертирует данные из JSON в стандартные таблицы PostgeSQL.
🔵 Расширились возможности функции MERGE и добавилась поддержка выражения RETURNING.

Полный список изменений — на сайте проекта.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥1592
Тизерим новый проект с классным гостем, которого многие из вас наверняка знают. ❤️

Подробности расскажем совсем скоро! Подписывайтесь на канал Николая, чтобы не пропустить.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍119🔥1
Встретился и записал двухчасовой подкаст с Ромой Буниным на Кипре про все актуальное.

Много поговорили про Кипр и про эмиграцию в целом, про Datalens (Яндекс, приходите, расскажу, куда нести донаты), про аналитическую культуру Yandex Go, про разные проекты Ромы. Про историю жизни не спрашивал, вы ее уже слышали от Ромы раз 5.
👍2912🔥5👎2
Почему стоит записаться на курс SQL База?
Не будем перечислять все, что мы не раз рассказывали — про то, что там много практических заданий, приближенных к реальным, поддержка от команды разработчиков и так далее.

У нас есть новые аргументы!
1️⃣ Новые отзывы от студентов — они выше, на картинке. Насколько хороша подача и задания, вы могли недавно убедиться сами в посте с задачей на соединение таблиц.
2️⃣ Осталось всего два дня до конца действия промокода СЕНТЯБРЬ30, по которому вы можете купить курс со скидкой 30% — за 931 рубль вместо 1330!

Готовы записаться? Переходите по ссылке 🔜 https://stepik.org/a/129108
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥4👌4
«Я вообще не устаю делать дашборды»

В гостях Анастасия Кузнецова — BI team lead в Semrush и автор канала настенька и графики.

О чем мы поговорили?

🔵 Об учебе на социолога и неудачном побеге в Финляндию
🔵 Что лучше — курсы или высшее образование?
🔵 Как справляться с задачами, которые кажутся невыполнимыми?

🔜 Подробности — в канале Карьера в Data | LEFT JOIN
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2410🔥7
От 1234 до 8068
Несложно посчитать, что существует 10 000 возможных вариаций ПИН-кодов из 4 цифр.

Также довольно легко догадаться, какие из них будут самыми популярными. Наверняка, почти все, кто читает этот пост, подумали про 1234, 1111 или 0000.

Но вот какая комбинация цифр будет самой непопулярной? Да, у нас спойлер в заголовке. Какие еще ПИН-коды пользуются популярностью? Есть ли тут какая-то закономерность или это чистый рандом?

🔜 На графике выше вы можете видеть, что закономерности таки есть
График составил аналитик Ник Берри в 2012 году на основе 3,4 миллионов слитых в интернет ПИН-кодов. Да, данные не самые новые, но что-то нам подсказывает, что вряд ли за эти 10 лет что-то сильно изменилось.

🔵Чем светлее точка, тем популярнее код. Рандомно раскиданные черные точки — самые редкие коды. Среди них и 8068, комбинация, которая встретилась всего 25 раз.
🔵Светлая линия в центре — ПИНы из повторяющихся пар цифр (1212, 1313 и так далее).
🔵Светлая линия в нижней части — ПИНы, начинающиеся на 19. Вероятно, многие из них — год рождения.
🔵В левом нижнем углу — большой светлый блок, обрывающийся по обеим осям после 30. Можно предположить, что среди них много пинов, в которых зашифрованы даты рождения. Также люди любят коды, которые начинаются с 0 или 1.

Рассмотреть график поближе можно здесь, а почитать про исследование Ника и его выводы — в его статье. Там же есть топ-20 кодов, на которые приходится аж 26% всех ПИНов из его датасета.

Как вам график?
❤️ — красота!
👾 — делать людям нечего...
Please open Telegram to view this post
VIEW IN TELEGRAM
79🔥23👍12👾8
Что нового у DataLens?
25 сентября прошла конференция Yandex Scale. Там рассказали про новые сервисы и фичи, а мы следили за новинками DataLens.

Делимся самыми интересными новостями:
🔵Конструктор отчетов, в котором можно собирать документы для экспорта в pdf, чтобы отправить коллегам или клиентам.
🔵Безопасное встраивание дашбордов, благодаря которому можно встроить не только отдельный график, но весь дашборд в любой продукт типа CRM.
🔵Анонсирован DataLens Enterprise. Знакомый DataLens, но в контуре заказчика. На сайте проекта можно отправить заявку, и команда DataLens обсудит с заинтересованными компаниями пилотный проект.

Конференция уже прошла, но доклады еще остались. Если хотите узнать подробности, то смотрите запись на сайте мероприятия.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥158
Вы наушники не теряли?
Представим ситуацию: вы нашли на улице чьи-то эирподсы. Если подключить их к своему (или любому доступному вам) айфону, вы увидите их серийник и 4 последних цифры номера владельца. Вы хотите вернуть находку. Как вы это сделаете? 👀

Если вы сказали: «Попробую выйти на владельца через Find My» — это логичный ответ, но в вас пропал дух авантюризма так совсем неинтересно. Давайте усложним задачу: Find My пользоваться нельзя. Или вы попробовали, но он не помог.

В мобильных номерах в России 11 цифр: мы знаем первую (+7 или 8) и 4 последних. Уже немало, почти половина номера у нас есть. Что дальше, есть идеи?

🔜 Если есть — пишите в комментариях.

А если нет, то вот пример из Америки.

Спойлернем: автор предположил, что хозяин наушников живет в Портленде, где те были найдены — соответственно, первые 3 цифры будут кодом этого штата. Следующие 3 называются префиксом, и список возможных комбинаций в нем можно сильно сузить, если разузнать, какие из них разрешено использовать телекомам в регионе. Ну а затем надо было просто пробить все получившие номера по базе, которая показывает привязку к iMessage — если человек пользуется эирподсами, то и эппловским мессенджером тоже, скорее всего. Ну а дальше оставалось только сделать по ним рассылку с вопросом «Вы наушники не теряли?»

В других странах, например, в России, этот способ может сработать не так хорошо, поэтому и интересно почитать ваши предложения!
Please open Telegram to view this post
VIEW IN TELEGRAM
😁15🔥96👍3👎1
Кейс: готовое решение из «коробки» vs кастомная аналитика
На рынке полно готовых решений для аналитики, которые можно подключить к своим источникам данных и базам и получить от них достойные информативные дашборды. Это намного дешевле и быстрее, чем строить систему аналитики с нуля, поэтому многие компании выбирают именно этот путь.

При всех неоспоримых плюсах у таких готовых решений есть и минусы:
🔵сложно настроить под себя, когда возникает необходимость в более продвинутой аналитике;
🔵если появляются какие-то ошибки и неточности в данных, может быть очень тяжело разобраться, из-за чего это происходит.

Со второй проблемой мы однажды столкнулись. Если кратко, то заказчик пользовался ROISTAT, а потом решил выстроить кастомную систему с нашей помощью. И когда он посмотрел на наши дашборды, то понял, что «цифры не бьются» и в данных что-то не так. Мы начали разбираться и поняли, что хотя в своем коде мы уверены, внутрь ROISTAT заглянуть, чтобы разобраться, что и как он считает, мы не можем.

🔜 Что потом мы с этим делали, читайте в новой статье в нашем блоге!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥942
This media is not supported in the widget
VIEW IN TELEGRAM
🔥2112👍4
This media is not supported in your browser
VIEW IN TELEGRAM
5👍18😍761
Как аналитика поможет бизнесу поднять раунд инвестиций
Слышали, что недавно OpenAI подняла раунд инвестиций на 6,6 млрд?

А у нас как раз статья вышла про то, как с помощью отчетов и аналитики убедить инвестора выделить деньги стартапу. Будем честны: 6,6 млрд не обещаем, но верим, что статья поможет понять, как показать потенциал бизнеса с помощью данных.

Пригодится не только предпринимателям, но и аналитикам, чтобы лучше понимать запросы бизнеса и влияние аналитики на фандрайзинг.

🔜 Читайте по ссылке https://vc.ru/u/48577-nikolai-valiotti/1541672-kak-analitika-pomozhet-startapu-podnyat-raund-investicii
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥861
Топ-3 лучших страны для работы в 2024
…если судить по количеству праздничных дней в году. Их для нашего с вами удобства отобразили за графике выше (интерактивная версия — здесь).

Список получается любопытный: в топе Непал с 39 днями, Мьянма с 32 и Иран с 26.

Скучнее всего в Мексике, Великобритании и Эквадоре — у них всего 8 выходных праздничных дней.

Переезжаем в Непал?
❤️ — собираю чемоданы
👾 — нет уж, спасибо
🔥 — а я уже там
👾4419🔥8😁7😱3
Яндекс запустил Поиск с Нейро
Теперь в поисковой выдаче можно увидеть ответы от YandexGPT. Пример того, как это выглядит, — выше на скрине.

Где-то мы уже это видели...
🤣59🌚6😱5😁4👍1
Google починил SQL
Как думаете, что делает запрос ниже?
FROM customer
|> LEFT OUTER JOIN orders ON c_custkey = o_custkey
AND o_comment NOT LIKE '%unusual%packages%'
|> AGGREGATE COUNT(o_orderkey) c_count
GROUP BY c_custkey
|> AGGREGATE COUNT(*) AS custdist
GROUP BY c_count
|> ORDER BY custdist DESC, c_count DESC;


А делает он то же, что вот этот:
SELECT c_count, COUNT(*) AS custdist
FROM
( SELECT c_custkey, COUNT(o_orderkey) c_count
FROM customer
LEFT OUTER JOIN orders ON c_custkey = o_custkey
AND o_comment NOT LIKE '%unusual%packages%'
GROUP BY c_custkey
) AS c_orders
GROUP BY c_count
ORDER BY custdist DESC, c_count DESC;


Главное отличие в том, что первая версия кода — это новый более лучший улучшенный SQL от Google. 👀

А что не так со старым?
У SQL много плюсов, но давайте честно — это не самый простой язык. Иногда даже опытным экспертам бывает сложно разобраться, как написать или прочитать особенно хитрый запрос.

Но и отказываться от него не хочется: во-первых, мы все-таки его любим, а во-вторых, достойной альтернативы ему просто нет. Поэтому ребята из Google предложили решение — конвейерный синтаксис, который вы и видите выше.

Что такое GoogleSQL?
GoogleSQL — это диалект SQL, разработанный в Google.

К нему прикрутили поддержку «конвейерных» запросов (но обычные и смешанные тоже допускаются). Они отмечаются значком |> и в основном выполняют те же функции, что их «тезки» в стандартном SQL. Хотя есть и несколько экспериментальных, у которых нет аналогов.

🔜 Подробнее можно почитать в публикации от команды Google. Самое интересное начинается с 4 страницы — там про операторы, синтаксис и логику работы.

Если совсем кратко (чтобы влезло в пост в Tg), то главный плюс подхода, предложенного Google, — запросы намного проще писать, читать, редактировать, дебажить, добавлять новые операторы и так далее.

Вот такой апдейт для старого доброго SQL. Что скажете?
❤️ — так действительно удобнее
🌚 — это уже не SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚8829🤔19👍15🤡3
Онлайн-курсы: напрасная трата времени и денег или шанс сменить профессию?
Надеюсь, вы не забыли, что мы проводили независимое исследование онлайн-курсов по аналитике? Так вот, пришло время поделиться результатами.

В этой статье все явки и пароли — а именно, как Data-специалисты выбирают онлайн-курсы, оправдались ли их зарплатные ожидания после обучения и многое другое.

🔜 Читайте по ссылке → https://vc.ru/education/1556717-onlain-kursy-naprasnaya-trata-vremeni-i-deneg-ili-shans-smenit-professiyu
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍1563😍2
Так, результатами исследования мы поделились, теперь можно публично поблагодарить наших друзей и коллег, которые поддержали нашу идею ❤️

Обязательно подписывайтесь на эти каналы — все-таки, драгоценная подборка экспертов сферы (и не только) 👀

🔵Reveal the Data
🔵data comics
🔵Чартомойка
🔵Инжиниринг данных
🔵Datanomika
🔵Datalytics
🔵Start Career in DS
🔵Data Nature
🔵настенька и графики
🔵People Analytics
🔵Лягушачья аналитесса
🔵Это разве аналитика?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥139