LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Посвящается всем, кто идет спать, а потом еще час листает TikTok
И казалось бы, что может быть полезного в том, что мы вечерами залипаем в TikTok, Reels или Shorts? Однако, мы в @leftjoin решили превратить даже эти данные в полезные. Сегодня мы расскажем о том, что такое линейная регрессия и для чего она нужна, на этом тревожном, но жизненном примере!

P.S. А вы знали, что короткие видео сожрали почти весь рынок мобильных игр, так как люди стали предпочитать свайпы роликов времени, которое они тратили в играх?

P.P.S. Если бы мы сами меньше сидели в тиктоке, то не допустили бы ошибку в описании переменной Х на третьей карточке. Спасибо нашей подписчице Ольге!
#основы_статистики
🔥11828🤔7👍2😁1
Мало собрать данные — надо уметь их визуализировать 👀
Неструктурированные данные на 100 листах, какими бы ценными они ни были, вряд ли принесут много пользы. Но просто собрать их в табличку или нарисовать график мало: визуализация данных (если короче — датавиз) должна быть логичной, полной и не слишком сложной.

Не всегда непонятные графики — следствие искреннего неумения составлять их
Иногда это сознательный ход.

Сравните графики на картинке выше. Информация на них одинаковая: оба показывают, сколько процентов машин разных марок остаются на ходу спустя 10 лет после покупки. А вот эффект они производят разный из-за того, что на левом шкала Y начинается не с 0. Если не приглядываться, то можно и не распознать попытку манипулировать вашим восприятием.

Даже если вам не приходится строить графики на работе, будет не лишним научиться подмечать такие вещи
Кажется, это очень простые и банальные мысли? Тогда проверьте себя с помощью теста на знание правил гигиены датавиза “Bar or Pie”.

Мы знаем о датавизе очень много — от базы до цветовых приемов, но редко об этом рассказываем. Если вам хочется чаще читать об этом в нашем канале — дайте нам знать любой вашей любимой реакцией!
Please open Telegram to view this post
VIEW IN TELEGRAM
123👍71🔥126🐳4
Если не знаете, как подступиться к SQL — начните с этого гайда
Сразу предупреждаем: с телефона ссылку лучше не открывать.

Авторы поставили себе задачу создать понятный, современный и дружелюбный к новичкам документ. В целом, у них получилось, но есть одно «но». О нем в конце, а пока расскажем, что интересного там есть:

🔵 Самые основы — что такое SQL и как устроены базы данных;
🔵 Анатомия запросов с разбором, из чего они состоят, как пишутся и какие вообще бывают;
🔵 Доступное описание возможностей SQL — от базовых операций до более сложных концептов вроде CTE, оконных функций и подзапросов;
🔵 Практические вопросы на закрепление материала.

Гайд представляет собой большую доску разделенную на несколько блоков. Чтобы облегчить навигацию по документу, авторы сделали карту. Можете начинать чтение с начала или переходить сразу к самому интересному.

Документ получился крутой! Пригодится и начинающим, и тем, кто с SQL знаком, но хочет освежить знания. Единственный недостаток на наш взгляд — это формат. Авторы использовали сервис Count.co — похожий на Miro инструмент для аналитиков данных. С гуглдоками работать привычнее, а такая подача в виде огромной тяжелой доски кажется пугающей.

А что думаете вы?👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥516👀3👎1
Не любите данные? Вы просто не умеете их готовить
Уверены, что все наши подписчики любят данные, но не удержались от этой шутки.

Знаете, что такое Mise en place?
Это французский кулинарный термин, который переводится как «ставить на место». Так называют подготовку ингредиентов, когда повара заранее отмеряют, нарезают и раскладывают по мискам продукты, чтобы не тратить время потом. Так овощи не сгорят, пока вы режете мясо, или не окажется вдруг в процессе готовки, что какого-то важного компонента не хватает.

Этот подход можно использовать не только в кулинарии, но и в других областях, включая работу с данными. Их тоже надо подготовить, почистить и упорядочить. Как это сделать, рассказывает статья в блоге сервиса по визуализации данных Datawrapper.

Это целый лонгрид на 20 минут, но, если уделить ему время сейчас, вы сэкономите себе много часов работы и нервов в будущем. Автор статьи дала множество простых, но полезных советов, которые облегчат жизнь. Например:

1️⃣ Не вносить никакие изменения, не сделав бэкап. Если окажется, что вы удалили что-то нужное, придется все отматывать обратно.
2️⃣ Сохранить все ссылки на источники.
3️⃣ Удалить все лишнее — ссылки, сноски, единицы измерения (их лучше убрать в заголовки, а в ячейках оставить только цифры).
4️⃣ Не забывать о форматировании — разделить все слитые ячейки, закрепить первую строчку и ряд, чтобы они всегда были на виду.

Каждый пункт сопровождает короткая инструкция по работе с Excel и Google Sheets с описанием, куда именно нажать, чтобы все заработало. Статья будет особенно полезна новичкам, но и опытные пользователи точно что-нибудь почерпнут!
Please open Telegram to view this post
VIEW IN TELEGRAM
85👍32😍6🔥4
Нейросеть, которая дала новую жизнь мемам нулевых
Все выходные в твиттере происходило неожиданное возвращение 2000-х. Появились сотни, если не тысячи твитов, которые резко набрали популярность и это… мемы, которые стали своего рода классикой. Да-да, те самые видео «идущего к реке», «женщины, кандибобер которой — не то, о чем вы подумали», а также «отзыв на столовую с чаем, который делает из тебя человека». Только на английском!

Как это случилось?
Внимание пользователей было буквально приковано к Hey Gen — сервису, который может переводить короткие видео (30-50 секунд) с одного языка на другой (более 100 языков и акцентов). И если бы только переводить, тут нас уже совершенно не удивишь. При переводе голос, интонация и мимика спикера сохраняются с пугающей реалистичностью.
Поэтому если вы не видели оригинал (как я, когда наткнулся на один из роликов), то понять в чем прикол не получится!

Что еще может сервис?
Да чего только он ни может! Помимо перевода видео, можно создавать аватары (то есть полностью менять внешность спикера, оставляя лишь оригинальный голос) или наоборот загружать свое фото и создавать видео-визитку на его основе.

Как и на все, что связано с нейросетями, на это можно смотреть, как с позитивной ❤️, так и с негативной стороны 🙈.

А что думаете вы? Оставляйте реакции!
169🙈57😁30🤔14👍11
На вопрос «Чем занимается инженер данных?» можно ответить по-разному
Можно совсем кратко — он выстраивает архитектуру данных, решает проблемы заказчика и делает его жизнь лучше.

А можно подробнее и с наглядным примером
BetPawa — беттинговый сервис, который много работает с OLTP, обработкой транзакций в реальном времени. Компания столкнулась с тем, что ее DWH не справляется с постоянным потоком данных. Они обрабатывались долго и не всегда корректно отображались в отчетах, а само хранилище работало медленно, ненадежно и требовало слишком много ресурсов.

Мы спроектировали архитектуру для заказчика и выстроили новые процессы инжиниринга. В результате — быстрое, гибко масштабируемое DWH, которое работает намного производительнее и уменьшает количество нестыковок в данных.

🔵 Стек: ClickHouse, Kafka, Redash
🔵 Результат: довольный заказчик и сильный кейс в портфолио
🔵 Подробности: на сайте

Именно с такими задачами работают наши инженеры — иногда сложными, иногда очень творческими, но всегда интересными.

Кстати, сейчас у нас открыта вакансия Data Engineer, и у вас есть возможность присоединиться к нашей команде!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥68👍8🤡3🎉2
Klack: ASMR для пользователей Mac
Пока все обсуждают презентацию Apple и цену на новый iPhone, мы вспомнили про классное приложение на Mac!

🔜 Если вас по какой-то причине не устраивает звук вашей клавиатуры (или у вас и вовсе та самая многострадальная «бабочка» из 2016-2019 годов), то Klack создан специально для вас.

🔵 Функция у него одна — генерировать и выдавать через динамики щелчки механических клавиш во время печати. Можно настроить звучание и громкость для достижения идеального ASMR-эффекта.

🔵 Приложение платное и, судя по отзывам, стоит своих денег: пользователи пишут, что звук получается реалистичный. Вроде мелочь, но она приятно разнообразит рабочий процесс — особенно если вам приходится много печатать.

А как вам идея такого приложения? Ставьте реакцию 🆒, если задумались о покупке!
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒83🔥49🤔14🤡11👍7
Если проанализировать тернии, до звезд доберетесь быстрее!
Посмотрите на фотографию. Вот так на самом деле выглядит Млечный путь, без фильтров и прочих ухищрений. Когда вы в последний раз видели нечто подобное? Если вы живете в городе, велика вероятность, что это было давно, да и вообще — редкость.

Всему виной световое загрязнение. Домашние лампы, уличные фонари и фары машин делают жизнь удобнее и безопаснее, но создают над городами световые купола. Последствий для людей и окружающей среды много, и одно и из них — то, что большинство из нас не могут ночью из окна увидеть звездное небо, если только не уедут куда-нибудь подальше.

Именно это и пришлось сделать Луисону Дюмону, основателю компании Bitproof. Во время отдыха в Португалии он решил полюбоваться звездами.

Чтобы это сделать, он:
🔵 наложил друг на друга карты португальских отелей и светового загрязнения,
🔵 нашел отель в крошечной деревушке,
🔵 посреди ночи поехал еще дальше, туда, где согласно его карте, степень освещенности по шкале Бортля соответствовала классу 3 («Деревенское небо»).

И только после этого Дюмон смог насладиться видом раскинувшего над головой Млечного пути. Вот так технологии отняли у нас возможность смотреть на звезды по ночам, и технологии же ее вернули.

Это не единственное и не самое серьезное следствие светового загрязнения. Оно вредит психическому и физическому здоровью людей и животных и наносит серьезный урон целым экосистемам. Некоторые государства уже начали борьбу с ним на законодательном уровне. Но, пока оно никуда не делось, простым людям остается искать темные уголки для любования звездами с помощью уловок вроде той, что придумал Дюмон.

Кстати, он выложил свою карту в открытый доступ! Если готовы повторить его подвиг и отправиться в глушь, чтобы посмотреть на Млечный путь, теперь у вас есть для этого удобный инструмент.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍812914😱1
Уходим в WhatsApp?
Теперь у WhatsApp (принадлежит компании Meta, в РФ признанной экстремистской) тоже есть каналы! Новая фича доступна не везде, а в 150 странах, среди которых России (пока?) нет. На первый взгляд функционал такой же, как в Telegram, но есть отличия.

Ключевое в их позиционировании— это особое внимание защите данных:
🔵 Админы не смогут видеть номера телефонов подписчиков, подписчики не могут видеть номера админов, и никто не может видеть, на какие каналы подписаны другие люди.
🔵 Сообщения удаляются из каналов через 30 дней.
🔵 Владельцы каналов могут скрыть их из каталога, ограничить список подписчиков и запретить делать скриншоты и пересылать сообщения.

Кроме тотальной секретности, есть и другие особенности:
🔵 Каталог каналов с фильтрами по темам, странам, уровням активности и дате создания.
🔵 У каналов в приложении своя вкладка, отдельная от чатов.
🔵 Комментировать посты нельзя, но можно ставить реакции-эмодзи.

🔜 Функция появилась в WhatsApp в июне, сначала в 9 странах, теперь вот в 150 и, возможно, скоро доберется и до России. Но переносить туда @leftjoin мы, конечно, не планируем — Telegram все-таки роднее!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍90🔥41🤣17🤡6👎5
LlamaIndex — фреймворк для работы с LLM и данными разных форматов
Он упрощает как обучение нейросетей, так и обработку больших объемов информации. В него можно загружать таблицы, тексты, презентации, графики, изображениями, API, веб-страницы — практически любые виды данных. LlamaIndex индексирует и анализирует их, чтобы ускорить поиск информации и интеграцию с внешними приложениями и нейросетями.

Что это дает на практике?
🔵 Удобный интерфейс для взаимодействия с LLM. Можно загрузить в LlamaIndex документ, а затем попросить краткое содержание или задать конкретный вопрос. Фреймворк обработает данные и запрос пользователя, передаст их нейросети, а та уже выдаст ответ.
🔵 Объединение разных источников информации и моделей в одну систему. Задать вопрос ChatGPT можно и без дополнительных инструментов, но если у вас много разных видов данных, удобнее собрать их в кучу в единый индекс, который и создает LlamaIndex.
🔵 Структурированные данные для обучения LLM.

В общем, LlamaIndex — удобный и гибкий инструмент, который может упростить работу, если вы часто экспериментируете с нейросетями.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥85
Еще больше эмодзи на все случаи жизни
Вопрос, которым вы вряд ли задавались, но мы все равно нашли ответ: сколько существует эмодзи? Как оказалось, в Unicode их сейчас больше 3000, и почти каждый год добавляются новые. Несмотря на такое разнообразие, временами их все равно не хватает. Иногда кажется, чтобы идеально выразить мысль, нужен эмодзи с танцующей крысой.
Или магистром Йодой.
Или сиба-ину в шляпке.

К счастью, благодаря нейросетям проблема решена
EmojiGen — приложение, которое генерирует эмодзи по запросу. Оно состоит из двух компонентов:
🔵 Stable Diffusion, натренированная на эппловских эмодзи, создает изображение,
🔵 Rembg удаляет фон.

В результате получаются кастомные эмодзи, которые вы можете использовать в Slack или здесь в Telegram.

🔜 Приложение не умеет создавать анимированные эмодзи, да и обычные иногда генерирует неожиданные (даже в ответ на довольно очевидные промпты). Впрочем, почти всегда после пары попыток получается что-нибудь интересное. А еще это приложение с открытым исходным кодом, так что при желании можно попробовать подкрутить его под себя!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥135👍54🤔13😁5🆒3
👍5
Google Bard: умный ИИ, который поможет вам в любых делах
Google наконец-то представил экспериментального ИИ-помощника Bard, про которого мы уже писали весной. В его основе — языковая модель PaLM 2, которая умеет искать и анализировать информацию в интернете и в сервисах Google: в почте, среди документов на диске, на Youtube и так далее.

Это позволяет Bard выполнять довольно сложные задачи:
🔵 найти на Диске ваше резюме и подготовить сопроводительное письмо;
🔵 составить маршрут путешествия, выбрав дату, рейс, отель и даже видео Youtube, чтобы убить время в дороге;
🔵 написать текст по запросу и перепроверить его достоверность. Этого навыка многим людям не хватает, а у ИИ аж специальная кнопка есть;
🔵 накодить вам что-нибудь на любом языке программирования;
🔵 вести диалог, запоминая контекст. Доступом к переписке можно поделиться с другим человеком.

🔜 Еще примеры задач и переписок с ИИ — в блоге Google.

Возможностей масса, но пока в экспериментальном формате. То, что Bard — это эксперимент, Google подчеркивает отдельно и убеждает, что он будет становиться лучше благодаря пользовательскому фидбеку.

Bard уже говорит по-русски, но в России пока не поддерживается. Чтобы пообщаться с ним, понадобится VPN.

🔥 Кстати, заголовок к этому посту как раз Bard и предложил. Возможно, не самый впечатляющий вариант, но он старался!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👍3718😍1
Разве может робот написать симфонию? Теперь да
Нейросетями, генерирующими аудио, вряд ли кого-то удивишь (мы про них уже писали здесь и здесь, например), но новая разработка Stability AI заслуживает внимания. Это потенциально удобный и полезный инструмент для контент-мейкеров.

🔵 Stable Audio — диффузионная модель, которая создает музыку и звуковые эффекты по текстовому описанию. Ее натренировали на датасете из более чем 800 000 файлов, представленных AudioSparx — компанией, продающей стоковые аудио.

🔵 Вопрос авторских прав, когда речь заходит о ИИ-контенте, стоит остро — спросите у художников, которые борются против обучения нейросетей на их работах. Использование материалов AudioSparx для тренировки Stable Audio этот вопрос снимает, и ее творения можно использовать в коммерческих целях, как любую стоковую музыку.

🔵 Stability AI подчеркивают, что они преодолели одно из основных ограничений диффузионных моделей — обычно, обучение на 30-секундных треках ведет к генерации таких же 30-секундных треков. Stable Audio же позволяет пользователю самому выбрать длину сгенерированной дорожки аудио, и задать подробное текстовое описание, которому она следует весьма точно. Она создает не только музыкальные композиции, но и звуковые эффекты — например, шум людного кафе.

🔜 Stability AI предусмотрели три тарифа. Бесплатный позволяет создать 20 треков в месяц длиной до 45 секунд, которые нельзя использовать в коммерческих целях. На платном за 11,99$ можно создать аж 500 треков до 90 секунд, разрешенных к использованию в рекламе. Условия сотрудничества на корпоративном тарифе обсуждаются индивидуально.

На сайте модели предупреждают, что из-за большого трафика могут быть перебои в работе, хотя нам ничто не помешало создать пару тестовых мелодий!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍741