LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Генератор промптов или как здорово усложнить себе жизнь?
В каждой социальной сети сейчас пестрят посты «N лучших промптов для такой-то нейросети». Кажется, что все буквально помешались на идее найти и создать самый-самый прекрасный и идеально работающий вариант, который буквально за одну попытку выдаст вам результат, который вы хотите увидеть. И если иногда это выглядит как поиск волшебной таблетки, то в других случаях (и более вдумчивом подходе) это может привести к стоящим результатам.

Что придумал CEO HyperWriteAI Мэтт Шумер?
Как и многие специалисты IT-сферы, он решил оптимизировать написание промптов для ChatGPT. Он создал небольшой Collab Notebook (даже два!), который получает на вход описание задачи и примеры (тест кейсы), генерит заданное вами количество альтернатив и предлагает лучший.

Почему ноутбука два?
🔵 Первый — общий для обычных текстовых задач,
🔵 Второй — узконаправленный для задачи классификации.

Их отличие состоит в том, что для второго тест кейсы — это, по сути, текстовые данные с разметкой True или False (то есть только бинарная классификация). Эту разметку должен максимально понимать и передавать идеальный сгенерированный промпт.

🔥 Самое интересное и полезное в этом генераторе — то, что он составляет несколько разных промптов и, тестируя их, выбирает наиболее релевантный как в вопросах генерации текста, так и в вопросах классификации.

Стоящий ли это инструмент?
Возможно, это решение здорово сработает для сложных случаев, когда подобрать работающий промпт никак не получается, а выполнить задачу без ИИ — нет возможности или времени. Однако, для нас это выглядит как излишнее усложнение, ведь можно просто выбрать несколько правил для написания промпта (указание роли, степень детализации и так далее) и составлять их вручную.

P.S. Ну что, ждем дальше генератор тест кейсов для генератора лучших промптов? 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84😁12🤔12🔥3
WE ARE HIRING: Инженер Данных (ClickHouse)
Друзья, в команде Valiotti Analytics вновь появилась открытая вакансия — мы активно ищем инженера данных с опытом работы в ClickHouse.

Основные требования:
🔵 Уверенное владение SQL, ClickHouse, Python, Airflow, bash,
🔵 Опыт разработки ETL, проектирования и разработки хранилищ данных и аналитической отчетности,
🔵 Опыт работы с Kafka, S3 и dbt будет преимуществом.

Прочие требования:
🔵 Высшее техническое или другое релевантное образование,
🔵 Владение английским языке на уровне, достаточном для чтения и написания технической документации.

Если вам интересен инжиниринг данных (и другие задачи, описанные в вакансии), вы знаете все и даже больше про архитектуру и принципы работы ClickHouse — скорее отправляйте ваше резюме @valiotti или откликайтесь на вакансию на HH.

P.S. А если вы знаете того, кто может нам подойти и ищет работу — будем благодарны репосту или шеру этого поста!
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡15👍12🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Наверное, и мы, и вы уже пересмотрели все рилсы с Тиньковым…

Но версии про аналитику нам пока не встретились, а когда мы не видим какого-то безумия, то обязательно должны его возглавить!

@leftjoin
Please open Telegram to view this post
VIEW IN TELEGRAM
😁124🤣72🔥25👍133
Нам вновь предлагают перестать писать SQL-запросы 👀
Помните наш генератор SQL-кода на ChatGPT? Получилось очень даже неплохо, но все-таки это не полноценный сервис, а скорее доступ к GPT-модели из юпитер-ноутбука.
А вот BlazeSQL уже сделали и оформили продукт на основе похожего подхода (выглядит впечатляюще!).

Как с ним работать?
Весьма тривиально — создать аккаунт, ввести свой API-ключ OpenAI (это подразумевает платную подписку) или купить Pro-тариф сервиса, затем подключить базу данных — и можно чатиться. Кстати, просто потестить сервис можно и без собственной базы данных, но вот без одной из платных подписок пощупать его не удастся.

Главное помните, что такие инструменты круты и экономят время, однако, расслабляться рано. Нужно внимательно смотреть на результат критическим взглядом и понимать, что происходит в запросе и почему.

Всем эффективных запросов и ни одного падения БД!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80👌28🔥18👾15💯6
Этот страшный момент подготовки к экзамену или собесу… или не такой уж и страшный?
Некоторым людям достаточно хорошенько проштудировать учебник или обзорные статьи с Хабра, чтобы вспомнить университетский курс или даже вникнуть в какое-то новое направление. А кому-то наоборот нужны личные занятия с преподавателем, индивидуальный подход и сессии вопросов-ответов, где можно спросить вообще все, даже самое глупое.

С обоими запросами мы советуем идти в канал с веселым названием и по-настоящему полезным контентом «Поступашки ШАД».

Почему? Все просто!
🔵 Канал ведут преподаватели МГУ, ВШЭ и ШАД — они точно знают какие знания нужны и как объяснить их самым понятным образом.
🔵 Это просто кладезь сборников и задачников по математической базе — от теории вероятностей до data science, а также советов по поступлению или прохождению собеседований.
🔵 А еще авторы канала проводят индивидуальные или групповые занятия по подготовке к ШАД, магистратурам, собеседованиям, олимпиадам, а также алгоритмам, машинному обучению и даже инжинирингу данных.

Подписывайтесь, ведь такой канал пригодится в любой ситуации!
#реклама
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥5
А знаете ли вы, что из себя представляет ваше любимое приложение банка, доставки еды или даже сайта знакомств?
Для нас, конечных пользователей, все выглядит очень просто: мы совершаем простые действия вроде перевода денег или свайпа вправо. Но ведь таких пользователей одновременно может быть миллионы каждую секунду! Все совершают разные действия, и каждый должен остаться доволен работой приложения! Учитывая этот факт, невольно задумываешься, что же все таки представляет из себя это приложение? Вряд ли это просто парочка скриптов, написанных на Python!

В докладе, с которым мы предлагаем вам ознакомиться, Кирилл Ветчинкин рассказывает про один из самых современных подходов к построению приложения, про микросервисную архитектуру. Он рассказывает, когда стоит ее использовать, какие у нее есть особенности, и какие подводные камни могут встретиться ее разработчикам.

Основные мысли из доклада Кирилла
👍 Микросервисная архитектура используется для разработки высоконагруженных приложений, в то время как монолитная лучше всего годится для небольших проектов.
👊 Взаимодействие микросервисов между собой организовано при помощи общей шины, которая транслирует сообщения, в качестве реализации этой шины используют менеджеры сообщений, типа Apache Kafka.
👍 Разделение приложения на микросервисы должно осуществляться не по слоям, а по функциям, которые они выполняют.
👊 Один микросервис должен решать типовые задачи, которые могут присутствовать в другом проекте.

Но это лишь тезисы его доклада, а всю историю целиком мы советуем вам послушать в полной версии доклада.
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65👍146
Просто магазинчик цветов в Копенгагене 🇩🇰
👍13957😁35😍6🤔3
Больше никаких споров Python vs. Excel — силы объединяются
Microsoft продолжает радовать пользователей инновациями, представив публичный просмотр новой функции — внедрение Python в Excel. Кажется, анализ данных в Excel и больше не будет прежним (а также закончатся многолетние споры о том, какой инструмент для этих целей лучше)!

Рассказываем подробно
🔵 Python на базе Excel будет работать через облако Microsoft Cloud (кстати, тут можно посмотреть скриншоты обновленного интерфейса).
🔵 Новая интеграция предоставит возможность визуализации данных и построения графиков в Python, сохраняя привычное использование формул, диаграмм и сводных таблицы Excel. Cложные формулы, которые раньше приходилось муторно конструировать в ячейках Excel, можно будет заменить парой строк кода на Python без перехода в отдельный ноутбук!
🔵 Благодаря сотрудничеству с Anaconda, основные библиотеки для анализа данных, такие как pandas, statsmodels и matplotlib, также появятся в Excel.

Как потестить?
Интеграция Python в Excel уже доступна для пользователей Microsoft 365 Insiders, официальногo сообществa бета-тестеров MS. Первоначально эта функция будет доступна только пользователям Windows. Будет ли она платной или бесплатной потом — покажет время.

Ставьте реакции, посмотрим, что думает большинство — это возрождение Экселя 🦄 или MS поздновато опомнились 🤔?
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄222🤔80👍318🙈5
Посвящается всем, кто идет спать, а потом еще час листает TikTok
И казалось бы, что может быть полезного в том, что мы вечерами залипаем в TikTok, Reels или Shorts? Однако, мы в @leftjoin решили превратить даже эти данные в полезные. Сегодня мы расскажем о том, что такое линейная регрессия и для чего она нужна, на этом тревожном, но жизненном примере!

P.S. А вы знали, что короткие видео сожрали почти весь рынок мобильных игр, так как люди стали предпочитать свайпы роликов времени, которое они тратили в играх?

P.P.S. Если бы мы сами меньше сидели в тиктоке, то не допустили бы ошибку в описании переменной Х на третьей карточке. Спасибо нашей подписчице Ольге!
#основы_статистики
🔥11828🤔7👍2😁1
Мало собрать данные — надо уметь их визуализировать 👀
Неструктурированные данные на 100 листах, какими бы ценными они ни были, вряд ли принесут много пользы. Но просто собрать их в табличку или нарисовать график мало: визуализация данных (если короче — датавиз) должна быть логичной, полной и не слишком сложной.

Не всегда непонятные графики — следствие искреннего неумения составлять их
Иногда это сознательный ход.

Сравните графики на картинке выше. Информация на них одинаковая: оба показывают, сколько процентов машин разных марок остаются на ходу спустя 10 лет после покупки. А вот эффект они производят разный из-за того, что на левом шкала Y начинается не с 0. Если не приглядываться, то можно и не распознать попытку манипулировать вашим восприятием.

Даже если вам не приходится строить графики на работе, будет не лишним научиться подмечать такие вещи
Кажется, это очень простые и банальные мысли? Тогда проверьте себя с помощью теста на знание правил гигиены датавиза “Bar or Pie”.

Мы знаем о датавизе очень много — от базы до цветовых приемов, но редко об этом рассказываем. Если вам хочется чаще читать об этом в нашем канале — дайте нам знать любой вашей любимой реакцией!
Please open Telegram to view this post
VIEW IN TELEGRAM
123👍71🔥126🐳4
Если не знаете, как подступиться к SQL — начните с этого гайда
Сразу предупреждаем: с телефона ссылку лучше не открывать.

Авторы поставили себе задачу создать понятный, современный и дружелюбный к новичкам документ. В целом, у них получилось, но есть одно «но». О нем в конце, а пока расскажем, что интересного там есть:

🔵 Самые основы — что такое SQL и как устроены базы данных;
🔵 Анатомия запросов с разбором, из чего они состоят, как пишутся и какие вообще бывают;
🔵 Доступное описание возможностей SQL — от базовых операций до более сложных концептов вроде CTE, оконных функций и подзапросов;
🔵 Практические вопросы на закрепление материала.

Гайд представляет собой большую доску разделенную на несколько блоков. Чтобы облегчить навигацию по документу, авторы сделали карту. Можете начинать чтение с начала или переходить сразу к самому интересному.

Документ получился крутой! Пригодится и начинающим, и тем, кто с SQL знаком, но хочет освежить знания. Единственный недостаток на наш взгляд — это формат. Авторы использовали сервис Count.co — похожий на Miro инструмент для аналитиков данных. С гуглдоками работать привычнее, а такая подача в виде огромной тяжелой доски кажется пугающей.

А что думаете вы?👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥516👀3👎1
Не любите данные? Вы просто не умеете их готовить
Уверены, что все наши подписчики любят данные, но не удержались от этой шутки.

Знаете, что такое Mise en place?
Это французский кулинарный термин, который переводится как «ставить на место». Так называют подготовку ингредиентов, когда повара заранее отмеряют, нарезают и раскладывают по мискам продукты, чтобы не тратить время потом. Так овощи не сгорят, пока вы режете мясо, или не окажется вдруг в процессе готовки, что какого-то важного компонента не хватает.

Этот подход можно использовать не только в кулинарии, но и в других областях, включая работу с данными. Их тоже надо подготовить, почистить и упорядочить. Как это сделать, рассказывает статья в блоге сервиса по визуализации данных Datawrapper.

Это целый лонгрид на 20 минут, но, если уделить ему время сейчас, вы сэкономите себе много часов работы и нервов в будущем. Автор статьи дала множество простых, но полезных советов, которые облегчат жизнь. Например:

1️⃣ Не вносить никакие изменения, не сделав бэкап. Если окажется, что вы удалили что-то нужное, придется все отматывать обратно.
2️⃣ Сохранить все ссылки на источники.
3️⃣ Удалить все лишнее — ссылки, сноски, единицы измерения (их лучше убрать в заголовки, а в ячейках оставить только цифры).
4️⃣ Не забывать о форматировании — разделить все слитые ячейки, закрепить первую строчку и ряд, чтобы они всегда были на виду.

Каждый пункт сопровождает короткая инструкция по работе с Excel и Google Sheets с описанием, куда именно нажать, чтобы все заработало. Статья будет особенно полезна новичкам, но и опытные пользователи точно что-нибудь почерпнут!
Please open Telegram to view this post
VIEW IN TELEGRAM
85👍32😍6🔥4