LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
«Все познается в сравнении» — T-статистика
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?

Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.

Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.

P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250и продлеваем сериал #основы_статистики на следующий эпизод!

@leftjoin
156👍329🤔3👾3
LastMile AI Workbook: интерфейс для работы с разными моделями ИИ 💬 🖼
Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.

С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.

Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.

На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.
12👍4🔥4
Исследование: может ли GPT-4 заменить аналитика данных? 👀
Мой друг и коллега @hello_klimmy прислал любопытный научный доклад о том, может ли GPT4 быть хорошим аналитиком. Трое ученых из Наньянского технологического университета, главного технологического учебного заведения Сингапура, провели исследование, в котором попытались ответить на этот мучающий многих вопрос.

Они провели ряд экспериментов, по результатам которых выяснилось, что GPT-4 вполне в состоянии решать определенные задачи на уровне профессиональных аналитиков. Конечно же, очень многое зависит от промптов и данных, с которыми ИИ пришлось работать, и авторы работы подчеркивают, что их исследование – всего лишь предварительное и требует более обстоятельного подхода.

Ознакомиться с проведенными экспериментами и метриками, примененными для оценки результатов исследования, можно в этом документе, а пофантазировать о будущем профессии аналитика или попытаться построить прогнозы – в комментариях под постом!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥54
HouseWatch: open source инструмент для работы с кластерами ClickHouse 🕵️‍♀️
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!

HouseWatch — это инструмент, который дает возможность:
1️⃣ посмотреть нагрузку и производительность кластера,
2️⃣ подробно изучать запросы,
3️⃣ находить ошибки,
4️⃣ получать статистику использования диска на узел и многое другое.

Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.

HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍134
Voicebox: генеративная модель от Meta AI, которая «говорит» 🗣️
Разработчики Meta AI опубликовали исследование, в котором представили свое новое детище: модель для генерации речи Voicebox. В отличие от многих уже существующих аналогичных продуктов, Voicebox построена на новом подходе – «сопоставления потоков» (*flow matching*). Суть этого метода в том, что модель может обучаться на речевых данных без необходимости их маркировки, что дает возможность использовать более разнообразный набор данных, а в итоге – получать более качественные результаты генерации.

Какие же функции может выполнять Voicebox?
1️⃣ Генерация текста (как с референсом голоса или стиля речи, так и без),
2️⃣ Воспроизведение аудио отрывка на другом языке (доступно для английского, французского, немецкого, испанского, португальского, польского),
3️⃣ Редактирование аудио, включая удаление фоновых шумов и замену слов.

Впечатляет!
Но и настораживает – и это одна из причин почему разработчики Meta AI пока не готовы выложить модель и ее код в открытый доступ. Нам остается только слушать демочки и читать многостраничный научно-исследовательский отчет разработчиков.

А как вы считаете: пользы от моделей для генерации речи больше (помощь неговорящим, озвучивание), чем риск угроз (фальсификация высказываний, мошенничество)? И как стоить регулировать распространение таких продуктов?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥3
Ищем новых героев для заключительного выпуска 3 сезона Data Heroes 👾🚀
Хотите принять участие в записи нашего подкаста? Есть предложение!

Если вы работаете аналитиком данных в российской компании (не удаленно!), то будем рады пригласить вас на подкаст и пообщаться. Также будем очень рады и руководителям отделов аналитики!

Пишите моей коллеге @Milanchezaa с кратким резюме: кем работаете, что входит в ваши обязанности и деятельность компании.

P.S. Если у вас есть знакомые, которые могут нам подойти, то буду благодарен за репост!

P.P.S. Ставьте ❤️, если ждете новый эпизод Data Heroes, чтобы поддержать нашу креативную команду!
31👍7🔥6
Корреляция, ковариация и книги ужасов
Несмотря на то что количество реакций к прошлому посту рубрики #основы_статистики не смогло достичь нужного числа, мы все равно продолжаем, делиться с вами знаниями и напоминать о важных концепциях статистики. Все-таки, не в реакциях счастье!

Итак, мы уже познакомились с одним из самых важных инструментов статистического анализа, — T-критерием Стьюдента. Надеюсь, теперь вы и в ночи, и с похмелья без запинки расскажете, что он позволяет сравнивать две разные выборки и как им пользоваться. Однако, T-критерий не поможет, если нужно оценить влияние определенного фактора на целевой показатель.

Давайте сегодня погрузимся в вечерние традиции жителей нашего воображаемого города N и познакомимся с другим инструментом для анализа данных, а именно с коэффициентом корреляции.

По традиции (но без лишнего давления!) просим поддержать этот пост реакцией, если он вам понравился и показался полезным

P.S. И помните, что «поделиться этим постом с другом такая же здоровская идея, как поделиться с ним хорошим мемом»!
13524🔥13👍6🏆1