LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
«Все познается в сравнении» — T-статистика
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?

Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.

Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.

P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250и продлеваем сериал #основы_статистики на следующий эпизод!

@leftjoin
156👍329🤔3👾3
LastMile AI Workbook: интерфейс для работы с разными моделями ИИ 💬 🖼
Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.

С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.

Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.

На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.
12👍4🔥4
Исследование: может ли GPT-4 заменить аналитика данных? 👀
Мой друг и коллега @hello_klimmy прислал любопытный научный доклад о том, может ли GPT4 быть хорошим аналитиком. Трое ученых из Наньянского технологического университета, главного технологического учебного заведения Сингапура, провели исследование, в котором попытались ответить на этот мучающий многих вопрос.

Они провели ряд экспериментов, по результатам которых выяснилось, что GPT-4 вполне в состоянии решать определенные задачи на уровне профессиональных аналитиков. Конечно же, очень многое зависит от промптов и данных, с которыми ИИ пришлось работать, и авторы работы подчеркивают, что их исследование – всего лишь предварительное и требует более обстоятельного подхода.

Ознакомиться с проведенными экспериментами и метриками, примененными для оценки результатов исследования, можно в этом документе, а пофантазировать о будущем профессии аналитика или попытаться построить прогнозы – в комментариях под постом!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥54
HouseWatch: open source инструмент для работы с кластерами ClickHouse 🕵️‍♀️
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!

HouseWatch — это инструмент, который дает возможность:
1️⃣ посмотреть нагрузку и производительность кластера,
2️⃣ подробно изучать запросы,
3️⃣ находить ошибки,
4️⃣ получать статистику использования диска на узел и многое другое.

Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.

HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍134
Voicebox: генеративная модель от Meta AI, которая «говорит» 🗣️
Разработчики Meta AI опубликовали исследование, в котором представили свое новое детище: модель для генерации речи Voicebox. В отличие от многих уже существующих аналогичных продуктов, Voicebox построена на новом подходе – «сопоставления потоков» (*flow matching*). Суть этого метода в том, что модель может обучаться на речевых данных без необходимости их маркировки, что дает возможность использовать более разнообразный набор данных, а в итоге – получать более качественные результаты генерации.

Какие же функции может выполнять Voicebox?
1️⃣ Генерация текста (как с референсом голоса или стиля речи, так и без),
2️⃣ Воспроизведение аудио отрывка на другом языке (доступно для английского, французского, немецкого, испанского, португальского, польского),
3️⃣ Редактирование аудио, включая удаление фоновых шумов и замену слов.

Впечатляет!
Но и настораживает – и это одна из причин почему разработчики Meta AI пока не готовы выложить модель и ее код в открытый доступ. Нам остается только слушать демочки и читать многостраничный научно-исследовательский отчет разработчиков.

А как вы считаете: пользы от моделей для генерации речи больше (помощь неговорящим, озвучивание), чем риск угроз (фальсификация высказываний, мошенничество)? И как стоить регулировать распространение таких продуктов?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥3
Ищем новых героев для заключительного выпуска 3 сезона Data Heroes 👾🚀
Хотите принять участие в записи нашего подкаста? Есть предложение!

Если вы работаете аналитиком данных в российской компании (не удаленно!), то будем рады пригласить вас на подкаст и пообщаться. Также будем очень рады и руководителям отделов аналитики!

Пишите моей коллеге @Milanchezaa с кратким резюме: кем работаете, что входит в ваши обязанности и деятельность компании.

P.S. Если у вас есть знакомые, которые могут нам подойти, то буду благодарен за репост!

P.P.S. Ставьте ❤️, если ждете новый эпизод Data Heroes, чтобы поддержать нашу креативную команду!
31👍7🔥6
Корреляция, ковариация и книги ужасов
Несмотря на то что количество реакций к прошлому посту рубрики #основы_статистики не смогло достичь нужного числа, мы все равно продолжаем, делиться с вами знаниями и напоминать о важных концепциях статистики. Все-таки, не в реакциях счастье!

Итак, мы уже познакомились с одним из самых важных инструментов статистического анализа, — T-критерием Стьюдента. Надеюсь, теперь вы и в ночи, и с похмелья без запинки расскажете, что он позволяет сравнивать две разные выборки и как им пользоваться. Однако, T-критерий не поможет, если нужно оценить влияние определенного фактора на целевой показатель.

Давайте сегодня погрузимся в вечерние традиции жителей нашего воображаемого города N и познакомимся с другим инструментом для анализа данных, а именно с коэффициентом корреляции.

По традиции (но без лишнего давления!) просим поддержать этот пост реакцией, если он вам понравился и показался полезным

P.S. И помните, что «поделиться этим постом с другом такая же здоровская идея, как поделиться с ним хорошим мемом»!
13524🔥13👍6🏆1
Chat Notebooks: ноутбуки Wolfram со встроенной языковой моделью 🧠
Идея ноутбуков, появившаяся на свет в 1987 (нет, мы сейчас не про те, что лэптопы!), за 36 лет своего существования оказала существенное влияние на рабочие процессы в науке о данных, став их неотъемлемой частью. И вот на днях взята новая веха: отныне, ноутбуки Wolfram дополняются функционалом для работы с языковой моделью.

В интерфейсе ноутбуков Wolfram появились «окошки» для общения с ИИ. В статье рассказывается о двух типах новых ноутбуков: ноутбуки с правами на чат (chat-enabled) и ноутбуки, управляемые с помощью чата (chat-driven). Вторые отличаются от первых тем, что для работы с ними не требуется прибегать к языку программирования Wolfram. Также любопытен тот факт, что ячейки чата в ноутбуке считываются ИИ последовательно, то есть, каждая последующая учитывает информацию из предыдущей, но не знает о последующей.

Другой особенностью Chat Notebooks является то, что искусственный образ, роль которого вы бы хотели, чтобы ИИ играл в общении с вами, может настраиваться на разных уровнях: вы можете указать роль ИИ для всей переписки в ноутбуке, а также задать отдельные образы внутри каждого отдельного чата.

В целом, Chat Notebooks похож на интеграцию ChatGPT в интерфейс ноутбуков Wolfram. Подробное руководство по работе с новшеством вы найдете в статье.
👍58🔥28🤔136😍3
Вежливость – не порок. Или все-таки он? 🤷
Бенн Стенсил, CTO Mode и автор популярного блога о науке о данных benn.substack.com, опубликовал новую статью, в которой рассуждает о том, стоит ли нам быть вежливыми с ChatGPT и какие последствия могут быть, если мы таковыми не будем. Без шуток про непредсказуемую глупость ИИ и референсов к «Матрице», конечно, не обошлось.

Но статья не является чисто развлекательной. Бенн, будучи ученым, а не простым популяризатором науки о данных, проводит эксперимент, в котором прогоняет ChatGPT через 61 задачу с 3 вариациями промптов: вежливой, нейтральной и недоброжелательной. Каждый из этих вариантов имел, в свою очередь, по 15 подвидов в зависимости от температуры – параметра, который отвечает за степень случайности в выборе следующего токена во время генерации текста, своего рода фактор «креативности» текста. Получив в итоге почти 3К ответов, Бенн изучил их, и вот к каким выводам он пришел:

1️⃣ Нейтральные по коннотации промпты чаще вежливых и недоброжелательных выдавали правильно сгенерированные ответы.
2️⃣ Используя вежливые формы обращения к ChatGPT вроде «пожалуйста» и «спасибо», вы провоцируете его быть более многословным при ответах.
3️⃣ Вежливые промпты не гарантируют, что ответы ChatGPT будут более исчерпывающими.
4️⃣ При наличии четких указаний, что ChatGPT должен был сделать в ответе, например, вывести только код, если промпт включал вежливые слова, ChatGPT был склонен не соблюдать инструкции.
5️⃣ При решении математических задач наиболее эффективны нейтральные промпты.

Изучить полный отчет и ознакомиться с другими выводами Бенна вы можете в его блоге. Почитать сексистcкие анекдотики авторства ChatGPT – там же.
Please open Telegram to view this post
VIEW IN TELEGRAM
91👍13🔥12
«Размер имеет значение!» или «Как количество токенов в инпуте влияет на модель»
Anthropic недавно объявили о релизе языковой модели, которая может работать с инпутом до 100К токенов. Для сравнения: GPT-4 позволяет до 32К токенов в контексте. А большинство языковых моделей работают с контекстом, не превышающим 2К токенов.

Галина Алперович опубликовала в своем блоге на Medium статью, в которой собрала информацию из различных источников о том, как длина контекста влияет на способы использования языковых моделей и на качество генерируемого ими текста, об ограничениях архитектуры трансформера и возможностях ее оптимизации для повышения планки объема контекста до 100К токенов.

В частности, она отмечает, что модели, которые смогут работать с таким большим контекстом, будут актуальны при решении задач, связанных с обработкой большого объема текста. Ведь, по сути, 100К – это почти целый роман! Учитывая, что модели тренируются на текстах из интернета, имея возможность «прокачать» модель на своем материале, вы получаете всезнающего ассистента, который будет шарить в вашей теме почти наравне с вами!
👍6518🔥4
Архитектура: история и будущее на примере Вконтакте
Хоть мы и пишем этот пост в мессенджере Telegram, все таки стоит отдать должное самой популярной социальной сети в России, ВКонтакте. А вы помните, как начинали свое знакомство с социальными сетями, зарегистрировавшись в VK? Может, даже рисовали граффити на стенах друзей или писали признания в анонимных «Мнениях»? Ух, ну и время было!

Но насколько сложной была архитектура ВКонтакте раньше, и как сильно она усложнилась к сегодняшнему дню?
Об этом в своем докладе рассказывает CTO Вконтакте, Александр Тоболь. Вот несколько интересных моментов из его выступления, которое мы советует посмотреть в оригинале и целиком:

🔵 Стоит сказать, что еще в 2006 году, как и многие приложения, VK под капотом базировался на LAMP-стаке.

🔵 С ростом популярности сайта архитектура начала усложняться, начали появляться новые технологии, такие как NGINX (внимание, 2008 год!).

🔵 Затем появилась другая проблема — масштабирование, поскольку MySQL перестал справляться с нагрузкой. Эта проблема подтолкнула VK прибегнуть к микросервисной архитектуре, которая в 2009 году еще была не так популярна.

🔵 Следующий этап уже был направлен на улучшение деталей, а именно на сетевое взаимодействие микросервиса и БД и формат данных.

🔵 В 2013 году основной задачей по улучшению работы приложения было ускорение кода, который, как и раньше, был написан на бессмертном PHP.
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥64