LLM под капотом – Telegram
LLM под капотом
21.1K subscribers
286 photos
7 videos
10 files
549 links
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Download Telegram
OpenAI запускает GPTStore на следующей неделе 🚀

Такое письмо они рассылают тем, кто создавал свои GPTs:

Dear GPT Builder,

We want to let you know that we will launch the GPT Store next week. If you’re interested in sharing your GPT in the store, you’ll need to:
- Review our updated usage policies and GPT brand guidelines to ensure that your GPT is compliant
- Verify your Builder Profile (settings > builder profile > enable your name or a verified website)
- Publish your GPT as ‘Public’ (GPT’s with ‘Anyone with a link’ selected will not be shown in the store)

Thank you for investing time to build a GPT.

- ChatGPT Team


Прочитать побольше про создание своих версий GPT - можно тут (это своя комбинация инструкций, промптов, файлов и скиллов)

Ваш, @llm_under_hood 🤗
🔥9👍5
Помните я писал про адаптивного ассистента и RAG архитектуру с динамическими индексами?

Для валидации идей я позавчера написал прототип такого ассистента. Он работает как журнал, в который я отправляю все подряд мысли, идеи и заметки. Такой аналог "Saved Messages", который автоматически раскладывает по папочкам (индексирует) всё входящее.

Сегодня я уже смог его использовать, чтобы прошерстить весь мой поток сознания (54 заметки на разные темы общим размером в 44Kb) и получить отчет по состоянию самого ассистента. Сам отчет - в комментариях.

В общем, концепция динамических индексов (пусть и в полу-ручном режиме) работает весьма приятно. Если всякие rewind.ai позволяют удобно из коробки делать такое, то надо будет их посмотреть.

Ваш, @llm_under_hood 🤗
🔥23👏2💯1
Все хотят себе локальный AI, но мало кто готов платить

Клиенты постоянно спрашивают у меня про запуск языковых моделей на собственных серверах. Ведь так удобнее и спокойнее. Меньше опасений с утечкой данных, и клиентам приятнее. Особенно, в зарегулированных отраслях с кучей бумажек, большими штрафами, compliance и legal отделами.

Но при этом часто недооценивают стоимость такого запуска.

Я на прошлой неделе писал оценку стоимости запуска Llama 70B для рабочей нагрузки у клиента в юридической сфере (RAG система), без какой-либо отказоустойчивости. Увидев ее, у CEO вырвался вопрос: “😲 Это столько нужно вложить, чтобы обучить свою LLM с нуля?”

На это он получил логичный ответ “Нет, это для запуска умного ассистента на всех данных. Для обучения с нуля нужно этак в 1000-10000 раз больше”.

Думаю, в итоге они таки согласятся на мой первоначальный план - сначала быстро строить прототип на защищенных виртуальных машинах в облаке, а потом уже считать юнит-экономику и, быть может, вкладываться в собственное железо.

В свете этого интересны любые новости про более эффективный и более дешевый запуск моделей на своих машинах.

Так вот, ребята из MK1 делают свой собственный inference engine, который позволяет запускать модели на AMD-MI210 - достаточно редко используемом GPU от AMD. Они сравнивают производительность с NVidia A6000 (старее, чем 4090, но больше памяти). Сам пост (прочитать тут) - это реклама их inference движка (библиотеки для запуска языковых моделей), который сильно быстрее vLLM на AMD железе.

Выбор карт странный, но они оптимизируются на окупаемость и TOC.

В посте самое интересное, что:
(1) Текущая производительность vLLM - это еще не предел, можно выжимать из него сильно больше.
(2) GPU карты для запуска LLM не от NVidia - становятся все более применимыми и востребованными. Просто ради экономии.

В комментариях - график из поста и текущие цены на эти карточки, для наглядности.

Ваш, @llm_under_hood 🤗

PS: Дискуссия про карточки и алгоритмы "отцепилась" от поста и провалилась в чатик.
🔥194👍3🤔1🤯1
Вот такой AI ускоритель нам высылают из Канады, 2шт.

Это первое поколение карточек от Tenstorrent - Grayskull e150. Каждая карточка стоит $799. На борту:

- 120 Tensix Cores (в каждом - 8 мелких ядер и ускорители)
- TFLOPs (FP4): 332
- 8GB LPDDR4 @ 118.4 GB/sec

Всякие BERT, ResNet, Whisper там работают из коробки. Их инженерная команда обещала мне, что Falcon/Mistral 7B на такой карточке можно запустить тоже.

Все жутко экспериментальное, довольно старое и только начинает выходить на рынок.

Все делается с прицелом на их следующие поколения карт, где и память побыстрее, и ее побольше, и карточки сами собираются в большие кластера (поколения Wormhole, Black Hole и Grendel).

По цене и энергомотреблению запуск LLM должен быть привлекательнее, чем у NVidia 🤑 Ну или дешевле, чем покупать Mac Studio для inference на домашних проектах.

В Европе мы получаем эти карточки первыми. Будем альфа-тестерами.

Ваш, @llm_under_hood 🤗
🔥454👍2
Поддержим хороших людей с AI продуктом?

Спасибо всем в сообществе, кто участвовал и помогал!

Ваш, @llm_under_hood 🤗
👍7💩1
Forwarded from Vladimir Tolmachev
Привет

Мы тут бутстрапим свой стартап, поддержите нас, сделайте upvote

https://www.producthunt.com/posts/potis-ai

Проект во многом сделан благодаря этому сообществу и вам 🚀

@abdullin пост одобрил :)
🔥16
Давайте немного свежих новостей?

1. Sam Altman только что объявил об открытии ChatGPT Store. Говорят, что у них уже есть 3 миллиона кастомных GPTs.

2. Mixture of Experts архитектура вдохновляет многих. Уже сделали MoE на базе крохотных Microsoft Phi-2 (который получил приз зрительских симпатий на Hugging Face). Назвали Phixtral. Вот тут можно поиграться.

3. Mistral Medium побил все Claude и GPT-3.5 модели на HF Leaderboard. Дышит в спину ChatGPT-4.

Ваш, @llm_under_hood 🤗
🔥28🥰8👍3
#weekend пост про важность пользовательского фидбэка одним скриншотом.

Все мы хотим самообучающихся ассистентов и копилотов (если это только не Skynet). Но для этого нужна обратная связь в виде пользовательского фидбэка.

В лабах у меня лежит длиннющая статья про важность сбора пользовательского фидбэка в продуктах с LLM под капотом.

Обратная связь настолько важна для отслеживания и улучшения качества продуктов, что третья фича в моем самообучающемся ассистенте (про него я писал выше) - это вывод всех вызовов моделей и оценка результатов.

Просто таблица и кнопочки like/dislike. Все! Как на картинке.

Этого достаточно, чтобы данный индекс (извлечение значимых для меня сущностей из заметок) со временем подстраивался под мои привычки.

Механизм подстройки в данном случае - дело второстепенное. Главное, что есть данные.

Собирайте пользовательский фидбэк! 💪

Ваш, @llm_under_hood 🤗
👍24🔥52
#клиентспросил Как запускать LLM модели локально - Transformers, TGI или vLLM?

Народ, если поддержка современных моделей и использование GPU на полную катушку важны, то только vLLM или TensorRT-LLM! Если кто-то говорит, что TGI тоже нормально - не слушайте их.

Почему:
- TGI - это нишевый проект от HuggingFace для чатиков. Он менее популярен и построен на архитектуре "черного ящика" (Rust in docker container). В процессе его запустить нельзя, а API у них очень нишевый.
- HuggingFace transformers - это еще одна нишевая библиотечка от Hugging Face. Поиграть с ней хорошо, но на практике библиотека работает весьма медленно. GPU будут с ней окупаться дольше.

Но не слушайте меня, слушайте крупных игроков:
- Mistral AI на своей платформе дают выбор между vLLM и TensorRT-LLM (platform docs)
- Когда NVidia и AMD меряются своими GPU, они используют либо TenstorRT либо vLLM (пост NVidia)
- Google советует использовать vLLM для деплоя моделей в своем Vertex AI.

Ваш, @llm_under_hood 🤗
🔥25👍121🤗1
Mistral 7B OpenChat-3.5 v3 (0106) перегнал ChatGPT-3.5!

Понятно, что свежая третья версия Mistral OpenChat-3.5 перегнала самую старую версию ChatGPT, но ведь прогресс!

Это предварительная версия LLM бенчмарков на январь. В полной я добавлю mistral-small (это Mistral 8x7B Instruct v0.1) и mistral-medium (открытых аналогов не имеется). Там должно быть еще интереснее.

Как вы думаете, догонит ли Mistral самую слабенькую ChatGPT-4?

Ваш, @llm_under_hood 🤗

- Декабрьский бенчмарк в этом посте (там еще сравнение того, как модели понимают языки)
- FAQ по последнему бенчмарку - в этом посте.
- Про структуру бенчмарков с примерами детально расписано в лабах.
👍322😁2
Хотите заглянуть под капот моих LLM бенчмарков и Мистраля?

Вот скриншот, который я сегодня отправил инженерам из Mistral AI. Там проблема, что их hosted модели ведут себя настолько плохо в LLM бенчмарках, что мне стыдно публиковать их 😳

Начали вместе разбираться. Похоже, что hosted Мистраль отличается болтливостью и стремлением игнорировать few-shot prompts. Как говорят инженеры: "our models just tend to be verbose sometimes" 😂

На скриншоте пример из среза ответов от mistral-tiny (hosted версия Mistral 7B Instruct). Expected - это описание правильного ответа, a response - это то, что модель ответила.

Стрелками отмечены кейсы, где модель не следовала шаблону из few-shot prompts и слишком много болтала.

При этом локальная модель ведет себя гораздо лучше!

Пока разбираемся дальше.

А у вас есть опыт использования MistralAI API в продуктовых задачах?

Ваш, @llm_under_hood 🤗

PS: Cтавьте , если используете Мистраль в продуктовых задачах
209🤔6👍4🔥3
Инсайт про любимые модели Mistral из первых рук от инженеров MistralAI :)

Я сегодня полдня ковырял модели Mistral вместе c командой инженеров - создателей модели.

Помните мои бенчмарки Trustbit LLM Benchmarks? Они помогали нам оценивать качество запросов и ответов моделей сразу на широком наборе задач.

Что мы c MistralAI выяснили:
1️⃣ У меня в промпте запроса bos_token ставился неверно. Но это погоды не делает.

2️⃣ Mistral 7B Instruct v0.1 работает очень хорошо, как и его тюны. А вот с Mistral 7B Instruct v0.2 проблема из-за болтливости. Модель не очень хорошо следует указаниям и few-shot примерам (в отличие от других моделей). Инженеры это подтвердили.

3️⃣ Проблема сохраняется с текущими версиями c API mistral-tiny (Mistral 7B), mistral-small (Mixtral 8x7B) и mistral-medium.

4️⃣ Команда Mistral AI в курсе про болтливость текущей версии модели. А благодаря нашим LLM-бенчмаркам у них есть еще и точка отсечки, когда что-то пошло не так. И понимание масштаба.

Ребята очень бодрые и динамичные. Я уверен, что проблему они пофиксят достаточно быстро.
А пока я какое-то время не буду официально публиковать бенчмарки MistralAI API.

Ваш, @llm_under_hood 🤗
🔥3613👍8🎉2
OpenAI раздельно считает использование разных API ключей

Это очень удобно, когда один аккаунт используют разные проекты и люди.

Теперь, чтобы считать расходы или прикидывать юнит-экономику, больше не нужно писать свои прокси или использовать чужие сервисы.

Для новых ключей эта фича включена автоматически, а вот для старых это можно включить вручную на странице API Keys.

На вкладке activity (раздел Usage) дается разбивка использования моделей по разным ключам, а в выгрузке можно будет посмотреть уже детализацию. Она выглядит так:


{
"organization_id": "org-...",
"n_requests": 17,
"operation": "completion",
"n_context_tokens_total": 11078,
"n_generated_tokens_total": 2759,
"api_key_id": "key_...",
"api_key_name": "...",
"usage_type": "text",
"model": "gpt-4-1106-preview",
"timestamp": 1705536000
},


Удобно, правда? Я сразу включил отслеживание на старых ключах и завел новые под разные deployments.

А у вас все OpenAI расходы отслеживаются раздельно?

Ваш, @llm_under_hood 🤗
🔥177👍4🥰1
С прошлого поста, где я рассказывал о себе, прошло больше полугода, а канал вырос в 10 раз: со 170 до почти 1700 подписчиков 📈

Я всем очень рад, добро пожаловать! 🤗

Я - Ринат Абдуллин, Independent Technical Advisor и Head of ML & Innovation в австрийском Time To Act.

Сайт abdullin.com | LinkedIn | новостная рассылка.

🌟Вышел курс: "LLM под капотом: выбираем эффективные технические решения для AI-ассистентов"

💼 В компании TimeToAct мы помогаем компаниям в Европе автоматизировать бизнес-процессы.

🤝В качестве независимого технического консультанта я показываю клиентам, как сэкономить время и расходы на разработку продуктов с LLM под капотом.

Еще я разрабатываю TimeToAct LLM Benchmarks для сравнения возможностей различных языковых моделей в бизнес-задачах. Превью публикуются тут в канале, а финальные результаты - на сайтах компаний. Список всех отчетов есть тут.

🌐 За последние 20 лет я работал с разными командами в Европе и США, от небольших BigData/SaaS стартапов и до запуска отдела Data Science в международной транспортной компании.

💡 В этом канале я пишу преимущественно про ML/AI в разрезе ChatGPT и генеративных текстовых моделей.

Например:
Одна история разработки своего Reasoning
• Видео: как обнаруживать галлюцинации в текстах от AI и бороться с ними
• Разборы кейсов продуктов: про агента-писателя, которого научил ChatGPT, Кейс с ChatGPT про 10.000 € в месяц и Ассистент маркетолога с LLM под капотом
• Посты выходного дня: Личный адаптивный RAG или про робо-руки, GPT-4 в программировании и перспективные технологии (#weekend)
• Ответы из рубрики #клиентспросил: А покажи пример использования ChatGPT для написания промпта? или 5 неудобных вопросов при найме AI

Ваш, @llm_under_hood 🤗
🔥6621👍20🤝14🥰1😁1
Знаете, какое применение ChatGPT/LLM меня радует больше всего?

Это не написание маркетинговых текстов. Не построение красивых графиков по CSV файлам или написание кода. Все не то.

Вот у вас есть папка “Разобрать 5” на рабочем столе? Или “Сохраненные сообщения”, которые копились в Телеграм не один год? У меня такое есть.

Скажу вам - безумно круто смотреть, как GPT-4 разбирает скопившуюся гору заметок и файлов.

Научные статьи отправляются в одну стопку. Инвойсы на оплату - в другую. Идеи и мысли с шуршанием складываются в третью.

А если какой-то документ попал не туда - это не страшно. Можно поправить его, зная, что система запомнит это. И когда-нибудь потом, на этих исправлениях мы обучим своего собственного ассистента.

Он будет разгребать файлы, еще быстрее и точнее. А самое главное - уже без ChatGPT-4.

Ваш, @llm_under_hood 🤗
🔥49👏7👍6🤣1
Дайджест новостей от OpenAI

В целом - инкрементальные улучшения.

1. Снизили цены на GPT-3.5 Turbo. Входные tokens подешевели на 50%, а выходные на 25%. Шепчут, что во всем виноват Mistral AI, который дышит в спину своими модельками.
2. Выкатили новые версии GPT-3.5 и GPT-4 Turbo. Говорят, что теперь модели меньше отнекиваются, если их просить писать код. Судя по тону сообщения - это минорные релизы
3. Новые версии embedding моделей. Говорят, что они стали сильно лучше и точнее на information retrieval. text-embedding-3-small - лучше ada-2, но при этом в 5 раз дешевле. А text-embedding-3-large больше и сильнее их обоих вместе взятых.
4. У OpenAI embeddings можно отрезать хвост вектора, если он не лезет в БД! Модельки натренированы так, чтобы точность при этом страдала минимально.
5. Написали про API usage tracking (я писал уже) и что можно вешать разрешения на API Keys

Релиз можно почитать тут.

Ваш, @llm_under_hood 🤗
🔥20👍81
Ура! Я закончил #кейс с PDF и исправлением ошибок в каталогах продуктов

Как раз задеплоил новую версию клиенту.

Этот проект - продолжение старого кейса про исправление ошибок в онлайн каталогах.

Что изменилось с тех пор? Обнаружилось, что для всех продуктов клиент хранит инструкции в виде PDF. С ними исправление ошибок становится еще быстрее и проще.

Поэтому в текущей версии система стала сильно проще. На вход подается описание продукта и все доступные PDF по нему. На выходе список потенциальных ошибок в описании.

А что под капотом?

⁃ извлечение данных из PDF несколькими способами (простой, lattice table, stream table)
⁃ фильтрация всякого мусора
⁃ табличные преобразования в формат, удобный для работы LLM-ок
⁃ подача сырых данных в ChatGPT (gpt-4-1106-preview) для извлечения и форматирования
⁃ post-processing и decision making

В итоге работает все быстрее и надежнее, чем раньше.

Кстати, тут данные открытые. Если кто-то хочет попробовать свои силы в решении кейса - в комменты выложу доки от одного продукта, входные данные и ожидаемый список исправлений.

В задачке 3 файла, а ответ получается за 2 вызова ChatGPT.

Ваш, @llm_under_hood 🤗

PS: в реальности система решает десятки тысяч таких задачек снова и снова.
🔥268👏6😱1🤡1💯1
Дайджест новостей в мире LLM

1. Помните Google Gemini Pro (Bard)? Эта модель внезапно обогнала GPT-4 (0613/0314) на lmsys leaderboard.

Под капотом там Gemini Pro с поиском по интернету, в lmsys она идет под именем bard-jan-24-gemini-pro.

Ждем Gemini Ultra?

2. Слышали про потенциальную утечку весов от модели Mistral Medium? Скорее всего это просто тюн Llama 70B на данных Mistral. Пока можно игнорировать это мутное дело.

3. Meta продолжает тактику "выложим модель в открытый доступ, чтобы конкурентам было несладко". Они выложили новую модель для генерации кода Code Llama 70B. Говорят, что работает сильно лучше остальных.

70B версия на практике мало интересна (больно тяжело заводить), но они выложили еще и младшие версии в 7B, 13B и 34B. Это уже интереснее.

Они работают стабильно с контекстом до 100000 tokens. Хотя комфортнее всего им в пределах 16000 tokens, что тоже очень немало. Можно заливать прямо проекты целиком.

Ваш, @llm_under_hood 🤗
🔥32👍74
Немного про стоимость запуска LLM на своих серверах

Вчера пришлось вернуться к вопросу о стоимости небольшого сервера для LLM. Клиент хочет себе AI ассистента, который бы мог осилить 10000 юридических документов на разных языках.

Набор стандартный - поиск информации, суммаризация и ответы на вопросы. Но есть один нюанс - им прямо сильно хочется, чтобы вся система работала локально. Даже на уровне прототипа.

Начинается такая задачка по подбору вариантов для прототипа:
1. Чтобы можно было запускать эквиваленты Mixtral 8x7B или Llama 70B. Сжатие не сильнее, чем 8b.
2. Быстрые ответы для одного пользователя важнее, чем поддержка множества пользователей. Это же прототип.
3. Чтобы комплектующие были в наличии на рынке.
4. В идеале архитектура Ada, а не Ampere. Она посвежее и лучше приспособлена к современным моделям.
5. Это не продуктовая система, а система для разработки и оценки прототипа. Серверные комплектующие тут не так важны, как и TOC.
6. В GPU грузится не только сама LLM, но и прочие запчасти от RAG систем и ассистентов.

Варианты пока получаются такие:
1. Пара Nvidia A6000 (48GB, Ampere) - стоят в сумме 10k EUR и дают 96GB VRAM. При этом они достаточно древние.
2. Пара Nvidia 6000 Ada (48GB, Ada) - 17k EUR за две карты. Быстрее на ~30% и архитектура поновее.
3. Одна NVidia A100 (80GB, Ampere) - 18k EUR. Стоимость хорошей машины, старая архитектура.
4. Четыре NVidia 4090 (24GB, Ada) - 96GB за 8k EUR, но под них еще пойди собери сервер.

Похоже, что если есть время и недорогое электричество, то дешевле всего собрать станцию из 4 4090.

Ваш, @llm_under_hood 🤗
24👍136🔥4🤯3
Grayskull AI Accelerator продрался через таможню и добрался до нас!

Если кратко, то это специализированное железо для запуска AI/ML моделей. Отдаленно похоже на GPU карточки от Nvidia, но с совершенно иной архитектурой.

Я про эти карточки писал в начале января.

А несколько часов назад Ian Cutress опубликовал видео на YouTube про распаковку этих карточек. Он раньше был старшим редактором в Anandtech, его всегда приятно послушать.

Помните, вчера я сравнивал цены на GPU комплектующие для запуска AI ассистентов на своих машинах?

GPU для небольшого прототипа с моделями уровня 8x7B/70B под капотом стоят в районе 10k-20k EUR.

Так вот, Tenstorrent обещает, что на следующих поколениях карточек можно будет собрать эквивалент за меньшие деньги. И кластерный режим там идет из коробки.

Если у них получится, будет невероятно круто.

А пока на очереди тестирование того, что есть 🔧

Ваш, @llm_under_hood 🤗
🔥26👍93
Давайте покажу вам один интерфейс из моего ассистента. Он позволит проиллюстрировать важную концепцию пострения систем, которые со временем все лучше адаптируются под задачи.

Скриншоты интерфейса - в комментариях.

Мой ассистент - это склад информации. Я в него кидаю все заметки, важные файлы, интересные новости или просто идеи. С каждым днем там все больше данных.

При этом я ожидаю, что система будет помогать мне разбираться в этом океане информации.

RAG на embedding векторах тут не работает, мы это уже проходили. Нарезка текста мелкой соломкой и поиск по средней температуре притащит кучу ненужного в контекст и вызовет галлюцинации (см, например, видео про работу с галлюцинациями)

Как быть? Просто собираем статистику запросов к системе и классифицируем. Под каждую категорию запроса создаем свои модели (pipelines), которые заранее извлекают нужные подсказки из документов.

В итоге получается своя структурированная база информации (или граф знаний) под каждую категорию запроса.

А как получать хорошие результаты в такой ситуации - мы уже знаем (см кейс про ассистента маркетолога)

На скриншоте в комментариях показана часть интерфейса, который отслеживает процесс извлечения подсказок моделями. Именно тут - самая простейшая модель - people extractor. По мере работы я оцениваю часть результатов и отмечаю хорошие и плохие.

Статистика оценок используется для создания новых версий модели - это процесс полу-автоматизирован. Новые версии размечают новые данные. И видно, что со временем модель все больше адаптируется под меня - соотношение хороших/плохих ответов становится лучше.

Скажем изначально модель считала, что Homai - это имя человека. Это верно, но у меня-то это название проекта умного голосового ассистента 😆. 7ая версия этот факт уже выучила.

Аналогично работают любые другие индексы. Даже те, которые извлекают таблицы из PDF или раскладывают статьи по папкам. И эти индексы можно создавать динамически под новые типы запросов (см. пост про архитектуры для создания умного поиска)

Как побочный продукт этого процесса - набирается размеченный dataset, который можно использовать для обучения локальной LLM и полного переезда на нее.

Вы все еще используете RAG c embedding vectors? Тогда мы идем к вам! 😈

Ваш, @llm_under_hood 🤗
🔥13👍54🤯1