LLM под капотом – Telegram
LLM под капотом
21.1K subscribers
286 photos
7 videos
10 files
550 links
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Download Telegram
Media is too big
VIEW IN TELEGRAM
В комментах и в чате разгорелось обсуждение про галлюцинации ChatGPT, и по его мотивам я сделал ещё одно #видео.

Это не запись последнего вебинара! (она планируется позже)

В нем мы рассмотрим несколько простых вопросов, которые вводят в ступор языковые модели. Потом запутаем еще больше, а потом покажем, как отвечать правильно.

Будет интересно если:
- вы используете ChatGPT и хотите лучше понимать, где модель выдумывает;
- вы внедряете ChatGPT в свои бизнес-процессы, стремитесь контролировать качество и улучшать отдачу;
- вы разрабатываете свои продукты с LLM под капотом и хотите делать их лучше конкурентов.

Ваш, @llm_under_hood 🤗

Еще по этой теме:
- Видео про использование log_probs для раскрашивания ответа ChatGPT
- Две методички по продуктам с LLM под капотом
- Кейс с ChatGPT про 10.000 € в месяц 🤑
- Вам не нужен RAG! И fine-tuning тоже не нужен!
🔥185🎉1
Вы переиспользуете ChatGPT промпты?

Например, когда надо:

(1) снова получить очень стабильный вывод модели в каком-то формате

(2) передать коллеге удачный промпт для классификации отзывов пользователей

(3) найти старый разговор с ChatGPT, где вы просили его написать письмо кому-то, дополнить его новой информацией и попросить написать ответ.

(4) да и просто сказать ChatGPT в старом разговоре: “смотри, я тут попробовал применить твое решение, но всплыли такие-то косяки. Просмотри отзывы, подумай и улучши свое решение!

Ваш, @llm_under_hood 🤗
💯7👍63
#weekend пост про робо-руки, GPT-4 в программировании и перспективные технологии

Хочу рассказать про классное исследование в области LLM и AI. Это статья двухмесячной давности про использование GPT-4 для обучения роботов всяким новым штукам.

Роботы - это один из следующих фронтиров для проектов и исследований. Тут пока не так много шума, как с GPT, но компании продолжают вкладывать в них миллиарды.

Для меня из роботов интересны больше всего не человекоподобные роботы (имхо, больше игрушка), а более простые и прагматичные робо-руки. Они сейчас есть на всех совеременных заводах и конвейерных линиях. Стоят такие промышленные роботы от 25000$-45000$ за штуку.

Дорого? Зато они могут без устали фигачить одну и ту же задачу круглые сутки, без отпусков и создания профсоюзов. Очень выгодно, если так подумать.

Используются они в разных задачах, начиная от сбора товаров в online заказах до сбора всяческих узлов и аггрегатов.

Крутых роботов на заводах Tesla все уже видели. У Amazon есть более 750000 роботов. У Ocado Group есть склад, на котором почти половина товаров собирается в корзины роботами. А сама NVidia в предстоящих выступлениях на CES 2024 акцентировала робототехнику (скорее всего про роботов-хирургов и машины).

Так вот, что с этими роботами достаточно сложно - долгое время никто толком не знал, как их обучать всяким сложным движениям. Например, как научить робо-руку с пятью пальцами вращать ручку? Это может делать каждый достаточно скучающий школьник, а вот с робо-рукой так не получается. Слишком все сложно.

Обычно делали как -
(1) берут физическую платформу (скажем, робо-руку) и создают для нее виртуальную модель
(2) пишут код, который дает оценки поведению такой руки
(3) запускают обучение в виртуальной среде, используя код для оценки (reward function), чтобы двигаться в правильном направлении.

Пункт номер два - это самый сложный. От качества reward function зависит то, будет ли робо-рука завинчивать болт или забивать его.

И ребята из NVidia и университета Пенсильвании придумали как пристроить к делу ChatGPT-4. Да-да, обычная кодо-генерация с feedback loop (см кейс про агента, который программирует себя):

(1) GPT-4 пишет код для reward function. Причем, чтобы не тратить время на объяснения, ему на вход дают прямо основной код виртуальной среды.
(2) Запускают симуляцию и обучение.
(3) Показывают результаты работы ChatGPT и говорят “ну ты посмотри, какую фигню творит робот! давай переписывай reward function для нормального выполнения задачи”.

И это получается прямо RLHF для роботов! Ведь можно модели при обучении говорить не просто “творит фигню”, а человеческим языком указывать на ошибки и просить их исправить. А уж GPT-4 перепишет reward function соответствующим образом.

Это прямо как мое постоянное использование GPT-4 для написания всяческого кода 🤣

Ссылки:
- Eureka: Human-Level Reward Design via Coding LLMs
- Мой цикл статьей про создание робо-руки из простых запчастей (рука не получилась, но получилось поиграть с разными вещами от Lego Technic и до FPGA, 3D-печати и создания своих плат)


С наступающим! Всего самого хорошего в новом году,

Ваш, @llm_under_hood 🤗

PS: Спасибо Айгизу за ссылку на статью.
🔥24👍6🎉5🤩3😱1
Я придумал себе подарок на НГ - личный адаптивный RAG #weekend

Хочу себе такую систему, чтобы можно было кидать на вход все мысли, файлы, ссылки и контакты. А еще из телеграма пересылать, почту форвардить и из браузера сниппеты кушать.

Чтобы можно было потом общаться с системой на предмет извлечения нужной информации в структурированные базы знаний. Например:

• Когда нужно писать отчет по проекту - “А пройдись-ка по последним записям и сформируй список достижений по проекту X за неделю”

• Когда хочется поддерживать список контактов - “Заведи список людей, которые хотят пилить свои продукты. Прошерсти мои последние переписки на эту тему”. Или “Апдейтни этот список людей на основе последних переписок

• Когда нужно побрейнштормить в пару шагов на основе личных данных: “Предложи мне пару инсайтов в мире RAG из моих заметок для обсуждения с клиентом X завтра” или "Кого из моих контактов может заинтересовать участие в выводе на рынок продукта Y"

• Когда нужно найти старую информацию - “Какие у меня были удачные промпты при генерации кода для Kubernetes?”

И чтобы каждое действие и мой отклик сохранялись в качестве feedback для обучения полностью личной и приватной модели в будущем.

И чтобы если команда “переформатируй список самых часто используемых промптов” накосячила и удалила все к щебеням - можно было откатить на прошлую версию. Да и вообще всегда можно было откатить все состояние системы на любой момент времени.


Лучший подарок, как известно, сделан своими руками. Поэтому я буду делать такую систему сам.

У меня уже было нечто подобное, в до-ChatGPT эру. Сначала я формализовал подход к работе 3-5 проектами одновременно [1], а потом написал свою личную систему для организации данных по этому подходу [2]. Правда ей очень неудобно пользоваться, когда число проектов превышает 100 - слишком все сложно и неудобно. Но это было до того, как я встретил ChatGPT, научился использовать его для разработки проектов, и создавать ассистентов.

Поэтому, в новом году есть шанс сделать что-то лучшее и наворотить свой адаптивный RAG.

А какие у вас хотелки и планы на новый год?

Ваш, @llm_under_hood 🤗

[1] My workflows at Trustbit during quarantine
[2] Статья про pyJournal
🔥44🤩11👍63👏1
Две архитектуры умного поиска.

Верхняя половина рисунка - это как RAG системы делаются обычно. Мы нарезаем документы на фрагменты и сохраняем в векторную БД - Chroma, Pinecone, Milvus итп.

Потом, когда нужно ответить на вопрос клиента, мы используем гибридный поиск для нахождения релевантных текстов. ChatGPT пройдется по найденным кусочкам, выкинет лишнее и сформирует ответ. В ответах нередко встречается чушь, которая печалит пользователей.

Второй подход - использование динамических индексов. Вместо векторов создаем индексы, которые описывают и связывают сущности в документах. Это немного похоже на графовые базы данных.

Индексы строятся LLM-кой, адаптируясь под запросы клиентов. Если видим, что пользователи начали спрашивать про новый тип товара, тогда автоматом перелопачиваем документы и создаем нужный индекс.

И локальную LLM загрузим на ночь, и качество ответов вырастет на следующее утро.

Ваш, @llm_under_hood 🤗

---
Еще на эту тему: использование статистики и feedback для дообучения ассистентов
🔥29👍7🤡2🤗1
Кто хочет, чтобы LLM нормально умела читать таблицы?

Ребята из JPMorgan придумали модель для работы с документами, где расположение текста очень важно для понимания: формами, инвойсами, чеками, отчетами итп. Это все те вещи, за работу с которыми бизнес готов хорошо платить.

В отличие от моделей с image encoders, в DocLLM используются bounding boxes для разметки местоположения. Говорят, что в некоторых случаях они побили SotA.

Они обучили 2 модели - на базе Falcon-1B архитектуры и на базе Llama2-7B.

Paper

Это JP Morgan, поэтому открытой модели пока нет. Ждем, пока кто-нибудь не повторит исследование.

Ваш, @llm_under_hood 🤗
🔥18👍92💩1
OpenAI запускает GPTStore на следующей неделе 🚀

Такое письмо они рассылают тем, кто создавал свои GPTs:

Dear GPT Builder,

We want to let you know that we will launch the GPT Store next week. If you’re interested in sharing your GPT in the store, you’ll need to:
- Review our updated usage policies and GPT brand guidelines to ensure that your GPT is compliant
- Verify your Builder Profile (settings > builder profile > enable your name or a verified website)
- Publish your GPT as ‘Public’ (GPT’s with ‘Anyone with a link’ selected will not be shown in the store)

Thank you for investing time to build a GPT.

- ChatGPT Team


Прочитать побольше про создание своих версий GPT - можно тут (это своя комбинация инструкций, промптов, файлов и скиллов)

Ваш, @llm_under_hood 🤗
🔥9👍5
Помните я писал про адаптивного ассистента и RAG архитектуру с динамическими индексами?

Для валидации идей я позавчера написал прототип такого ассистента. Он работает как журнал, в который я отправляю все подряд мысли, идеи и заметки. Такой аналог "Saved Messages", который автоматически раскладывает по папочкам (индексирует) всё входящее.

Сегодня я уже смог его использовать, чтобы прошерстить весь мой поток сознания (54 заметки на разные темы общим размером в 44Kb) и получить отчет по состоянию самого ассистента. Сам отчет - в комментариях.

В общем, концепция динамических индексов (пусть и в полу-ручном режиме) работает весьма приятно. Если всякие rewind.ai позволяют удобно из коробки делать такое, то надо будет их посмотреть.

Ваш, @llm_under_hood 🤗
🔥23👏2💯1
Все хотят себе локальный AI, но мало кто готов платить

Клиенты постоянно спрашивают у меня про запуск языковых моделей на собственных серверах. Ведь так удобнее и спокойнее. Меньше опасений с утечкой данных, и клиентам приятнее. Особенно, в зарегулированных отраслях с кучей бумажек, большими штрафами, compliance и legal отделами.

Но при этом часто недооценивают стоимость такого запуска.

Я на прошлой неделе писал оценку стоимости запуска Llama 70B для рабочей нагрузки у клиента в юридической сфере (RAG система), без какой-либо отказоустойчивости. Увидев ее, у CEO вырвался вопрос: “😲 Это столько нужно вложить, чтобы обучить свою LLM с нуля?”

На это он получил логичный ответ “Нет, это для запуска умного ассистента на всех данных. Для обучения с нуля нужно этак в 1000-10000 раз больше”.

Думаю, в итоге они таки согласятся на мой первоначальный план - сначала быстро строить прототип на защищенных виртуальных машинах в облаке, а потом уже считать юнит-экономику и, быть может, вкладываться в собственное железо.

В свете этого интересны любые новости про более эффективный и более дешевый запуск моделей на своих машинах.

Так вот, ребята из MK1 делают свой собственный inference engine, который позволяет запускать модели на AMD-MI210 - достаточно редко используемом GPU от AMD. Они сравнивают производительность с NVidia A6000 (старее, чем 4090, но больше памяти). Сам пост (прочитать тут) - это реклама их inference движка (библиотеки для запуска языковых моделей), который сильно быстрее vLLM на AMD железе.

Выбор карт странный, но они оптимизируются на окупаемость и TOC.

В посте самое интересное, что:
(1) Текущая производительность vLLM - это еще не предел, можно выжимать из него сильно больше.
(2) GPU карты для запуска LLM не от NVidia - становятся все более применимыми и востребованными. Просто ради экономии.

В комментариях - график из поста и текущие цены на эти карточки, для наглядности.

Ваш, @llm_under_hood 🤗

PS: Дискуссия про карточки и алгоритмы "отцепилась" от поста и провалилась в чатик.
🔥194👍3🤔1🤯1
Вот такой AI ускоритель нам высылают из Канады, 2шт.

Это первое поколение карточек от Tenstorrent - Grayskull e150. Каждая карточка стоит $799. На борту:

- 120 Tensix Cores (в каждом - 8 мелких ядер и ускорители)
- TFLOPs (FP4): 332
- 8GB LPDDR4 @ 118.4 GB/sec

Всякие BERT, ResNet, Whisper там работают из коробки. Их инженерная команда обещала мне, что Falcon/Mistral 7B на такой карточке можно запустить тоже.

Все жутко экспериментальное, довольно старое и только начинает выходить на рынок.

Все делается с прицелом на их следующие поколения карт, где и память побыстрее, и ее побольше, и карточки сами собираются в большие кластера (поколения Wormhole, Black Hole и Grendel).

По цене и энергомотреблению запуск LLM должен быть привлекательнее, чем у NVidia 🤑 Ну или дешевле, чем покупать Mac Studio для inference на домашних проектах.

В Европе мы получаем эти карточки первыми. Будем альфа-тестерами.

Ваш, @llm_under_hood 🤗
🔥454👍2
Поддержим хороших людей с AI продуктом?

Спасибо всем в сообществе, кто участвовал и помогал!

Ваш, @llm_under_hood 🤗
👍7💩1
Forwarded from Vladimir Tolmachev
Привет

Мы тут бутстрапим свой стартап, поддержите нас, сделайте upvote

https://www.producthunt.com/posts/potis-ai

Проект во многом сделан благодаря этому сообществу и вам 🚀

@abdullin пост одобрил :)
🔥16
Давайте немного свежих новостей?

1. Sam Altman только что объявил об открытии ChatGPT Store. Говорят, что у них уже есть 3 миллиона кастомных GPTs.

2. Mixture of Experts архитектура вдохновляет многих. Уже сделали MoE на базе крохотных Microsoft Phi-2 (который получил приз зрительских симпатий на Hugging Face). Назвали Phixtral. Вот тут можно поиграться.

3. Mistral Medium побил все Claude и GPT-3.5 модели на HF Leaderboard. Дышит в спину ChatGPT-4.

Ваш, @llm_under_hood 🤗
🔥28🥰8👍3
#weekend пост про важность пользовательского фидбэка одним скриншотом.

Все мы хотим самообучающихся ассистентов и копилотов (если это только не Skynet). Но для этого нужна обратная связь в виде пользовательского фидбэка.

В лабах у меня лежит длиннющая статья про важность сбора пользовательского фидбэка в продуктах с LLM под капотом.

Обратная связь настолько важна для отслеживания и улучшения качества продуктов, что третья фича в моем самообучающемся ассистенте (про него я писал выше) - это вывод всех вызовов моделей и оценка результатов.

Просто таблица и кнопочки like/dislike. Все! Как на картинке.

Этого достаточно, чтобы данный индекс (извлечение значимых для меня сущностей из заметок) со временем подстраивался под мои привычки.

Механизм подстройки в данном случае - дело второстепенное. Главное, что есть данные.

Собирайте пользовательский фидбэк! 💪

Ваш, @llm_under_hood 🤗
👍24🔥52
#клиентспросил Как запускать LLM модели локально - Transformers, TGI или vLLM?

Народ, если поддержка современных моделей и использование GPU на полную катушку важны, то только vLLM или TensorRT-LLM! Если кто-то говорит, что TGI тоже нормально - не слушайте их.

Почему:
- TGI - это нишевый проект от HuggingFace для чатиков. Он менее популярен и построен на архитектуре "черного ящика" (Rust in docker container). В процессе его запустить нельзя, а API у них очень нишевый.
- HuggingFace transformers - это еще одна нишевая библиотечка от Hugging Face. Поиграть с ней хорошо, но на практике библиотека работает весьма медленно. GPU будут с ней окупаться дольше.

Но не слушайте меня, слушайте крупных игроков:
- Mistral AI на своей платформе дают выбор между vLLM и TensorRT-LLM (platform docs)
- Когда NVidia и AMD меряются своими GPU, они используют либо TenstorRT либо vLLM (пост NVidia)
- Google советует использовать vLLM для деплоя моделей в своем Vertex AI.

Ваш, @llm_under_hood 🤗
🔥25👍121🤗1
Mistral 7B OpenChat-3.5 v3 (0106) перегнал ChatGPT-3.5!

Понятно, что свежая третья версия Mistral OpenChat-3.5 перегнала самую старую версию ChatGPT, но ведь прогресс!

Это предварительная версия LLM бенчмарков на январь. В полной я добавлю mistral-small (это Mistral 8x7B Instruct v0.1) и mistral-medium (открытых аналогов не имеется). Там должно быть еще интереснее.

Как вы думаете, догонит ли Mistral самую слабенькую ChatGPT-4?

Ваш, @llm_under_hood 🤗

- Декабрьский бенчмарк в этом посте (там еще сравнение того, как модели понимают языки)
- FAQ по последнему бенчмарку - в этом посте.
- Про структуру бенчмарков с примерами детально расписано в лабах.
👍322😁2
Хотите заглянуть под капот моих LLM бенчмарков и Мистраля?

Вот скриншот, который я сегодня отправил инженерам из Mistral AI. Там проблема, что их hosted модели ведут себя настолько плохо в LLM бенчмарках, что мне стыдно публиковать их 😳

Начали вместе разбираться. Похоже, что hosted Мистраль отличается болтливостью и стремлением игнорировать few-shot prompts. Как говорят инженеры: "our models just tend to be verbose sometimes" 😂

На скриншоте пример из среза ответов от mistral-tiny (hosted версия Mistral 7B Instruct). Expected - это описание правильного ответа, a response - это то, что модель ответила.

Стрелками отмечены кейсы, где модель не следовала шаблону из few-shot prompts и слишком много болтала.

При этом локальная модель ведет себя гораздо лучше!

Пока разбираемся дальше.

А у вас есть опыт использования MistralAI API в продуктовых задачах?

Ваш, @llm_under_hood 🤗

PS: Cтавьте , если используете Мистраль в продуктовых задачах
209🤔6👍4🔥3
Инсайт про любимые модели Mistral из первых рук от инженеров MistralAI :)

Я сегодня полдня ковырял модели Mistral вместе c командой инженеров - создателей модели.

Помните мои бенчмарки Trustbit LLM Benchmarks? Они помогали нам оценивать качество запросов и ответов моделей сразу на широком наборе задач.

Что мы c MistralAI выяснили:
1️⃣ У меня в промпте запроса bos_token ставился неверно. Но это погоды не делает.

2️⃣ Mistral 7B Instruct v0.1 работает очень хорошо, как и его тюны. А вот с Mistral 7B Instruct v0.2 проблема из-за болтливости. Модель не очень хорошо следует указаниям и few-shot примерам (в отличие от других моделей). Инженеры это подтвердили.

3️⃣ Проблема сохраняется с текущими версиями c API mistral-tiny (Mistral 7B), mistral-small (Mixtral 8x7B) и mistral-medium.

4️⃣ Команда Mistral AI в курсе про болтливость текущей версии модели. А благодаря нашим LLM-бенчмаркам у них есть еще и точка отсечки, когда что-то пошло не так. И понимание масштаба.

Ребята очень бодрые и динамичные. Я уверен, что проблему они пофиксят достаточно быстро.
А пока я какое-то время не буду официально публиковать бенчмарки MistralAI API.

Ваш, @llm_under_hood 🤗
🔥3613👍8🎉2
OpenAI раздельно считает использование разных API ключей

Это очень удобно, когда один аккаунт используют разные проекты и люди.

Теперь, чтобы считать расходы или прикидывать юнит-экономику, больше не нужно писать свои прокси или использовать чужие сервисы.

Для новых ключей эта фича включена автоматически, а вот для старых это можно включить вручную на странице API Keys.

На вкладке activity (раздел Usage) дается разбивка использования моделей по разным ключам, а в выгрузке можно будет посмотреть уже детализацию. Она выглядит так:


{
"organization_id": "org-...",
"n_requests": 17,
"operation": "completion",
"n_context_tokens_total": 11078,
"n_generated_tokens_total": 2759,
"api_key_id": "key_...",
"api_key_name": "...",
"usage_type": "text",
"model": "gpt-4-1106-preview",
"timestamp": 1705536000
},


Удобно, правда? Я сразу включил отслеживание на старых ключах и завел новые под разные deployments.

А у вас все OpenAI расходы отслеживаются раздельно?

Ваш, @llm_under_hood 🤗
🔥177👍4🥰1
С прошлого поста, где я рассказывал о себе, прошло больше полугода, а канал вырос в 10 раз: со 170 до почти 1700 подписчиков 📈

Я всем очень рад, добро пожаловать! 🤗

Я - Ринат Абдуллин, Independent Technical Advisor и Head of ML & Innovation в австрийском Time To Act.

Сайт abdullin.com | LinkedIn | новостная рассылка.

🌟Вышел курс: "LLM под капотом: выбираем эффективные технические решения для AI-ассистентов"

💼 В компании TimeToAct мы помогаем компаниям в Европе автоматизировать бизнес-процессы.

🤝В качестве независимого технического консультанта я показываю клиентам, как сэкономить время и расходы на разработку продуктов с LLM под капотом.

Еще я разрабатываю TimeToAct LLM Benchmarks для сравнения возможностей различных языковых моделей в бизнес-задачах. Превью публикуются тут в канале, а финальные результаты - на сайтах компаний. Список всех отчетов есть тут.

🌐 За последние 20 лет я работал с разными командами в Европе и США, от небольших BigData/SaaS стартапов и до запуска отдела Data Science в международной транспортной компании.

💡 В этом канале я пишу преимущественно про ML/AI в разрезе ChatGPT и генеративных текстовых моделей.

Например:
Одна история разработки своего Reasoning
• Видео: как обнаруживать галлюцинации в текстах от AI и бороться с ними
• Разборы кейсов продуктов: про агента-писателя, которого научил ChatGPT, Кейс с ChatGPT про 10.000 € в месяц и Ассистент маркетолога с LLM под капотом
• Посты выходного дня: Личный адаптивный RAG или про робо-руки, GPT-4 в программировании и перспективные технологии (#weekend)
• Ответы из рубрики #клиентспросил: А покажи пример использования ChatGPT для написания промпта? или 5 неудобных вопросов при найме AI

Ваш, @llm_under_hood 🤗
🔥6621👍20🤝14🥰1😁1
Знаете, какое применение ChatGPT/LLM меня радует больше всего?

Это не написание маркетинговых текстов. Не построение красивых графиков по CSV файлам или написание кода. Все не то.

Вот у вас есть папка “Разобрать 5” на рабочем столе? Или “Сохраненные сообщения”, которые копились в Телеграм не один год? У меня такое есть.

Скажу вам - безумно круто смотреть, как GPT-4 разбирает скопившуюся гору заметок и файлов.

Научные статьи отправляются в одну стопку. Инвойсы на оплату - в другую. Идеи и мысли с шуршанием складываются в третью.

А если какой-то документ попал не туда - это не страшно. Можно поправить его, зная, что система запомнит это. И когда-нибудь потом, на этих исправлениях мы обучим своего собственного ассистента.

Он будет разгребать файлы, еще быстрее и точнее. А самое главное - уже без ChatGPT-4.

Ваш, @llm_under_hood 🤗
🔥49👏7👍6🤣1