NEW BOT Телеграм, страница

LLM под капотом

Llama v2 - трепло. Вот новые продуктовые бенчмарки, и она там на самом дне.

Понятно, что сейчас общий тренд на чаты, safety и разговорность. Но из-за этого страдает способность моделей давать четкие и конкретные ответы в поставленном формате.

Говоришь второй Llama:

You extract product properties from provided text. Respond in format: "number unit" or "N/A" if can't determine. Strip quotes, thousands separators and comments.

а она тебе в ответ: Sure thing! Here is the answer to your request:

И как это парсить стабильно?

Из открытых моделей, которые мы тестировали, старые версии Vicuna пока умеют лучше всего следовать инструкциям. Ну а OpenAI GPT-4 стабильнее лучше всего.

Ваш, @llm_under_hood 🤗

👍10

842 viewsedited 10:34

LLM под капотом

Чтобы быстро поднять Ops инфраструктуру для продукта - я использую Terraform + NixOS. Это самое быстрое, простое и надежное для человека, который нисколько не DevOps 😁

Terraform - чтобы завести ресурсы в облаках (начиная с GCP и до Hetzner).

NixOS - это как Terraform, но для самих виртуалок. C ним можно описать сервер, а потом сделать nixos rebuild. Он либо исполнит все до конца, либо откатится назад на стабильную конфигурацию (в отличие от Ansible и аналогов 😉)

На скриншоте - часть описания Ops сервера, про wireguard. В этом файле у меня еще строчек 240. Они описывают HTTPS сервер со всеми хостами, Grafana, VictoriaMetrics, prometheus scrapers, loki, promtail.

Чтобы выкинуть что-то, переделать конфиги или добавить новые пакеты - достаточно отредактировать файл и пересобрать сервер. Причем описания серверов хранятся в одном месте, что очень удобно для работы в команде.

В общем, если нужно быстро разворачивать сервера, а времени особо нет - всячески советую обратить внимание.

Ваш, @llm_under_hood 🤗

🔥10👍3

794 viewsedited 23:18

LLM под капотом

LLM Upgrade Guidance:
(1) ChatGPT 0314->0613 - upgrade with caution 🚧
(2) Anthropic Claude v1->v2 - don't upgrade 🛑
(3) LLaMA v1->v2 - upgrade to a fine-tune ✅

В комментах - скриншот с самой последней версией продуктового бенчмарка LLM после того, как я пофиксил кучу мелких проблем и багов. И на этом с бенчмарками на месяц пока все.

Q: Чего там оптимизировать? Запустил промпт и все.
A: Засада в оптимизации задач сразу под все модели. Это как писать сайты под 20 разных браузеров со своими заморочками. Понятно, что instruct format можно шаблонизировать, но у каждой модели всегда есть свои нюансы. Особенно, если стараться выжать максимум.

Q: А чего модели в бенчмарках постоянно скачут вверх-вниз?
A: Ну не постоянно, но такое есть) Во-первых, благодаря новым клиентам и кейсам потихоньку добавляются новые бенчмарки. Во-вторых, находятся новые способы улучшить качество моделей на существующих бенчмарках.

Вот последние инсайты:

(1) Почему пробелы лучше не ставить в конце промпта completion моделей? Да потому, что все эти tokeniser-ы привыкли включать пробел в начало слова (см скриншот в следующем посте). А если промпт заканчивается пробелом, тогда модели придется выбирать более редко используемый token, который с пробела не начинается. Качество чуть-чуть от этого страдает.

(2) Не забываем про logit bias, который позволяет подкручивать вероятности тех или иных tokens на выходе. Он есть как в OpenAI ChatGPT, так и в локальных LLM-ках. Например, если в ответе мы ожидаем, что модель выберет между N фиксированных вариантов, можно заставить модель выбирать только между ними. Ну или еще можно "запретить" модели использовать какие-то слова.

Тут вообще начинается много интересных вариантов, которые могут направить даже самые говорливые модели на правильный путь. Но в бенчмарки это пока не встроено.

Ваш, @llm_under_hood 🤗

👍8🔥2

898 viewsedited 08:22

LLM под капотом

Вот почему промпты лучше не заканчивать пробелом.

Кстати, заметили, что в нижнем окошке "weaker" разорвано пополам переносом? Это потому, что мы кавычками заставили токенизатор использовать запчасти "we" "aker" вместо слова " weaker". И похоже, что переносы тут сделаны по границам tokens :)

Ваш, @llm_under_hood 🤗

👍5🔥2🤔1🤯1

1.02K viewsedited 08:31

LLM под капотом

Кто разрабатывает свой продукт с LLM под капотом?

Anonymous Poll

13%

Уже есть продукт

45%

Да, как раз разрабатываю

33%

Нет, но хочется

Не планирую

🔥3

183 voters1.02K views07:44

LLM под капотом

Клиент хочет большего разнообразния текстов, которые генерирует маркетинговый ассистент. Что делать?

> Карточка продукта "маркетинговый ассистент" - тут.

Если прибить один промпт для написания черновиков статей, то он будет ваять очень похожие друг на друга тексты. Это не очень хорошо, т.к. остается больше работы для людей при финальной полировке статей. Больше переписывать.

Решили добавить разнообразния и сэкономить им еще больше времени:

(1) вытащили наружу ползунок креативности (напрямую транслируется в temperature), чтобы они могли сами подобрать нужную степень оголтелости.
(2) запрещаем особо пафосные слова через logit bias. И, соответственно, перестали запрет прописывать в промпте. В итоге тратится меньше tokens, а сам промпт фокусируется на более важных вещах.
(3) Вместо одного варианта написания статей, используем 3 разных подхода для braistorming и для написания черновика (Подход Майи Богдановой, AIDA и еще один benefit-driven от Дмитрия Кота). В итоге 9 комбинаций. Переключение между ними по рандому.

Подходы не имеют ничего общего с LLM! Это конспекты человеческого опыта про написание хороших текстов для LLM. ChatGPT нежно и отзывчиво любит такие конспекты! А комбинаторика добавляет разнообразия.
(4) Пользователи могут добавить свои комментарии в поле "tone of voice". Мелочь, а добавляет возможность тюнинга на месте.
(5) Дополнили базу знаний компании фактами про индустрию и тенденции развития. Это нужно для того, чтобы ChatGPT могла вбрасывать интересные фактики в повествование. Людям нравится такое встречать в статьях)

Какие еще интересные лайфхаки бывают для написания статей и постов при помощи ChatGPT?

Ваш, @llm_under_hood 🤗

#клиентспросил

👍8🔥3❤2

1.27K viewsedited 12:29

LLM под капотом

Отладка промптов для разных моделей

Разные LLM модели обучаются на своих форматах представления данных. У OpenAI - ChatML (спрятан за API), у Llama2 - два разных формата, которые отличаются от LLaMA. У файн-тюнов тоже свои нюансы.

Модели лучше всего работают, если им задавать вопросы в родном формате. Особенно важно следить за спец-символами и пробелами.

Например, в токенайзере cl100k_base (GPT3.5 и GPT 4) “ word” и “word” - это совершенно разные tokens. Первый - это часто используемое слово, а второй - довольна редкая запчасть от слова “crossword” (которое отличается от слова “ crossword”).

Как во всем этом разобраться и не запутаться?

Я в свои утилиты встроил подсветку элементов промпта, как на картинке.

Следование родным форматам моделей снижает галлюцинации и повышает точность ответов. Последнее - позволяет моим клиентам быстрее выкатить фичи и получить хорошую отдачу от использования LLM-ок.

Симпатично, наглядно и практично👍

Ваш, @llm_under_hood 🤗

👍12🔥1

1.27K viewsedited 13:00

LLM под капотом

Какие LLM вы используете? (можно выбрать несколько ответов)

Anonymous Poll

59%

Модели как сервисы (ChatGPT, Claude, Azure итп)

41%

Запускаю локальные модели (Llama, Saiga, Vicuna итп)

17%

Обучаю и запускаю свои файн-тюны

12%

Не использую, но хочу

🤡4

202 voters1.32K views14:59

LLM под капотом

Прикольная библиотека для получения желаемого формата ответа от LLM в 100% случаях.

Под капотом, они собирают FSM, который пропускает только валидные tokens на каждом новом шаге. Можно описать формат ответа начиная с regex до JSON модели по pydantic схеме.

От галлюцинаций это не спасает, но уменьшает количество проблем и работает быстрее Microsoft Guidance.

https://github.com/normal-computing/outlines

🔥4❤2

1.75K viewsedited 00:00

LLM под капотом

Кейс: платформа для автоматизации процессов в компании.

Со своим собственным языком программирования 😎

Давайте я вам расскажу про прикольный кейс автоматизации бизнес процессов в рамках целой интенсивно развивающейся компании. Компания - поставщик услуг по аналитике, клиенты на слуху.

У них сейчас основная проблема в том, что достаточно сложно расти. Рост ограничен наймом специалистов. Но благодаря GPT/LLM они могут масштабировать компанию не за счет найма новых людей, а за счет повышения их производительности.

Причем они делают не банального умного ассистента, а что-то уровнем повыше.

У них уже есть своя система работы с почтой. У них есть свой issue трекер. У них уже есть свой собственный язык программирования, с помощью которого они для клиентов делают аналитику. У них даже есть своя собственная CMS. Причем на сайте более 500 статей, которые постоянно пополняются и переводятся на где-то десяток языков.

И весь этот самодел минималистичен и очень оправдан (рост прибыльности из года в год врать не будет).

Для работы с LLM/ChatGPT они делают тоже свой собственный небольшой язык программирования (DSL или Domain-Specific Language). Он достаточно прост, прячет под капотом технические нюансы работы с векторами и embeddings, обращения к ChatGPT (со всеми retries), поиск по переписке и базам знаний. И тому подобное.

Примеры использования этого DSL:
- Когда приходит почта от какого-то клиента, сделай мне пожалуйста выжимку по текущему профилю этого клиента, выжимку по последним запросам, по последним обращениям в customer support, по последним бизнес запросам и с учетом этой выжимки предложи возможные ответы на текущий запрос клиента.

- При работе с новым крупным клиентом, нужно при заключении договора проходить по их compliance чеклисту. Пройдись, пожалуйста, по нему, используя наш FAQ, наш предыдущие ответ другим клиентам, и на каждый вопрос сформулируя ответ.

DSL является бизнес языком программирования для одной единственной компании. Он позволяет писать скрипты, формулировать запросы к GP и обращаться к разным системам в компании. Cотрудникам не нужно возиться с кучей токенов, retries или общаться с разными системами. У них просто есть один интерфейс и один токен.

DSL можно версионировать, его можно встраивать в автоматические бизнес-процессы, и он позволяет предсказуемо масштабировать бизнес. Компания может развиваться как набор скриптов на DSL, которые работают со всеми внутренними заданиями компании. Это очень круто, очень прозрачно и позволяет предсказуемо масштабировать бизнес. Крутой кейс.

PS: естественно, что можно давать API этого языка программирования в ChatGPT и просить написать скрипт под конкретную задачу. А скриптом уже можно поделиться с коллегой или показать новичкам.

Ваш, @llm_under_hood 🤗

LLM под капотом

Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.

👍8🤔4❤1🤯1

1.86K viewsedited 13:12

LLM под капотом

About_LLM_Product_Benchmarks_v2.pdf

292.3 KB

Я обещал описание категорий LLM Product Benchmarks, с примерами.

Вот оно☝️

Ваш, @llm_under_hood 🤗

#клиентспросил

👍5🤗4🔥3

1.17K viewsedited 15:10

LLM под капотом

About_LLM_Product_Benchmarks_v2.pdf

Update. Загрузил обновленную версию описания с детальным разбором одного бенчмарка вплоть до промпта.

🔥8❤3

978 viewsedited 16:57

LLM под капотом

В ChatGPT есть 19 полей/кнопок для сбора feedback!

Куда им столько?

При разработке продукта с ML/LLM под капотом лучше всего сохранять каждое значимое действие пользователя. Это позволит впоследствии оценивать качество моделей, пополнять training dataset и улучшать продукт.

По возможности, можно даже подкрутить интерфейс для того, чтобы собирать больше информации.

Сохраняйте все продуктовые события, пусть даже в текстовый файл формата JSONL. Они потом пригодятся.

Ваш, @llm_under_hood 🤗

👍7🔥1

929 viewsedited 10:52

LLM под капотом

Видели новости про файн-тюнинг GPT-3.5?

Если кратко:
- это не тот fine-tuning, к которому все привыкли!
- тренировка стоит относительные копейки - $0.008 / 1K токенов
- для затюненой модели использование в 8x дороже базовой GPT-3.5-Turbo

Сама новость вот тут: OpenAI

За uptime затюнинговой модели ничего не платим. Значит, это какой-то вариант LoRA адаптеров и манипуляции с tokens.

Этот fine-tuning затачивает модель под определенную задачу, делая ее более узко-специализированной. Новым фактам ее не особо научишь, а information retrieval это не заменит. Подробнее см доки OpenAI про fine-tuning.

Зачем, вообще такой тюнинг? А чтобы экономить на prompt tokens! Если у нас есть типовая задача, которая требует длинного промпта, особого формата вывода или стилистики ответа, то можно затюнить GPT-3.5 под эту задачу. Теперь не нужно будет отправлять столько few-shot примеров в запрос.

Тюнинг окупается при сжатии входного промпта более, чем в 8x. Плюс скорость ответа будет быстрее.

Такой тюнинг позволит получать более стабильные результаты без костылей вроде Microsoft Guidance & Microsoft TypeChat.

Ваш, @llm_under_hood 🤗

PS: У кого-нибудь есть проекты, которые уже явно выигрывают от этой фичи?

🔥9

1.25K viewsedited 15:12

LLM под капотом

Загадка. Какой продукт/прототип скрывается за этим списком?

Hint: оно включает в себя information retrieval по 200MiB+ чистого текста.

🤔3

860 views16:38

LLM под капотом

Начиная с 160GB суммарного объема, видеокарты начинают заканчиваться на runpod.

Это превращает работу с большими моделями в игру "собери их все")

858 viewsedited 21:42

LLM под капотом

Давным давно (пару лет назад), я интересовался hardware accelerators для ML. Это было еще до бума ChatGPT, но "убийцы NVidia" уже маячили на горизонте.

Были классные и недорогие процессоры с возможностью строить кластера сильно дешевле, чем дорогущие решения под NVLink от NVidia.

Эта карта железа для ML осталась с тех времен.

Но потом появились LLM и забили гвоздь в гроб всех этих ускорителей. Внезапно выяснилось, что важны не столько вычислительные способности, а много-много широкополосной памяти (HBM). Ну и наличие драйверов, которые работают с экосистемой из коробки, тоже помогает.

Tenstorrent по-прежнему выходит на связь раз пару раз в год и обещает вот-вот прислать ускорители с работающим софтом))

🔥4

1.01K viewsedited 07:36

LLM под капотом

GPT 3.5 0613 не перестает радовать.

Она стала у меня дефолтовым выбором вместо GPT4. Пусть в качестве немного отстает, но стоит в разы дешевле.

Скриншот из новой версии бенчмарков, которая выйдет в сентябре.

PS: в плагинах GPT 3.5 лучше 4 из-за того, что последняя "выеживается" в достаточно простом тесте.

🔥9👍3

1.31K views09:09

LLM под капотом

Прототип быстрой поисковой системы по профилям компаний)

Пока ищет только по 1GB отчетов компаний, но в перспективе это дойдет до террабайта. Качество должно улучшиться, а тормоза пройти (все, что дольше секунды - адские тормоза)

🔥8🤯2

1.34K views16:15

LLM под капотом

Две методички по продуктам с LLM под капотом - в открытом доступе: по построению knowledge-based систем и по сбору обратной связи в продуктах с LLM под капотом.

Доступ привязан к подписке на бесплатную Substack рассылку “ML Under the Hood”.

Текущие подписчики могут зайти туда уже прямо сейчас. Нужно лишь пойти на https://labs.abdullin.com и использовать свой email из подписки.

Если подписки нет, то можно ее завести и зайти на следующий день (интеграция с Subsctack пока через пень-колоду))

Я планирую эти лабы развивать и дальше:
- Больше продуктовых кейсов, собранных в одну библиотеку
- Интерактивные прототипы, которые можно пощупать своими руками. В первую очередь - быстрый conversational поиск по каталогам и базам знаний.
- Сентябрьские LLM бенчмарки (которые на больших моделях и Llama 2) появятся уже прямо там.
- Клиенты со своими бенчмарками всегда смогут посмотреть последние результаты прямо там, рядом с публичными.

Ваш, @llm_under_hood 🤗

🔥23❤4👏3👍1

1.71K viewsedited 14:54

LLM под капотом

Все новые newsletter подписки синхронизированы в ML Llabs (я писал про них вчера).

Можно логиниться )

Кстати, несколько потенциальных статей помечены как “🚧 under construction”. Если что-то кажется интересным, можно за них проголосовать внизу описания.

🔥6🙏3👍1

1.33K views07:55

About

Blog

Apps

Platform