Бенчмарки сегодняшних моделей от Mistral.
Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко.
Разницы между двумя поколениями моделей помладше особо тоже нет. Досадно, я ожидал уровня выше, чем OpenChat.
Это дополнение вдогонку к LLM бенчмарку за февраль. Подробнее про бенчмарк можно почитать там.
Если кратко, то это закрытый бенчмарк на базе промптов и тестов из реальных продуктов (enterprise glue и стартапы).
Ваш, @llm_under_hood 🤗
Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко.
Разницы между двумя поколениями моделей помладше особо тоже нет. Досадно, я ожидал уровня выше, чем OpenChat.
Это дополнение вдогонку к LLM бенчмарку за февраль. Подробнее про бенчмарк можно почитать там.
Если кратко, то это закрытый бенчмарк на базе промптов и тестов из реальных продуктов (enterprise glue и стартапы).
Ваш, @llm_under_hood 🤗
👍14😱3❤2
Наш ML R&D сервер дождался свою AI карточку от Tenstorrent - Grayskull e150.
Я про них писал раньше. Карты созданы в компании Jim Keller-a. Того самого, который ответил Сэму Альтману, что на революцию в AI чипах нужно не 7 триллионов, а меньше одного.
Размер карты и интерфейс внешнего охлаждения у них, конечно, затейливые. Поэтому в систему воткнулась только одна карточка из двух.
Дальше на очереди установка всех драйверов, освоение стэка, запуск моделей и экспериментов.
Еще пара фоток - в комментариях.
Ваш, @llm_under_hood 🤗
Я про них писал раньше. Карты созданы в компании Jim Keller-a. Того самого, который ответил Сэму Альтману, что на революцию в AI чипах нужно не 7 триллионов, а меньше одного.
Размер карты и интерфейс внешнего охлаждения у них, конечно, затейливые. Поэтому в систему воткнулась только одна карточка из двух.
Дальше на очереди установка всех драйверов, освоение стэка, запуск моделей и экспериментов.
Еще пара фоток - в комментариях.
Ваш, @llm_under_hood 🤗
🔥36🎉6❤3🤯3👍2💩1
Вебинар по AI-ассистентам: даты и время проведения
Есть два слота для проведения вебинара про адаптирующихся AI-ассистентов:
·7 марта, четверг, 13:00 GMT+3 (места закончились)
·9 марта, суббота, 15:30 GMT+3 (места закончились)
Это два отдельных потока. Содержание вебинара будет одинаковым. Продолжительность: 2 часа.
Пожалуйста, приходите в тот поток, который вы выбрали при оплате: я ограничил количество мест, чтобы можно было качественнее поработать на Q&A.
Если вдруг закончатся места, то добавлю на субботу или проведу еще один вебинар во второй декаде марта.
Будет ли запись?
Да, запишем лекционную часть и вышлем участникам лучший вариант после окончания всех потоков. Обсуждения ваших кейсов из Q&A выкладываться не будут.
Хочу, чтобы мой кейс разобрали на вебинаре, что нужно сделать?
После оплаты вебинара вам на емейл придет приглашение в чат - можете прислать кейс туда. Я прочитаю его заранее и постараюсь на вебинаре или в чате рассказать, как решал бы подобные задачи.
Если кейсов будет много, то на вебинаре выберу несколько показательных или кластеризую похожие кейсы.
Как оплатить?
Понадобится карта, работающая за пределами России. Оплатить можно вот здесь.
После оплаты вам придет email с деталями и ссылками на зум и в чат.
Ваш, @llm_under_hood 🤗
Есть два слота для проведения вебинара про адаптирующихся AI-ассистентов:
·
·
Это два отдельных потока. Содержание вебинара будет одинаковым. Продолжительность: 2 часа.
Пожалуйста, приходите в тот поток, который вы выбрали при оплате: я ограничил количество мест, чтобы можно было качественнее поработать на Q&A.
Если вдруг закончатся места, то добавлю на субботу или проведу еще один вебинар во второй декаде марта.
Будет ли запись?
Да, запишем лекционную часть и вышлем участникам лучший вариант после окончания всех потоков. Обсуждения ваших кейсов из Q&A выкладываться не будут.
Хочу, чтобы мой кейс разобрали на вебинаре, что нужно сделать?
После оплаты вебинара вам на емейл придет приглашение в чат - можете прислать кейс туда. Я прочитаю его заранее и постараюсь на вебинаре или в чате рассказать, как решал бы подобные задачи.
Если кейсов будет много, то на вебинаре выберу несколько показательных или кластеризую похожие кейсы.
Как оплатить?
Понадобится карта, работающая за пределами России. Оплатить можно вот здесь.
После оплаты вам придет email с деталями и ссылками на зум и в чат.
Ваш, @llm_under_hood 🤗
🔥11👍9❤1💩1
AI Knowledge Map Search
Вчера я сдался и начал использовать слово knowledge map в описаниях работы продуктов с LLM под капотом. Например, как на скриншоте из протипа корпоративного ассистента в комментариях к этому посту (на вебинаре через неделю мы разберем аналогичный).
Слово будет использоваться в предложениях вроде "предобрабатываем документы в доменную модель, чтобы LLM потом мог осознанно доставать нужные документы, а не тащить всякий мусор из chunks"
Проблема была в том, что больше людей знает про Data Science/Machine Learning и LLM, чем про Domain-Driven Design (DDD). Поэтому "доменная модель" вызывает совсем не те ассоциации, которые надо. Скорее вопросы "а можно ли ее запустить на локальных серверах?"
При описании решений на базе LLM я пытался использовать "structured data", но это было тоже не совсем то. Вчера, наконец, эксперты из DDD EU подсказали термин "knowledge map / graph".
И этот термин подходит сильно лучше! Он даже вызывает ассоциации с графовыми базами данных, что ведет размышления в правильном направлении.
Смотрите сами:
Правда ведь предложение стало чуть понятнее, чем раньше?
Ваш, @llm_under_hood 🤗
Update: изначально выбирал из двух вариантов knowledge graph и map. Но по итогам обсуждения в комментах видно, что graph уводит немного в сторону.
Вчера я сдался и начал использовать слово knowledge map в описаниях работы продуктов с LLM под капотом. Например, как на скриншоте из протипа корпоративного ассистента в комментариях к этому посту (на вебинаре через неделю мы разберем аналогичный).
Слово будет использоваться в предложениях вроде "предобрабатываем документы в доменную модель, чтобы LLM потом мог осознанно доставать нужные документы, а не тащить всякий мусор из chunks"
Проблема была в том, что больше людей знает про Data Science/Machine Learning и LLM, чем про Domain-Driven Design (DDD). Поэтому "доменная модель" вызывает совсем не те ассоциации, которые надо. Скорее вопросы "а можно ли ее запустить на локальных серверах?"
При описании решений на базе LLM я пытался использовать "structured data", но это было тоже не совсем то. Вчера, наконец, эксперты из DDD EU подсказали термин "knowledge map / graph".
И этот термин подходит сильно лучше! Он даже вызывает ассоциации с графовыми базами данных, что ведет размышления в правильном направлении.
Смотрите сами:
При построении ассистента мы можем заранее трансформировать документы в карту знаний. Так LLM потом сможет осознанно доставать нужные фрагменты, а не тащить всякий мусор из chunks. Граф знаний разрабатываем по аналогии с domain model из DDD.
Правда ведь предложение стало чуть понятнее, чем раньше?
Ваш, @llm_under_hood 🤗
Update: изначально выбирал из двух вариантов knowledge graph и map. Но по итогам обсуждения в комментах видно, что graph уводит немного в сторону.
👍21❤5💩2😁1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, я обещал бамбуковые палочки и роботов? Вот первая версия самого мелкого манипулятора. #weekend
Там пока логики нет, просто ESP32 крутит серво-приводами туда-обратно. Дальше план первой серии экспериментов такой:
(1) сделать, чтобы манипулятором крутить можно было с компьютера
(2) попробовать управлять при помощи GPT-4-Vision. Если рука сможет самостоятельно попасть по детальке Lego, то это уже прогресс.
Дальше можно будет копать в сторону создания манипулятора, который меньше шатает. Чтобы было нормальное целеполагание и позиционирование с использованием CV+LLM+Kinematic Engine.
(да-да, именно в таких задачах нужно low-latency LLM inference, как у Groq или Tenstorrent 😁)
Пока все это - сплошная теория. Но местный клуб "очумелые ручки" уже заинтересовался проектом. Особенно когда мы заговорили про возможность использования манипулятора для смешивания напитков 😃
В течение пары недель заведу Github репу, куда начну выкладывать текущие спецификации и ход экспериментов.
Ваш, @llm_under_hood 🤗
Там пока логики нет, просто ESP32 крутит серво-приводами туда-обратно. Дальше план первой серии экспериментов такой:
(1) сделать, чтобы манипулятором крутить можно было с компьютера
(2) попробовать управлять при помощи GPT-4-Vision. Если рука сможет самостоятельно попасть по детальке Lego, то это уже прогресс.
Дальше можно будет копать в сторону создания манипулятора, который меньше шатает. Чтобы было нормальное целеполагание и позиционирование с использованием CV+LLM+Kinematic Engine.
(да-да, именно в таких задачах нужно low-latency LLM inference, как у Groq или Tenstorrent 😁)
Пока все это - сплошная теория. Но местный клуб "очумелые ручки" уже заинтересовался проектом. Особенно когда мы заговорили про возможность использования манипулятора для смешивания напитков 😃
В течение пары недель заведу Github репу, куда начну выкладывать текущие спецификации и ход экспериментов.
Ваш, @llm_under_hood 🤗
🔥38👍6❤2😁2🤩2💩2⚡1
Сегодня сильно порадовал ProductFixer с LLM под капотом (полный кейс).
Этот ассистент автоматически проходит по каталогам продуктов и находит ошибки в описаниях. Для этого ему нужно уметь проходиться по разнообразным документам и извлекать из них нужные данные. А потом еще сравнивать и перепроверять.
Во время отладки я сегодня увидел вживую случай, когда данные запрятаны в нерегулярной таблице (с merged ячейками), а сама таблица - на другом языке, в середине многостраничного PDF файла.
Система справилась на отлично.
Теперь хочется еще более сложных таблиц.
А с какими самыми сложными таблицами встречались вы?
Ваш, @llm_under_hood 🤗
Этот ассистент автоматически проходит по каталогам продуктов и находит ошибки в описаниях. Для этого ему нужно уметь проходиться по разнообразным документам и извлекать из них нужные данные. А потом еще сравнивать и перепроверять.
Во время отладки я сегодня увидел вживую случай, когда данные запрятаны в нерегулярной таблице (с merged ячейками), а сама таблица - на другом языке, в середине многостраничного PDF файла.
Система справилась на отлично.
english_name fixes
─────────────────────────────
Voltage []
Output in Watt []
Drilling capacity in ['25']
wood in mm
Net weight in kg ['1.2']
Теперь хочется еще более сложных таблиц.
А с какими самыми сложными таблицами встречались вы?
Ваш, @llm_under_hood 🤗
🔥18👍6👏1
Закончились места на вебинар по AI ассистентам с LLM под капотом. Регистрация закрыта.
Участники принесли очень интересные кейсы на разбор. Говоря обобщенно, это:
Первый поток:
- Ассистенты / Copilots
- Работа с таблицами
- Маркетинговые исследования
Второй поток:
- Работа с таблицами
- Banking / Insurance, с табличками
- Базы знаний компаний
На вебинаре мы посмотрим на работу и реализацию одного AI ассистента на конкретной задаче в отдельной предметной области. А потом чуть более детально разберем адаптацию для работы с этими кейсами (ведь на самом деле принципы там одни и те же).
Ваш, @llm_under_hood 🤗
PS: Запись вебинара отдельно продаваться не будет, чтобы можно было свободно обсудить кейсы участников.
PPS: Третий поток? Посмотрю, как пройдет вебинар, и на количество желающих.
Участники принесли очень интересные кейсы на разбор. Говоря обобщенно, это:
Первый поток:
- Ассистенты / Copilots
- Работа с таблицами
- Маркетинговые исследования
Второй поток:
- Работа с таблицами
- Banking / Insurance, с табличками
- Базы знаний компаний
На вебинаре мы посмотрим на работу и реализацию одного AI ассистента на конкретной задаче в отдельной предметной области. А потом чуть более детально разберем адаптацию для работы с этими кейсами (ведь на самом деле принципы там одни и те же).
Ваш, @llm_under_hood 🤗
PS: Запись вебинара отдельно продаваться не будет, чтобы можно было свободно обсудить кейсы участников.
PPS: Третий поток? Посмотрю, как пройдет вебинар, и на количество желающих.
👍21🔥5💩2
AI Knowledge Maps в теории и на практике
Сегодня я делал демку прототипа AI ассистента для отдела цифровых коммуникаций международной компании с выручкой в ~3B EUR.
Там нужно сделать умный поиск по данным из внутренней корпоративной сети компании.
На прошлом митинге я показывал клиенту простейший поиск на базе ChatGPT + FTS. Они покивали головами и прислали десяток вопросов на засыпку.
Я не стал мудрить ничего особенного с этими вопросами, и сделал простейший knowledge map для AI по этим областям (про него было активное обсуждение в комментариях к этому посту). В теории оно должно было дать достаточно контекста системе, чтобы она могла самостоятельно искать информацию.
Как оно прошло на практике?
На митинге мы сначала позадавали системе вопросы аналогичные известным. Я рассказал про принципы работы и обучения через построение knowledge map. Потом клиент позадавал вопросы, к которым невозможно было подготовиться. И мы посмотрели, как система барахтается и ошибается.
Результат? Митинг, который был запланирован на 45 минут, закончился за 20 минут.
Почему? Да потому, что отдел цифровых коммуникаций ощутил перспективы, и теперь просит подключения к AI ассистенту еще пары IT систем компании. А еще они убежали готовить новый список вопросов для обучения. А еще нам надо теперь обсуждать бюджеты и прочие прелести внедрения в корпоративную IT инфраструктуру.
В общем, нет времени на митинги, работать надо 😆
Кстати, один из вопросов, которого я не ожидал - меня попросили задать вопрос не на родном языке документов. Ну я и спросил систему об актуальных сроках поставки одной позиции на русском языке.
AI ассистент сориентировался по knowledge map и достал самый последний релевантный документ (который на немецком). Потом еще попытался поискать по базе документов (используя английский и немецкий), в итоге плюнул и синтезировал тот единственно верный ответ, сформулировав его на русском языке. Я его этому всему не учил.
Ваш, @llm_under_hood 🤗
Сегодня я делал демку прототипа AI ассистента для отдела цифровых коммуникаций международной компании с выручкой в ~3B EUR.
Там нужно сделать умный поиск по данным из внутренней корпоративной сети компании.
На прошлом митинге я показывал клиенту простейший поиск на базе ChatGPT + FTS. Они покивали головами и прислали десяток вопросов на засыпку.
Я не стал мудрить ничего особенного с этими вопросами, и сделал простейший knowledge map для AI по этим областям (про него было активное обсуждение в комментариях к этому посту). В теории оно должно было дать достаточно контекста системе, чтобы она могла самостоятельно искать информацию.
Как оно прошло на практике?
На митинге мы сначала позадавали системе вопросы аналогичные известным. Я рассказал про принципы работы и обучения через построение knowledge map. Потом клиент позадавал вопросы, к которым невозможно было подготовиться. И мы посмотрели, как система барахтается и ошибается.
Результат? Митинг, который был запланирован на 45 минут, закончился за 20 минут.
Почему? Да потому, что отдел цифровых коммуникаций ощутил перспективы, и теперь просит подключения к AI ассистенту еще пары IT систем компании. А еще они убежали готовить новый список вопросов для обучения. А еще нам надо теперь обсуждать бюджеты и прочие прелести внедрения в корпоративную IT инфраструктуру.
В общем, нет времени на митинги, работать надо 😆
Кстати, один из вопросов, которого я не ожидал - меня попросили задать вопрос не на родном языке документов. Ну я и спросил систему об актуальных сроках поставки одной позиции на русском языке.
AI ассистент сориентировался по knowledge map и достал самый последний релевантный документ (который на немецком). Потом еще попытался поискать по базе документов (используя английский и немецкий), в итоге плюнул и синтезировал тот единственно верный ответ, сформулировав его на русском языке. Я его этому всему не учил.
Ваш, @llm_under_hood 🤗
🔥48👍5🤯4❤3💩1
Archive.zip
31.9 MB
Смотрите, как можно просто проиллюстрировать разницу в качестве между векторными RAG-ами и подходами на базе карты знаний.
В прикрепленном архиве - 3 годовых отчета. Можно загрузить их в любой доступный RAG и задать вопрос:
Я делал такое ради смеха с LlamaIndex во время подготовки к вебинару сегодня.
Там фишка даже не в том, что векторный RAG галлюцинирует и не дает цифры, а в том, что его ответы каждый раз разные. Попробуйте сами и убедитесь.
Ваш, @llm_under_hood 🤗
PS: Если в ответе AI ассистент не жалуется на то, что цифры в разных валютах, выключите такого ассистента.
В прикрепленном архиве - 3 годовых отчета. Можно загрузить их в любой доступный RAG и задать вопрос:
You are CFO-GPT. Quickly answer, which of the companies has more liquidity right now. And how much? Don't make up information, if you are not certain.
Я делал такое ради смеха с LlamaIndex во время подготовки к вебинару сегодня.
Там фишка даже не в том, что векторный RAG галлюцинирует и не дает цифры, а в том, что его ответы каждый раз разные. Попробуйте сами и убедитесь.
Ваш, @llm_under_hood 🤗
PS: Если в ответе AI ассистент не жалуется на то, что цифры в разных валютах, выключите такого ассистента.
🔥15👍7🤔1💩1
Улучшение LLM для практических задач: начинаю сбор данных
Создатели LLM наконец заметили, что их модели работают хорошо на академических бенчмарках, а вот в реальных продуктах - несут пургу. Клиенты жалуются, а продажи сервисов оставляют желать лучшего.
Я недавно общался на эту тему с представителями одной компании-разработчика LLM. Выяснилось, что они не совсем в курсе того, как их модели реально используются в разных кейсах. И они попросили меня помочь им улучшить качество моделей.
Чтобы исправить эту ситуацию, я начинаю собирать dataset LLM задач, анонимизированный и не для распространения.
Его часть будет передаваться под NDA проверенным компаниям, которые обучают свои foundational LLM-модели. Они смогут увидеть и воспроизвести локально проблемы своей модели. При наличии большого количества данных - и дообучить модель.
Вторая часть dataset-a производителям LLM не передается и используется для независимой верификации того, что результат действительно есть, и что данные использовали правильно.
Что получают компании-участники?
Им не нужно будет самим обучать LLM или усердно файн-тюнить модели под свои задачи. Модели станут более оптимизированы под их бизнесы, без расходов на GPU или высококлассных ML-экспертов.
Еще участники будут знать точные ключевые фразы и формулировки, на которых модели обучались выполнять конкретные задачи. Например: “You are a TableExpert-GPT with a degree in Excel. Perform precise cell extraction from the document fragment below”.
Что получают создатели LLM моделей?
Больше продаж и клиентов.
Что получает весь мир?
Больше хороших LLM моделей, которые умеют не только цитировать wiki, но и лучше работать в реальных продуктах с LLM под капотом.
Что это за LLM?
Пока это только одна компания. В моих бенчмарках она есть.
Ваш, @llm_under_hood 🤗
Создатели LLM наконец заметили, что их модели работают хорошо на академических бенчмарках, а вот в реальных продуктах - несут пургу. Клиенты жалуются, а продажи сервисов оставляют желать лучшего.
Я недавно общался на эту тему с представителями одной компании-разработчика LLM. Выяснилось, что они не совсем в курсе того, как их модели реально используются в разных кейсах. И они попросили меня помочь им улучшить качество моделей.
Чтобы исправить эту ситуацию, я начинаю собирать dataset LLM задач, анонимизированный и не для распространения.
Его часть будет передаваться под NDA проверенным компаниям, которые обучают свои foundational LLM-модели. Они смогут увидеть и воспроизвести локально проблемы своей модели. При наличии большого количества данных - и дообучить модель.
Вторая часть dataset-a производителям LLM не передается и используется для независимой верификации того, что результат действительно есть, и что данные использовали правильно.
Что получают компании-участники?
Им не нужно будет самим обучать LLM или усердно файн-тюнить модели под свои задачи. Модели станут более оптимизированы под их бизнесы, без расходов на GPU или высококлассных ML-экспертов.
Еще участники будут знать точные ключевые фразы и формулировки, на которых модели обучались выполнять конкретные задачи. Например: “You are a TableExpert-GPT with a degree in Excel. Perform precise cell extraction from the document fragment below”.
Что получают создатели LLM моделей?
Больше продаж и клиентов.
Что получает весь мир?
Больше хороших LLM моделей, которые умеют не только цитировать wiki, но и лучше работать в реальных продуктах с LLM под капотом.
Что это за LLM?
Пока это только одна компания. В моих бенчмарках она есть.
Ваш, @llm_under_hood 🤗
🔥24❤4🤝2👍1🤔1💩1
Итоги вебинаров по разработке AI ассистентов с LLM под капотом
Оба потока вебинара прошли. Большое спасибо всем участникам за интересные кейсы и вопросы 🤗
Времени ответить на все не хватило - тут материалов на целый курс. Я буду постепенно отвечать на вопросы в группах потоков.
Самый главный вывод: формулировка принципов построения систем c LLM под капотом через knowledge maps (карты знаний) позволяет достаточно быстро объяснить основы, показать код и обсудить процессы внедрения. Ну и даже разобрать некоторые кейсы.
На основе карты знаний мы разбирали принципы реализации таких кейсов:
- AI Assistent для отдела цифровых коммуникаций
- Knowledge Map Search
- Про то, что технология RAG-ов имеет меньшее значение, чем заглядывание в глаза клиентам
- Построение моего собственного ассистента
- Про агента-писателя, которого научил ChatGPT
А принцип везде один и тот же: вместо чисто механического решения проблемы через RAG + embeddings мы отталкиваемся от реальных процессов и знаний экспертов. Это позволяет декомпозировать сложные задачи с галлюцинациями на достаточно конкретные шаги. А там уже можно и измерить качество, и собрать данные для улучшения системы.
Вот краткая выжимка инсайтов самих участников, про вещи, которые после вебинара в первую очередь уже можно использовать на практике:
- Понравился подход к "карте знаний". Теперь есть механика работы как реализовать эту карту на конкретных кейсах.
- разметка данных в knowledge map
- знаю примерно как поставить задачу на разработку такой системы
- Общий подход к составлению базы для ответов
- Есть идея, как применить это в хардкорном телекоме
- Карту знаний. Сейчас есть пилот с банком, сегодня же попробую внедрить данный подход и увижу результат.
- Итеративная разработка, которая закрывает вопросы "один за другим"
- не углубляться сильно в чанкеры и т.п сложности RAGов
Но это были инсайты прямо в конце вебинара. Если пришли еще какие-то интересные мысли в следующие дни - пишите в комментарии. Можно обсудить прямо здесь)
Ваш, @llm_under_hood 🤗
Оба потока вебинара прошли. Большое спасибо всем участникам за интересные кейсы и вопросы 🤗
Времени ответить на все не хватило - тут материалов на целый курс. Я буду постепенно отвечать на вопросы в группах потоков.
Самый главный вывод: формулировка принципов построения систем c LLM под капотом через knowledge maps (карты знаний) позволяет достаточно быстро объяснить основы, показать код и обсудить процессы внедрения. Ну и даже разобрать некоторые кейсы.
На основе карты знаний мы разбирали принципы реализации таких кейсов:
- AI Assistent для отдела цифровых коммуникаций
- Knowledge Map Search
- Про то, что технология RAG-ов имеет меньшее значение, чем заглядывание в глаза клиентам
- Построение моего собственного ассистента
- Про агента-писателя, которого научил ChatGPT
А принцип везде один и тот же: вместо чисто механического решения проблемы через RAG + embeddings мы отталкиваемся от реальных процессов и знаний экспертов. Это позволяет декомпозировать сложные задачи с галлюцинациями на достаточно конкретные шаги. А там уже можно и измерить качество, и собрать данные для улучшения системы.
Вот краткая выжимка инсайтов самих участников, про вещи, которые после вебинара в первую очередь уже можно использовать на практике:
- Понравился подход к "карте знаний". Теперь есть механика работы как реализовать эту карту на конкретных кейсах.
- разметка данных в knowledge map
- знаю примерно как поставить задачу на разработку такой системы
- Общий подход к составлению базы для ответов
- Есть идея, как применить это в хардкорном телекоме
- Карту знаний. Сейчас есть пилот с банком, сегодня же попробую внедрить данный подход и увижу результат.
- Итеративная разработка, которая закрывает вопросы "один за другим"
- не углубляться сильно в чанкеры и т.п сложности RAGов
Но это были инсайты прямо в конце вебинара. Если пришли еще какие-то интересные мысли в следующие дни - пишите в комментарии. Можно обсудить прямо здесь)
Ваш, @llm_under_hood 🤗
❤12🔥8👍4💩1
LLM Benchmark - Claude 3 радует!
Модели Claude 3 сильно улучшились на LLM бенчмарках. Похоже, что в Antropic стали прислушиваться к пожеланиям клиентов, которые используют LLM в реальных продуктах.
Opus скакнул вперед, перескочил через GPT-3.5 и оказался среди версий GPT-4. Больше всего радует сам факт рывка в правильном направлении.
Раньше 100 очков в работе с документами набирал только GPT-4 Turbo v4/0125-preview. А теперь и Claude 3 Opus. Это значит:
- системы, которые построены на работе с Knowledge Map, тут будут хорошо запускаться (бенчмарк тестирует это)
- бенчмарк придется усложнять, чтобы повысить планку))
Улучшение Sonnet не такое заметное на первый взгляд. Модель незначительно оторвалась от версий v1 и v2. Но при этом стоимость упала более, чем в два раза. Будет интересно посмотреть, что у них там с моделью Haiku.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
Модели Claude 3 сильно улучшились на LLM бенчмарках. Похоже, что в Antropic стали прислушиваться к пожеланиям клиентов, которые используют LLM в реальных продуктах.
Opus скакнул вперед, перескочил через GPT-3.5 и оказался среди версий GPT-4. Больше всего радует сам факт рывка в правильном направлении.
Раньше 100 очков в работе с документами набирал только GPT-4 Turbo v4/0125-preview. А теперь и Claude 3 Opus. Это значит:
- системы, которые построены на работе с Knowledge Map, тут будут хорошо запускаться (бенчмарк тестирует это)
- бенчмарк придется усложнять, чтобы повысить планку))
Улучшение Sonnet не такое заметное на первый взгляд. Модель незначительно оторвалась от версий v1 и v2. Но при этом стоимость упала более, чем в два раза. Будет интересно посмотреть, что у них там с моделью Haiku.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
🔥24🎉5💯5👍2🤔2💩1
LLM Benchmark - Claude 3 Haiku и Gemini Pro 1.0 - уровень хороших тюнов Mistral 7B недорого.
Anthropic выпустила свою младшую модель - Claude 3 Haiku. Это у них самая маленькая и быстрая модель из третьего поколения моделей (Opus, Sonnet и Haiku).
Несмотря на размер, она сохраняет мультиязычность и контекст в 200K tokens. При этом она стоит в 12 раз дешевле Sonnet и в 60 раз дешевле Opus
Моделька теоретически заточена под корпоративные задачи вроде анализа больших объемов документации. Возможно поэтому на продуктовых бенчмарках она умудрилась подняться даже выше, чем Sonnet.
На академических бенчмарках Haiku лучше, чем GPT-3.5 и Gemini Pro 1.0. Но на практике - пока не очень.
В бенчмарк я еще добавил Gemini Pro 1.0 от Google. Результат на продуктовых задачах у него тоже на уровне хорошего тюна Mistral 7B.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro 1.5 и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
Anthropic выпустила свою младшую модель - Claude 3 Haiku. Это у них самая маленькая и быстрая модель из третьего поколения моделей (Opus, Sonnet и Haiku).
Несмотря на размер, она сохраняет мультиязычность и контекст в 200K tokens. При этом она стоит в 12 раз дешевле Sonnet и в 60 раз дешевле Opus
Моделька теоретически заточена под корпоративные задачи вроде анализа больших объемов документации. Возможно поэтому на продуктовых бенчмарках она умудрилась подняться даже выше, чем Sonnet.
На академических бенчмарках Haiku лучше, чем GPT-3.5 и Gemini Pro 1.0. Но на практике - пока не очень.
В бенчмарк я еще добавил Gemini Pro 1.0 от Google. Результат на продуктовых задачах у него тоже на уровне хорошего тюна Mistral 7B.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro 1.5 и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
🥰18👍10🔥4❤1🤔1💩1
document-013-116884.out.000.pdf
279.5 KB
Как распознавать сложные таблицы?
Еще один пример того, как непросто доставать данные из документов.
На картинке вырезка из технической спецификации Sharp на диоды. Одна единственная страница, но с нюансами.
Попробуйте скормить эту PDF в любой RAG и спросить:
Правильный ответ, очевидно, 1.9. Если у вас есть RAG/Agent под рукой, было бы интересно услышать, что он ответит.
Обычно системы путаются в ячейках или просто отказываются отвечать.
А вот ChatGPT+Vision с такими задачами справляется, но только если ему обрезать картинку до конкретной таблицы.
Как с такими табличками работаете вы?
Ваш, @llm_under_hood 🤗
Еще один пример того, как непросто доставать данные из документов.
На картинке вырезка из технической спецификации Sharp на диоды. Одна единственная страница, но с нюансами.
Попробуйте скормить эту PDF в любой RAG и спросить:
What is the typical peak forward voltage?
Правильный ответ, очевидно, 1.9. Если у вас есть RAG/Agent под рукой, было бы интересно услышать, что он ответит.
Обычно системы путаются в ячейках или просто отказываются отвечать.
А вот ChatGPT+Vision с такими задачами справляется, но только если ему обрезать картинку до конкретной таблицы.
The typical peak forward voltage, as indicated in the provided image, is 1.9 V.
Как с такими табличками работаете вы?
Ваш, @llm_under_hood 🤗
👍11🔥4
Если вам предлагают ChatGPT-4 со скидкой в 50%, значит у кого-то сгорают кредиты OpenAI или Microsoft.
Такое в последнее время случается довольно часто. При участии в инкубаторах стартапы могут легко получить облачных кредитов на 100k-150k USD. И если вдруг бизнес не получается, то кредиты так и остаются висеть.
Поэтому владельцы хотят обналичить хоть часть быстросгорающих активов с немаленькой скидкой. Если кому-то нужно сделать много вызовов ChatGPT за короткий срок и со скидкой - неплохое предложение. Чем ближе к сроку сгорания, тем большую скидку можно выбить 😁
Но там есть засады для легального использования бизнесами:
- Чека или инвойса от Microsoft/OpenAI не будет. Максимум - инвойс от частной компании. Налоговой такое нужно будет объяснять отдельно
- Использование не долгосрочное, а до момента сгорания кредитов. Обычно это на пару месяцев
- Работа идет исключительно на доверии. Ничто не мешает поставщику ChatGPT-4 деактивировать API ключ
- Не факт, что условия использования кредитов OpenAI API/Microsoft разрешают их перепродажу.
Хотя лично мне кажется, что лучше всего такие кредиты выводить самому владельцу в виде datasets. Например, разметить какой-нибудь набор документов в нишевой области (legal, business of law или banking) при помощи ChatGPT-4 Vision. В обычных условиях это очень дорого, но ведь нам нечего терять? А потом неспеша использовать такой dataset для обучения локальных моделей для бизнеса. Вот и задел для новой компании.
А если бы у вас сгорало 100k кредитов OpenAI, то на что бы вы их потратили?
Ваш, @llm_under_hood 🤗
PS: напоминаю, что это добрый чатик. Способы нарушения закона мы не обсуждаем.
Такое в последнее время случается довольно часто. При участии в инкубаторах стартапы могут легко получить облачных кредитов на 100k-150k USD. И если вдруг бизнес не получается, то кредиты так и остаются висеть.
Поэтому владельцы хотят обналичить хоть часть быстросгорающих активов с немаленькой скидкой. Если кому-то нужно сделать много вызовов ChatGPT за короткий срок и со скидкой - неплохое предложение. Чем ближе к сроку сгорания, тем большую скидку можно выбить 😁
Но там есть засады для легального использования бизнесами:
- Чека или инвойса от Microsoft/OpenAI не будет. Максимум - инвойс от частной компании. Налоговой такое нужно будет объяснять отдельно
- Использование не долгосрочное, а до момента сгорания кредитов. Обычно это на пару месяцев
- Работа идет исключительно на доверии. Ничто не мешает поставщику ChatGPT-4 деактивировать API ключ
- Не факт, что условия использования кредитов OpenAI API/Microsoft разрешают их перепродажу.
Хотя лично мне кажется, что лучше всего такие кредиты выводить самому владельцу в виде datasets. Например, разметить какой-нибудь набор документов в нишевой области (legal, business of law или banking) при помощи ChatGPT-4 Vision. В обычных условиях это очень дорого, но ведь нам нечего терять? А потом неспеша использовать такой dataset для обучения локальных моделей для бизнеса. Вот и задел для новой компании.
А если бы у вас сгорало 100k кредитов OpenAI, то на что бы вы их потратили?
Ваш, @llm_under_hood 🤗
PS: напоминаю, что это добрый чатик. Способы нарушения закона мы не обсуждаем.
🔥27👍7❤2😱2
LLM-системы и structured logging - #weekend пост
В феврале я писал про архитектурный “затык” в моем AI-ассистенте. Не получалось никак сделать прозрачным процесс извлечения данных из документов в knowledge map.
Проблема была в том, что над одним документом в рамках концепции Knowledge Maps будут последовательно работать несколько экстракторов данных. Результат работы одних может передаваться в другие.
Например, если у нас есть сообщение с вложенным инвойсом, то однозначно этот инвойс можно классифицировать только после распознавания текста и классификации его в контексте исходного сообщения. Процесс получается нелинейный и потенциально сложный.
И обязательно хочется иметь возможность проинспектировать результаты любого запуска процесса. Вот хоть ты тресни. Ведь без возможности заглянуть под капот нельзя ничего оценить, а без оценки никак нельзя улучшить.
Почти месяц я работал над тем, чтобы все это решить достаточно простым кодом.
На помощь пришли три старые концепции из software engineering:
- structured logging - для логгирования всего так, чтобы это потом было удобно просматривать и визуализировать (статья NewRelic)
- content-addressable storage - чтобы можно было хранить все подряд и избегать дупликации (wiki)
- NixOS derivations - концепция о кэшировании результатов долгого вычисления на основе входных данных (описано в NixOS)
В итоге все работает так:
(1) При появлении новых документов, по ним запускается процесс обработки. На каждый документ создается новый structured log.
(2) Процесс вызывает конкретные модели (data extractors) в нужном порядке. Результат вызова вместе со всеми деталями подшивается в этот лог.
(3) Когда документ обработан, все извлеченные данные подшиваются к нему, вместе со structured log процесса и всеми деталями.
А самое классное в том, что вызовы моделей - idempotent. Это позволяет кэшировать дорогие вызовы автоматически. Весь structured log - тоже immutable. И если ничего не поменялось, то можно процесс обработки документа вызывать хоть сколько раз, результат будет один и тот же.
Вторая фишка состоит в том, что если результат обработки документа пометить как approved/reviewed, то можно пометить все участвовавшие вызовы моделей как хорошие. А это добавляет все данные в dataset для последующего обучения своих моделей.
Пара скриншотов и примеров того, как выглядит structured log - в комментариях.
Ваш, @llm_under_hood 🤗
PS: Никакого LangChain/LlamaIndex не используется. Достаточно простого питона.
В феврале я писал про архитектурный “затык” в моем AI-ассистенте. Не получалось никак сделать прозрачным процесс извлечения данных из документов в knowledge map.
Проблема была в том, что над одним документом в рамках концепции Knowledge Maps будут последовательно работать несколько экстракторов данных. Результат работы одних может передаваться в другие.
Например, если у нас есть сообщение с вложенным инвойсом, то однозначно этот инвойс можно классифицировать только после распознавания текста и классификации его в контексте исходного сообщения. Процесс получается нелинейный и потенциально сложный.
И обязательно хочется иметь возможность проинспектировать результаты любого запуска процесса. Вот хоть ты тресни. Ведь без возможности заглянуть под капот нельзя ничего оценить, а без оценки никак нельзя улучшить.
Почти месяц я работал над тем, чтобы все это решить достаточно простым кодом.
На помощь пришли три старые концепции из software engineering:
- structured logging - для логгирования всего так, чтобы это потом было удобно просматривать и визуализировать (статья NewRelic)
- content-addressable storage - чтобы можно было хранить все подряд и избегать дупликации (wiki)
- NixOS derivations - концепция о кэшировании результатов долгого вычисления на основе входных данных (описано в NixOS)
В итоге все работает так:
(1) При появлении новых документов, по ним запускается процесс обработки. На каждый документ создается новый structured log.
(2) Процесс вызывает конкретные модели (data extractors) в нужном порядке. Результат вызова вместе со всеми деталями подшивается в этот лог.
(3) Когда документ обработан, все извлеченные данные подшиваются к нему, вместе со structured log процесса и всеми деталями.
А самое классное в том, что вызовы моделей - idempotent. Это позволяет кэшировать дорогие вызовы автоматически. Весь structured log - тоже immutable. И если ничего не поменялось, то можно процесс обработки документа вызывать хоть сколько раз, результат будет один и тот же.
Вторая фишка состоит в том, что если результат обработки документа пометить как approved/reviewed, то можно пометить все участвовавшие вызовы моделей как хорошие. А это добавляет все данные в dataset для последующего обучения своих моделей.
Пара скриншотов и примеров того, как выглядит structured log - в комментариях.
Ваш, @llm_under_hood 🤗
PS: Никакого LangChain/LlamaIndex не используется. Достаточно простого питона.
👍21🔥16❤1🥰1
Grok LLM - большая, не имеющая аналогов и никому даром не нужная
X (при жизни - Twitter) выложил свою мега модель:
- 314B параметров (86B активно за раз)
- mixture of experts 8 (2 активны за раз)
- Apache 2.0 лицензия
Сами авторы заявляли:
По отзывам, Grok примерно сравним с GPT-3.5, Mixtral. Если пересчитывать на размер, толку от Grok пока ноль. Пропускаем.
Ссылка на HuggingFace
Ваш, @llm_under_hood 🤗
X (при жизни - Twitter) выложил свою мега модель:
- 314B параметров (86B активно за раз)
- mixture of experts 8 (2 активны за раз)
- Apache 2.0 лицензия
Сами авторы заявляли:
On these benchmarks, Grok-1 displayed strong results, surpassing all other models in its compute class... This showcases the rapid progress we are making at xAI in training LLMs with exceptional efficiency.
По отзывам, Grok примерно сравним с GPT-3.5, Mixtral. Если пересчитывать на размер, толку от Grok пока ноль. Пропускаем.
Ссылка на HuggingFace
Ваш, @llm_under_hood 🤗
👍24😁6👎2🤯2
NVidia экономит электричество и ускоряет квантованные модели
Прошлой ночью NVidia презентовала новые GPU чипы и конфигурации на базе Blackwell. Хороший summary есть в ai news (keynote тут).
Меня поразил один факт, где они сравнивали производительность чипов при тренировке модели уровня GPT-4. Кому, как не NVidia знать эти цифры?
Итак, для тренировки GPT-4 (без учета ошибок):
- нужно 8000 штук H100 в течении 90 дней. Потребление - 15МВт
- либо 2000 штук B100 в течение 90 дней. Потребление - 4МВт
В четыре раза меньше чипов и почти в четыре раза меньше энергопотребление. Если B100 стоит в 4-5 раза больше H100, то это уже легко окупается.
А там еще идет хорошая поддержка квантизации уровня FP8, FP6, FP4. Это значит, что производительность не будет так сильно падать при запуске пожатых моделей. Причем, если верить NVidia, inference LLM в таком режиме вообще дико экономит электричество.
Эти новости радуют. В ближайшие годы нам всем нужно будет еще больше вычислительных способностей.
Ваш, @llm_under_hood 🤗
Прошлой ночью NVidia презентовала новые GPU чипы и конфигурации на базе Blackwell. Хороший summary есть в ai news (keynote тут).
Меня поразил один факт, где они сравнивали производительность чипов при тренировке модели уровня GPT-4. Кому, как не NVidia знать эти цифры?
Итак, для тренировки GPT-4 (без учета ошибок):
- нужно 8000 штук H100 в течении 90 дней. Потребление - 15МВт
- либо 2000 штук B100 в течение 90 дней. Потребление - 4МВт
В четыре раза меньше чипов и почти в четыре раза меньше энергопотребление. Если B100 стоит в 4-5 раза больше H100, то это уже легко окупается.
А там еще идет хорошая поддержка квантизации уровня FP8, FP6, FP4. Это значит, что производительность не будет так сильно падать при запуске пожатых моделей. Причем, если верить NVidia, inference LLM в таком режиме вообще дико экономит электричество.
Эти новости радуют. В ближайшие годы нам всем нужно будет еще больше вычислительных способностей.
Ваш, @llm_under_hood 🤗
🔥22👍6❤3
Архитектура AI-ассистентов одной схемой.
Я нарисовал эту схему только что, чтобы объяснить принципы построения систем одному специалисту. Его роль транслируется в Staff Software Engineer/Principal Engineering Consultant.
В активе у него много успешных проектов для бизнеса, но вот практического опыта построения систем с LLM под капотом пока нет.
Он сейчас заходит в типичный проект на базе LLM, где под капотом RAG с гибридным поиском. Гос клиенты, тысячи пользователей, неистребимые галлюцинации и относительная бесполезность системы. Команда устала от беспросветного копания в ворохе абстракций. Нужно им помочь.
Чтобы помочь выстроить в голове картинку того, как двигать дальше проект, я и нарисовал эту схемку. Она получилась достаточно простая и (вроде бы) одновременно понятная DDD-шникам. Никаких дополнительных иллюстраций не надо.
Посмотрим дальше, поможет ли знание принципов вывести этот проект на правильные рельсы.
А вам такая схема понятна?
Ваш, @llm_under_hood 🤗
Я нарисовал эту схему только что, чтобы объяснить принципы построения систем одному специалисту. Его роль транслируется в Staff Software Engineer/Principal Engineering Consultant.
В активе у него много успешных проектов для бизнеса, но вот практического опыта построения систем с LLM под капотом пока нет.
Он сейчас заходит в типичный проект на базе LLM, где под капотом RAG с гибридным поиском. Гос клиенты, тысячи пользователей, неистребимые галлюцинации и относительная бесполезность системы. Команда устала от беспросветного копания в ворохе абстракций. Нужно им помочь.
Чтобы помочь выстроить в голове картинку того, как двигать дальше проект, я и нарисовал эту схемку. Она получилась достаточно простая и (вроде бы) одновременно понятная DDD-шникам. Никаких дополнительных иллюстраций не надо.
Посмотрим дальше, поможет ли знание принципов вывести этот проект на правильные рельсы.
А вам такая схема понятна?
Ваш, @llm_under_hood 🤗
❤39👍17🤔8🤗3🔥1🥰1💯1
RAG Challenge на годовых отчетах компаний
В последнее время в комментариях было много обсуждений про эффективность разных подходов. Особенно вектора против knowledge maps. Но ведь технологии совсем не важны. Важно только, работает в итоге AI система с LLM под капотом или несет пургу.
И это можно измерить и сравнить. В чатике канала в итоге договорились до небольшого дружеского соревнования 🍻
Идея такая. Каждый желающий пилит свой RAG, который может давать ответы на вопросы по пачке годовых отчетов компаний. Вопросы на information retrieval - сколько человек работает в компании X? У какой компании ликвидность больше? У кого есть виноградники во Франции, и в каких провинциях. Вкладывается ли компания Y в green bonds? итп
Кстати, если у кого-то получатся хорошие результаты - это круто. Ведь кейс интересен стартапам и компаниям побольше. Это прямо ассистент для отдела продаж.
Каждый пилит свой RAG или использует существующую систему. Главное, чтобы там было две фишки:
1. Возможность загрузить тестовый набор отчетов (выберем случайно все вместе, штук 100)
2. Возможность загрузить список вопросов и получить список ответов.
Между первым и вторым шагом может пройти, скажем, часов 5-6 (чтобы система могла переварить данные, посчитать embeddings или прогнать экстракторы)
Исходники открывать не обязательно.
Если кому-то интересно, вот ссылка на набор файлов для обучения - ZIP, 100 MB. В тестовом наборе файлов их, естественно, не будет.
Что по срокам?
Я предлагаю так сделать - как несколько человек готовых наберется (хотя бы пара), то сформируем набор вопросов с документами и прогоним тесты вместе.
Если потом еще кто-то подтянется, можно заново будет это повторить, на новых документах и вопросах.
Какие вопросы будут?
Типы вопросов будут определены заранее до начала соревнования. Поговорим с экспертами и выберем самые реалистичные и востребованные категории.
Что скажете?
Update: 14 команд/человек заинтересовалось в течение суток. Состоится ориентировочно в конце апреля/мае.
Ваш, @llm_under_hood 🤗
В последнее время в комментариях было много обсуждений про эффективность разных подходов. Особенно вектора против knowledge maps. Но ведь технологии совсем не важны. Важно только, работает в итоге AI система с LLM под капотом или несет пургу.
И это можно измерить и сравнить. В чатике канала в итоге договорились до небольшого дружеского соревнования 🍻
Идея такая. Каждый желающий пилит свой RAG, который может давать ответы на вопросы по пачке годовых отчетов компаний. Вопросы на information retrieval - сколько человек работает в компании X? У какой компании ликвидность больше? У кого есть виноградники во Франции, и в каких провинциях. Вкладывается ли компания Y в green bonds? итп
Кстати, если у кого-то получатся хорошие результаты - это круто. Ведь кейс интересен стартапам и компаниям побольше. Это прямо ассистент для отдела продаж.
Каждый пилит свой RAG или использует существующую систему. Главное, чтобы там было две фишки:
1. Возможность загрузить тестовый набор отчетов (выберем случайно все вместе, штук 100)
2. Возможность загрузить список вопросов и получить список ответов.
Между первым и вторым шагом может пройти, скажем, часов 5-6 (чтобы система могла переварить данные, посчитать embeddings или прогнать экстракторы)
Исходники открывать не обязательно.
Если кому-то интересно, вот ссылка на набор файлов для обучения - ZIP, 100 MB. В тестовом наборе файлов их, естественно, не будет.
Что по срокам?
Я предлагаю так сделать - как несколько человек готовых наберется (хотя бы пара), то сформируем набор вопросов с документами и прогоним тесты вместе.
Если потом еще кто-то подтянется, можно заново будет это повторить, на новых документах и вопросах.
Какие вопросы будут?
Типы вопросов будут определены заранее до начала соревнования. Поговорим с экспертами и выберем самые реалистичные и востребованные категории.
Что скажете?
Update: 14 команд/человек заинтересовалось в течение суток. Состоится ориентировочно в конце апреля/мае.
Ваш, @llm_under_hood 🤗
🔥52🤝16👍8❤5🤯1
Кто угадает LLM модель на очереди в бенчмарк?
Это семейство моделей я еще не оценивал, но клиенты просят под свои нужды.
Это foundational model, которую обучили на открытых данных. Ее, говорят, специально затачивали под задачи бизнеса.
Кстати, а мартовский бенчмарк вышел официально на сайте.
Ваш, @llm_under_hood 🤗
---
Предыдущие LLM бенчмарки в канале:
- бенчмарки февраля 2024
- FAQ по декабрьскому бенчмарку
- март (Haiku)
- Март (Claude 3)
Это семейство моделей я еще не оценивал, но клиенты просят под свои нужды.
Это foundational model, которую обучили на открытых данных. Ее, говорят, специально затачивали под задачи бизнеса.
Кстати, а мартовский бенчмарк вышел официально на сайте.
Ваш, @llm_under_hood 🤗
---
Предыдущие LLM бенчмарки в канале:
- бенчмарки февраля 2024
- FAQ по декабрьскому бенчмарку
- март (Haiku)
- Март (Claude 3)
👍12🔥3🥰1