Конкуренты с RAG и векторным поиском
В области enterprise AI продуктов все чаще начинают мелькать конкуренты. То Google и Microsoft засылают продавцов интегрированных решений, то сторонние вендоры начинают продавать RAG-и на векторных базах данных.
> Что за решения? Enterprise glue. Например, умный поиск по корпоративной сети. Или системы по извлечению структурированных данных из входящих документов. Или ассистенты, которые умеют гибко адаптироваться под уникальные кейсы.
И, знаете, конкуренты - это круто:
(1) их наличие позволяет дифференцироваться и выделиться из массы с более высоким ценником. Главное, показать и доказать ценность своего продукта.
(2) можно с конкурентами интегрироваться, и даже им помочь. Делаем деньги вместе.
(3) мне очень нравиться соревноваться с другими 🙃
Как все это можно достичь? А просто меняем позиционирование продукта. Вместо продажи RAG-системы или фреймворка для создания AI ассистентов мы сделаем так:
Пусть конкуренты строят космолеты из AI и обучают модели. Мы поможем им в этом! 🚀
Мы займемся скучной частью сбора данных и подготовки training datasets. Скажем, разработаем с конкретными департаментами прототипы ассистентов. Они будут глупенькие, но они будут заточены под сбор вопросов, ответов и экспертизы. Заодно задокументируем процессы.
А потом мы прототип немного улучшим, проработав отзывы и интегрировав их в систему. Это позволит нам собрать еще больше пользовательского фидбэка на новых кейсах. И повторим несколько раз, собирая хорошо аннотированные datasets.
А вендоры потом могут взять эти datasets и обучить мощные модели, которые уделают наши простые правила. И они смогут даже доказать качество своих решений. И когда это произойдет - мы поможем встроить эти новые модели в общую платформу. А потом - подсказать следующее направление для обучения моделей.
А знаете, в чем фишка? Ну, помимо дружбы с вендорами. Их четыре:
(1) клиент выигрывает от того, что качество каждого продукта с LLM под капотом - можно измерить на конкретных данных. Ну и вендоры начинают работать с конкретными требованиями.
(2) систематически собираемые данные можно использовать, чтобы в будущем перетащить все модели на локальные.
(3) мы можем выбирать из всех кейсов самые интересные для себя, а остальные - отдавать вендорам.
(4) это все закладывает основу для корпоративной мульти-вендорной AI платформы. И мы можем ее направить так, чтобы она реально и доказуемо приносила пользу, а не проедала бюджеты клиента впустую.
Это очень похоже на логику из поста про Вам не нужен RAG, стратегию внедрения AI или принцип работы моего ассистента, верно? Да основы везде одни и те же, поэтому паттерны и повторяются в разных ситуациях.
Ваш, @llm_under_hood 🤗
PS: добавил в комментарии выдержку из моей сегодняшней презентации клиенту на эту тему
В области enterprise AI продуктов все чаще начинают мелькать конкуренты. То Google и Microsoft засылают продавцов интегрированных решений, то сторонние вендоры начинают продавать RAG-и на векторных базах данных.
> Что за решения? Enterprise glue. Например, умный поиск по корпоративной сети. Или системы по извлечению структурированных данных из входящих документов. Или ассистенты, которые умеют гибко адаптироваться под уникальные кейсы.
И, знаете, конкуренты - это круто:
(1) их наличие позволяет дифференцироваться и выделиться из массы с более высоким ценником. Главное, показать и доказать ценность своего продукта.
(2) можно с конкурентами интегрироваться, и даже им помочь. Делаем деньги вместе.
(3) мне очень нравиться соревноваться с другими 🙃
Как все это можно достичь? А просто меняем позиционирование продукта. Вместо продажи RAG-системы или фреймворка для создания AI ассистентов мы сделаем так:
Пусть конкуренты строят космолеты из AI и обучают модели. Мы поможем им в этом! 🚀
Мы займемся скучной частью сбора данных и подготовки training datasets. Скажем, разработаем с конкретными департаментами прототипы ассистентов. Они будут глупенькие, но они будут заточены под сбор вопросов, ответов и экспертизы. Заодно задокументируем процессы.
А потом мы прототип немного улучшим, проработав отзывы и интегрировав их в систему. Это позволит нам собрать еще больше пользовательского фидбэка на новых кейсах. И повторим несколько раз, собирая хорошо аннотированные datasets.
А вендоры потом могут взять эти datasets и обучить мощные модели, которые уделают наши простые правила. И они смогут даже доказать качество своих решений. И когда это произойдет - мы поможем встроить эти новые модели в общую платформу. А потом - подсказать следующее направление для обучения моделей.
А знаете, в чем фишка? Ну, помимо дружбы с вендорами. Их четыре:
(1) клиент выигрывает от того, что качество каждого продукта с LLM под капотом - можно измерить на конкретных данных. Ну и вендоры начинают работать с конкретными требованиями.
(2) систематически собираемые данные можно использовать, чтобы в будущем перетащить все модели на локальные.
(3) мы можем выбирать из всех кейсов самые интересные для себя, а остальные - отдавать вендорам.
(4) это все закладывает основу для корпоративной мульти-вендорной AI платформы. И мы можем ее направить так, чтобы она реально и доказуемо приносила пользу, а не проедала бюджеты клиента впустую.
Это очень похоже на логику из поста про Вам не нужен RAG, стратегию внедрения AI или принцип работы моего ассистента, верно? Да основы везде одни и те же, поэтому паттерны и повторяются в разных ситуациях.
Ваш, @llm_under_hood 🤗
PS: добавил в комментарии выдержку из моей сегодняшней презентации клиенту на эту тему
👍15🔥6❤2
Бенчмарки RAG-систем делать забавно.
У меня есть N гигабайт годовых отчетов разных компаний. По ним можно задавать вопросы и смотреть, насколько каждая система ошибается.
А потом нужно будет делать новую версию своей системы, которая их сможет проходить вслепую. 😅
В комментарии я прикреплю исходный годовой отчет для этой картинки. И буду постить скриншоты ответов разных систем на него.
Тестируйте тоже всякие RAG системы и кидайте скриншоты сюда.
Ваш, @llm_under_hood 🤗
У меня есть N гигабайт годовых отчетов разных компаний. По ним можно задавать вопросы и смотреть, насколько каждая система ошибается.
А потом нужно будет делать новую версию своей системы, которая их сможет проходить вслепую. 😅
В комментарии я прикреплю исходный годовой отчет для этой картинки. И буду постить скриншоты ответов разных систем на него.
Тестируйте тоже всякие RAG системы и кидайте скриншоты сюда.
Ваш, @llm_under_hood 🤗
👍12👏5❤1
State of RAGs одной картинкой
Я задавал разным сервисам вопросы по одному единственному PDF файлу, а потом сверял ответы. На выходе - разброд и шатание, а ChatGPT-4 пока тут лучший.
Кто хочет повторить сам, годовой отчет тут. А шаблон промпта выглядел так:
Ваш, @llm_under_hood 🤗
Я задавал разным сервисам вопросы по одному единственному PDF файлу, а потом сверял ответы. На выходе - разброд и шатание, а ChatGPT-4 пока тут лучший.
Кто хочет повторить сам, годовой отчет тут. А шаблон промпта выглядел так:
QUESTION
Answer with a floating point number in current currency, for example "1,234 million", use decimal comma and no thousand separators. You can think through the answer, but last line should be in this format "answer = number unit". Answer with "answer = None" if there is no information available.
Ваш, @llm_under_hood 🤗
👍17🥰7🤔5❤1👎1👏1😁1🤯1😱1💩1
LLM Leaderboard за февраль 2024
Краткая выдержка:
(1) ChatGPT-v4 хорошеет. GPT-4 Turbo 0125-preview (aka v4) не только обучена на самых свежих данных (Декабрь 2023), но и обогнала предыдущие две версии и заняла второе место. При этом она стоит в разы дешевле топовой модели.
(2) Добавил Anthropic Claude (via AWS bedrock) и hosted Mistral AI модели. У обоих моделей хроническая болтливость, игнорирование few-shots промптов и невнимательность к инструкциям. Даже Mistral 7B OpenChat-3.5 слушается лучше. А уж OpenAI знает лучше всех, чего хотят компании и enterprise от LLMок.
Mistral пал так низко, что его не видно на скриншоте. Ждем третье поколение моделей, где они обещают пофиксить.
Update: Mistral AI попросили дать им пару дней.
Напоминаю, что бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. FAQ есть тут. Более детальное описание и примеры evals есть в лабах: Trustbit LLM Benchmark (лабы открыты подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
Краткая выдержка:
(1) ChatGPT-v4 хорошеет. GPT-4 Turbo 0125-preview (aka v4) не только обучена на самых свежих данных (Декабрь 2023), но и обогнала предыдущие две версии и заняла второе место. При этом она стоит в разы дешевле топовой модели.
(2) Добавил Anthropic Claude (via AWS bedrock) и hosted Mistral AI модели. У обоих моделей хроническая болтливость, игнорирование few-shots промптов и невнимательность к инструкциям. Даже Mistral 7B OpenChat-3.5 слушается лучше. А уж OpenAI знает лучше всех, чего хотят компании и enterprise от LLMок.
Mistral пал так низко, что его не видно на скриншоте. Ждем третье поколение моделей, где они обещают пофиксить.
Update: Mistral AI попросили дать им пару дней.
Напоминаю, что бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. FAQ есть тут. Более детальное описание и примеры evals есть в лабах: Trustbit LLM Benchmark (лабы открыты подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
👍26🔥9❤6
Вебинар по ассистентам с LLM под капотом.
Посты про адаптирующихся AI ассистентов порождают больше вопросов, чем дают ответов.
Вообще, лучше всего такие вещи получается рассказывать вживую.
Поэтому я предлагаю вебинар по построению ассистента на конкретных примерах. Мы проведем его с вами по горячим следам, в начале марта. Он будет платным. Ниже - его описание.
Если есть желание и возможность поучаствовать, отпишите в комментарии “мне интересно” и свой часовой пояс.
UPD: Вебинар состоится, подробности вот здесь.
Ваш, @llm_under_hood 🤗
Посты про адаптирующихся AI ассистентов порождают больше вопросов, чем дают ответов.
Вообще, лучше всего такие вещи получается рассказывать вживую.
Поэтому я предлагаю вебинар по построению ассистента на конкретных примерах. Мы проведем его с вами по горячим следам, в начале марта. Он будет платным. Ниже - его описание.
Я проведу вебинар по проектированию и внедрению ассистентов с LLM под капотом
Он предназначен для инженеров, которые руководят созданием подобных ассистентов. А еще - для продактов и сейлзов, которым нужно понимать возможности и проблемы подобных продуктов.
Мы посмотрим на работу и реализацию одного такого ассистента на конкретной задаче в отдельной предметной области.
Это будет end-to-end кейс с реальными документами.
Помимо кода, мы обсудим с вами принципы построения и внедрения подобных систем, от первого AI навыка до создания платформ. Обсудим контроль качества, сбор данных и построение работы с пользователями.
Если есть кейсы, которые вы хотите обсудить - можно будет их принести с собой на разбор. Я расскажу, как решал бы такую задачу и отвечу на ваши вопросы.
Длительность - 2 часа. Язык - русский. Стоимость участия в вебинаре - 80 евро (нужна будет карточка для оплаты через Stripe, российские карты здесь не сработают).
Если есть желание и возможность поучаствовать, отпишите в комментарии “мне интересно” и свой часовой пояс.
UPD: Вебинар состоится, подробности вот здесь.
Ваш, @llm_under_hood 🤗
👍18🤩11🔥7👏1
Update про вебинар по ассистентам с LLM под капотом.
Вебинар однозначно состоится (опрос был тут). По количеству желающих я вижу, что его нужно будет разбить на несколько потоков, чтобы можно было эффективно отвечать на вопросы.
Даты и время проведения появятся в течение недели. Тогда же выложу ссылку на платежную форму в Stripe. Для оплаты понадобится карта, которая работает за пределами России.
В комментах спрашивали, можно ли оплатить рублями или криптой.
Нет (не из вредности, а чтобы не превращать в кошмар мою налоговую отчетность). Но можно договориться между собой и купить другому участие вебинара. Главное, чтобы в форме были указаны email/имя того, кто посетит вебинар. На email придет персональное приглашение в Zoom.
Ваш, @llm_under_hood 🤗
Вебинар однозначно состоится (опрос был тут). По количеству желающих я вижу, что его нужно будет разбить на несколько потоков, чтобы можно было эффективно отвечать на вопросы.
Даты и время проведения появятся в течение недели. Тогда же выложу ссылку на платежную форму в Stripe. Для оплаты понадобится карта, которая работает за пределами России.
В комментах спрашивали, можно ли оплатить рублями или криптой.
Нет (не из вредности, а чтобы не превращать в кошмар мою налоговую отчетность). Но можно договориться между собой и купить другому участие вебинара. Главное, чтобы в форме были указаны email/имя того, кто посетит вебинар. На email придет персональное приглашение в Zoom.
Ваш, @llm_under_hood 🤗
🔥20👍4
Mistral Large - новая hosted модель от Mistral AI
Фишки:
- 32k context
- function calling
- есть на Azure
Новость | Обсуждение HackerNews
И теперь понятно, почему на прошлой неделе Mistral AI просили меня подождать с обновлением бенчмарка до понедельника. У них вышел не только mistral-large, но и подоспело обновление для серии Mixtral 8x7B:
Сегодня попозже протестирую и выложу новую версию бенчмарков.
Ваш, @llm_under_hood 🤗
Фишки:
- 32k context
- function calling
- есть на Azure
Новость | Обсуждение HackerNews
И теперь понятно, почему на прошлой неделе Mistral AI просили меня подождать с обновлением бенчмарка до понедельника. У них вышел не только mistral-large, но и подоспело обновление для серии Mixtral 8x7B:
mistral-small-2402Сегодня попозже протестирую и выложу новую версию бенчмарков.
Ваш, @llm_under_hood 🤗
👍33🤩3👏2❤1
Бенчмарки сегодняшних моделей от Mistral.
Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко.
Разницы между двумя поколениями моделей помладше особо тоже нет. Досадно, я ожидал уровня выше, чем OpenChat.
Это дополнение вдогонку к LLM бенчмарку за февраль. Подробнее про бенчмарк можно почитать там.
Если кратко, то это закрытый бенчмарк на базе промптов и тестов из реальных продуктов (enterprise glue и стартапы).
Ваш, @llm_under_hood 🤗
Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко.
Разницы между двумя поколениями моделей помладше особо тоже нет. Досадно, я ожидал уровня выше, чем OpenChat.
Это дополнение вдогонку к LLM бенчмарку за февраль. Подробнее про бенчмарк можно почитать там.
Если кратко, то это закрытый бенчмарк на базе промптов и тестов из реальных продуктов (enterprise glue и стартапы).
Ваш, @llm_under_hood 🤗
👍14😱3❤2
Наш ML R&D сервер дождался свою AI карточку от Tenstorrent - Grayskull e150.
Я про них писал раньше. Карты созданы в компании Jim Keller-a. Того самого, который ответил Сэму Альтману, что на революцию в AI чипах нужно не 7 триллионов, а меньше одного.
Размер карты и интерфейс внешнего охлаждения у них, конечно, затейливые. Поэтому в систему воткнулась только одна карточка из двух.
Дальше на очереди установка всех драйверов, освоение стэка, запуск моделей и экспериментов.
Еще пара фоток - в комментариях.
Ваш, @llm_under_hood 🤗
Я про них писал раньше. Карты созданы в компании Jim Keller-a. Того самого, который ответил Сэму Альтману, что на революцию в AI чипах нужно не 7 триллионов, а меньше одного.
Размер карты и интерфейс внешнего охлаждения у них, конечно, затейливые. Поэтому в систему воткнулась только одна карточка из двух.
Дальше на очереди установка всех драйверов, освоение стэка, запуск моделей и экспериментов.
Еще пара фоток - в комментариях.
Ваш, @llm_under_hood 🤗
🔥36🎉6❤3🤯3👍2💩1
Вебинар по AI-ассистентам: даты и время проведения
Есть два слота для проведения вебинара про адаптирующихся AI-ассистентов:
·7 марта, четверг, 13:00 GMT+3 (места закончились)
·9 марта, суббота, 15:30 GMT+3 (места закончились)
Это два отдельных потока. Содержание вебинара будет одинаковым. Продолжительность: 2 часа.
Пожалуйста, приходите в тот поток, который вы выбрали при оплате: я ограничил количество мест, чтобы можно было качественнее поработать на Q&A.
Если вдруг закончатся места, то добавлю на субботу или проведу еще один вебинар во второй декаде марта.
Будет ли запись?
Да, запишем лекционную часть и вышлем участникам лучший вариант после окончания всех потоков. Обсуждения ваших кейсов из Q&A выкладываться не будут.
Хочу, чтобы мой кейс разобрали на вебинаре, что нужно сделать?
После оплаты вебинара вам на емейл придет приглашение в чат - можете прислать кейс туда. Я прочитаю его заранее и постараюсь на вебинаре или в чате рассказать, как решал бы подобные задачи.
Если кейсов будет много, то на вебинаре выберу несколько показательных или кластеризую похожие кейсы.
Как оплатить?
Понадобится карта, работающая за пределами России. Оплатить можно вот здесь.
После оплаты вам придет email с деталями и ссылками на зум и в чат.
Ваш, @llm_under_hood 🤗
Есть два слота для проведения вебинара про адаптирующихся AI-ассистентов:
·
·
Это два отдельных потока. Содержание вебинара будет одинаковым. Продолжительность: 2 часа.
Пожалуйста, приходите в тот поток, который вы выбрали при оплате: я ограничил количество мест, чтобы можно было качественнее поработать на Q&A.
Если вдруг закончатся места, то добавлю на субботу или проведу еще один вебинар во второй декаде марта.
Будет ли запись?
Да, запишем лекционную часть и вышлем участникам лучший вариант после окончания всех потоков. Обсуждения ваших кейсов из Q&A выкладываться не будут.
Хочу, чтобы мой кейс разобрали на вебинаре, что нужно сделать?
После оплаты вебинара вам на емейл придет приглашение в чат - можете прислать кейс туда. Я прочитаю его заранее и постараюсь на вебинаре или в чате рассказать, как решал бы подобные задачи.
Если кейсов будет много, то на вебинаре выберу несколько показательных или кластеризую похожие кейсы.
Как оплатить?
Понадобится карта, работающая за пределами России. Оплатить можно вот здесь.
После оплаты вам придет email с деталями и ссылками на зум и в чат.
Ваш, @llm_under_hood 🤗
🔥11👍9❤1💩1
AI Knowledge Map Search
Вчера я сдался и начал использовать слово knowledge map в описаниях работы продуктов с LLM под капотом. Например, как на скриншоте из протипа корпоративного ассистента в комментариях к этому посту (на вебинаре через неделю мы разберем аналогичный).
Слово будет использоваться в предложениях вроде "предобрабатываем документы в доменную модель, чтобы LLM потом мог осознанно доставать нужные документы, а не тащить всякий мусор из chunks"
Проблема была в том, что больше людей знает про Data Science/Machine Learning и LLM, чем про Domain-Driven Design (DDD). Поэтому "доменная модель" вызывает совсем не те ассоциации, которые надо. Скорее вопросы "а можно ли ее запустить на локальных серверах?"
При описании решений на базе LLM я пытался использовать "structured data", но это было тоже не совсем то. Вчера, наконец, эксперты из DDD EU подсказали термин "knowledge map / graph".
И этот термин подходит сильно лучше! Он даже вызывает ассоциации с графовыми базами данных, что ведет размышления в правильном направлении.
Смотрите сами:
Правда ведь предложение стало чуть понятнее, чем раньше?
Ваш, @llm_under_hood 🤗
Update: изначально выбирал из двух вариантов knowledge graph и map. Но по итогам обсуждения в комментах видно, что graph уводит немного в сторону.
Вчера я сдался и начал использовать слово knowledge map в описаниях работы продуктов с LLM под капотом. Например, как на скриншоте из протипа корпоративного ассистента в комментариях к этому посту (на вебинаре через неделю мы разберем аналогичный).
Слово будет использоваться в предложениях вроде "предобрабатываем документы в доменную модель, чтобы LLM потом мог осознанно доставать нужные документы, а не тащить всякий мусор из chunks"
Проблема была в том, что больше людей знает про Data Science/Machine Learning и LLM, чем про Domain-Driven Design (DDD). Поэтому "доменная модель" вызывает совсем не те ассоциации, которые надо. Скорее вопросы "а можно ли ее запустить на локальных серверах?"
При описании решений на базе LLM я пытался использовать "structured data", но это было тоже не совсем то. Вчера, наконец, эксперты из DDD EU подсказали термин "knowledge map / graph".
И этот термин подходит сильно лучше! Он даже вызывает ассоциации с графовыми базами данных, что ведет размышления в правильном направлении.
Смотрите сами:
При построении ассистента мы можем заранее трансформировать документы в карту знаний. Так LLM потом сможет осознанно доставать нужные фрагменты, а не тащить всякий мусор из chunks. Граф знаний разрабатываем по аналогии с domain model из DDD.
Правда ведь предложение стало чуть понятнее, чем раньше?
Ваш, @llm_under_hood 🤗
Update: изначально выбирал из двух вариантов knowledge graph и map. Но по итогам обсуждения в комментах видно, что graph уводит немного в сторону.
👍21❤5💩2😁1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, я обещал бамбуковые палочки и роботов? Вот первая версия самого мелкого манипулятора. #weekend
Там пока логики нет, просто ESP32 крутит серво-приводами туда-обратно. Дальше план первой серии экспериментов такой:
(1) сделать, чтобы манипулятором крутить можно было с компьютера
(2) попробовать управлять при помощи GPT-4-Vision. Если рука сможет самостоятельно попасть по детальке Lego, то это уже прогресс.
Дальше можно будет копать в сторону создания манипулятора, который меньше шатает. Чтобы было нормальное целеполагание и позиционирование с использованием CV+LLM+Kinematic Engine.
(да-да, именно в таких задачах нужно low-latency LLM inference, как у Groq или Tenstorrent 😁)
Пока все это - сплошная теория. Но местный клуб "очумелые ручки" уже заинтересовался проектом. Особенно когда мы заговорили про возможность использования манипулятора для смешивания напитков 😃
В течение пары недель заведу Github репу, куда начну выкладывать текущие спецификации и ход экспериментов.
Ваш, @llm_under_hood 🤗
Там пока логики нет, просто ESP32 крутит серво-приводами туда-обратно. Дальше план первой серии экспериментов такой:
(1) сделать, чтобы манипулятором крутить можно было с компьютера
(2) попробовать управлять при помощи GPT-4-Vision. Если рука сможет самостоятельно попасть по детальке Lego, то это уже прогресс.
Дальше можно будет копать в сторону создания манипулятора, который меньше шатает. Чтобы было нормальное целеполагание и позиционирование с использованием CV+LLM+Kinematic Engine.
(да-да, именно в таких задачах нужно low-latency LLM inference, как у Groq или Tenstorrent 😁)
Пока все это - сплошная теория. Но местный клуб "очумелые ручки" уже заинтересовался проектом. Особенно когда мы заговорили про возможность использования манипулятора для смешивания напитков 😃
В течение пары недель заведу Github репу, куда начну выкладывать текущие спецификации и ход экспериментов.
Ваш, @llm_under_hood 🤗
🔥38👍6❤2😁2🤩2💩2⚡1
Сегодня сильно порадовал ProductFixer с LLM под капотом (полный кейс).
Этот ассистент автоматически проходит по каталогам продуктов и находит ошибки в описаниях. Для этого ему нужно уметь проходиться по разнообразным документам и извлекать из них нужные данные. А потом еще сравнивать и перепроверять.
Во время отладки я сегодня увидел вживую случай, когда данные запрятаны в нерегулярной таблице (с merged ячейками), а сама таблица - на другом языке, в середине многостраничного PDF файла.
Система справилась на отлично.
Теперь хочется еще более сложных таблиц.
А с какими самыми сложными таблицами встречались вы?
Ваш, @llm_under_hood 🤗
Этот ассистент автоматически проходит по каталогам продуктов и находит ошибки в описаниях. Для этого ему нужно уметь проходиться по разнообразным документам и извлекать из них нужные данные. А потом еще сравнивать и перепроверять.
Во время отладки я сегодня увидел вживую случай, когда данные запрятаны в нерегулярной таблице (с merged ячейками), а сама таблица - на другом языке, в середине многостраничного PDF файла.
Система справилась на отлично.
english_name fixes
─────────────────────────────
Voltage []
Output in Watt []
Drilling capacity in ['25']
wood in mm
Net weight in kg ['1.2']
Теперь хочется еще более сложных таблиц.
А с какими самыми сложными таблицами встречались вы?
Ваш, @llm_under_hood 🤗
🔥18👍6👏1
Закончились места на вебинар по AI ассистентам с LLM под капотом. Регистрация закрыта.
Участники принесли очень интересные кейсы на разбор. Говоря обобщенно, это:
Первый поток:
- Ассистенты / Copilots
- Работа с таблицами
- Маркетинговые исследования
Второй поток:
- Работа с таблицами
- Banking / Insurance, с табличками
- Базы знаний компаний
На вебинаре мы посмотрим на работу и реализацию одного AI ассистента на конкретной задаче в отдельной предметной области. А потом чуть более детально разберем адаптацию для работы с этими кейсами (ведь на самом деле принципы там одни и те же).
Ваш, @llm_under_hood 🤗
PS: Запись вебинара отдельно продаваться не будет, чтобы можно было свободно обсудить кейсы участников.
PPS: Третий поток? Посмотрю, как пройдет вебинар, и на количество желающих.
Участники принесли очень интересные кейсы на разбор. Говоря обобщенно, это:
Первый поток:
- Ассистенты / Copilots
- Работа с таблицами
- Маркетинговые исследования
Второй поток:
- Работа с таблицами
- Banking / Insurance, с табличками
- Базы знаний компаний
На вебинаре мы посмотрим на работу и реализацию одного AI ассистента на конкретной задаче в отдельной предметной области. А потом чуть более детально разберем адаптацию для работы с этими кейсами (ведь на самом деле принципы там одни и те же).
Ваш, @llm_under_hood 🤗
PS: Запись вебинара отдельно продаваться не будет, чтобы можно было свободно обсудить кейсы участников.
PPS: Третий поток? Посмотрю, как пройдет вебинар, и на количество желающих.
👍21🔥5💩2
AI Knowledge Maps в теории и на практике
Сегодня я делал демку прототипа AI ассистента для отдела цифровых коммуникаций международной компании с выручкой в ~3B EUR.
Там нужно сделать умный поиск по данным из внутренней корпоративной сети компании.
На прошлом митинге я показывал клиенту простейший поиск на базе ChatGPT + FTS. Они покивали головами и прислали десяток вопросов на засыпку.
Я не стал мудрить ничего особенного с этими вопросами, и сделал простейший knowledge map для AI по этим областям (про него было активное обсуждение в комментариях к этому посту). В теории оно должно было дать достаточно контекста системе, чтобы она могла самостоятельно искать информацию.
Как оно прошло на практике?
На митинге мы сначала позадавали системе вопросы аналогичные известным. Я рассказал про принципы работы и обучения через построение knowledge map. Потом клиент позадавал вопросы, к которым невозможно было подготовиться. И мы посмотрели, как система барахтается и ошибается.
Результат? Митинг, который был запланирован на 45 минут, закончился за 20 минут.
Почему? Да потому, что отдел цифровых коммуникаций ощутил перспективы, и теперь просит подключения к AI ассистенту еще пары IT систем компании. А еще они убежали готовить новый список вопросов для обучения. А еще нам надо теперь обсуждать бюджеты и прочие прелести внедрения в корпоративную IT инфраструктуру.
В общем, нет времени на митинги, работать надо 😆
Кстати, один из вопросов, которого я не ожидал - меня попросили задать вопрос не на родном языке документов. Ну я и спросил систему об актуальных сроках поставки одной позиции на русском языке.
AI ассистент сориентировался по knowledge map и достал самый последний релевантный документ (который на немецком). Потом еще попытался поискать по базе документов (используя английский и немецкий), в итоге плюнул и синтезировал тот единственно верный ответ, сформулировав его на русском языке. Я его этому всему не учил.
Ваш, @llm_under_hood 🤗
Сегодня я делал демку прототипа AI ассистента для отдела цифровых коммуникаций международной компании с выручкой в ~3B EUR.
Там нужно сделать умный поиск по данным из внутренней корпоративной сети компании.
На прошлом митинге я показывал клиенту простейший поиск на базе ChatGPT + FTS. Они покивали головами и прислали десяток вопросов на засыпку.
Я не стал мудрить ничего особенного с этими вопросами, и сделал простейший knowledge map для AI по этим областям (про него было активное обсуждение в комментариях к этому посту). В теории оно должно было дать достаточно контекста системе, чтобы она могла самостоятельно искать информацию.
Как оно прошло на практике?
На митинге мы сначала позадавали системе вопросы аналогичные известным. Я рассказал про принципы работы и обучения через построение knowledge map. Потом клиент позадавал вопросы, к которым невозможно было подготовиться. И мы посмотрели, как система барахтается и ошибается.
Результат? Митинг, который был запланирован на 45 минут, закончился за 20 минут.
Почему? Да потому, что отдел цифровых коммуникаций ощутил перспективы, и теперь просит подключения к AI ассистенту еще пары IT систем компании. А еще они убежали готовить новый список вопросов для обучения. А еще нам надо теперь обсуждать бюджеты и прочие прелести внедрения в корпоративную IT инфраструктуру.
В общем, нет времени на митинги, работать надо 😆
Кстати, один из вопросов, которого я не ожидал - меня попросили задать вопрос не на родном языке документов. Ну я и спросил систему об актуальных сроках поставки одной позиции на русском языке.
AI ассистент сориентировался по knowledge map и достал самый последний релевантный документ (который на немецком). Потом еще попытался поискать по базе документов (используя английский и немецкий), в итоге плюнул и синтезировал тот единственно верный ответ, сформулировав его на русском языке. Я его этому всему не учил.
Ваш, @llm_under_hood 🤗
🔥48👍5🤯4❤3💩1
Archive.zip
31.9 MB
Смотрите, как можно просто проиллюстрировать разницу в качестве между векторными RAG-ами и подходами на базе карты знаний.
В прикрепленном архиве - 3 годовых отчета. Можно загрузить их в любой доступный RAG и задать вопрос:
Я делал такое ради смеха с LlamaIndex во время подготовки к вебинару сегодня.
Там фишка даже не в том, что векторный RAG галлюцинирует и не дает цифры, а в том, что его ответы каждый раз разные. Попробуйте сами и убедитесь.
Ваш, @llm_under_hood 🤗
PS: Если в ответе AI ассистент не жалуется на то, что цифры в разных валютах, выключите такого ассистента.
В прикрепленном архиве - 3 годовых отчета. Можно загрузить их в любой доступный RAG и задать вопрос:
You are CFO-GPT. Quickly answer, which of the companies has more liquidity right now. And how much? Don't make up information, if you are not certain.
Я делал такое ради смеха с LlamaIndex во время подготовки к вебинару сегодня.
Там фишка даже не в том, что векторный RAG галлюцинирует и не дает цифры, а в том, что его ответы каждый раз разные. Попробуйте сами и убедитесь.
Ваш, @llm_under_hood 🤗
PS: Если в ответе AI ассистент не жалуется на то, что цифры в разных валютах, выключите такого ассистента.
🔥15👍7🤔1💩1
Улучшение LLM для практических задач: начинаю сбор данных
Создатели LLM наконец заметили, что их модели работают хорошо на академических бенчмарках, а вот в реальных продуктах - несут пургу. Клиенты жалуются, а продажи сервисов оставляют желать лучшего.
Я недавно общался на эту тему с представителями одной компании-разработчика LLM. Выяснилось, что они не совсем в курсе того, как их модели реально используются в разных кейсах. И они попросили меня помочь им улучшить качество моделей.
Чтобы исправить эту ситуацию, я начинаю собирать dataset LLM задач, анонимизированный и не для распространения.
Его часть будет передаваться под NDA проверенным компаниям, которые обучают свои foundational LLM-модели. Они смогут увидеть и воспроизвести локально проблемы своей модели. При наличии большого количества данных - и дообучить модель.
Вторая часть dataset-a производителям LLM не передается и используется для независимой верификации того, что результат действительно есть, и что данные использовали правильно.
Что получают компании-участники?
Им не нужно будет самим обучать LLM или усердно файн-тюнить модели под свои задачи. Модели станут более оптимизированы под их бизнесы, без расходов на GPU или высококлассных ML-экспертов.
Еще участники будут знать точные ключевые фразы и формулировки, на которых модели обучались выполнять конкретные задачи. Например: “You are a TableExpert-GPT with a degree in Excel. Perform precise cell extraction from the document fragment below”.
Что получают создатели LLM моделей?
Больше продаж и клиентов.
Что получает весь мир?
Больше хороших LLM моделей, которые умеют не только цитировать wiki, но и лучше работать в реальных продуктах с LLM под капотом.
Что это за LLM?
Пока это только одна компания. В моих бенчмарках она есть.
Ваш, @llm_under_hood 🤗
Создатели LLM наконец заметили, что их модели работают хорошо на академических бенчмарках, а вот в реальных продуктах - несут пургу. Клиенты жалуются, а продажи сервисов оставляют желать лучшего.
Я недавно общался на эту тему с представителями одной компании-разработчика LLM. Выяснилось, что они не совсем в курсе того, как их модели реально используются в разных кейсах. И они попросили меня помочь им улучшить качество моделей.
Чтобы исправить эту ситуацию, я начинаю собирать dataset LLM задач, анонимизированный и не для распространения.
Его часть будет передаваться под NDA проверенным компаниям, которые обучают свои foundational LLM-модели. Они смогут увидеть и воспроизвести локально проблемы своей модели. При наличии большого количества данных - и дообучить модель.
Вторая часть dataset-a производителям LLM не передается и используется для независимой верификации того, что результат действительно есть, и что данные использовали правильно.
Что получают компании-участники?
Им не нужно будет самим обучать LLM или усердно файн-тюнить модели под свои задачи. Модели станут более оптимизированы под их бизнесы, без расходов на GPU или высококлассных ML-экспертов.
Еще участники будут знать точные ключевые фразы и формулировки, на которых модели обучались выполнять конкретные задачи. Например: “You are a TableExpert-GPT with a degree in Excel. Perform precise cell extraction from the document fragment below”.
Что получают создатели LLM моделей?
Больше продаж и клиентов.
Что получает весь мир?
Больше хороших LLM моделей, которые умеют не только цитировать wiki, но и лучше работать в реальных продуктах с LLM под капотом.
Что это за LLM?
Пока это только одна компания. В моих бенчмарках она есть.
Ваш, @llm_under_hood 🤗
🔥24❤4🤝2👍1🤔1💩1
Итоги вебинаров по разработке AI ассистентов с LLM под капотом
Оба потока вебинара прошли. Большое спасибо всем участникам за интересные кейсы и вопросы 🤗
Времени ответить на все не хватило - тут материалов на целый курс. Я буду постепенно отвечать на вопросы в группах потоков.
Самый главный вывод: формулировка принципов построения систем c LLM под капотом через knowledge maps (карты знаний) позволяет достаточно быстро объяснить основы, показать код и обсудить процессы внедрения. Ну и даже разобрать некоторые кейсы.
На основе карты знаний мы разбирали принципы реализации таких кейсов:
- AI Assistent для отдела цифровых коммуникаций
- Knowledge Map Search
- Про то, что технология RAG-ов имеет меньшее значение, чем заглядывание в глаза клиентам
- Построение моего собственного ассистента
- Про агента-писателя, которого научил ChatGPT
А принцип везде один и тот же: вместо чисто механического решения проблемы через RAG + embeddings мы отталкиваемся от реальных процессов и знаний экспертов. Это позволяет декомпозировать сложные задачи с галлюцинациями на достаточно конкретные шаги. А там уже можно и измерить качество, и собрать данные для улучшения системы.
Вот краткая выжимка инсайтов самих участников, про вещи, которые после вебинара в первую очередь уже можно использовать на практике:
- Понравился подход к "карте знаний". Теперь есть механика работы как реализовать эту карту на конкретных кейсах.
- разметка данных в knowledge map
- знаю примерно как поставить задачу на разработку такой системы
- Общий подход к составлению базы для ответов
- Есть идея, как применить это в хардкорном телекоме
- Карту знаний. Сейчас есть пилот с банком, сегодня же попробую внедрить данный подход и увижу результат.
- Итеративная разработка, которая закрывает вопросы "один за другим"
- не углубляться сильно в чанкеры и т.п сложности RAGов
Но это были инсайты прямо в конце вебинара. Если пришли еще какие-то интересные мысли в следующие дни - пишите в комментарии. Можно обсудить прямо здесь)
Ваш, @llm_under_hood 🤗
Оба потока вебинара прошли. Большое спасибо всем участникам за интересные кейсы и вопросы 🤗
Времени ответить на все не хватило - тут материалов на целый курс. Я буду постепенно отвечать на вопросы в группах потоков.
Самый главный вывод: формулировка принципов построения систем c LLM под капотом через knowledge maps (карты знаний) позволяет достаточно быстро объяснить основы, показать код и обсудить процессы внедрения. Ну и даже разобрать некоторые кейсы.
На основе карты знаний мы разбирали принципы реализации таких кейсов:
- AI Assistent для отдела цифровых коммуникаций
- Knowledge Map Search
- Про то, что технология RAG-ов имеет меньшее значение, чем заглядывание в глаза клиентам
- Построение моего собственного ассистента
- Про агента-писателя, которого научил ChatGPT
А принцип везде один и тот же: вместо чисто механического решения проблемы через RAG + embeddings мы отталкиваемся от реальных процессов и знаний экспертов. Это позволяет декомпозировать сложные задачи с галлюцинациями на достаточно конкретные шаги. А там уже можно и измерить качество, и собрать данные для улучшения системы.
Вот краткая выжимка инсайтов самих участников, про вещи, которые после вебинара в первую очередь уже можно использовать на практике:
- Понравился подход к "карте знаний". Теперь есть механика работы как реализовать эту карту на конкретных кейсах.
- разметка данных в knowledge map
- знаю примерно как поставить задачу на разработку такой системы
- Общий подход к составлению базы для ответов
- Есть идея, как применить это в хардкорном телекоме
- Карту знаний. Сейчас есть пилот с банком, сегодня же попробую внедрить данный подход и увижу результат.
- Итеративная разработка, которая закрывает вопросы "один за другим"
- не углубляться сильно в чанкеры и т.п сложности RAGов
Но это были инсайты прямо в конце вебинара. Если пришли еще какие-то интересные мысли в следующие дни - пишите в комментарии. Можно обсудить прямо здесь)
Ваш, @llm_under_hood 🤗
❤12🔥8👍4💩1
LLM Benchmark - Claude 3 радует!
Модели Claude 3 сильно улучшились на LLM бенчмарках. Похоже, что в Antropic стали прислушиваться к пожеланиям клиентов, которые используют LLM в реальных продуктах.
Opus скакнул вперед, перескочил через GPT-3.5 и оказался среди версий GPT-4. Больше всего радует сам факт рывка в правильном направлении.
Раньше 100 очков в работе с документами набирал только GPT-4 Turbo v4/0125-preview. А теперь и Claude 3 Opus. Это значит:
- системы, которые построены на работе с Knowledge Map, тут будут хорошо запускаться (бенчмарк тестирует это)
- бенчмарк придется усложнять, чтобы повысить планку))
Улучшение Sonnet не такое заметное на первый взгляд. Модель незначительно оторвалась от версий v1 и v2. Но при этом стоимость упала более, чем в два раза. Будет интересно посмотреть, что у них там с моделью Haiku.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
Модели Claude 3 сильно улучшились на LLM бенчмарках. Похоже, что в Antropic стали прислушиваться к пожеланиям клиентов, которые используют LLM в реальных продуктах.
Opus скакнул вперед, перескочил через GPT-3.5 и оказался среди версий GPT-4. Больше всего радует сам факт рывка в правильном направлении.
Раньше 100 очков в работе с документами набирал только GPT-4 Turbo v4/0125-preview. А теперь и Claude 3 Opus. Это значит:
- системы, которые построены на работе с Knowledge Map, тут будут хорошо запускаться (бенчмарк тестирует это)
- бенчмарк придется усложнять, чтобы повысить планку))
Улучшение Sonnet не такое заметное на первый взгляд. Модель незначительно оторвалась от версий v1 и v2. Но при этом стоимость упала более, чем в два раза. Будет интересно посмотреть, что у них там с моделью Haiku.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
🔥24🎉5💯5👍2🤔2💩1
LLM Benchmark - Claude 3 Haiku и Gemini Pro 1.0 - уровень хороших тюнов Mistral 7B недорого.
Anthropic выпустила свою младшую модель - Claude 3 Haiku. Это у них самая маленькая и быстрая модель из третьего поколения моделей (Opus, Sonnet и Haiku).
Несмотря на размер, она сохраняет мультиязычность и контекст в 200K tokens. При этом она стоит в 12 раз дешевле Sonnet и в 60 раз дешевле Opus
Моделька теоретически заточена под корпоративные задачи вроде анализа больших объемов документации. Возможно поэтому на продуктовых бенчмарках она умудрилась подняться даже выше, чем Sonnet.
На академических бенчмарках Haiku лучше, чем GPT-3.5 и Gemini Pro 1.0. Но на практике - пока не очень.
В бенчмарк я еще добавил Gemini Pro 1.0 от Google. Результат на продуктовых задачах у него тоже на уровне хорошего тюна Mistral 7B.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro 1.5 и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
Anthropic выпустила свою младшую модель - Claude 3 Haiku. Это у них самая маленькая и быстрая модель из третьего поколения моделей (Opus, Sonnet и Haiku).
Несмотря на размер, она сохраняет мультиязычность и контекст в 200K tokens. При этом она стоит в 12 раз дешевле Sonnet и в 60 раз дешевле Opus
Моделька теоретически заточена под корпоративные задачи вроде анализа больших объемов документации. Возможно поэтому на продуктовых бенчмарках она умудрилась подняться даже выше, чем Sonnet.
На академических бенчмарках Haiku лучше, чем GPT-3.5 и Gemini Pro 1.0. Но на практике - пока не очень.
В бенчмарк я еще добавил Gemini Pro 1.0 от Google. Результат на продуктовых задачах у него тоже на уровне хорошего тюна Mistral 7B.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro 1.5 и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
🥰18👍10🔥4❤1🤔1💩1
document-013-116884.out.000.pdf
279.5 KB
Как распознавать сложные таблицы?
Еще один пример того, как непросто доставать данные из документов.
На картинке вырезка из технической спецификации Sharp на диоды. Одна единственная страница, но с нюансами.
Попробуйте скормить эту PDF в любой RAG и спросить:
Правильный ответ, очевидно, 1.9. Если у вас есть RAG/Agent под рукой, было бы интересно услышать, что он ответит.
Обычно системы путаются в ячейках или просто отказываются отвечать.
А вот ChatGPT+Vision с такими задачами справляется, но только если ему обрезать картинку до конкретной таблицы.
Как с такими табличками работаете вы?
Ваш, @llm_under_hood 🤗
Еще один пример того, как непросто доставать данные из документов.
На картинке вырезка из технической спецификации Sharp на диоды. Одна единственная страница, но с нюансами.
Попробуйте скормить эту PDF в любой RAG и спросить:
What is the typical peak forward voltage?
Правильный ответ, очевидно, 1.9. Если у вас есть RAG/Agent под рукой, было бы интересно услышать, что он ответит.
Обычно системы путаются в ячейках или просто отказываются отвечать.
А вот ChatGPT+Vision с такими задачами справляется, но только если ему обрезать картинку до конкретной таблицы.
The typical peak forward voltage, as indicated in the provided image, is 1.9 V.
Как с такими табличками работаете вы?
Ваш, @llm_under_hood 🤗
👍11🔥4