#weekend пост про архитектурный затык в моем ассистенте
На скриншоте в комментариях - одно из сообщений, которое я отправил ассистенту. У сообщения есть текст "Homai project bills from Hetzner" и вложенный файл с названием "Hetzner_2024-01-16_R0021...pdf". По содержимому этого файла можно понять, что это инвойс.
Я хочу, чтобы потом этот инвойс можно было гарантированно найти по запросу “все инвойсы Homai”.
Здесь самое важное слово - “гарантированно”. Это не “если сойдутся звезды и косинусу векторов выпадет нужный chunk”, а “этот документ будет точно найден”.
Как найти документ по фразе, если ключевые составляющие этой фразы разбросаны? То, что это invoice - написано внутри немаленького PDF во вложении. А уточнение, что это инвойс именно проекта Homai - в тексте сообщения.
За это отвечает индексатор. Он проходится по всем сообщениям, анализируя их содержимое и раскладывая по полочкам. В работе он использует набор моделей, каждая из которых специализируется на своих задачах.
Причем, при анализе одной сущности индексатор может использовать более широкий контекст вокруг этой сущности.
Например, когда мы анализируем содержимое PDF-файла, необходимо учитывать также: название файла, само сообщение, названия соседних файлов. Ведь именно там может содержаться важная информация, меняющая весь смысл.
А в чем затык? Да в том, что в своей работе индексатор последовательно использует набор разных моделей, результаты работы которых могут повлиять друг на друга. Получается такая ветвящаяся цепочка "размышлений", которая в итоге приводит к такому описанию документа (индексу), по которому его можно потом гарантированно найти.
И если итоговый результат не нравится, то нужно иметь возможность проглядеть все цепочки размышлений и оставить feedback на каждый шаг. Позже - дообучить модели на ошибках и перезапустить все цепочки с ошибочного шага.
И если технически это все реализуется без особых проблем, то красивый и логичный интерфейс для анализа и оценки ветвящихся цепочек размышлений я пока придумать не могу. Ни один вариант мне пока не нравится. Он должен быть простым и интуитивно понятным, как feedback interface у ChatGPT (про это я писал в методичках)
А без удобного анализа и оценки - невозможно получить ассистента, который обучается и становится все лучше.
Ваш, @llm_under_hood 🤗
---
Предыдущие посты на эту тему есть в категории #weekend:
- Я придумал себе подарок на НГ - личный адаптивный RAG
- Две архитектуры для создания умного поиска
- про важность пользовательского фидбэка одним скриншотом
На скриншоте в комментариях - одно из сообщений, которое я отправил ассистенту. У сообщения есть текст "Homai project bills from Hetzner" и вложенный файл с названием "Hetzner_2024-01-16_R0021...pdf". По содержимому этого файла можно понять, что это инвойс.
Я хочу, чтобы потом этот инвойс можно было гарантированно найти по запросу “все инвойсы Homai”.
Здесь самое важное слово - “гарантированно”. Это не “если сойдутся звезды и косинусу векторов выпадет нужный chunk”, а “этот документ будет точно найден”.
Как найти документ по фразе, если ключевые составляющие этой фразы разбросаны? То, что это invoice - написано внутри немаленького PDF во вложении. А уточнение, что это инвойс именно проекта Homai - в тексте сообщения.
За это отвечает индексатор. Он проходится по всем сообщениям, анализируя их содержимое и раскладывая по полочкам. В работе он использует набор моделей, каждая из которых специализируется на своих задачах.
Причем, при анализе одной сущности индексатор может использовать более широкий контекст вокруг этой сущности.
Например, когда мы анализируем содержимое PDF-файла, необходимо учитывать также: название файла, само сообщение, названия соседних файлов. Ведь именно там может содержаться важная информация, меняющая весь смысл.
А в чем затык? Да в том, что в своей работе индексатор последовательно использует набор разных моделей, результаты работы которых могут повлиять друг на друга. Получается такая ветвящаяся цепочка "размышлений", которая в итоге приводит к такому описанию документа (индексу), по которому его можно потом гарантированно найти.
И если итоговый результат не нравится, то нужно иметь возможность проглядеть все цепочки размышлений и оставить feedback на каждый шаг. Позже - дообучить модели на ошибках и перезапустить все цепочки с ошибочного шага.
И если технически это все реализуется без особых проблем, то красивый и логичный интерфейс для анализа и оценки ветвящихся цепочек размышлений я пока придумать не могу. Ни один вариант мне пока не нравится. Он должен быть простым и интуитивно понятным, как feedback interface у ChatGPT (про это я писал в методичках)
А без удобного анализа и оценки - невозможно получить ассистента, который обучается и становится все лучше.
Ваш, @llm_under_hood 🤗
---
Предыдущие посты на эту тему есть в категории #weekend:
- Я придумал себе подарок на НГ - личный адаптивный RAG
- Две архитектуры для создания умного поиска
- про важность пользовательского фидбэка одним скриншотом
🔥19👍4❤2🤡1
- Допустим мы докажем, что эти ChatGPT/LLM действительно работают. Как их тогда побыстрее внедрить у нас?
- Как эти технологии использовать нам во всей компании? Хочется применять LLM/GPT на полную катушку в бизнес процессах, но делать это систематически и осознанно.
Такие вопросы задают мне на созвонах СEO/CTO/VP и начальники отделов. Поэтому февральский newsletter я посвятил AI стратегии, процессам "самообучения" ассистентов и развертыванию self-serve платформ c LLM под капотом.
Прочитать это длинное чтиво можно в substack (English).
Ваш, @llm_under_hood 🤗
🔥21👏8👍3🤔2❤1💩1
- Какую RAG технологию выбрать для ассистента?
- Какого размера чанки делать, и что подавать на вход при поиске?
Да вот без разницы! Если так стоит вопрос, значит мы копаем немного не там.
По хорошему, начинать нам нужно с заглядывания в глаза клиентам и потенциальным пользователям.
Посмотрели в глаза? Дальше начинаем спрашивать: “А покажите, как вы обычно работаете с документами? А куда тратите кучу времени? А какие поисковые запросы выдаете? А какой был бы правильный ответ на такой вопрос?”
Повторяем такое раз 20.
В идеале даже записывать все интервью на видео/аудио. Записи пригодятся нам, если вдруг нужно будет делать pivot фичи или продукта.
В итоге на первом этапе у нас получается список из 20 вопросов и ответов или правильных документов.
Вот теперь можно начать выбирать RAG. И начнем мы с Full Text Search! Он есть хоть в Elastic Search или даже SQLite FTS. А еще есть банальный поиск по строчкам в памяти.
Попробуем в нашу систему загрузить данные, получить ответы на вопросы и посчитать точность. Это будет baseline. Хуже этого некуда.
А вот потом уже можно начинать подбирать разные варианты RAG-архитектур. Самое главное, в самом начале поставить временное ограничение. Скажем, в одну итерацию. И каждый раз сравнивать качество варианта с baseline.
Можно еще загрузить все в NVIDIA Chat with RTX и посмотреть качество. Потом понять, что это просто RAG reference проект с lang-chain & llama-index и покрутить составляющие части, размеры чанков или предобработку документов.
Но самое главное, что в конце итерации мы берем самый лучший вариант и выкатываем его пользователям со словами: “Вот первая версия системы. Позадавайте, пожалуйста, ей вопросов. А на ответы ставьте лайки или дислайки. Она будет собирать данные для дальнейшего обучения”
Если мы соберем хотя бы вопросов 20 - уже хорошо. У нас dataset стал в 40 вопросов. Появляется возможность кластеризовать вопросы и начать оптимизировать RAG pipelines под каждую категорию отдельно.
И вот тут уже могут появиться вопросы вроде:
- У нас не получается давать ответы на вопросы, которые затрагивают таблицы в PDF файлах? Как лучше извлекать, находить и подавать такую информацию в промпт?
- У нас низкая точность ответа на вопросы, которые используют жаргон компании или области. Нам нужен файн-тюн или как-то можно подавать словари на вход?
- Как повысить точность ответов в случаях, когда выясняется, что ответ требует multi-hop?
- Что делать с вопросами, ответы на которые содержатся в документации на другом языке?
И для каждого вопроса будет пачка исходных документов, запросов и неправильных ответов системы. Вот теперь можно копать вглубь с удовольствием и возможностью оценивать прогресс.
Ваш, @llm_under_hood 🤗
- Какого размера чанки делать, и что подавать на вход при поиске?
Да вот без разницы! Если так стоит вопрос, значит мы копаем немного не там.
По хорошему, начинать нам нужно с заглядывания в глаза клиентам и потенциальным пользователям.
Посмотрели в глаза? Дальше начинаем спрашивать: “А покажите, как вы обычно работаете с документами? А куда тратите кучу времени? А какие поисковые запросы выдаете? А какой был бы правильный ответ на такой вопрос?”
Повторяем такое раз 20.
В идеале даже записывать все интервью на видео/аудио. Записи пригодятся нам, если вдруг нужно будет делать pivot фичи или продукта.
В итоге на первом этапе у нас получается список из 20 вопросов и ответов или правильных документов.
Вот теперь можно начать выбирать RAG. И начнем мы с Full Text Search! Он есть хоть в Elastic Search или даже SQLite FTS. А еще есть банальный поиск по строчкам в памяти.
Попробуем в нашу систему загрузить данные, получить ответы на вопросы и посчитать точность. Это будет baseline. Хуже этого некуда.
А вот потом уже можно начинать подбирать разные варианты RAG-архитектур. Самое главное, в самом начале поставить временное ограничение. Скажем, в одну итерацию. И каждый раз сравнивать качество варианта с baseline.
Можно еще загрузить все в NVIDIA Chat with RTX и посмотреть качество. Потом понять, что это просто RAG reference проект с lang-chain & llama-index и покрутить составляющие части, размеры чанков или предобработку документов.
Но самое главное, что в конце итерации мы берем самый лучший вариант и выкатываем его пользователям со словами: “Вот первая версия системы. Позадавайте, пожалуйста, ей вопросов. А на ответы ставьте лайки или дислайки. Она будет собирать данные для дальнейшего обучения”
Если мы соберем хотя бы вопросов 20 - уже хорошо. У нас dataset стал в 40 вопросов. Появляется возможность кластеризовать вопросы и начать оптимизировать RAG pipelines под каждую категорию отдельно.
И вот тут уже могут появиться вопросы вроде:
- У нас не получается давать ответы на вопросы, которые затрагивают таблицы в PDF файлах? Как лучше извлекать, находить и подавать такую информацию в промпт?
- У нас низкая точность ответа на вопросы, которые используют жаргон компании или области. Нам нужен файн-тюн или как-то можно подавать словари на вход?
- Как повысить точность ответов в случаях, когда выясняется, что ответ требует multi-hop?
- Что делать с вопросами, ответы на которые содержатся в документации на другом языке?
И для каждого вопроса будет пачка исходных документов, запросов и неправильных ответов системы. Вот теперь можно копать вглубь с удовольствием и возможностью оценивать прогресс.
Ваш, @llm_under_hood 🤗
👏53🔥22🥰9❤7🤔5👍1🤗1
Какие продукты c LLM под капотом выгоднее всего сейчас пилить?
Такой вопрос мне задают несколько раз в неделю. А известный стартап-инкубатор YC написал аж целый гайд на эту тему.
Вот их список идей для компаний, в которые они бы вложились с особенным удовольствием. Немалую долю там занимает AI/ML.
Это не обязательно значит, что вы попадете в этот инкубатор. Но из-под их крыла вышли такие компании, как Stripe, Dropbox, Twitch и Cruise. В YC хорошо умеют считывать тренды 💰
Ссылки ведут прямо на разделы, где описаны проблемы и размер зарытого горшочка с золотом.
Можно читать и брать на заметку как идеи для своих pet-projects. Или просто использовать для приоритизации клиентов и новых проектов.
Технологии и Исследования
– Применение ML в робототехнике 👀
– ML для моделирования физического мира
– Новые оборонные технологии
– Космические компании
– Климатические технологии
Бизнес и Разработка
– Новые типы софта для планирования ресурсов предприятия (ERP) 👀
– AI для создании нового софта для предприятий (что обычно скукота смертная)
– Когда разработчики подсмотрели внутренние инструменты в компании и сделали свой продукт из этого
– Лучшие интеграционные решения для предприятий (aka свой Zapier, Airbyte или Fivetran)
– LLM для автоматизации ручных бэк-офисных процессов в энтерпрайзе 👀
Software и Инновации
– Объяснимый AI (тулзы, чтобы понять причину того или иного решения AI)
– Небольшие fine-tuned модели как альтернатива гигантским foundational моделям 👀
– Новые стейблкоины
– Коммерческие опенсорс компании (как Docker, GitLab, Apollo или Supabase)
– Новые AR/VR решения
Здравоохранение и Биотехнологии
– Борьба с раком (сделаем MRI дешевле)
– ИИ-моделирование биологических систем (новые модельки)
– Софт для небольших частных клиник
– Реформирование системы здравоохранения
Темы, с которыми мне интереснее всего работать, помечены 👀
А что из этого интересно вам?
Ваш, @llm_under_hood 🤗
Такой вопрос мне задают несколько раз в неделю. А известный стартап-инкубатор YC написал аж целый гайд на эту тему.
Вот их список идей для компаний, в которые они бы вложились с особенным удовольствием. Немалую долю там занимает AI/ML.
Это не обязательно значит, что вы попадете в этот инкубатор. Но из-под их крыла вышли такие компании, как Stripe, Dropbox, Twitch и Cruise. В YC хорошо умеют считывать тренды 💰
Ссылки ведут прямо на разделы, где описаны проблемы и размер зарытого горшочка с золотом.
Можно читать и брать на заметку как идеи для своих pet-projects. Или просто использовать для приоритизации клиентов и новых проектов.
Технологии и Исследования
– Применение ML в робототехнике 👀
– ML для моделирования физического мира
– Новые оборонные технологии
– Космические компании
– Климатические технологии
Бизнес и Разработка
– Новые типы софта для планирования ресурсов предприятия (ERP) 👀
– AI для создании нового софта для предприятий (что обычно скукота смертная)
– Когда разработчики подсмотрели внутренние инструменты в компании и сделали свой продукт из этого
– Лучшие интеграционные решения для предприятий (aka свой Zapier, Airbyte или Fivetran)
– LLM для автоматизации ручных бэк-офисных процессов в энтерпрайзе 👀
Software и Инновации
– Объяснимый AI (тулзы, чтобы понять причину того или иного решения AI)
– Небольшие fine-tuned модели как альтернатива гигантским foundational моделям 👀
– Новые стейблкоины
– Коммерческие опенсорс компании (как Docker, GitLab, Apollo или Supabase)
– Новые AR/VR решения
Здравоохранение и Биотехнологии
– Борьба с раком (сделаем MRI дешевле)
– ИИ-моделирование биологических систем (новые модельки)
– Софт для небольших частных клиник
– Реформирование системы здравоохранения
Темы, с которыми мне интереснее всего работать, помечены 👀
А что из этого интересно вам?
Ваш, @llm_under_hood 🤗
👍15❤6🥰3
Загадка про LLM, ML и YC.
На фотографии - бамбуковые палочки для еды. Стоят они $0.001-0.004 за штуку (в больших объемах).
Мне же они вообще достались бесплатно - прихватил вчера четыре упаковки в китайском ресторане на раздаче.
И если у меня все получится с экспериментом, то они будут мелькать в постах этого канала достаточно регулярно. И это будет того стоить, обещаю 😁
Скажите мне, какое отношение эти палочки имеют к теме канала и двум топикам из прошлого поста про перспективные направления для стартапов?
Ваш, @llm_under_hood 🤗
На фотографии - бамбуковые палочки для еды. Стоят они $0.001-0.004 за штуку (в больших объемах).
Мне же они вообще достались бесплатно - прихватил вчера четыре упаковки в китайском ресторане на раздаче.
И если у меня все получится с экспериментом, то они будут мелькать в постах этого канала достаточно регулярно. И это будет того стоить, обещаю 😁
Скажите мне, какое отношение эти палочки имеют к теме канала и двум топикам из прошлого поста про перспективные направления для стартапов?
Ваш, @llm_under_hood 🤗
🤔15👍2😁1💩1
Что можно сделать с LLM и бамбуковыми палочками? #weekend
Из ваших ответов на эту загадку ближе всего были ответы про роботов и шевеление :)
Началось все так. В прошлом году мне написали из компании про производству промышленных роботов и попросили попробовать сделать проект - открытую (!) и недорогую робо-платформу. Что-то вроде приставки к 3D-принтеру, которая могла бы выполнять простые задачи - склеить две детали, собрать помидорки с гидропонной грядки или припаять пару проводов.
Звучит просто? На самом деле это все очешуенно сложные задачи, решение которых требует дорогих роботов и немаленьких вычислительных мощностей.
Или нет?
LLM и ChatGPT в прошлом году произвели революцию в работе с информацией. Вещи, которые раньше казались сложными и дорогими, теперь доступны любому человеку.
YCombinator считает, что такое может произойти и с робототехникой. И не они одни.
Но пока всякие R&D лаборатории используют топовые вычислительные мощности и работов за $32k, мы хотим попробовать зайти с другой стороны. Использовать копеечные материалы, уже обученные современные модели (в том числе LLM), процесс сбора данных и создания своих файн-тюнов.
Мои клиенты знают, что я всегда стремлюсь свести разработку продуктов к серии минимально необходимых экспериментов. Каждый из которых - тестирует какую-то гипотезу и собирает данные для следующих шагов.
Этот проект - не исключение. Полная задача - проектирование открытой R&D платформы, программируемой на автономное выполнение небольших задач по сборке. При этом она должна быть недорогой и стандартизированной, чтобы каждый мог ее быстро собрать у себя в подвале и начать играться: переиспользовать обученные модели под разные задачи и краудсорсить данные под новые задачи.
Первый экспериментальный шаг достаточно простой - собрать из копеечных компонентов манипулятор на три степени свободы. Подключить его к камере от старого телефона и отдать контроль CV/LLM моделям. Фото с основными компонентами в комментариях. Бамбуковые палочки там тоже есть.
С точки зрения сборки - задача простейшая. А вот с точки зрения “как заставить эту кучку китайских запчастей выполнять мои команды” - это то, чем только начинают заниматься топовые R&D лаборатории в мире. Было бы интересно их опередить.
Ну и в целом миру нужны такие технологии. С каждым днем он катится черт-те знает куда. Изменения в климате, пандемия, войны. Все видели вчерашние новости 😥
И когда все это закончится, нужны будут простые и дешевые технологии, которые помогут людям самим восстанавливать разрушенное, создавать новые вещи и заботится о своих семьях.
Проект Artifex как раз про все это.
Ваш, @llm_under_hood 🤗
Update: первый эксперимент тут.
Из ваших ответов на эту загадку ближе всего были ответы про роботов и шевеление :)
Началось все так. В прошлом году мне написали из компании про производству промышленных роботов и попросили попробовать сделать проект - открытую (!) и недорогую робо-платформу. Что-то вроде приставки к 3D-принтеру, которая могла бы выполнять простые задачи - склеить две детали, собрать помидорки с гидропонной грядки или припаять пару проводов.
Звучит просто? На самом деле это все очешуенно сложные задачи, решение которых требует дорогих роботов и немаленьких вычислительных мощностей.
Или нет?
LLM и ChatGPT в прошлом году произвели революцию в работе с информацией. Вещи, которые раньше казались сложными и дорогими, теперь доступны любому человеку.
YCombinator считает, что такое может произойти и с робототехникой. И не они одни.
Но пока всякие R&D лаборатории используют топовые вычислительные мощности и работов за $32k, мы хотим попробовать зайти с другой стороны. Использовать копеечные материалы, уже обученные современные модели (в том числе LLM), процесс сбора данных и создания своих файн-тюнов.
Мои клиенты знают, что я всегда стремлюсь свести разработку продуктов к серии минимально необходимых экспериментов. Каждый из которых - тестирует какую-то гипотезу и собирает данные для следующих шагов.
Этот проект - не исключение. Полная задача - проектирование открытой R&D платформы, программируемой на автономное выполнение небольших задач по сборке. При этом она должна быть недорогой и стандартизированной, чтобы каждый мог ее быстро собрать у себя в подвале и начать играться: переиспользовать обученные модели под разные задачи и краудсорсить данные под новые задачи.
Первый экспериментальный шаг достаточно простой - собрать из копеечных компонентов манипулятор на три степени свободы. Подключить его к камере от старого телефона и отдать контроль CV/LLM моделям. Фото с основными компонентами в комментариях. Бамбуковые палочки там тоже есть.
С точки зрения сборки - задача простейшая. А вот с точки зрения “как заставить эту кучку китайских запчастей выполнять мои команды” - это то, чем только начинают заниматься топовые R&D лаборатории в мире. Было бы интересно их опередить.
Ну и в целом миру нужны такие технологии. С каждым днем он катится черт-те знает куда. Изменения в климате, пандемия, войны. Все видели вчерашние новости 😥
И когда все это закончится, нужны будут простые и дешевые технологии, которые помогут людям самим восстанавливать разрушенное, создавать новые вещи и заботится о своих семьях.
Проект Artifex как раз про все это.
Ваш, @llm_under_hood 🤗
Update: первый эксперимент тут.
🔥28❤13👍7🤯2🤩2⚡1
Конкуренты с RAG и векторным поиском
В области enterprise AI продуктов все чаще начинают мелькать конкуренты. То Google и Microsoft засылают продавцов интегрированных решений, то сторонние вендоры начинают продавать RAG-и на векторных базах данных.
> Что за решения? Enterprise glue. Например, умный поиск по корпоративной сети. Или системы по извлечению структурированных данных из входящих документов. Или ассистенты, которые умеют гибко адаптироваться под уникальные кейсы.
И, знаете, конкуренты - это круто:
(1) их наличие позволяет дифференцироваться и выделиться из массы с более высоким ценником. Главное, показать и доказать ценность своего продукта.
(2) можно с конкурентами интегрироваться, и даже им помочь. Делаем деньги вместе.
(3) мне очень нравиться соревноваться с другими 🙃
Как все это можно достичь? А просто меняем позиционирование продукта. Вместо продажи RAG-системы или фреймворка для создания AI ассистентов мы сделаем так:
Пусть конкуренты строят космолеты из AI и обучают модели. Мы поможем им в этом! 🚀
Мы займемся скучной частью сбора данных и подготовки training datasets. Скажем, разработаем с конкретными департаментами прототипы ассистентов. Они будут глупенькие, но они будут заточены под сбор вопросов, ответов и экспертизы. Заодно задокументируем процессы.
А потом мы прототип немного улучшим, проработав отзывы и интегрировав их в систему. Это позволит нам собрать еще больше пользовательского фидбэка на новых кейсах. И повторим несколько раз, собирая хорошо аннотированные datasets.
А вендоры потом могут взять эти datasets и обучить мощные модели, которые уделают наши простые правила. И они смогут даже доказать качество своих решений. И когда это произойдет - мы поможем встроить эти новые модели в общую платформу. А потом - подсказать следующее направление для обучения моделей.
А знаете, в чем фишка? Ну, помимо дружбы с вендорами. Их четыре:
(1) клиент выигрывает от того, что качество каждого продукта с LLM под капотом - можно измерить на конкретных данных. Ну и вендоры начинают работать с конкретными требованиями.
(2) систематически собираемые данные можно использовать, чтобы в будущем перетащить все модели на локальные.
(3) мы можем выбирать из всех кейсов самые интересные для себя, а остальные - отдавать вендорам.
(4) это все закладывает основу для корпоративной мульти-вендорной AI платформы. И мы можем ее направить так, чтобы она реально и доказуемо приносила пользу, а не проедала бюджеты клиента впустую.
Это очень похоже на логику из поста про Вам не нужен RAG, стратегию внедрения AI или принцип работы моего ассистента, верно? Да основы везде одни и те же, поэтому паттерны и повторяются в разных ситуациях.
Ваш, @llm_under_hood 🤗
PS: добавил в комментарии выдержку из моей сегодняшней презентации клиенту на эту тему
В области enterprise AI продуктов все чаще начинают мелькать конкуренты. То Google и Microsoft засылают продавцов интегрированных решений, то сторонние вендоры начинают продавать RAG-и на векторных базах данных.
> Что за решения? Enterprise glue. Например, умный поиск по корпоративной сети. Или системы по извлечению структурированных данных из входящих документов. Или ассистенты, которые умеют гибко адаптироваться под уникальные кейсы.
И, знаете, конкуренты - это круто:
(1) их наличие позволяет дифференцироваться и выделиться из массы с более высоким ценником. Главное, показать и доказать ценность своего продукта.
(2) можно с конкурентами интегрироваться, и даже им помочь. Делаем деньги вместе.
(3) мне очень нравиться соревноваться с другими 🙃
Как все это можно достичь? А просто меняем позиционирование продукта. Вместо продажи RAG-системы или фреймворка для создания AI ассистентов мы сделаем так:
Пусть конкуренты строят космолеты из AI и обучают модели. Мы поможем им в этом! 🚀
Мы займемся скучной частью сбора данных и подготовки training datasets. Скажем, разработаем с конкретными департаментами прототипы ассистентов. Они будут глупенькие, но они будут заточены под сбор вопросов, ответов и экспертизы. Заодно задокументируем процессы.
А потом мы прототип немного улучшим, проработав отзывы и интегрировав их в систему. Это позволит нам собрать еще больше пользовательского фидбэка на новых кейсах. И повторим несколько раз, собирая хорошо аннотированные datasets.
А вендоры потом могут взять эти datasets и обучить мощные модели, которые уделают наши простые правила. И они смогут даже доказать качество своих решений. И когда это произойдет - мы поможем встроить эти новые модели в общую платформу. А потом - подсказать следующее направление для обучения моделей.
А знаете, в чем фишка? Ну, помимо дружбы с вендорами. Их четыре:
(1) клиент выигрывает от того, что качество каждого продукта с LLM под капотом - можно измерить на конкретных данных. Ну и вендоры начинают работать с конкретными требованиями.
(2) систематически собираемые данные можно использовать, чтобы в будущем перетащить все модели на локальные.
(3) мы можем выбирать из всех кейсов самые интересные для себя, а остальные - отдавать вендорам.
(4) это все закладывает основу для корпоративной мульти-вендорной AI платформы. И мы можем ее направить так, чтобы она реально и доказуемо приносила пользу, а не проедала бюджеты клиента впустую.
Это очень похоже на логику из поста про Вам не нужен RAG, стратегию внедрения AI или принцип работы моего ассистента, верно? Да основы везде одни и те же, поэтому паттерны и повторяются в разных ситуациях.
Ваш, @llm_under_hood 🤗
PS: добавил в комментарии выдержку из моей сегодняшней презентации клиенту на эту тему
👍15🔥6❤2
Бенчмарки RAG-систем делать забавно.
У меня есть N гигабайт годовых отчетов разных компаний. По ним можно задавать вопросы и смотреть, насколько каждая система ошибается.
А потом нужно будет делать новую версию своей системы, которая их сможет проходить вслепую. 😅
В комментарии я прикреплю исходный годовой отчет для этой картинки. И буду постить скриншоты ответов разных систем на него.
Тестируйте тоже всякие RAG системы и кидайте скриншоты сюда.
Ваш, @llm_under_hood 🤗
У меня есть N гигабайт годовых отчетов разных компаний. По ним можно задавать вопросы и смотреть, насколько каждая система ошибается.
А потом нужно будет делать новую версию своей системы, которая их сможет проходить вслепую. 😅
В комментарии я прикреплю исходный годовой отчет для этой картинки. И буду постить скриншоты ответов разных систем на него.
Тестируйте тоже всякие RAG системы и кидайте скриншоты сюда.
Ваш, @llm_under_hood 🤗
👍12👏5❤1
State of RAGs одной картинкой
Я задавал разным сервисам вопросы по одному единственному PDF файлу, а потом сверял ответы. На выходе - разброд и шатание, а ChatGPT-4 пока тут лучший.
Кто хочет повторить сам, годовой отчет тут. А шаблон промпта выглядел так:
Ваш, @llm_under_hood 🤗
Я задавал разным сервисам вопросы по одному единственному PDF файлу, а потом сверял ответы. На выходе - разброд и шатание, а ChatGPT-4 пока тут лучший.
Кто хочет повторить сам, годовой отчет тут. А шаблон промпта выглядел так:
QUESTION
Answer with a floating point number in current currency, for example "1,234 million", use decimal comma and no thousand separators. You can think through the answer, but last line should be in this format "answer = number unit". Answer with "answer = None" if there is no information available.
Ваш, @llm_under_hood 🤗
👍17🥰7🤔5❤1👎1👏1😁1🤯1😱1💩1
LLM Leaderboard за февраль 2024
Краткая выдержка:
(1) ChatGPT-v4 хорошеет. GPT-4 Turbo 0125-preview (aka v4) не только обучена на самых свежих данных (Декабрь 2023), но и обогнала предыдущие две версии и заняла второе место. При этом она стоит в разы дешевле топовой модели.
(2) Добавил Anthropic Claude (via AWS bedrock) и hosted Mistral AI модели. У обоих моделей хроническая болтливость, игнорирование few-shots промптов и невнимательность к инструкциям. Даже Mistral 7B OpenChat-3.5 слушается лучше. А уж OpenAI знает лучше всех, чего хотят компании и enterprise от LLMок.
Mistral пал так низко, что его не видно на скриншоте. Ждем третье поколение моделей, где они обещают пофиксить.
Update: Mistral AI попросили дать им пару дней.
Напоминаю, что бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. FAQ есть тут. Более детальное описание и примеры evals есть в лабах: Trustbit LLM Benchmark (лабы открыты подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
Краткая выдержка:
(1) ChatGPT-v4 хорошеет. GPT-4 Turbo 0125-preview (aka v4) не только обучена на самых свежих данных (Декабрь 2023), но и обогнала предыдущие две версии и заняла второе место. При этом она стоит в разы дешевле топовой модели.
(2) Добавил Anthropic Claude (via AWS bedrock) и hosted Mistral AI модели. У обоих моделей хроническая болтливость, игнорирование few-shots промптов и невнимательность к инструкциям. Даже Mistral 7B OpenChat-3.5 слушается лучше. А уж OpenAI знает лучше всех, чего хотят компании и enterprise от LLMок.
Mistral пал так низко, что его не видно на скриншоте. Ждем третье поколение моделей, где они обещают пофиксить.
Update: Mistral AI попросили дать им пару дней.
Напоминаю, что бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. FAQ есть тут. Более детальное описание и примеры evals есть в лабах: Trustbit LLM Benchmark (лабы открыты подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
👍26🔥9❤6
Вебинар по ассистентам с LLM под капотом.
Посты про адаптирующихся AI ассистентов порождают больше вопросов, чем дают ответов.
Вообще, лучше всего такие вещи получается рассказывать вживую.
Поэтому я предлагаю вебинар по построению ассистента на конкретных примерах. Мы проведем его с вами по горячим следам, в начале марта. Он будет платным. Ниже - его описание.
Если есть желание и возможность поучаствовать, отпишите в комментарии “мне интересно” и свой часовой пояс.
UPD: Вебинар состоится, подробности вот здесь.
Ваш, @llm_under_hood 🤗
Посты про адаптирующихся AI ассистентов порождают больше вопросов, чем дают ответов.
Вообще, лучше всего такие вещи получается рассказывать вживую.
Поэтому я предлагаю вебинар по построению ассистента на конкретных примерах. Мы проведем его с вами по горячим следам, в начале марта. Он будет платным. Ниже - его описание.
Я проведу вебинар по проектированию и внедрению ассистентов с LLM под капотом
Он предназначен для инженеров, которые руководят созданием подобных ассистентов. А еще - для продактов и сейлзов, которым нужно понимать возможности и проблемы подобных продуктов.
Мы посмотрим на работу и реализацию одного такого ассистента на конкретной задаче в отдельной предметной области.
Это будет end-to-end кейс с реальными документами.
Помимо кода, мы обсудим с вами принципы построения и внедрения подобных систем, от первого AI навыка до создания платформ. Обсудим контроль качества, сбор данных и построение работы с пользователями.
Если есть кейсы, которые вы хотите обсудить - можно будет их принести с собой на разбор. Я расскажу, как решал бы такую задачу и отвечу на ваши вопросы.
Длительность - 2 часа. Язык - русский. Стоимость участия в вебинаре - 80 евро (нужна будет карточка для оплаты через Stripe, российские карты здесь не сработают).
Если есть желание и возможность поучаствовать, отпишите в комментарии “мне интересно” и свой часовой пояс.
UPD: Вебинар состоится, подробности вот здесь.
Ваш, @llm_under_hood 🤗
👍18🤩11🔥7👏1
Update про вебинар по ассистентам с LLM под капотом.
Вебинар однозначно состоится (опрос был тут). По количеству желающих я вижу, что его нужно будет разбить на несколько потоков, чтобы можно было эффективно отвечать на вопросы.
Даты и время проведения появятся в течение недели. Тогда же выложу ссылку на платежную форму в Stripe. Для оплаты понадобится карта, которая работает за пределами России.
В комментах спрашивали, можно ли оплатить рублями или криптой.
Нет (не из вредности, а чтобы не превращать в кошмар мою налоговую отчетность). Но можно договориться между собой и купить другому участие вебинара. Главное, чтобы в форме были указаны email/имя того, кто посетит вебинар. На email придет персональное приглашение в Zoom.
Ваш, @llm_under_hood 🤗
Вебинар однозначно состоится (опрос был тут). По количеству желающих я вижу, что его нужно будет разбить на несколько потоков, чтобы можно было эффективно отвечать на вопросы.
Даты и время проведения появятся в течение недели. Тогда же выложу ссылку на платежную форму в Stripe. Для оплаты понадобится карта, которая работает за пределами России.
В комментах спрашивали, можно ли оплатить рублями или криптой.
Нет (не из вредности, а чтобы не превращать в кошмар мою налоговую отчетность). Но можно договориться между собой и купить другому участие вебинара. Главное, чтобы в форме были указаны email/имя того, кто посетит вебинар. На email придет персональное приглашение в Zoom.
Ваш, @llm_under_hood 🤗
🔥20👍4
Mistral Large - новая hosted модель от Mistral AI
Фишки:
- 32k context
- function calling
- есть на Azure
Новость | Обсуждение HackerNews
И теперь понятно, почему на прошлой неделе Mistral AI просили меня подождать с обновлением бенчмарка до понедельника. У них вышел не только mistral-large, но и подоспело обновление для серии Mixtral 8x7B:
Сегодня попозже протестирую и выложу новую версию бенчмарков.
Ваш, @llm_under_hood 🤗
Фишки:
- 32k context
- function calling
- есть на Azure
Новость | Обсуждение HackerNews
И теперь понятно, почему на прошлой неделе Mistral AI просили меня подождать с обновлением бенчмарка до понедельника. У них вышел не только mistral-large, но и подоспело обновление для серии Mixtral 8x7B:
mistral-small-2402Сегодня попозже протестирую и выложу новую версию бенчмарков.
Ваш, @llm_under_hood 🤗
👍33🤩3👏2❤1
Бенчмарки сегодняшних моделей от Mistral.
Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко.
Разницы между двумя поколениями моделей помладше особо тоже нет. Досадно, я ожидал уровня выше, чем OpenChat.
Это дополнение вдогонку к LLM бенчмарку за февраль. Подробнее про бенчмарк можно почитать там.
Если кратко, то это закрытый бенчмарк на базе промптов и тестов из реальных продуктов (enterprise glue и стартапы).
Ваш, @llm_under_hood 🤗
Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко.
Разницы между двумя поколениями моделей помладше особо тоже нет. Досадно, я ожидал уровня выше, чем OpenChat.
Это дополнение вдогонку к LLM бенчмарку за февраль. Подробнее про бенчмарк можно почитать там.
Если кратко, то это закрытый бенчмарк на базе промптов и тестов из реальных продуктов (enterprise glue и стартапы).
Ваш, @llm_under_hood 🤗
👍14😱3❤2
Наш ML R&D сервер дождался свою AI карточку от Tenstorrent - Grayskull e150.
Я про них писал раньше. Карты созданы в компании Jim Keller-a. Того самого, который ответил Сэму Альтману, что на революцию в AI чипах нужно не 7 триллионов, а меньше одного.
Размер карты и интерфейс внешнего охлаждения у них, конечно, затейливые. Поэтому в систему воткнулась только одна карточка из двух.
Дальше на очереди установка всех драйверов, освоение стэка, запуск моделей и экспериментов.
Еще пара фоток - в комментариях.
Ваш, @llm_under_hood 🤗
Я про них писал раньше. Карты созданы в компании Jim Keller-a. Того самого, который ответил Сэму Альтману, что на революцию в AI чипах нужно не 7 триллионов, а меньше одного.
Размер карты и интерфейс внешнего охлаждения у них, конечно, затейливые. Поэтому в систему воткнулась только одна карточка из двух.
Дальше на очереди установка всех драйверов, освоение стэка, запуск моделей и экспериментов.
Еще пара фоток - в комментариях.
Ваш, @llm_under_hood 🤗
🔥36🎉6❤3🤯3👍2💩1
Вебинар по AI-ассистентам: даты и время проведения
Есть два слота для проведения вебинара про адаптирующихся AI-ассистентов:
·7 марта, четверг, 13:00 GMT+3 (места закончились)
·9 марта, суббота, 15:30 GMT+3 (места закончились)
Это два отдельных потока. Содержание вебинара будет одинаковым. Продолжительность: 2 часа.
Пожалуйста, приходите в тот поток, который вы выбрали при оплате: я ограничил количество мест, чтобы можно было качественнее поработать на Q&A.
Если вдруг закончатся места, то добавлю на субботу или проведу еще один вебинар во второй декаде марта.
Будет ли запись?
Да, запишем лекционную часть и вышлем участникам лучший вариант после окончания всех потоков. Обсуждения ваших кейсов из Q&A выкладываться не будут.
Хочу, чтобы мой кейс разобрали на вебинаре, что нужно сделать?
После оплаты вебинара вам на емейл придет приглашение в чат - можете прислать кейс туда. Я прочитаю его заранее и постараюсь на вебинаре или в чате рассказать, как решал бы подобные задачи.
Если кейсов будет много, то на вебинаре выберу несколько показательных или кластеризую похожие кейсы.
Как оплатить?
Понадобится карта, работающая за пределами России. Оплатить можно вот здесь.
После оплаты вам придет email с деталями и ссылками на зум и в чат.
Ваш, @llm_under_hood 🤗
Есть два слота для проведения вебинара про адаптирующихся AI-ассистентов:
·
·
Это два отдельных потока. Содержание вебинара будет одинаковым. Продолжительность: 2 часа.
Пожалуйста, приходите в тот поток, который вы выбрали при оплате: я ограничил количество мест, чтобы можно было качественнее поработать на Q&A.
Если вдруг закончатся места, то добавлю на субботу или проведу еще один вебинар во второй декаде марта.
Будет ли запись?
Да, запишем лекционную часть и вышлем участникам лучший вариант после окончания всех потоков. Обсуждения ваших кейсов из Q&A выкладываться не будут.
Хочу, чтобы мой кейс разобрали на вебинаре, что нужно сделать?
После оплаты вебинара вам на емейл придет приглашение в чат - можете прислать кейс туда. Я прочитаю его заранее и постараюсь на вебинаре или в чате рассказать, как решал бы подобные задачи.
Если кейсов будет много, то на вебинаре выберу несколько показательных или кластеризую похожие кейсы.
Как оплатить?
Понадобится карта, работающая за пределами России. Оплатить можно вот здесь.
После оплаты вам придет email с деталями и ссылками на зум и в чат.
Ваш, @llm_under_hood 🤗
🔥11👍9❤1💩1
AI Knowledge Map Search
Вчера я сдался и начал использовать слово knowledge map в описаниях работы продуктов с LLM под капотом. Например, как на скриншоте из протипа корпоративного ассистента в комментариях к этому посту (на вебинаре через неделю мы разберем аналогичный).
Слово будет использоваться в предложениях вроде "предобрабатываем документы в доменную модель, чтобы LLM потом мог осознанно доставать нужные документы, а не тащить всякий мусор из chunks"
Проблема была в том, что больше людей знает про Data Science/Machine Learning и LLM, чем про Domain-Driven Design (DDD). Поэтому "доменная модель" вызывает совсем не те ассоциации, которые надо. Скорее вопросы "а можно ли ее запустить на локальных серверах?"
При описании решений на базе LLM я пытался использовать "structured data", но это было тоже не совсем то. Вчера, наконец, эксперты из DDD EU подсказали термин "knowledge map / graph".
И этот термин подходит сильно лучше! Он даже вызывает ассоциации с графовыми базами данных, что ведет размышления в правильном направлении.
Смотрите сами:
Правда ведь предложение стало чуть понятнее, чем раньше?
Ваш, @llm_under_hood 🤗
Update: изначально выбирал из двух вариантов knowledge graph и map. Но по итогам обсуждения в комментах видно, что graph уводит немного в сторону.
Вчера я сдался и начал использовать слово knowledge map в описаниях работы продуктов с LLM под капотом. Например, как на скриншоте из протипа корпоративного ассистента в комментариях к этому посту (на вебинаре через неделю мы разберем аналогичный).
Слово будет использоваться в предложениях вроде "предобрабатываем документы в доменную модель, чтобы LLM потом мог осознанно доставать нужные документы, а не тащить всякий мусор из chunks"
Проблема была в том, что больше людей знает про Data Science/Machine Learning и LLM, чем про Domain-Driven Design (DDD). Поэтому "доменная модель" вызывает совсем не те ассоциации, которые надо. Скорее вопросы "а можно ли ее запустить на локальных серверах?"
При описании решений на базе LLM я пытался использовать "structured data", но это было тоже не совсем то. Вчера, наконец, эксперты из DDD EU подсказали термин "knowledge map / graph".
И этот термин подходит сильно лучше! Он даже вызывает ассоциации с графовыми базами данных, что ведет размышления в правильном направлении.
Смотрите сами:
При построении ассистента мы можем заранее трансформировать документы в карту знаний. Так LLM потом сможет осознанно доставать нужные фрагменты, а не тащить всякий мусор из chunks. Граф знаний разрабатываем по аналогии с domain model из DDD.
Правда ведь предложение стало чуть понятнее, чем раньше?
Ваш, @llm_under_hood 🤗
Update: изначально выбирал из двух вариантов knowledge graph и map. Но по итогам обсуждения в комментах видно, что graph уводит немного в сторону.
👍21❤5💩2😁1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, я обещал бамбуковые палочки и роботов? Вот первая версия самого мелкого манипулятора. #weekend
Там пока логики нет, просто ESP32 крутит серво-приводами туда-обратно. Дальше план первой серии экспериментов такой:
(1) сделать, чтобы манипулятором крутить можно было с компьютера
(2) попробовать управлять при помощи GPT-4-Vision. Если рука сможет самостоятельно попасть по детальке Lego, то это уже прогресс.
Дальше можно будет копать в сторону создания манипулятора, который меньше шатает. Чтобы было нормальное целеполагание и позиционирование с использованием CV+LLM+Kinematic Engine.
(да-да, именно в таких задачах нужно low-latency LLM inference, как у Groq или Tenstorrent 😁)
Пока все это - сплошная теория. Но местный клуб "очумелые ручки" уже заинтересовался проектом. Особенно когда мы заговорили про возможность использования манипулятора для смешивания напитков 😃
В течение пары недель заведу Github репу, куда начну выкладывать текущие спецификации и ход экспериментов.
Ваш, @llm_under_hood 🤗
Там пока логики нет, просто ESP32 крутит серво-приводами туда-обратно. Дальше план первой серии экспериментов такой:
(1) сделать, чтобы манипулятором крутить можно было с компьютера
(2) попробовать управлять при помощи GPT-4-Vision. Если рука сможет самостоятельно попасть по детальке Lego, то это уже прогресс.
Дальше можно будет копать в сторону создания манипулятора, который меньше шатает. Чтобы было нормальное целеполагание и позиционирование с использованием CV+LLM+Kinematic Engine.
(да-да, именно в таких задачах нужно low-latency LLM inference, как у Groq или Tenstorrent 😁)
Пока все это - сплошная теория. Но местный клуб "очумелые ручки" уже заинтересовался проектом. Особенно когда мы заговорили про возможность использования манипулятора для смешивания напитков 😃
В течение пары недель заведу Github репу, куда начну выкладывать текущие спецификации и ход экспериментов.
Ваш, @llm_under_hood 🤗
🔥38👍6❤2😁2🤩2💩2⚡1
Сегодня сильно порадовал ProductFixer с LLM под капотом (полный кейс).
Этот ассистент автоматически проходит по каталогам продуктов и находит ошибки в описаниях. Для этого ему нужно уметь проходиться по разнообразным документам и извлекать из них нужные данные. А потом еще сравнивать и перепроверять.
Во время отладки я сегодня увидел вживую случай, когда данные запрятаны в нерегулярной таблице (с merged ячейками), а сама таблица - на другом языке, в середине многостраничного PDF файла.
Система справилась на отлично.
Теперь хочется еще более сложных таблиц.
А с какими самыми сложными таблицами встречались вы?
Ваш, @llm_under_hood 🤗
Этот ассистент автоматически проходит по каталогам продуктов и находит ошибки в описаниях. Для этого ему нужно уметь проходиться по разнообразным документам и извлекать из них нужные данные. А потом еще сравнивать и перепроверять.
Во время отладки я сегодня увидел вживую случай, когда данные запрятаны в нерегулярной таблице (с merged ячейками), а сама таблица - на другом языке, в середине многостраничного PDF файла.
Система справилась на отлично.
english_name fixes
─────────────────────────────
Voltage []
Output in Watt []
Drilling capacity in ['25']
wood in mm
Net weight in kg ['1.2']
Теперь хочется еще более сложных таблиц.
А с какими самыми сложными таблицами встречались вы?
Ваш, @llm_under_hood 🤗
🔥18👍6👏1
Закончились места на вебинар по AI ассистентам с LLM под капотом. Регистрация закрыта.
Участники принесли очень интересные кейсы на разбор. Говоря обобщенно, это:
Первый поток:
- Ассистенты / Copilots
- Работа с таблицами
- Маркетинговые исследования
Второй поток:
- Работа с таблицами
- Banking / Insurance, с табличками
- Базы знаний компаний
На вебинаре мы посмотрим на работу и реализацию одного AI ассистента на конкретной задаче в отдельной предметной области. А потом чуть более детально разберем адаптацию для работы с этими кейсами (ведь на самом деле принципы там одни и те же).
Ваш, @llm_under_hood 🤗
PS: Запись вебинара отдельно продаваться не будет, чтобы можно было свободно обсудить кейсы участников.
PPS: Третий поток? Посмотрю, как пройдет вебинар, и на количество желающих.
Участники принесли очень интересные кейсы на разбор. Говоря обобщенно, это:
Первый поток:
- Ассистенты / Copilots
- Работа с таблицами
- Маркетинговые исследования
Второй поток:
- Работа с таблицами
- Banking / Insurance, с табличками
- Базы знаний компаний
На вебинаре мы посмотрим на работу и реализацию одного AI ассистента на конкретной задаче в отдельной предметной области. А потом чуть более детально разберем адаптацию для работы с этими кейсами (ведь на самом деле принципы там одни и те же).
Ваш, @llm_under_hood 🤗
PS: Запись вебинара отдельно продаваться не будет, чтобы можно было свободно обсудить кейсы участников.
PPS: Третий поток? Посмотрю, как пройдет вебинар, и на количество желающих.
👍21🔥5💩2
AI Knowledge Maps в теории и на практике
Сегодня я делал демку прототипа AI ассистента для отдела цифровых коммуникаций международной компании с выручкой в ~3B EUR.
Там нужно сделать умный поиск по данным из внутренней корпоративной сети компании.
На прошлом митинге я показывал клиенту простейший поиск на базе ChatGPT + FTS. Они покивали головами и прислали десяток вопросов на засыпку.
Я не стал мудрить ничего особенного с этими вопросами, и сделал простейший knowledge map для AI по этим областям (про него было активное обсуждение в комментариях к этому посту). В теории оно должно было дать достаточно контекста системе, чтобы она могла самостоятельно искать информацию.
Как оно прошло на практике?
На митинге мы сначала позадавали системе вопросы аналогичные известным. Я рассказал про принципы работы и обучения через построение knowledge map. Потом клиент позадавал вопросы, к которым невозможно было подготовиться. И мы посмотрели, как система барахтается и ошибается.
Результат? Митинг, который был запланирован на 45 минут, закончился за 20 минут.
Почему? Да потому, что отдел цифровых коммуникаций ощутил перспективы, и теперь просит подключения к AI ассистенту еще пары IT систем компании. А еще они убежали готовить новый список вопросов для обучения. А еще нам надо теперь обсуждать бюджеты и прочие прелести внедрения в корпоративную IT инфраструктуру.
В общем, нет времени на митинги, работать надо 😆
Кстати, один из вопросов, которого я не ожидал - меня попросили задать вопрос не на родном языке документов. Ну я и спросил систему об актуальных сроках поставки одной позиции на русском языке.
AI ассистент сориентировался по knowledge map и достал самый последний релевантный документ (который на немецком). Потом еще попытался поискать по базе документов (используя английский и немецкий), в итоге плюнул и синтезировал тот единственно верный ответ, сформулировав его на русском языке. Я его этому всему не учил.
Ваш, @llm_under_hood 🤗
Сегодня я делал демку прототипа AI ассистента для отдела цифровых коммуникаций международной компании с выручкой в ~3B EUR.
Там нужно сделать умный поиск по данным из внутренней корпоративной сети компании.
На прошлом митинге я показывал клиенту простейший поиск на базе ChatGPT + FTS. Они покивали головами и прислали десяток вопросов на засыпку.
Я не стал мудрить ничего особенного с этими вопросами, и сделал простейший knowledge map для AI по этим областям (про него было активное обсуждение в комментариях к этому посту). В теории оно должно было дать достаточно контекста системе, чтобы она могла самостоятельно искать информацию.
Как оно прошло на практике?
На митинге мы сначала позадавали системе вопросы аналогичные известным. Я рассказал про принципы работы и обучения через построение knowledge map. Потом клиент позадавал вопросы, к которым невозможно было подготовиться. И мы посмотрели, как система барахтается и ошибается.
Результат? Митинг, который был запланирован на 45 минут, закончился за 20 минут.
Почему? Да потому, что отдел цифровых коммуникаций ощутил перспективы, и теперь просит подключения к AI ассистенту еще пары IT систем компании. А еще они убежали готовить новый список вопросов для обучения. А еще нам надо теперь обсуждать бюджеты и прочие прелести внедрения в корпоративную IT инфраструктуру.
В общем, нет времени на митинги, работать надо 😆
Кстати, один из вопросов, которого я не ожидал - меня попросили задать вопрос не на родном языке документов. Ну я и спросил систему об актуальных сроках поставки одной позиции на русском языке.
AI ассистент сориентировался по knowledge map и достал самый последний релевантный документ (который на немецком). Потом еще попытался поискать по базе документов (используя английский и немецкий), в итоге плюнул и синтезировал тот единственно верный ответ, сформулировав его на русском языке. Я его этому всему не учил.
Ваш, @llm_under_hood 🤗
🔥48👍5🤯4❤3💩1