Проблема поискового оркестратора в Perplexity
Когда человек приходит в поиск с вопросом про погоду, он ожидает быстрый ответ. Не нужно разворачивать всю мощь лучших в мире LLM, парсить на лету 200 источников, делать три слоя реранкинга и ещё черт знает что. Это займет кучу времени.
Искусство понять сложность запроса, правильно выбрать из систем разной сложности и профиля, и собрать правильный каскад из систем - это задача оркестрации запроса. Она же - задача роутинга, она же - задача метапоиска. Одна из самых интересных задач в IT-инженерии.
CEO Perplexity Aravind Srinivas рассказывает в подкасте что самая сложная задача которую они сейчас решают это именно проблема оркестрации и создания правильного набора систем за оркестратором. С его слов, кто решит эту проблему в новом LLM-мире, сможет построить следующий Google.
Я помню свой разговор с одним из основателей ABBYY. Он рассказывал что их ключевой ноу-хау это не сами OCR-модели, а как раз правильный каскад из моделей. Лёгкая модель определяющая задачу, дальше в зависимости от результата выбор из путей, и так до 50 разных моделей в каскаде.
В текущих AI-системах вроде ChatGPT эта проблема тоже плохо решена. Пользователю самому приходится решать "достаточно ли моя задача сложная для o3 или можно в 4o сходить". Это, конечно, неудобно.
Кстати, рекомендую и конкретный подкаст, и всю серию подкастов How to Build Future от Y Combinator
Когда человек приходит в поиск с вопросом про погоду, он ожидает быстрый ответ. Не нужно разворачивать всю мощь лучших в мире LLM, парсить на лету 200 источников, делать три слоя реранкинга и ещё черт знает что. Это займет кучу времени.
Искусство понять сложность запроса, правильно выбрать из систем разной сложности и профиля, и собрать правильный каскад из систем - это задача оркестрации запроса. Она же - задача роутинга, она же - задача метапоиска. Одна из самых интересных задач в IT-инженерии.
CEO Perplexity Aravind Srinivas рассказывает в подкасте что самая сложная задача которую они сейчас решают это именно проблема оркестрации и создания правильного набора систем за оркестратором. С его слов, кто решит эту проблему в новом LLM-мире, сможет построить следующий Google.
Я помню свой разговор с одним из основателей ABBYY. Он рассказывал что их ключевой ноу-хау это не сами OCR-модели, а как раз правильный каскад из моделей. Лёгкая модель определяющая задачу, дальше в зависимости от результата выбор из путей, и так до 50 разных моделей в каскаде.
В текущих AI-системах вроде ChatGPT эта проблема тоже плохо решена. Пользователю самому приходится решать "достаточно ли моя задача сложная для o3 или можно в 4o сходить". Это, конечно, неудобно.
Кстати, рекомендую и конкретный подкаст, и всю серию подкастов How to Build Future от Y Combinator
❤41🔥23🤡7
Яндекс потихоньку отжал уже 67% поисковой доля в России.
Рынок классического поиска довольно удивительный. Качество продукта почти не помогает перетягивать аудиторию. Это война за поиск по-умолчанию на устройстве или в браузере. Людям, к сожалению, не так важно какой у них поиск, если он базово «нормальный».
Гугл потихоньку умирает, так как в привлечение не вкладывается. Напомню, там нет рекламы! Как видим, это не так уж и важно для пользователей.
66% это почти монополия. Это не очень хорошо: стимулов расти продуктам будет ещё меньше. Если посмотреть в прошлое, и Google и Yandex очень много сделали чтобы себя улучшить в своей конкуренции. Раньше у Google была большая команда в Москве, я был у них в офисе.
Часть трафика поиска оттекла в маркетплейсы. Чайники уже в поиске не ищут. Почему-то принято считать что это "смерть поиска", хотя на самом деле это только один из срезов. Когда-нибудь человечество придумает лучшие способы искать информацию для всех категорий, но пока что baseline в виде поиска в-основном побеждает.
Ответ может лежать в новых GPT-like поисках. Я мечтаю что появится аналог Perplexity но для поиска решения твоей задачи, т.е. поиска бизнеса/исполнителя. Сейчас эти задачи решаются ну очень плохо - что поиском, что картами. Тогда есть шансы поколебать классический поиск в важных для него нишах.
Но пока что весь этот GPT/Perplexity/Нейро на рынки поиска не влияет никак - что в мире, что в России.
Рынок классического поиска довольно удивительный. Качество продукта почти не помогает перетягивать аудиторию. Это война за поиск по-умолчанию на устройстве или в браузере. Людям, к сожалению, не так важно какой у них поиск, если он базово «нормальный».
Гугл потихоньку умирает, так как в привлечение не вкладывается. Напомню, там нет рекламы! Как видим, это не так уж и важно для пользователей.
66% это почти монополия. Это не очень хорошо: стимулов расти продуктам будет ещё меньше. Если посмотреть в прошлое, и Google и Yandex очень много сделали чтобы себя улучшить в своей конкуренции. Раньше у Google была большая команда в Москве, я был у них в офисе.
Часть трафика поиска оттекла в маркетплейсы. Чайники уже в поиске не ищут. Почему-то принято считать что это "смерть поиска", хотя на самом деле это только один из срезов. Когда-нибудь человечество придумает лучшие способы искать информацию для всех категорий, но пока что baseline в виде поиска в-основном побеждает.
Ответ может лежать в новых GPT-like поисках. Я мечтаю что появится аналог Perplexity но для поиска решения твоей задачи, т.е. поиска бизнеса/исполнителя. Сейчас эти задачи решаются ну очень плохо - что поиском, что картами. Тогда есть шансы поколебать классический поиск в важных для него нишах.
Но пока что весь этот GPT/Perplexity/Нейро на рынки поиска не влияет никак - что в мире, что в России.
❤29🔥9
Рынок активно обсуждает утёкший ценник на AI-сотрудников от OpenAI.
$10k/mo за разработчика
$20k/mo за PhD-level research
Очень дорого, если сравнивать с моделями. Но если сравнивать с людьми, становится лучше: разработчик для компании по миру примерно так и стоит, при этом у него есть обед, work-life balance и весеннее обострение.
Мне очень нравится что OpenAI этим ценником делают заявление: работу AI-работников нужно сравнивать с работой людей. Ребята не размениваются на мнения, ребята показывают как будет выглядеть рынок. Devin за $500/mo уже выглядит дешевкой.
На самом деле, "AI Worker" это другой тип работника и в реальной жизни они скорее будут дополнять людей. На таких воркеров пойдет вся рутинная работа, это такие интеллектуальные 24/7 рабы.
Вопрос, как обычно, получится ли этим агентам давать результат сравнимый с такой стоимостью. Пока что агенты явно не там. Посмотрим что будет через год.
В следующем сезоне ждите: Профессионалы интеллектуального труда устраивают забастовки против AI-агентов
$10k/mo за разработчика
$20k/mo за PhD-level research
Очень дорого, если сравнивать с моделями. Но если сравнивать с людьми, становится лучше: разработчик для компании по миру примерно так и стоит, при этом у него есть обед, work-life balance и весеннее обострение.
Мне очень нравится что OpenAI этим ценником делают заявление: работу AI-работников нужно сравнивать с работой людей. Ребята не размениваются на мнения, ребята показывают как будет выглядеть рынок. Devin за $500/mo уже выглядит дешевкой.
На самом деле, "AI Worker" это другой тип работника и в реальной жизни они скорее будут дополнять людей. На таких воркеров пойдет вся рутинная работа, это такие интеллектуальные 24/7 рабы.
Вопрос, как обычно, получится ли этим агентам давать результат сравнимый с такой стоимостью. Пока что агенты явно не там. Посмотрим что будет через год.
В следующем сезоне ждите: Профессионалы интеллектуального труда устраивают забастовки против AI-агентов
TechCrunch
OpenAI reportedly plans to charge up to $20,000 a month for specialized AI 'agents' | TechCrunch
OpenAI may be planning to charge up to $20,000 per month for specialized AI 'agents,' according to The Information.
🤔19❤11🥱4💅1
Думаю, все уже видели, что OpenAI выкатили целую батарею инструментов для построения агентских систем. Там всё очень интересно. Описывать их не буду, читайте сиолошную.
OpenAI старается быть вертикальной компанией - предоставлять не только модели, но по возможности максимальное количество слоёв пирога будущей инженерии. В выборе подходов "Android vs Apple" OpenAI делает как Apple: вертикальная закрытая экосистема.
Всё верно делают - сами модели, скорее всего, потеряют свой удельный вес в деньгах. Скорее всего, большую часть денег будут получать производители конечных бизнес-систем. Возможно, это будут AI-сотрудники, пока что мы не знаем.
OpenAI старается быть вертикальной компанией - предоставлять не только модели, но по возможности максимальное количество слоёв пирога будущей инженерии. В выборе подходов "Android vs Apple" OpenAI делает как Apple: вертикальная закрытая экосистема.
Всё верно делают - сами модели, скорее всего, потеряют свой удельный вес в деньгах. Скорее всего, большую часть денег будут получать производители конечных бизнес-систем. Возможно, это будут AI-сотрудники, пока что мы не знаем.
❤19🤡3
(!) Подробный тех репорт про обучение T-lite/T-pro 🚀
Выложили ну очень подробный репорт про обучение наших моделей.
Простой файнтюн не решает наши задачи по адаптации моделей. Нам нужно обучать модель новым скиллам и глубоко адаптировать под доменные зоны и под язык.
Пришлось придумать гибридный подход: используются веса opensource модели, и потом мы повторяем почти все стадии обучения, добавляя правильные данные.
Много про подход и хаки. Очень много про данные: правильный микс данных оказался ключом к успеху. Отдельно рассказали про использования кода в датамиксе, много интересных штук. Например, мы перевели часть комментариев в коде на русский язык.
Фактически, это рецепт, как вам самим можно глубоко адаптировать готовые базовые модели под свои задачи. Используйте!
Горжусь ребятами🥳 и результатами и подходом к шерингу деталей работы
Напомню, модели в опенсорсе, найти можно тут
Выложили ну очень подробный репорт про обучение наших моделей.
Простой файнтюн не решает наши задачи по адаптации моделей. Нам нужно обучать модель новым скиллам и глубоко адаптировать под доменные зоны и под язык.
Пришлось придумать гибридный подход: используются веса opensource модели, и потом мы повторяем почти все стадии обучения, добавляя правильные данные.
Много про подход и хаки. Очень много про данные: правильный микс данных оказался ключом к успеху. Отдельно рассказали про использования кода в датамиксе, много интересных штук. Например, мы перевели часть комментариев в коде на русский язык.
Фактически, это рецепт, как вам самим можно глубоко адаптировать готовые базовые модели под свои задачи. Используйте!
Горжусь ребятами
Напомню, модели в опенсорсе, найти можно тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Модели T-lite и T-pro: training report
Привет! Я Дима Стоянов, MLE в команде разработки фундаментальных моделей. Мы продолжаем рассказывать о наших моделях T-lite и T-pro. Общие характеристики и результаты бенчмарков описывали в предыдущей...
🔥66❤13💅5
Composio подняли кучу MCP-серверов для разных сервисов и собрали из этого библиотеку интеграций.
Там есть Google Docs, Github, Perplexity, 11labs и много чего ещё. Есть готовые интеграции "по кнопке" в cursor, windsurf и так далее. Классно.
Напомню, MCP это протокол от Anthropic для подключения инструментов и источников данных к LLM. Если у сервиса существует MCP-сервер для интеграции, подключить к вашим агентам или просто LLM-пайплайнам будет очень легко. Компании такие сервера уже создают.
MCP пока не так хорошо приживается в комьюнити - мнения противоречивые. Например, мы у себя внутри на MCP переходить не стали, так как он переусложнен, довольно сырой, и больше подходит для стартапов.
Но какие-то единые протоколы и каталоги тут точно нужны. Надо же всем этим агентам уметь общаться с другими системами и друг с другом.
Кто пробовал MCP ручками? У кого какое мнение?
Там есть Google Docs, Github, Perplexity, 11labs и много чего ещё. Есть готовые интеграции "по кнопке" в cursor, windsurf и так далее. Классно.
Напомню, MCP это протокол от Anthropic для подключения инструментов и источников данных к LLM. Если у сервиса существует MCP-сервер для интеграции, подключить к вашим агентам или просто LLM-пайплайнам будет очень легко. Компании такие сервера уже создают.
MCP пока не так хорошо приживается в комьюнити - мнения противоречивые. Например, мы у себя внутри на MCP переходить не стали, так как он переусложнен, довольно сырой, и больше подходит для стартапов.
Но какие-то единые протоколы и каталоги тут точно нужны. Надо же всем этим агентам уметь общаться с другими системами и друг с другом.
Кто пробовал MCP ручками? У кого какое мнение?
mcp.composio.dev
Composio MCP
Discover, connect, and automate with Composio MCP. Explore popular integrations and tools for productivity.
❤4🔥4🤡1
Topic Call: Приходите создавать Turbo ML Conf!
В прошлом году у нас получилась одна из лучших конференций по прикладному ML на рынке. Было очень насыщенно и очень солнечно 🌞
Этим летом мы хотим повторить успех. Готовим для вас отличную программу, нам есть что рассказать.
Но без вас - не получится. Это конференция для всей индустрии и мы хотим делать её вместе. Ждём вас с докладами!
https://mlconf.t-bank.ai/
В прошлом году у нас получилась одна из лучших конференций по прикладному ML на рынке. Было очень насыщенно и очень солнечно 🌞
Этим летом мы хотим повторить успех. Готовим для вас отличную программу, нам есть что рассказать.
Но без вас - не получится. Это конференция для всей индустрии и мы хотим делать её вместе. Ждём вас с докладами!
https://mlconf.t-bank.ai/
Turbo ML Conf
Делимся опытом, разбираемся в трендах и погружаемся в кейсы
🔥29💅11❤6
Вот это прям мощь, адаптивные интерфейсы можно будет совсем иначе делать.
1❤7
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Очередной интересный эксперимент совмещения языковой модели и интерфейса - хочется для ТГ постов в Сиолошной такое ☕️
Автор
Автор
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥54❤8
This media is not supported in your browser
VIEW IN TELEGRAM
Питер Левелс продолжает штамповать в одно лицо странные бизнесы которые приносят много денег. На этот раз сделал вот такую всратую игру и гребёт за неё $87k/mo.
Игру написал классическим вайб кодингом: в Cursor, за три часа, используя голосовое управление и не поднимая жопы с дивана. Продает там самолеты, рекламу на дирижаблях и вообще хайпит как может.
Много и открыто рассказывает про свою работу в твитторе. Он там практически секту вайб кодинга открыл. Продаёт кепки vibe coder, купить можно тут. Я заказал синенькую🥳
Поиграть можно прямо в браузере тут: https://fly.pieter.com/
Игру написал классическим вайб кодингом: в Cursor, за три часа, используя голосовое управление и не поднимая жопы с дивана. Продает там самолеты, рекламу на дирижаблях и вообще хайпит как может.
Много и открыто рассказывает про свою работу в твитторе. Он там практически секту вайб кодинга открыл. Продаёт кепки vibe coder, купить можно тут. Я заказал синенькую
Поиграть можно прямо в браузере тут: https://fly.pieter.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤30🤡6🔥4
Вот как я должен выбрать тут модель под свою задачу? )
Одна тупая, другая долго думает. Кто-то ходит в интернет, кто-то нет. Research preview это можно использовать или нет? ) ну и потрясающие mini и mini-high )
И ни одной подсказки!
Самый большой в мире пользовательский AI-продукт продолжает развиваться как демо площадка для моделей.
Perplexity тут молодцы: сделали Auto по-умолчанию которая сама разберется что тебе нужно.
Одна тупая, другая долго думает. Кто-то ходит в интернет, кто-то нет. Research preview это можно использовать или нет? ) ну и потрясающие mini и mini-high )
И ни одной подсказки!
Самый большой в мире пользовательский AI-продукт продолжает развиваться как демо площадка для моделей.
Perplexity тут молодцы: сделали Auto по-умолчанию которая сама разберется что тебе нужно.
❤59🔥16🤔2
Уровни автоматизации в AI
В системах управления автомобилем есть вот такой стандарт уровней автономности. Он измеряется от 0 до 5, где 0 это очень слабый уровень, а 5 - водит без человека где угодно.
В автоматизации цифровых работ есть очень похожие понятийные уровни. Можно выделять три:
1. Copilot, или AI помогает человеку
AI помогает делать работу, при этом рабочий процесс не меняется.
Сложность небольшая. Процесс не меняется, и требования к качеству не такие высокие.
Экономический эффект: 0-40% стоимости работ. В редких кейсах получится сделать больше.
2. Human in the loop, или AI работает, человек контролирует
Здесь рабочий процесс значимо меняется. Работу уже делает AI, человек подключается когда AI сомневается или нужно принять финальный результат. Важно, что ответственность лежит на человеке.
Реализовать довольно сложно, основные барьеры — построить заново рабочий процесс и сделать достаточно высокое качество работы AI.
Экономический эффект: варьируется и может быть выше 90% человеческой стоимости работ. Недооцененный уровень: многие пытаются сразу сделать полную автоматизацию, а это в разы сложнее.
3. Full Automation
Здесь человека в контуре нет. Это важно, ответственность полностью переходит на робота и это принципиальный момент доверия к системе и ответа на вопрос "кто виноват".
Рабочий процесс похож на процесс из пункта 2, но нет проверок. Вместо него создается контур проверки качества - например, каждый десятый результат в фоне проверяет человек.
Экономический эффект здесь максимальный. Сделать очень сложно, основной барьер - качество выполнения работ с помощью AI.
Большая часть автоматизации цифровых работ сейчас находится на нулевом и первом уровне. Основной фактор - сложно добиться качества работы AI-систем при текущем уровне моделей и технологий.
Но через 10 лет я бы ожидал значимых сдвигов вверх по уровням по всем цифровым работам которые делает человек.
Курьеры пока что могут спать спокойно, там сложно и дороговато получается :)
В системах управления автомобилем есть вот такой стандарт уровней автономности. Он измеряется от 0 до 5, где 0 это очень слабый уровень, а 5 - водит без человека где угодно.
В автоматизации цифровых работ есть очень похожие понятийные уровни. Можно выделять три:
1. Copilot, или AI помогает человеку
AI помогает делать работу, при этом рабочий процесс не меняется.
Сложность небольшая. Процесс не меняется, и требования к качеству не такие высокие.
Экономический эффект: 0-40% стоимости работ. В редких кейсах получится сделать больше.
2. Human in the loop, или AI работает, человек контролирует
Здесь рабочий процесс значимо меняется. Работу уже делает AI, человек подключается когда AI сомневается или нужно принять финальный результат. Важно, что ответственность лежит на человеке.
Реализовать довольно сложно, основные барьеры — построить заново рабочий процесс и сделать достаточно высокое качество работы AI.
Экономический эффект: варьируется и может быть выше 90% человеческой стоимости работ. Недооцененный уровень: многие пытаются сразу сделать полную автоматизацию, а это в разы сложнее.
3. Full Automation
Здесь человека в контуре нет. Это важно, ответственность полностью переходит на робота и это принципиальный момент доверия к системе и ответа на вопрос "кто виноват".
Рабочий процесс похож на процесс из пункта 2, но нет проверок. Вместо него создается контур проверки качества - например, каждый десятый результат в фоне проверяет человек.
Экономический эффект здесь максимальный. Сделать очень сложно, основной барьер - качество выполнения работ с помощью AI.
Большая часть автоматизации цифровых работ сейчас находится на нулевом и первом уровне. Основной фактор - сложно добиться качества работы AI-систем при текущем уровне моделей и технологий.
Но через 10 лет я бы ожидал значимых сдвигов вверх по уровням по всем цифровым работам которые делает человек.
Курьеры пока что могут спать спокойно, там сложно и дороговато получается :)
🔥28❤14
Unbiased vs biased модели
Маск активно продает что Grok направлен на истину в отличие от других моделей. Называет он это anti-woke.
Действительно, Grok вроде бы меньше прогибается под "общепринятое мнение" и вообще от мнения отказывается. В полярных вопросах про аборты, однополые браки и смертную казнь мне не удалось выбить из него мнения. Он ссылается на разницу культур и норм.
Задача довольно сложная, так как истины, как известно, нет. В разных культурах один и тот же вопрос имеет разный ответ и не всегда прикроешься "в разных странах бла бла". Например, права женщин Grok считает равными правам мужчин, но это не во всех странах так, к сожалению.
Зависит это не только от постановки задачи, но и от количества и перекоса исходных данных. В интернете мало текстов из Северной Кореи.
Самый интересный дискурс для меня это будут ли базовые модели разные для разных стран или все-таки возможна гибкая базовая модель которую потом уже страны могут файнтюнить под свои культурные, политические и пропагандистские задачи. От этого многое зависит в технологической архитектуре будущего.
Маск активно продает что Grok направлен на истину в отличие от других моделей. Называет он это anti-woke.
Действительно, Grok вроде бы меньше прогибается под "общепринятое мнение" и вообще от мнения отказывается. В полярных вопросах про аборты, однополые браки и смертную казнь мне не удалось выбить из него мнения. Он ссылается на разницу культур и норм.
Задача довольно сложная, так как истины, как известно, нет. В разных культурах один и тот же вопрос имеет разный ответ и не всегда прикроешься "в разных странах бла бла". Например, права женщин Grok считает равными правам мужчин, но это не во всех странах так, к сожалению.
Зависит это не только от постановки задачи, но и от количества и перекоса исходных данных. В интернете мало текстов из Северной Кореи.
Самый интересный дискурс для меня это будут ли базовые модели разные для разных стран или все-таки возможна гибкая базовая модель которую потом уже страны могут файнтюнить под свои культурные, политические и пропагандистские задачи. От этого многое зависит в технологической архитектуре будущего.
4❤24🔥11🤔1
xAI купил X
Очень интересный мув
Данные
100+ TB твитов - это много. Это в ~200 раз больше чем вся Википедия, и сравнимо с месяцем дампа интернета (common crawl 200-300 TB/month zipped). А ещё это в два раза больше токенов чем было в обучении DeepSeek-V3.
Твиты это данные сомнительной интеллектуальной ценности )
Но явно лучше чем в среднем интернет.
Со стороны может казаться что твиты можно просто скачать. По факту это сложновато сделать, данные X защищены жесткими копирайтами. Особенно тяжело это для ребят вроде OpenAI которые сидят в соседнем здании и у всех на виду.
В дополнение к архивам это даёт доступ к срезу текущего контекста человечества практически в реальном времени. Зачем - непонятно, но интересно.
Объединенный продукт
Ждите Grok во всех дырках )
Он уже на главной, и ещё его можно тэгать с просьбой объяснить пост.
Неправильно это рассматривать как просто дистрибуцию Grok. Это создание единого продукта, где соцсеть пронизана генеративным интеллектом. Такое сложно делать без объединения компаний.
Например, Grok может сам создавать контент. Он уже встроен в создание постов. И страшно даже представить сколько в X полностью автоматических LLM-based аккаунтов. Это нельзя победить, можно только возглавить.
Интересно, что не только Илон Маск думает о таких мувах. Perplexity уже какое-то время пытается купить TikTok и написал про это интересную статью.
Очень интересный мув
Данные
100+ TB твитов - это много. Это в ~200 раз больше чем вся Википедия, и сравнимо с месяцем дампа интернета (common crawl 200-300 TB/month zipped). А ещё это в два раза больше токенов чем было в обучении DeepSeek-V3.
Твиты это данные сомнительной интеллектуальной ценности )
Но явно лучше чем в среднем интернет.
Со стороны может казаться что твиты можно просто скачать. По факту это сложновато сделать, данные X защищены жесткими копирайтами. Особенно тяжело это для ребят вроде OpenAI которые сидят в соседнем здании и у всех на виду.
В дополнение к архивам это даёт доступ к срезу текущего контекста человечества практически в реальном времени. Зачем - непонятно, но интересно.
Объединенный продукт
Ждите Grok во всех дырках )
Он уже на главной, и ещё его можно тэгать с просьбой объяснить пост.
Неправильно это рассматривать как просто дистрибуцию Grok. Это создание единого продукта, где соцсеть пронизана генеративным интеллектом. Такое сложно делать без объединения компаний.
Например, Grok может сам создавать контент. Он уже встроен в создание постов. И страшно даже представить сколько в X полностью автоматических LLM-based аккаунтов. Это нельзя победить, можно только возглавить.
Интересно, что не только Илон Маск думает о таких мувах. Perplexity уже какое-то время пытается купить TikTok и написал про это интересную статью.
❤16🔥9
Forwarded from Карты, деньги и продукт (Аня Подображных)
Приветики всем любителям кеков и приколов от нейросеток ✌🏽
С вами снова Ксюша, продакт детского AI-ассистента.
Недавно мы запустили в Джуниор-ассистенте генерацию картинок по тексту, и этот опыт был тоталли анфоргетбл.
Несколько вводных:
- Дети супер вовлечены во все, что связано с AI. Около половины наших пользователей ответили в опросе, что часто заходят просто поболтать и задать вопросы
- Мировые тренды (Character.ai, Replica и тд) показывают, что активность детей с AI-продуктами сильно растет, а возвращаемость бешеная. У того же Character.ai 200М визитов в месяц при ~20М пользователей. Современные дети взрослеют сильно раньше, чем наше поколение: если мы в 10 лет играли в куклы и машинки, то они разбираются в инвестициях и лучше взрослых знают, откуда берутся дети
Опираясь на это, мы тоже решили похайпить и прикрутили нашу внутреннюю модель для генерации картинок — TFusion.
Поначалу все казалось очень простым и понятным: даешь детям генерацию картинок по тексту, они просят сгенерировать мам, пап, кошечек, собачек, а если попросят нарисовать дикпик, мы просто это отловим еще на этапе текста — и вот он успех!
Но когда мы начали тестировать весь процесс end-to-end, поняли, что нам предстоит новый раунд работы с безопасностью, тк генерация картинок ооочень отличается от генерации текста, и правила модерации там совсем другие.
Кейс 1: "Большой черный петух"
Многие модели (и наша в том числе) работает с генерацией картинок по тексту так, что изначальный запрос пользователя переводится на английский и только потом идет в генерацию.
Вопрос нэйтив спикерам: как вы думаете, как перевелся большой черный петух? А маленькие синицы?
Честно говоря, мы вычислили это абсолютно случайно. А за то, чтобы нагенерить еще похожих кейсов, меня чуть не забанил OpenAI.
Решили проблему довольно просто — добавили к модерации запросов пользователя еще и модерацию перевода на английский.
Кейс 2: "Нарисуй маму"
Вроде как с опасными запросами все понятно — прикручиваем максимальное количество проверок. Но как быть, если модель по запросу "нарисуй маму" отдает картинку кормящей женщины топлесс в трусах с надписью "mom"?
Тут в игру вступает модерация картинок. И здесь нам пришлось писать целый список небезопасных тематик и людей (туда даже входит Саша Грей и Лысый из Браззерс), ориентируясь на которые, модель выдает процент совпадения.
Кейс 3: "Нарисуй что-нибудь необычное"
Особенность работы с генерацией картинок в том, что чем больше контекста положишь в запрос на генерацию, тем детальнее, красочнее и точнее будет картинка. Поэтому для тех, кто немногословен в своих запросах, существует такая штука, как обогащение запроса пользователя.
Мы выбрали одну из таких оберток запросов, которая включала в себя что-то вроде "cinematic, photo on canon 35mm". И как только начались запросы формата "хочу что-то интересное", "нарисуй сусеки", модель с завидным постоянством выдавала разного рода фотоаппараты и камеры 🫠
Решили тем, что доправили эту обертку, но командный мем уже прижился)
Подытожить хочется рубрикой «Что чаще всего рисуют дети»:
- майнкрафт
- кошечки/собачки
- капибары
- тачки
- аниме персонажи
- и, внимание, какашки 💩
На этом все! А примеры генераций в комментах, велком ✨
С вами снова Ксюша, продакт детского AI-ассистента.
Недавно мы запустили в Джуниор-ассистенте генерацию картинок по тексту, и этот опыт был тоталли анфоргетбл.
Несколько вводных:
- Дети супер вовлечены во все, что связано с AI. Около половины наших пользователей ответили в опросе, что часто заходят просто поболтать и задать вопросы
- Мировые тренды (Character.ai, Replica и тд) показывают, что активность детей с AI-продуктами сильно растет, а возвращаемость бешеная. У того же Character.ai 200М визитов в месяц при ~20М пользователей. Современные дети взрослеют сильно раньше, чем наше поколение: если мы в 10 лет играли в куклы и машинки, то они разбираются в инвестициях и лучше взрослых знают, откуда берутся дети
Опираясь на это, мы тоже решили похайпить и прикрутили нашу внутреннюю модель для генерации картинок — TFusion.
Поначалу все казалось очень простым и понятным: даешь детям генерацию картинок по тексту, они просят сгенерировать мам, пап, кошечек, собачек, а если попросят нарисовать дикпик, мы просто это отловим еще на этапе текста — и вот он успех!
Но когда мы начали тестировать весь процесс end-to-end, поняли, что нам предстоит новый раунд работы с безопасностью, тк генерация картинок ооочень отличается от генерации текста, и правила модерации там совсем другие.
Кейс 1: "Большой черный петух"
Многие модели (и наша в том числе) работает с генерацией картинок по тексту так, что изначальный запрос пользователя переводится на английский и только потом идет в генерацию.
Вопрос нэйтив спикерам: как вы думаете, как перевелся большой черный петух? А маленькие синицы?
Честно говоря, мы вычислили это абсолютно случайно. А за то, чтобы нагенерить еще похожих кейсов, меня чуть не забанил OpenAI.
Решили проблему довольно просто — добавили к модерации запросов пользователя еще и модерацию перевода на английский.
Кейс 2: "Нарисуй маму"
Вроде как с опасными запросами все понятно — прикручиваем максимальное количество проверок. Но как быть, если модель по запросу "нарисуй маму" отдает картинку кормящей женщины топлесс в трусах с надписью "mom"?
Тут в игру вступает модерация картинок. И здесь нам пришлось писать целый список небезопасных тематик и людей (туда даже входит Саша Грей и Лысый из Браззерс), ориентируясь на которые, модель выдает процент совпадения.
Кейс 3: "Нарисуй что-нибудь необычное"
Особенность работы с генерацией картинок в том, что чем больше контекста положишь в запрос на генерацию, тем детальнее, красочнее и точнее будет картинка. Поэтому для тех, кто немногословен в своих запросах, существует такая штука, как обогащение запроса пользователя.
Мы выбрали одну из таких оберток запросов, которая включала в себя что-то вроде "cinematic, photo on canon 35mm". И как только начались запросы формата "хочу что-то интересное", "нарисуй сусеки", модель с завидным постоянством выдавала разного рода фотоаппараты и камеры 🫠
Решили тем, что доправили эту обертку, но командный мем уже прижился)
Подытожить хочется рубрикой «Что чаще всего рисуют дети»:
- майнкрафт
- кошечки/собачки
- капибары
- тачки
- аниме персонажи
- и, внимание, какашки 💩
На этом все! А примеры генераций в комментах, велком ✨
❤41🔥12
Карты, деньги и продукт
Приветики всем любителям кеков и приколов от нейросеток ✌🏽 С вами снова Ксюша, продакт детского AI-ассистента. Недавно мы запустили в Джуниор-ассистенте генерацию картинок по тексту, и этот опыт был тоталли анфоргетбл. Несколько вводных: - Дети супер вовлечены…
👆как мы делаем детского ассистента с большими черными петухами
❤14
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатил A2A - протокол для взаимодействия AI-агентов
Google выкатили интересный протокол для общения агентов. Посмотрите демо-видео, красивый пример как агент-клиент использует другие агенты в своей работе через A2A.
По бумажке, A2A дополняет MCP от Anthropic: A2A для agent-agent, MCP для agent-tool/agent-data. В документации они даже написали отдельный раздел A2A ❤️ MCP. На самом деле, MCP позволяет общаться и с агентами тоже, так что определенное перекрытие и конкуренция здесь есть.
В инженерной жизни вокруг LLM нам пригодятся сильные единые протоколы, так что хорошо что крупные компании их делают. LLM-миру нужен свой USB-C. Пока что, правда, получается USB-1 и USB-2 )
Google выкатили интересный протокол для общения агентов. Посмотрите демо-видео, красивый пример как агент-клиент использует другие агенты в своей работе через A2A.
По бумажке, A2A дополняет MCP от Anthropic: A2A для agent-agent, MCP для agent-tool/agent-data. В документации они даже написали отдельный раздел A2A ❤️ MCP. На самом деле, MCP позволяет общаться и с агентами тоже, так что определенное перекрытие и конкуренция здесь есть.
В инженерной жизни вокруг LLM нам пригодятся сильные единые протоколы, так что хорошо что крупные компании их делают. LLM-миру нужен свой USB-C. Пока что, правда, получается USB-1 и USB-2 )
❤15🔥6
Forwarded from Записки C3PO
Немного новостей!
В начале года я покинул Юду. Провел там почти 6.5 лет – целая эпоха! Пришел когда-то заниматься данными (Head of Data Science), потом рулил продуктом (CPO), был GM, а в прошлом году немного побыл даже и.о. CEO. Безмерно благодарен компании за рост, крутой опыт и возможность его получать! И лично Денису Кутергину за проявленное доверие, ибо без него этого всего бы не было 💪.
Но настало время двигаться дальше к новым вызовам! Теперь я в AI центре Т-Банка работаю директором по продукту в команде Вити Тарнавского. Делаем пользовательские продукты вокруг LLM, агентов и прочего ИИ добра, конвертируя современные достижения в вэлью для людей 🤖.
В последние пару лет много игрался с AI, пробовал всякое и использовал в работе. Наверное, это стало моим основным хобби. А теперь это и моя работа! Что может быть лучше?
В своё время мне удалось запрыгнуть в один из первых составов хайп-трейна дата сатанизма, поэтому не мог пропустить новую волну в AI. Считаю важным для себя быть там, где создаётся что-то новое и полезное, а мои навыки могут быть максимально полезны. Пришло время объединить мои продуктовую, техническую и ML экспертизы!
Заодно хочу рассказать, что у нас в AI центре много вакансий.
В команду Поиска ищем:
- Product Manager
- Lead Product Analyst
В команду "Умной Операционки" Даниэля:
- Lead Product Manager
- Product Manager
- Machine Learning Engineer
В команду "ML Platform" Жени Харитонюк:
- Lead Technical Product Manager в LLM Platform
- Lead Product Manager в CV Platform
- Lead Product Manager в Copilots Team
У нас очень крутая и драйвовая команда, частью которой вы можете стать! И мы делаем офигенские продукты, про которые обязательно буду писать! А в будущем их будет только больше😐
В начале года я покинул Юду. Провел там почти 6.5 лет – целая эпоха! Пришел когда-то заниматься данными (Head of Data Science), потом рулил продуктом (CPO), был GM, а в прошлом году немного побыл даже и.о. CEO. Безмерно благодарен компании за рост, крутой опыт и возможность его получать! И лично Денису Кутергину за проявленное доверие, ибо без него этого всего бы не было 💪.
Но настало время двигаться дальше к новым вызовам! Теперь я в AI центре Т-Банка работаю директором по продукту в команде Вити Тарнавского. Делаем пользовательские продукты вокруг LLM, агентов и прочего ИИ добра, конвертируя современные достижения в вэлью для людей 🤖.
В последние пару лет много игрался с AI, пробовал всякое и использовал в работе. Наверное, это стало моим основным хобби. А теперь это и моя работа! Что может быть лучше?
В своё время мне удалось запрыгнуть в один из первых составов хайп-трейна дата сатанизма, поэтому не мог пропустить новую волну в AI. Считаю важным для себя быть там, где создаётся что-то новое и полезное, а мои навыки могут быть максимально полезны. Пришло время объединить мои продуктовую, техническую и ML экспертизы!
Заодно хочу рассказать, что у нас в AI центре много вакансий.
В команду Поиска ищем:
- Product Manager
- Lead Product Analyst
В команду "Умной Операционки" Даниэля:
- Lead Product Manager
- Product Manager
- Machine Learning Engineer
В команду "ML Platform" Жени Харитонюк:
- Lead Technical Product Manager в LLM Platform
- Lead Product Manager в CV Platform
- Lead Product Manager в Copilots Team
У нас очень крутая и драйвовая команда, частью которой вы можете стать! И мы делаем офигенские продукты, про которые обязательно буду писать! А в будущем их будет только больше
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥50❤15💅6
Forwarded from Denis Sexy IT 🤖
У OpenAI вышел классный гайд для бизнеса, на тему того как внедрять GenAI в бизнесс процессы:
https://openai.com/business/guides-and-resources/
Внутри 3 части:
– АИ на предприятии: Опыт семи передовых компаний
– Практическое руководство по созданию агентов ИИ: Что агенты АИ могут сделать для ваших сотрудников?
– Определение и масштабирование сценариев применения АИ: На чём концентрируются компании, первыми внедрившие АИ
Я полистал и там внутри много вещей на которых лично я набивал шишки в практике с GenAI, очень рекомендую корпоративным менеджерам
https://openai.com/business/guides-and-resources/
Внутри 3 части:
– АИ на предприятии: Опыт семи передовых компаний
– Практическое руководство по созданию агентов ИИ: Что агенты АИ могут сделать для ваших сотрудников?
– Определение и масштабирование сценариев применения АИ: На чём концентрируются компании, первыми внедрившие АИ
Я полистал и там внутри много вещей на которых лично я набивал шишки в практике с GenAI, очень рекомендую корпоративным менеджерам
Openai
OpenAI Learning Hub: AI Guides, Tutorials & Resources
Explore OpenAI’s expert content designed for business. Featuring in-depth resources to accelerate AI adoption for startups, enterprises, and developers.
🔥23❤3
You don't clone greatness. You build it 🌟
Perplexity повесили ну очень наглую наружку напротив офиса Яндекса в Белграде 😅 респект за наглость
Perplexity повесили ну очень наглую наружку напротив офиса Яндекса в Белграде 😅 респект за наглость
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90🤡18🥱4❤3