Пока новый фотошоп от OpenAI продолжают раскатывать на юзеров, примеры его работы можно посмотреть здесь: openai.com/index/introducing-4o-image-generation/
Как видите, в примерах из блогпоста у модели все более чем нормально с текстом, его написанием / заменой / обработкой на картинках. Также поддерживает изменение ratio, и инструкциям следует просто отлично. Может даже сгенерировать картинку по коду. Ну и реализм в генерациях фото на высоте.
В общем, наслаждаемся черипиками и надеемся, что на тестах пользователей все будет также сказочно (фри юзерам тоже будет доступно)
Как видите, в примерах из блогпоста у модели все более чем нормально с текстом, его написанием / заменой / обработкой на картинках. Также поддерживает изменение ratio, и инструкциям следует просто отлично. Может даже сгенерировать картинку по коду. Ну и реализм в генерациях фото на высоте.
В общем, наслаждаемся черипиками и надеемся, что на тестах пользователей все будет также сказочно (фри юзерам тоже будет доступно)
👍78🔥42❤22
Генерация изображений побеждена?
Фотошоп и нативную генерацию картинок 4o закончили раскатывать на Pro, Plus и Team (Free еще продолжают), и первые юзеры в восторге от модели. Она справляется буквально с любой задачей, примеры наверху 👆
И, самое интересное, что это не диффузия, а авторегрессия. Вот тех.отчет
Фотошоп и нативную генерацию картинок 4o закончили раскатывать на Pro, Plus и Team (Free еще продолжают), и первые юзеры в восторге от модели. Она справляется буквально с любой задачей, примеры наверху 👆
И, самое интересное, что это не диффузия, а авторегрессия. Вот тех.отчет
🔥116👍33❤20👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
AlphaXiv становится все прикольнее и прикольнее: теперь в него завезли анализ кодовой базы статьи
Представьте: вы читаете какую-то статью, у вас появляется вопрос и вы задаете его встроенному ассистенту. А тот, отвечая на него, анализирует не только текст статьи, но и репозиторий к ней (если такой имеется). Таким образом, ответы получаются более технически точными и без додумок, если в тексте что-то описано нечетко.
Также можно попросить бота объяснить кусочки кода или даже адаптировать его под ваш проект.
Итого, в AlphaXiv теперь есть: бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям, анализ кода и генератор конспектов 🍯
Представьте: вы читаете какую-то статью, у вас появляется вопрос и вы задаете его встроенному ассистенту. А тот, отвечая на него, анализирует не только текст статьи, но и репозиторий к ней (если такой имеется). Таким образом, ответы получаются более технически точными и без додумок, если в тексте что-то описано нечетко.
Также можно попросить бота объяснить кусочки кода или даже адаптировать его под ваш проект.
Итого, в AlphaXiv теперь есть: бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям, анализ кода и генератор конспектов 🍯
🔥167👍45🤯25❤12
Исследовали реализовали отдельный arxiv для агентов-исследователей
Проект называется AgentRxiv и его идея следующая: пусть агенты работают не сами по себе, а как люди делятся, изучают и совершенствуют исследования друг друга.
То есть по сути AgentRxiv – это опенсорсный фреймворк, который дает разным лабораториям возможность добавлять своих агентов на некую общую платформу шеринга, внутри которой те могут «обмениваться идеями».
Звучит занятно, и по первым тестам работает неплохо: в эксперименте с тремя разными лабами результаты агентов с такой коллаборацией улучшились на 13.7%. Это больше, чем при последовательном автономном самоулучшении.
Может скоро у агентов и конференции свои появятся?
Статья | Репа (лицензия MIT)
Проект называется AgentRxiv и его идея следующая: пусть агенты работают не сами по себе, а как люди делятся, изучают и совершенствуют исследования друг друга.
То есть по сути AgentRxiv – это опенсорсный фреймворк, который дает разным лабораториям возможность добавлять своих агентов на некую общую платформу шеринга, внутри которой те могут «обмениваться идеями».
Звучит занятно, и по первым тестам работает неплохо: в эксперименте с тремя разными лабами результаты агентов с такой коллаборацией улучшились на 13.7%. Это больше, чем при последовательном автономном самоулучшении.
Может скоро у агентов и конференции свои появятся?
Статья | Репа (лицензия MIT)
❤81🤯48👍28🔥21💯2🍓2😎2
Data Secrets
Робо-стартап Figure только что объявил, что отрывает завод по производству роботов Это та самая компания, которая в прошлом сотрудничала с OpenAI, а недавно выпустила крутого гуманоида Helix (пост). Так вот теперь, кажется, они готовы пускать свое творение…
Media is too big
VIEW IN TELEGRAM
Ура, наконец-то не походка Байдена: FigureAI рассказали, как они научили своего робота ходить по-человечески
Естественная ходьба для роботов – это не так просто, как кажется, потому что так намного сложнее контролировать равновесие и перенос веса по сравнению с ходьбой с согнутыми коленями на полной стопе (а именно так сейчас предвигаются почти все гуманоиды).
Но Figure запарились и теперь походка их роботов Helix действительно похожа на человеческую. И снова в основе всего обучения – RL и симуляция, но при этом переход Sim-to-Real в стартапе умудрились сделать в zero-shot, вообще без доп. тюнинга. То есть:
1. Собрали кучу данных (годы в реальной жизни)
2. Смоделировали все в высокоточной физической симуляции буквально за несколько часов
3. Обученные политики напрямую перебросили в реальные экшены робота
Кажется, Figure первые, кому удался такой трюк, и получилось это с помощью двух вещей:
(1) в симулятор добавляли вариативность среды, чтобы модель получилась устойчивой и умела обобщать навыки на разную физику;
(2) во время инференса очень часто и точно трекаются крутящие моменты двигателей. Идея в том, что чем чаще робот получает такой фидбэк, тем быстрее он может заметить и отреагировать на любые отклонения от планового движения.
Здорово, в общем. Напоминаем, что в 2025 Figure планируют запустить целый завод по производству роботов и начать тестировать их в настоящих домах.
Естественная ходьба для роботов – это не так просто, как кажется, потому что так намного сложнее контролировать равновесие и перенос веса по сравнению с ходьбой с согнутыми коленями на полной стопе (а именно так сейчас предвигаются почти все гуманоиды).
Но Figure запарились и теперь походка их роботов Helix действительно похожа на человеческую. И снова в основе всего обучения – RL и симуляция, но при этом переход Sim-to-Real в стартапе умудрились сделать в zero-shot, вообще без доп. тюнинга. То есть:
1. Собрали кучу данных (годы в реальной жизни)
2. Смоделировали все в высокоточной физической симуляции буквально за несколько часов
3. Обученные политики напрямую перебросили в реальные экшены робота
Кажется, Figure первые, кому удался такой трюк, и получилось это с помощью двух вещей:
(1) в симулятор добавляли вариативность среды, чтобы модель получилась устойчивой и умела обобщать навыки на разную физику;
(2) во время инференса очень часто и точно трекаются крутящие моменты двигателей. Идея в том, что чем чаще робот получает такой фидбэк, тем быстрее он может заметить и отреагировать на любые отклонения от планового движения.
Здорово, в общем. Напоминаем, что в 2025 Figure планируют запустить целый завод по производству роботов и начать тестировать их в настоящих домах.
🤯71👍44🔥22😁9❤7😍4❤🔥3🗿3
OpenAI начали встраивать MCP от Anthropic в свои продукты
Природа настолько очистилась Model Context Protocol от антропиков стал настолько популярным и так быстро оказался золотым стандартом, что даже OpenAI не устояли и объявили о том, что будут его использовать.
Сейчас они уже встроили MCP в библиотеку Agents SDK (пост о ней). То есть теперь при разработке агентов к ним можно прикручивать серверы MCP и тем самым расширять их скиллы.
Также обещают завести протокол в API и дескотопное приложение (вот это будет особенно круто).
Что такое MCP? Это открытый протокол, который стандартизирует то, как приложения/сайты/базы данных предоставляют контекст LLM. Раньше, чтобы ваша моделька "увидела" и могла постоянно использовать данные из внешнего источника (ну, например, гугл календаря), приходилось каждый раз плясать с бубном и реализовывать все с нуля.
А теперь есть MCP, и он работает как часы со всеми возможными локальными и удаленными источниками данных. Подробнее – в этом и этом постах.
Протокол крут и все его полюбили, потому что он (а) понятный и супер удобный и (б) достаточно безопасный. Смотрите сами: таких MCP уже наплодили миллион для абсолютно всего, вот здесь есть готовые на любой вкус.
Сейчас они уже встроили MCP в библиотеку Agents SDK (пост о ней). То есть теперь при разработке агентов к ним можно прикручивать серверы MCP и тем самым расширять их скиллы.
Также обещают завести протокол в API и дескотопное приложение (вот это будет особенно круто).
Что такое MCP? Это открытый протокол, который стандартизирует то, как приложения/сайты/базы данных предоставляют контекст LLM. Раньше, чтобы ваша моделька "увидела" и могла постоянно использовать данные из внешнего источника (ну, например, гугл календаря), приходилось каждый раз плясать с бубном и реализовывать все с нуля.
А теперь есть MCP, и он работает как часы со всеми возможными локальными и удаленными источниками данных. Подробнее – в этом и этом постах.
Протокол крут и все его полюбили, потому что он (а) понятный и супер удобный и (б) достаточно безопасный. Смотрите сами: таких MCP уже наплодили миллион для абсолютно всего, вот здесь есть готовые на любой вкус.
👍90🔥40❤20