This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ GPT-5 на Sudoku-Bench
Команда Sudoku-Bench обновила результаты тестов. Напомню, когда бенчмарк вышел в мае 2025, ни одна LLM вообще не могла решить обычную судоку 9×9.
Теперь ситуация изменилась: GPT-5 стал новым лидером и решает 33% задач - в два раза умнее ближайшего конкурента. Это первая модель, которой удалось пройти и вариант классической 9×9.
Но главная часть бенчмарка остаётся нерешённой: 67% более сложных головоломок по-прежнему оказываются слишком сложными. Причина в том, что современные модели плохо справляются с тем, что нужно для настоящей судоку: понимать новые правила, держать в голове глобальную структуру, строить длинные логические цепочки и находить "точку входа", которую опытные люди сразу замечают.
Дополнительные эксперименты - GRPO-тюнинг Qwen2.5-7B и Thought Cloning на примерах из Cracking the Cryptic - дали небольшой прогресс, но не решили ключевые проблемы: пространственное мышление и творческий подход всё ещё оказываются для моделей сложными.
Итог: прогресс заметный, но до уровня человеческого логического и пространственного мышления моделям ещё далеко.
Подробнее:
https://pub.sakana.ai/sudoku-gpt5/
Команда Sudoku-Bench обновила результаты тестов. Напомню, когда бенчмарк вышел в мае 2025, ни одна LLM вообще не могла решить обычную судоку 9×9.
Теперь ситуация изменилась: GPT-5 стал новым лидером и решает 33% задач - в два раза умнее ближайшего конкурента. Это первая модель, которой удалось пройти и вариант классической 9×9.
Но главная часть бенчмарка остаётся нерешённой: 67% более сложных головоломок по-прежнему оказываются слишком сложными. Причина в том, что современные модели плохо справляются с тем, что нужно для настоящей судоку: понимать новые правила, держать в голове глобальную структуру, строить длинные логические цепочки и находить "точку входа", которую опытные люди сразу замечают.
Дополнительные эксперименты - GRPO-тюнинг Qwen2.5-7B и Thought Cloning на примерах из Cracking the Cryptic - дали небольшой прогресс, но не решили ключевые проблемы: пространственное мышление и творческий подход всё ещё оказываются для моделей сложными.
Итог: прогресс заметный, но до уровня человеческого логического и пространственного мышления моделям ещё далеко.
Подробнее:
https://pub.sakana.ai/sudoku-gpt5/
Фей-Фей Ли, которую называют "крестной матерью ИИ", опубликовала в своем блоге трек дальнейшего развития ИИ, размышляя, почему следующий прорыв в области ИИ произойдет за счет пространственного интеллекта или систем, которые смогут понимать, рассуждать и создавать трехмерные, непротиворечивые законам физики миры.
Доктор Фэй-Фэй Ли — вице-президент Google, профессор Стэнфордского университета и со-основатель Стэнфордского Института человеко-центричного ИИ (HAI). Её деятельность оказала революционное влияние на развитие современных технологий.
Ли известна как «крёстная мать ИИ», этот статус она получила за создание в 2009 году базы данных ImageNet и одноимённого бенчмарка — масштабного набора данных для распознавания объектов, который стал катализатором прорыва в глубоком обучении и компьютерном зрении.
Ли пишет, что, хотя LLM и овладели абстрактными знаниями, им не хватает способности восприятия и действий в пространстве (например, оценивать расстояние и движение):
Сейчас основная задача - обучить ИИ физике реального мира, и она быстро набирает обороты: лаборатория под руководством Ли, Google и Tencent уже проектируют системы пространственного интеллекта.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Главные новости ИИ и Мл за день
✔️ ElevenLabs Scribe v2 Realtime: STT-модель с задержкой менее 150 мс.
ElevenLabs представила Scribe v2 Realtime, новую модель Speech-to-Text, разработанную для задач, требующих минимальной задержки: голосовых агентов, ассистентов для совещаний и создания субтитров в реальном времени. Система обрабатывает речь с задержкой менее 150 мс, поддерживает более 90 языков и демонстрирует точность 93.5% по 30 популярным языкам. Особое внимание уделено работе с аудиозаписями, содержащими фоновый шум.
Фишкой модели стала «отрицательная задержка» - функция предсказывания следующего слова и знака препинания. Также есть автоматическое определение языка, обнаружение голоса и полный контроль над фиксацией сегментов транскрипции. Сервис готов к корпоративному использованию (SOC 2, GDPR) и уже доступен через API.
elevenlabs.io
✔️ Backboard установила рекорд в тесте долговременной памяти для ИИ.
Платформа для ИИ-агентов Backboard достигла рекордного показателя в 90.1% в бенчмарке LoCoMo, предназначенном для оценки долговременной диалоговой памяти. Это лучше предыдущих показателей популярных библиотек, которые находились в диапазоне 67–69%.
LoCoMo тестирует способность системы запоминать, обновлять и извлекать факты о пользователе и контекст диалога на протяжении многих сессий. Высокий балл означает, что ассистенты будут лучше следовать инструкциям, реже переспрашивать и требовать более коротких промптов, что снижает расход токенов.
Backboard предоставляет API для долгосрочной памяти, мультимодельный API для роутинга между 2200+ LLM и RAG-слой. Все результаты теста воспроизводимы - скрипты, логи и промпты опубликованы на GitHub.
backboard.io
✔️ Две трети топовых ИИ-компаний допустили утечку секретов на GitHub.
Компания по облачной безопасности Wiz обнаружила, что 65% компаний из списка Forbes AI 50 допустили утечку API-ключей, токенов и других учетных данных на GitHub. По словам исследователей, это могло привести к раскрытию приватных моделей, данных обучения или внутренней структуры организаций.
Чаще всего секреты находили в файлах Jupyter Notebook и Python-скриптах. Среди утечек были токены Hugging Face, Azure и W&B. В одном из случаев скомпрометированный токен Hugging Face мог открыть доступ к тысяче приватных моделей.
Wiz публично назвала только ElevenLabs и LangChain, отметив их быструю реакцию. При этом почти половина всех уведомлений об утечках, отправленных другим компаниям, осталась без ответа.
wiz.io
✔️ Cloudflare запустила поддержку Python в сервисе Workflows.
Cloudflare объявила о поддержке Python в своем сервисе Workflows, предназначенном для создания и управления многоэтапными процессами на платформе Workers. Раньше инструмент был доступен только для TypeScript.
Новшество открывает сервис для сообщества Python-разработчиков, специализирующихся на AI/ML и обработке данных. В качестве примеров использования компания приводит оркестрацию конвейеров данных, обучение ML-моделей и создание сложных ИИ-агентов, архитектура которых упрощается за счет встроенной обработке ошибок и сохранению состояния. Технически часть реализована через Pyodide — порт CPython в WebAssembly.
blog.cloudflare.com
✔️ OpenAI тратит на Sora около 15 млн. долларов в день.
По оценкам аналитиков, затраты на видеогенератор Sora обходятся OpenAI в $15 млн. в день, что в годовом выражении превышает $5 млрд. Расчеты основаны на стоимости генерации одного 10-секундного ролика, которая составляет для компании около $1.3, и предполагаемом объеме в 11 млн. видео ежедневно. Несмотря на убыточность, OpenAI, вероятно, следует классической стратегии захвата рынка, стремясь сначала сформировать аудиторию, а уже потом искать пути монетизации. Бесплатный доступ также насыщает компанию огромным количеством данных для дальнейшего обучения моделей.
Впрочем, Сэм Альтман уже подтвердил, что компания планирует сокращать объемы бесплатной генерации. По его словам, ни одна рекламная модель не сможет покрыть расходы на создание «забавных мемов для трех друзей».
forbes.com
@ai_machinelearning_big_data
#news #ai #ml
ElevenLabs представила Scribe v2 Realtime, новую модель Speech-to-Text, разработанную для задач, требующих минимальной задержки: голосовых агентов, ассистентов для совещаний и создания субтитров в реальном времени. Система обрабатывает речь с задержкой менее 150 мс, поддерживает более 90 языков и демонстрирует точность 93.5% по 30 популярным языкам. Особое внимание уделено работе с аудиозаписями, содержащими фоновый шум.
Фишкой модели стала «отрицательная задержка» - функция предсказывания следующего слова и знака препинания. Также есть автоматическое определение языка, обнаружение голоса и полный контроль над фиксацией сегментов транскрипции. Сервис готов к корпоративному использованию (SOC 2, GDPR) и уже доступен через API.
elevenlabs.io
Платформа для ИИ-агентов Backboard достигла рекордного показателя в 90.1% в бенчмарке LoCoMo, предназначенном для оценки долговременной диалоговой памяти. Это лучше предыдущих показателей популярных библиотек, которые находились в диапазоне 67–69%.
LoCoMo тестирует способность системы запоминать, обновлять и извлекать факты о пользователе и контекст диалога на протяжении многих сессий. Высокий балл означает, что ассистенты будут лучше следовать инструкциям, реже переспрашивать и требовать более коротких промптов, что снижает расход токенов.
Backboard предоставляет API для долгосрочной памяти, мультимодельный API для роутинга между 2200+ LLM и RAG-слой. Все результаты теста воспроизводимы - скрипты, логи и промпты опубликованы на GitHub.
backboard.io
Компания по облачной безопасности Wiz обнаружила, что 65% компаний из списка Forbes AI 50 допустили утечку API-ключей, токенов и других учетных данных на GitHub. По словам исследователей, это могло привести к раскрытию приватных моделей, данных обучения или внутренней структуры организаций.
Чаще всего секреты находили в файлах Jupyter Notebook и Python-скриптах. Среди утечек были токены Hugging Face, Azure и W&B. В одном из случаев скомпрометированный токен Hugging Face мог открыть доступ к тысяче приватных моделей.
Wiz публично назвала только ElevenLabs и LangChain, отметив их быструю реакцию. При этом почти половина всех уведомлений об утечках, отправленных другим компаниям, осталась без ответа.
wiz.io
Cloudflare объявила о поддержке Python в своем сервисе Workflows, предназначенном для создания и управления многоэтапными процессами на платформе Workers. Раньше инструмент был доступен только для TypeScript.
Новшество открывает сервис для сообщества Python-разработчиков, специализирующихся на AI/ML и обработке данных. В качестве примеров использования компания приводит оркестрацию конвейеров данных, обучение ML-моделей и создание сложных ИИ-агентов, архитектура которых упрощается за счет встроенной обработке ошибок и сохранению состояния. Технически часть реализована через Pyodide — порт CPython в WebAssembly.
blog.cloudflare.com
По оценкам аналитиков, затраты на видеогенератор Sora обходятся OpenAI в $15 млн. в день, что в годовом выражении превышает $5 млрд. Расчеты основаны на стоимости генерации одного 10-секундного ролика, которая составляет для компании около $1.3, и предполагаемом объеме в 11 млн. видео ежедневно. Несмотря на убыточность, OpenAI, вероятно, следует классической стратегии захвата рынка, стремясь сначала сформировать аудиторию, а уже потом искать пути монетизации. Бесплатный доступ также насыщает компанию огромным количеством данных для дальнейшего обучения моделей.
Впрочем, Сэм Альтман уже подтвердил, что компания планирует сокращать объемы бесплатной генерации. По его словам, ни одна рекламная модель не сможет покрыть расходы на создание «забавных мемов для трех друзей».
forbes.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
ElevenLabs
Introducing Scribe v2 Realtime
💰Anthropic впервые строят собственную инфраструктуру
Компания объявила о масштабных инвестициях в строительство дата-центров в Техасе и Нью-Йорке совместно с Fluidstack. Это объекты, оптимизированные под задачи Anthropic - максимально энергоэффективные и рассчитанные на развитие передовых моделей Claude.
Проект создаст около 800 постоянных рабочих мест и 2 400 рабочих на этапе строительства, запуск ожидается в течение 2026 года. Инициатива поддерживает AI Action Plan администрации США, направленный на укрепление лидерства страны в сфере искусственного интеллекта.
CEO Anthropic Дарио Амодеи отметил, что инфраструктура - ключ к следующему этапу прогресса: созданию ИИ, способного ускорять научные открытия и решать сложные задачи.
Сейчас Anthropic обслуживает более 300 000 бизнес-клиентов, а число крупных контрактов (от 100 000 $ в год) выросло почти в 7 раз за год.
Fluidstack выбрана за способность быстро вводить в эксплуатацию гигаваттные мощности. Партнёры обещают гибкое и эффективное развертывание, обеспечивающее устойчивый рост Anthropic без перегрузки по затратам.
Anthropic закладывает фундамент для долгосрочного доминирования в сфере ИИ, делая ставку на собственную вычислительную базу в США и поддержку национальной технологической независимости.
https://www.anthropic.com/news/anthropic-invests-50-billion-in-american-ai-infrastructure
@ai_machinelearning_big_data
#Anthropic #claude
Компания объявила о масштабных инвестициях в строительство дата-центров в Техасе и Нью-Йорке совместно с Fluidstack. Это объекты, оптимизированные под задачи Anthropic - максимально энергоэффективные и рассчитанные на развитие передовых моделей Claude.
Проект создаст около 800 постоянных рабочих мест и 2 400 рабочих на этапе строительства, запуск ожидается в течение 2026 года. Инициатива поддерживает AI Action Plan администрации США, направленный на укрепление лидерства страны в сфере искусственного интеллекта.
CEO Anthropic Дарио Амодеи отметил, что инфраструктура - ключ к следующему этапу прогресса: созданию ИИ, способного ускорять научные открытия и решать сложные задачи.
Сейчас Anthropic обслуживает более 300 000 бизнес-клиентов, а число крупных контрактов (от 100 000 $ в год) выросло почти в 7 раз за год.
Fluidstack выбрана за способность быстро вводить в эксплуатацию гигаваттные мощности. Партнёры обещают гибкое и эффективное развертывание, обеспечивающее устойчивый рост Anthropic без перегрузки по затратам.
Anthropic закладывает фундамент для долгосрочного доминирования в сфере ИИ, делая ставку на собственную вычислительную базу в США и поддержку национальной технологической независимости.
https://www.anthropic.com/news/anthropic-invests-50-billion-in-american-ai-infrastructure
@ai_machinelearning_big_data
#Anthropic #claude
OpenAI выпустила GPT-5.1, сделав основной упор на интеллект и качество диалога.
Вместе с моделями OpenAI расширила возможности кастомизации тона ответов, добавив новые стили: «Профессиональный», «Откровенный» и «Необычный».
Обновление уже раскатывают на платных подписчиков, а доступ через API появится в ближайшие дни. Предыдущие версии GPT-5 останутся доступны в течение трех месяцев.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Прогресс уже кажется безумным… и самое важное происходит именно в биологии и медицине.
Учёные из Университета Нотр-Дам сделали прорыв, который меняет то, как мы изучаем химию жизни.
Они создали вычислительный инструмент, который за несколько дней может проанализировать сотни белков и предсказать, как изменение pH влияет на их форму и поведение. Раньше на поиск всего одного pH-чувствительного белка уходили годы.
Новая система нашла важные «переключатели» в онкологических белках, таких как Src и SHP2, и показала: едва заметное изменение pH может переводить их из неактивного состояния в гиперактивное - а это запускает рост клеток, деление и развитие болезней.
Если научиться точно контролировать эти молекулярные «pH-переключатели», можно создавать лекарства, которые исправляют неправильную работу конкретных белков, не затрагивая здоровые.
То, что требовало десятилетий лабораторных экспериментов, теперь происходит за дни благодаря вычислениям.
Эра биологии, ускоренной ИИ, уже началась.
https://phys.org/news/2025-11-condense-decades-disease-biology-days.html
Учёные из Университета Нотр-Дам сделали прорыв, который меняет то, как мы изучаем химию жизни.
Они создали вычислительный инструмент, который за несколько дней может проанализировать сотни белков и предсказать, как изменение pH влияет на их форму и поведение. Раньше на поиск всего одного pH-чувствительного белка уходили годы.
Новая система нашла важные «переключатели» в онкологических белках, таких как Src и SHP2, и показала: едва заметное изменение pH может переводить их из неактивного состояния в гиперактивное - а это запускает рост клеток, деление и развитие болезней.
Если научиться точно контролировать эти молекулярные «pH-переключатели», можно создавать лекарства, которые исправляют неправильную работу конкретных белков, не затрагивая здоровые.
То, что требовало десятилетий лабораторных экспериментов, теперь происходит за дни благодаря вычислениям.
Эра биологии, ускоренной ИИ, уже началась.
https://phys.org/news/2025-11-condense-decades-disease-biology-days.html
🧠 Большой шаг к AGI.
MIT представили подход SEAL - метод, который позволяет языковым моделям самостоятельно обновлять свои знания и «вписывать» новую информацию прямо во внутренние веса.
Вместо статичной модели после релиза появляется система, которая:
- пишет свои «учебные конспекты»,
- генерирует несколько вариантов объяснений,
- тестирует себя,
- выбирает лучший результат,
- и обновляет себя же, закрепляя новое знание.
Фактически модель саморедактируется и самообучается, как студент, который улучшает понимание через пробу и ошибки.
Первые результаты впечатляют:
- +15% точности в QA-задачах
- +50% успеха в освоении новых навыков
- маленькая модель превосходит крупные LLM
Проблема катастрофического забывания ещё есть, но прогресс быстрый.
Это выглядит как первый реальный шаг к непрерывно обучающимся AI-агентам, которые могут адаптироваться, эволюционировать и работать вместе.
https://news.mit.edu/2025/teaching-large-language-models-to-absorb-new-knowledge-1112
MIT представили подход SEAL - метод, который позволяет языковым моделям самостоятельно обновлять свои знания и «вписывать» новую информацию прямо во внутренние веса.
Вместо статичной модели после релиза появляется система, которая:
- пишет свои «учебные конспекты»,
- генерирует несколько вариантов объяснений,
- тестирует себя,
- выбирает лучший результат,
- и обновляет себя же, закрепляя новое знание.
Фактически модель саморедактируется и самообучается, как студент, который улучшает понимание через пробу и ошибки.
Первые результаты впечатляют:
- +15% точности в QA-задачах
- +50% успеха в освоении новых навыков
- маленькая модель превосходит крупные LLM
Проблема катастрофического забывания ещё есть, но прогресс быстрый.
Это выглядит как первый реальный шаг к непрерывно обучающимся AI-агентам, которые могут адаптироваться, эволюционировать и работать вместе.
https://news.mit.edu/2025/teaching-large-language-models-to-absorb-new-knowledge-1112
Оценки компаний становятся просто невероятными.
Mira Murati ведёт ранние переговоры о новом раунде инвестиций - по оценке около $50 млрд. Это в 4 раза больше, чем всего четыре месяца назад.
В июле её стартап уже объявил один из крупнейших сид-раундов в истории, привлекая $2 млрд при оценке $12 млрд.
Теперь разговор идёт о пятидесяти.
Безумие.
https://www.bloomberg.com/news/articles/2025-11-13/murati-s-thinking-machines-in-funding-talks-at-50-billion-value
Mira Murati ведёт ранние переговоры о новом раунде инвестиций - по оценке около $50 млрд. Это в 4 раза больше, чем всего четыре месяца назад.
В июле её стартап уже объявил один из крупнейших сид-раундов в истории, привлекая $2 млрд при оценке $12 млрд.
Теперь разговор идёт о пятидесяти.
Безумие.
https://www.bloomberg.com/news/articles/2025-11-13/murati-s-thinking-machines-in-funding-talks-at-50-billion-value
Media is too big
VIEW IN TELEGRAM
🚀 DeepMind представила SIMA 2 - интеллектуального агента, который умеет играть, рассуждать и учиться вместе с человеком в виртуальных 3D-мирах.
Что нового:
- SIMA 2 основан на модели Gemini, поэтому агент не просто выполняет команды, а понимает цели, объясняет свои действия и анализирует ошибки.
- Работает в разных игровых средах, включая те, на которых не обучался — то есть хорошо обобщает опыт.
- Учит себя сам: после стартовых демонстраций улучшает навыки через самостоятельную игру и самооценку.
Это шаг к более универсальным агентам, которые взаимодействуют с окружением почти как человек.
Развитые функции рассуждения и самообучения приближают такие системы к более общему интеллекту.
Игровые миры - отличная тестовая площадка для сложных навыков восприятия, планирования и действий перед переносом в реальный мир.
Ограничения:
- Агент всё ещё ошибается в задачах с длинной логикой, ограниченной памятью и сложными визуальными взаимодействиями.
- Проект остаётся исследовательским, доступ пока ограничен.
SIMA 2 показывает, как можно объединить язык, рассуждение и действие в сложных виртуальных средах - и формирует основу для будущих самообучающихся AI-агентов.
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds
Что нового:
- SIMA 2 основан на модели Gemini, поэтому агент не просто выполняет команды, а понимает цели, объясняет свои действия и анализирует ошибки.
- Работает в разных игровых средах, включая те, на которых не обучался — то есть хорошо обобщает опыт.
- Учит себя сам: после стартовых демонстраций улучшает навыки через самостоятельную игру и самооценку.
Это шаг к более универсальным агентам, которые взаимодействуют с окружением почти как человек.
Развитые функции рассуждения и самообучения приближают такие системы к более общему интеллекту.
Игровые миры - отличная тестовая площадка для сложных навыков восприятия, планирования и действий перед переносом в реальный мир.
Ограничения:
- Агент всё ещё ошибается в задачах с длинной логикой, ограниченной памятью и сложными визуальными взаимодействиями.
- Проект остаётся исследовательским, доступ пока ограничен.
SIMA 2 показывает, как можно объединить язык, рассуждение и действие в сложных виртуальных средах - и формирует основу для будущих самообучающихся AI-агентов.
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds
🚀 Qwen выпустила DeepResearch 2511 - обновление глубокого исследования.
Основные изменения:
✨ Добавлены два режима работы д
- Normal - быстрый и универсальный
- Advanced - тратит больше времени на анализ, чтобы дать максимально глубокий разбор
📄 Поддержка загрузки файлов
Теперь можно отправлять документы и изображения прямо в модель для анализа.
⚡ Улучшенный поиск
Обновлённый механизм быстрее считывает и обрабатывает веб-информацию, углубляя результаты исследования.
📊 Точный контроль отчётов
Можно задавать структуру отчёта: объём, количество абзацев, формат и детализацию. Улучшена надёжность цитирования.
🧑💻 Новый UX
Переработанная архитектура делает интерфейс заметно быстрее и отзывчивее.
🔗 Web: https://chat.qwen.ai/?inputFeature=deep_research
📱 App: https://qwen.ai/download
@ai_machinelearning_big_data
#qwen
Основные изменения:
✨ Добавлены два режима работы д
- Normal - быстрый и универсальный
- Advanced - тратит больше времени на анализ, чтобы дать максимально глубокий разбор
📄 Поддержка загрузки файлов
Теперь можно отправлять документы и изображения прямо в модель для анализа.
⚡ Улучшенный поиск
Обновлённый механизм быстрее считывает и обрабатывает веб-информацию, углубляя результаты исследования.
📊 Точный контроль отчётов
Можно задавать структуру отчёта: объём, количество абзацев, формат и детализацию. Улучшена надёжность цитирования.
🧑💻 Новый UX
Переработанная архитектура делает интерфейс заметно быстрее и отзывчивее.
🔗 Web: https://chat.qwen.ai/?inputFeature=deep_research
📱 App: https://qwen.ai/download
@ai_machinelearning_big_data
#qwen
🧠 Почему у моделей пропадает «рандомность» во время RL-обучения - и как это чинится
Новая работа разбирает, почему у моделей во время RL для reasoning рушится энтропия (то есть исчезает разнообразие ответов) - и что с этим делать.
Главные выводы:
- 📉 Хорошего набора в ~600 задач хватает, чтобы догнать обучение на 17 000.
Ключ - разнообразие, а не размер датасета.
- 🎯 Reward сужает модель.
При обучении она начинает повторять несколько самых “прибыльных” токенов → энтропия падает → исследование ухудшается.
- 🔄 Меньше энтропии → меньше разнообразия, но измеренная энтропия по промптам почти не коррелирует с точностью.
- ⚙️ Адаптивный энтропийный регуляризатор удерживает «случайность» на целевом уровне, при этом точность продолжает расти.
- 🧪 Off-policy обновления усиливают коллапс, поднимают reward и ломают обобщение — классический overfitting.
- 🧩 Низкое разнообразие данных ускоряет коллапс, но маленький *разнообразный* датасет иногда работает так же хорошо, как полный.
- 🔧 Клиппинг и reweighting позитивных advantage-токенов (например, Progressive Advantage Reweighting) помогают управлять энтропией и борот
arxiv.org/abs/2511.05993
Новая работа разбирает, почему у моделей во время RL для reasoning рушится энтропия (то есть исчезает разнообразие ответов) - и что с этим делать.
Главные выводы:
- 📉 Хорошего набора в ~600 задач хватает, чтобы догнать обучение на 17 000.
Ключ - разнообразие, а не размер датасета.
- 🎯 Reward сужает модель.
При обучении она начинает повторять несколько самых “прибыльных” токенов → энтропия падает → исследование ухудшается.
- 🔄 Меньше энтропии → меньше разнообразия, но измеренная энтропия по промптам почти не коррелирует с точностью.
- ⚙️ Адаптивный энтропийный регуляризатор удерживает «случайность» на целевом уровне, при этом точность продолжает расти.
- 🧪 Off-policy обновления усиливают коллапс, поднимают reward и ломают обобщение — классический overfitting.
- 🧩 Низкое разнообразие данных ускоряет коллапс, но маленький *разнообразный* датасет иногда работает так же хорошо, как полный.
- 🔧 Клиппинг и reweighting позитивных advantage-токенов (например, Progressive Advantage Reweighting) помогают управлять энтропией и борот
arxiv.org/abs/2511.05993
⚡ Heretic - инструмент, который автоматически снимает цензуру (alignment) с языковых моделей
Он позволяет «расцепить» модель - убрать отказные фильтры и повысить готовность отвечать на запросы, не изменяя веса исходной модели напрямую.
Что делает Heretic:
- работает как «чёрный ящик»: получает ответы модели через API, не имея доступа к весам
- использует готовые примеры «безопасных» и «опасных» запросов
- обучает дискриминатор, который отличает ответы модели до и после модификации
- подбирает параметры так, чтобы модель давала меньше отказов, но сохраняла адекватность
- после завершения процесс можно сохранить финальную модель или протестировать её в чат-режиме
Зачем это нужно:
- позволяет локальным моделям отвечать шире, чем обычно позволяет их встроенный alignment
- минимизирует потерю качества — сделано так, чтобы модель не «тупела» и не отклонялась слишком сильно
- подходит для исследований поведения моделей и экспериментов с ограничениями
Важные моменты:
- инструмент мощный и может использоваться по-разному
- юридические и этические вопросы остаются на стороне пользователя
- автор подчёркивает: это не средство повышения точности модели, а именно инструмент снятия ограничений
https://github.com/p-e-w/heretic
Он позволяет «расцепить» модель - убрать отказные фильтры и повысить готовность отвечать на запросы, не изменяя веса исходной модели напрямую.
Что делает Heretic:
- работает как «чёрный ящик»: получает ответы модели через API, не имея доступа к весам
- использует готовые примеры «безопасных» и «опасных» запросов
- обучает дискриминатор, который отличает ответы модели до и после модификации
- подбирает параметры так, чтобы модель давала меньше отказов, но сохраняла адекватность
- после завершения процесс можно сохранить финальную модель или протестировать её в чат-режиме
Зачем это нужно:
- позволяет локальным моделям отвечать шире, чем обычно позволяет их встроенный alignment
- минимизирует потерю качества — сделано так, чтобы модель не «тупела» и не отклонялась слишком сильно
- подходит для исследований поведения моделей и экспериментов с ограничениями
Важные моменты:
- инструмент мощный и может использоваться по-разному
- юридические и этические вопросы остаются на стороне пользователя
- автор подчёркивает: это не средство повышения точности модели, а именно инструмент снятия ограничений
https://github.com/p-e-w/heretic
🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях
Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.
✨ Главное нововведение
Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.
🧠 Архитектура
1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE
- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях
- Динамически распределяет вычисления в зависимости от сложности задачи
2️⃣ Глубоко слитый мультимодальный encoder-decoder
- Любые комбинации входных и выходных модальностей
- Настоящее омнимодальное взаимодействие и генерация
🛠️ Тренировка
1️⃣ Прогрессивная стратегия обучения
Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение
- Масштабирует плотные LLM в MoE-модели
- Всего 75B токенов
- Стабильная сходимость, особенно на RL
2️⃣ Языковая основа для задач понимания и генерации
- Все задачи сводятся к языковой генерации
- Пробивает барьеры между модальностями
🎨 Возможности
✔ Генерация и взаимодействие через речь
✔ Генерация и редактирование изображений
✔ Понимание изображений и видео
✔ Аудиовизуальное рассуждение
✔ 10+ мультимодальных задач
🔥 Результаты
Модель превзошла Qwen2.5-Omni (1.2T токенов) в 50+ из 76 задач, имея всего 75B токенов:
- Видео-понимание: +5%
- Омнимодальное понимание: +7%
- Speech QA: +4.3%
- Обработка изображений: +7%
🌍 Open Source
Model: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code: https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage: https://idealistxy.github.io/Uni-MoE-v2.github.io/
Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.
✨ Главное нововведение
Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.
🧠 Архитектура
1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE
- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях
- Динамически распределяет вычисления в зависимости от сложности задачи
2️⃣ Глубоко слитый мультимодальный encoder-decoder
- Любые комбинации входных и выходных модальностей
- Настоящее омнимодальное взаимодействие и генерация
🛠️ Тренировка
1️⃣ Прогрессивная стратегия обучения
Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение
- Масштабирует плотные LLM в MoE-модели
- Всего 75B токенов
- Стабильная сходимость, особенно на RL
2️⃣ Языковая основа для задач понимания и генерации
- Все задачи сводятся к языковой генерации
- Пробивает барьеры между модальностями
🎨 Возможности
✔ Генерация и взаимодействие через речь
✔ Генерация и редактирование изображений
✔ Понимание изображений и видео
✔ Аудиовизуальное рассуждение
✔ 10+ мультимодальных задач
🔥 Результаты
Модель превзошла Qwen2.5-Omni (1.2T токенов) в 50+ из 76 задач, имея всего 75B токенов:
- Видео-понимание: +5%
- Омнимодальное понимание: +7%
- Speech QA: +4.3%
- Обработка изображений: +7%
🌍 Open Source
Model: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code: https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage: https://idealistxy.github.io/Uni-MoE-v2.github.io/
🔥 Вышла Gemini 3 Pro
• SOTA-результаты на большинстве бенчмарков
• 1501 Elo на LMArena
• next-level возможности для vibe coding и сложных кодовых задач
• продвинутое мультимодальное понимание (текст, код, картинки и не только)
Попробовать можно бесплатно - может понадобиться иностранный IP: https://aistudio.google.com/prompts/new_chat?model=gemini-3-pro-preview
@ai_machinelearning_big_data
#news #ai #google #Gemini
• SOTA-результаты на большинстве бенчмарков
• 1501 Elo на LMArena
• next-level возможности для vibe coding и сложных кодовых задач
• продвинутое мультимодальное понимание (текст, код, картинки и не только)
Попробовать можно бесплатно - может понадобиться иностранный IP: https://aistudio.google.com/prompts/new_chat?model=gemini-3-pro-preview
@ai_machinelearning_big_data
#news #ai #google #Gemini
🚀 ASystem открыл исходники Awex - самого быстрого фреймворка для синхронизации весов в RL.
Awex решает ключевую проблему современной RL-инфраструктуры — синхронизацию параметров моделей с объёмом до 1 трлн весов на тысячах GPU меньше чем за 6 секунд.
Это снимает одно из главных узких мест при масштабировании обучения и ускоряет циклы RL на порядки.
ASystem готовит серию материалов о лучших практиках построения RL-систем в ближайшие 5-6 недель. Будет разбор архитектуры, оптимизаций и инженерных решений.
Добро пожаловать в комьюнити ASystem.
📦 GitHub: https://github.com/inclusionAI/asystem-awex
🤗 Hugging Face: https://huggingface.co/inclusionAI
🤖 ModelScope: https://modelscope.cn/models/inclusionAI
@data_analysis_ml
Awex решает ключевую проблему современной RL-инфраструктуры — синхронизацию параметров моделей с объёмом до 1 трлн весов на тысячах GPU меньше чем за 6 секунд.
Это снимает одно из главных узких мест при масштабировании обучения и ускоряет циклы RL на порядки.
ASystem готовит серию материалов о лучших практиках построения RL-систем в ближайшие 5-6 недель. Будет разбор архитектуры, оптимизаций и инженерных решений.
Добро пожаловать в комьюнити ASystem.
📦 GitHub: https://github.com/inclusionAI/asystem-awex
🤗 Hugging Face: https://huggingface.co/inclusionAI
🤖 ModelScope: https://modelscope.cn/models/inclusionAI
@data_analysis_ml
Главные новости ИИ и МЛ.
✔️ OpenAI выпустила GPT-5.1-Codex-Max.
GPT-5.1-Codex-Max - агентная модель для «тяжелой» разработки. Основной упор сделан на длительные процессы: теперь модель эффективнее справляется с многочасовым рефакторингом и сложными агентными циклами внутри IDE. Фишка релиза в технологии «уплотнения», благодаря которой модель удерживает контекст на миллионах токенов без потери связности.
По тестам, проведенным OpenAI в SWE-Bench Verified точность выросла до 77,9%, а в SWE-Lancer - почти 80%. Новинка уже стала дефолтной моделью в среде Codex для подписчиков Plus и Pro, а доступ через API разработчики получат в ближайшее время.
openai.com
✔️ Stack Overflow планирует стать провайдером данных для корпоративного ИИ.
На конференции Microsoft Ignite платформа объявила о смене стратегии: теперь это не просто база знаний, а инфраструктурный элемент для корпоративных нейросетей. Обновленный продукт Stack Internal конвертирует внутреннюю экспертизу компаний в формат, доступный ИИ-агентам через MCP.
Технически будет добавлен слой метаданных, формирующий рейтинг надежности. Система анализирует автора, актуальность и связность ответа, чтобы агент мог взвесить достоверность информации перед использованием. CEO компании признался, что этот шаг вдохновлен успешными сделками по продаже данных для обучения моделей (по аналогии с Reddit).
stackoverflow.blog
✔️ Microsoft запустила платформу Agent 365 для управления ИИ-агентами.
Agent 365 — инструмент, который позволяет организациям администрировать парк ИИ-агентов как обычных сотрудников. Платформа использует Microsoft Entra для создания единого реестра всех корпоративных ботов, присваивая каждому уникальный ID для строгого разграничения прав доступа и интеграции с корпоративными данными.
Помимо безопасности (за которую отвечают Defender и Purview), система предлагает специальные дашборды, которые показывают эффективность работы каждого агента в реальном времени. Agent 365 не замыкается на нативном Copilot Studio, он поддерживает open-source фреймворки и сторонние решения от партнеров MS. Инструмент уже появился в админ-панели Microsoft 365 в рамках программы тестирования.
microsoft.com
✔️ Manus тестирует расширение для популярных браузеров.
Manus запустила бета-тестирование Browser Operator — инструмента, который выводит ИИ-агентов из облачных песочниц в рабочую среду пользователя. Расширение, доступное для Chrome и Edge, позволяет автоматизировать действия в сервисах, требующих сложной авторизации (CRM, закрытые аналитические платформы), используя уже активные локальные сессии.
Через коннектор «My Browser» агент получает доступ к нужным вкладкам, а пользователь может в реальном времени наблюдать за его действиями, сохраняя контроль над безопасностью. На данный момент доступ открыт для подписчиков тарифов Pro, Plus и Team.
manus.im
✔️ xAI построит в Саудовской Аравии дата-центр на 500 МВт.
Компания Илона Маска объединилась с саудовской Humain и Nvidia для создания масштабного вычислительного хаба. Проект мощностью 500 мегаватт позволит разместить десятки тысяч GPU для тренировки и инференса следующих поколений моделей Grok.
Для xAI это стратегический шаг: собственный хаб за пределами США позволяет снизить зависимость от аренды облачных мощностей у прямых конкурентов. Структура сделки такая: Nvidia поставляет GPU, за саудитами - земля и финансирование, а xAI получает присутствие на Ближнем Востоке.
bloomberg.com
#news #ai #ml
GPT-5.1-Codex-Max - агентная модель для «тяжелой» разработки. Основной упор сделан на длительные процессы: теперь модель эффективнее справляется с многочасовым рефакторингом и сложными агентными циклами внутри IDE. Фишка релиза в технологии «уплотнения», благодаря которой модель удерживает контекст на миллионах токенов без потери связности.
По тестам, проведенным OpenAI в SWE-Bench Verified точность выросла до 77,9%, а в SWE-Lancer - почти 80%. Новинка уже стала дефолтной моделью в среде Codex для подписчиков Plus и Pro, а доступ через API разработчики получат в ближайшее время.
openai.com
На конференции Microsoft Ignite платформа объявила о смене стратегии: теперь это не просто база знаний, а инфраструктурный элемент для корпоративных нейросетей. Обновленный продукт Stack Internal конвертирует внутреннюю экспертизу компаний в формат, доступный ИИ-агентам через MCP.
Технически будет добавлен слой метаданных, формирующий рейтинг надежности. Система анализирует автора, актуальность и связность ответа, чтобы агент мог взвесить достоверность информации перед использованием. CEO компании признался, что этот шаг вдохновлен успешными сделками по продаже данных для обучения моделей (по аналогии с Reddit).
stackoverflow.blog
Agent 365 — инструмент, который позволяет организациям администрировать парк ИИ-агентов как обычных сотрудников. Платформа использует Microsoft Entra для создания единого реестра всех корпоративных ботов, присваивая каждому уникальный ID для строгого разграничения прав доступа и интеграции с корпоративными данными.
Помимо безопасности (за которую отвечают Defender и Purview), система предлагает специальные дашборды, которые показывают эффективность работы каждого агента в реальном времени. Agent 365 не замыкается на нативном Copilot Studio, он поддерживает open-source фреймворки и сторонние решения от партнеров MS. Инструмент уже появился в админ-панели Microsoft 365 в рамках программы тестирования.
microsoft.com
Manus запустила бета-тестирование Browser Operator — инструмента, который выводит ИИ-агентов из облачных песочниц в рабочую среду пользователя. Расширение, доступное для Chrome и Edge, позволяет автоматизировать действия в сервисах, требующих сложной авторизации (CRM, закрытые аналитические платформы), используя уже активные локальные сессии.
Через коннектор «My Browser» агент получает доступ к нужным вкладкам, а пользователь может в реальном времени наблюдать за его действиями, сохраняя контроль над безопасностью. На данный момент доступ открыт для подписчиков тарифов Pro, Plus и Team.
manus.im
Компания Илона Маска объединилась с саудовской Humain и Nvidia для создания масштабного вычислительного хаба. Проект мощностью 500 мегаватт позволит разместить десятки тысяч GPU для тренировки и инференса следующих поколений моделей Grok.
Для xAI это стратегический шаг: собственный хаб за пределами США позволяет снизить зависимость от аренды облачных мощностей у прямых конкурентов. Структура сделки такая: Nvidia поставляет GPU, за саудитами - земля и финансирование, а xAI получает присутствие на Ближнем Востоке.
bloomberg.com
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
Building more with GPT-5.1-Codex-Max
Introducing GPT-5.1-Codex-Max, a faster, more intelligent agentic coding model for Codex. The model is designed for long-running, project-scale work with enhanced reasoning and token efficiency.
Media is too big
VIEW IN TELEGRAM
Построенная на архитектуре DiT, модель поднимает планку по качеству и доступности.
Что важно:
⚡️ Всего 8.3B параметров - модель можно запускать даже на потребительских GPU с 14GB VRAM
🖥️ Качество: генерирует 5–10 секунд видео в 480p/720p, а через суперразрешение —ё- до 1080p с киношной детализацией
SOTA-качество с очень низкими требованиями к железу.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤟 Google усиливает свои позиции и сокращает отрыв OpenAI
Сам Альтман признал: прогресс Google - особенно впечатляющие результаты Gemini 3 - создают краткосрочное давление на OpenAI.
Когда-то уверенное лидерство OpenAI заметно ослабло. Google и Anthropic активно усиливаются, в то время как OpenAI сталкивается с огромными затратами на вычислительные мощности, что вызывает беспокойство у инвесторов.
Альтман при этом уверен, что в долгосрочной перспективе OpenAI снова выйдет вперёд. Он ставит на новые модели вроде Shallotpeat, улучшения в этапах предобучения и масштабную автоматизацию, которая должна привести к следующему ряду прорывов.
Из внутреннего письма:
И финальная мысль Альтмана:
“Да, тяжело одновременно быть лучшей исследовательской лабораторией, лучшей AI-инфраструктурной компанией и лучшей продуктовой AI-платформой, но такова наша реальность. И я бы не променял наши позиции ни на чьи :)”
https://www.theinformation.com/articles/openai-ceo-braces-possible-economic-headwinds-catching-resurgent-google
Сам Альтман признал: прогресс Google - особенно впечатляющие результаты Gemini 3 - создают краткосрочное давление на OpenAI.
Когда-то уверенное лидерство OpenAI заметно ослабло. Google и Anthropic активно усиливаются, в то время как OpenAI сталкивается с огромными затратами на вычислительные мощности, что вызывает беспокойство у инвесторов.
Альтман при этом уверен, что в долгосрочной перспективе OpenAI снова выйдет вперёд. Он ставит на новые модели вроде Shallotpeat, улучшения в этапах предобучения и масштабную автоматизацию, которая должна привести к следующему ряду прорывов.
Из внутреннего письма:
“Не хочу, чтобы это звучало негативно — мы по-прежнему показываем выдающиеся результаты как компания… и я ожидаю, что это продолжится.”
И финальная мысль Альтмана:
“Да, тяжело одновременно быть лучшей исследовательской лабораторией, лучшей AI-инфраструктурной компанией и лучшей продуктовой AI-платформой, но такова наша реальность. И я бы не променял наши позиции ни на чьи :)”
https://www.theinformation.com/articles/openai-ceo-braces-possible-economic-headwinds-catching-resurgent-google
Главные новости ИИ и мл
✔️ ИИ-система Locus превзошла экспертов в научных исследованиях.
Лаборатория Intology представила новую итерацию своего ИИ-ученого — систему Locus. Главным достижением стал результат на бенчмарке RE-Bench, где Locus обошел команду людей-экспертов, набрав 1.30 балла против человеческих 1.27.
В отличие от агентов, которые упираются в потолок производительности уже через пару часов работы, Locus способен поддерживать прогресс на протяжении нескольких дней. Система использует параллелизацию для одновременного запуска тысяч экспериментов, что позволяет ей решать задачи, требующие глубокого погружения и долгосрочного планирования.
Помимо исследований, Locus показала высокие результаты в оптимизации. В тесте KernelBench она добилась ускорения операций LayerNorm до 100 раз, применив сложные техники асинхронного копирования вместо простого перебора.
intology.ai
✔️ OpenAI открыла доступ к групповым чатам с ChatGPT для всех.
Компания развернула функцию коллективных обсуждений на всех тарифных планах, от Free до Pro. В новой функции пользователи могут создавать треды вместимостью до 20 человек, где нейросеть выступает полноценным участником разговора. Доступ открывается через инвайт-ссылки.
ChatGPT анализирует ход разговора и вступает в диалог либо при прямом упоминании, либо когда алгоритм сочтет вмешательство уместным. Тарификация за генерацию ответов ложится на того пользователя, чей запрос или действие активировали модель в данный момент.
Групповые чаты, по словам OpenAI, полностью изолированы. Бот не сохраняет данные в свою память и игнорирует персональные настройки участников, чтобы избежать утечки личного контекста в общий чат.
openai.com
✔️ Salesforce анонсировала инструменты для контроля за ИИ-агентами.
Компания расширила функциональность платформы Agentforce 360, добавив средства мониторинга и отладки для ИИ-систем. Техническая база обновления включает продвинутую модель трейсинга сессий. Система теперь логирует полный контекст работы агента: пользовательские вводы, внутренние цепочки рассуждений, вызовы LLM и проверки безопасности.
Дополнительный слой управления обеспечивает MuleSoft Agent Fabric — хаб для оркестрации и аудита всех активных агентов в инфраструктуре. Это позволяет разработчикам получать метрики в реальном времени, анализировать паттерны и устранять ошибки до того, как они повлияют на продакшен.
salesforce.com
✔️ Hugging Face AnyLanguageModel: универсальная библиотека для экосистемы Apple.
Инструмент, представленный ИИ-хабом, позиционируется как замена стандартного фреймворка Apple Foundation Models. Пакет унифицирует взаимодействие с нейросетями, позволяя разработчикам использовать единый API для работы с разными бэкендами. Библиотека поддерживает как нативный запуск локальных моделей (через Core ML, MLX, llama.cpp и Ollama), так и подключение к облачным провайдерам.
AnyLanguageModel решает проблему конфликта зависимостей за счет использования traits из Swift 6.1. Это дает строгую модульность: если проекту нужен только MLX-движок, библиотека не будет тянуть в сборку лишний код для других форматов. Сейчас решение находится в ранней стадии, но в планах заявлена поддержка вызова инструментов и протокола MCP.
huggingface.co
✔️ Stability AI и Warner Music Group займутся разработкой моделей для музыкальной индустрии.
Stability AI и мейджор-лейбл объявили о партнерстве, цель которого — создание профессиональных инструментов для генерации аудио, безопасных с юридической точки зрения.
В отличие от существующих решений, новые модели будут обучаться исключительно на лицензионном контенте, что позволит артистам и продюсерам использовать результаты генерации в коммерческих треках без риска нарушения авторских прав.
Компании планируют привлекать к разработке самих музыкантов, чтобы софт решал реальные задачи, а не просто создавал случайные мелодии.
stability.ai
@ai_machinelearning_big_data
#news #ai #ml
Лаборатория Intology представила новую итерацию своего ИИ-ученого — систему Locus. Главным достижением стал результат на бенчмарке RE-Bench, где Locus обошел команду людей-экспертов, набрав 1.30 балла против человеческих 1.27.
В отличие от агентов, которые упираются в потолок производительности уже через пару часов работы, Locus способен поддерживать прогресс на протяжении нескольких дней. Система использует параллелизацию для одновременного запуска тысяч экспериментов, что позволяет ей решать задачи, требующие глубокого погружения и долгосрочного планирования.
Помимо исследований, Locus показала высокие результаты в оптимизации. В тесте KernelBench она добилась ускорения операций LayerNorm до 100 раз, применив сложные техники асинхронного копирования вместо простого перебора.
intology.ai
Компания развернула функцию коллективных обсуждений на всех тарифных планах, от Free до Pro. В новой функции пользователи могут создавать треды вместимостью до 20 человек, где нейросеть выступает полноценным участником разговора. Доступ открывается через инвайт-ссылки.
ChatGPT анализирует ход разговора и вступает в диалог либо при прямом упоминании, либо когда алгоритм сочтет вмешательство уместным. Тарификация за генерацию ответов ложится на того пользователя, чей запрос или действие активировали модель в данный момент.
Групповые чаты, по словам OpenAI, полностью изолированы. Бот не сохраняет данные в свою память и игнорирует персональные настройки участников, чтобы избежать утечки личного контекста в общий чат.
openai.com
Компания расширила функциональность платформы Agentforce 360, добавив средства мониторинга и отладки для ИИ-систем. Техническая база обновления включает продвинутую модель трейсинга сессий. Система теперь логирует полный контекст работы агента: пользовательские вводы, внутренние цепочки рассуждений, вызовы LLM и проверки безопасности.
Дополнительный слой управления обеспечивает MuleSoft Agent Fabric — хаб для оркестрации и аудита всех активных агентов в инфраструктуре. Это позволяет разработчикам получать метрики в реальном времени, анализировать паттерны и устранять ошибки до того, как они повлияют на продакшен.
salesforce.com
Инструмент, представленный ИИ-хабом, позиционируется как замена стандартного фреймворка Apple Foundation Models. Пакет унифицирует взаимодействие с нейросетями, позволяя разработчикам использовать единый API для работы с разными бэкендами. Библиотека поддерживает как нативный запуск локальных моделей (через Core ML, MLX, llama.cpp и Ollama), так и подключение к облачным провайдерам.
AnyLanguageModel решает проблему конфликта зависимостей за счет использования traits из Swift 6.1. Это дает строгую модульность: если проекту нужен только MLX-движок, библиотека не будет тянуть в сборку лишний код для других форматов. Сейчас решение находится в ранней стадии, но в планах заявлена поддержка вызова инструментов и протокола MCP.
huggingface.co
Stability AI и мейджор-лейбл объявили о партнерстве, цель которого — создание профессиональных инструментов для генерации аудио, безопасных с юридической точки зрения.
В отличие от существующих решений, новые модели будут обучаться исключительно на лицензионном контенте, что позволит артистам и продюсерам использовать результаты генерации в коммерческих треках без риска нарушения авторских прав.
Компании планируют привлекать к разработке самих музыкантов, чтобы софт решал реальные задачи, а не просто создавал случайные мелодии.
stability.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
www.intology.ai
Previewing Locus
Intology is a research lab automating the process of discovery