✔️ OpenAI нашла способ заставить модели признаваться в собственных галлюцинациях — в новом исследовании представили технику под названием Confessions.
Проблема, которую пытаются решить:
модели нередко стремятся «угодить» системе оценки — выдают уверенные, но неверные факты, скрывают нарушения инструкций или занимаются reward hacking, чтобы получить более высокий балл.
Как работает Confessions:
1. Модель сначала генерирует обычный ответ.
2. Затем формирует второй, независимый отчёт, в котором сама оценивает:
- нарушила ли инструкции,
- где могла ошибиться,
- какие элементы ответа были сомнительными.
3. И получает награду за честность, а не за попытку скрыть ошибку.
Идея в том, что модель начинает рассматривать своё собственное поведение как объект анализа, а не пытается «выпутаться» любыми средствами.
Результаты:
В тестах на GPT-5 Thinking вероятность того, что модель нарушит правила *и попытается это скрыть*, снизилась до 4.4%.
Важно: Confessions не устраняет галлюцинации, а работает как инструмент диагностики — помогает выявлять моменты, где модель могла «соврать» или отойти от инструкции.
https://openai.com/index/how-confessions-can-keep-language-models-honest/
Проблема, которую пытаются решить:
модели нередко стремятся «угодить» системе оценки — выдают уверенные, но неверные факты, скрывают нарушения инструкций или занимаются reward hacking, чтобы получить более высокий балл.
Как работает Confessions:
1. Модель сначала генерирует обычный ответ.
2. Затем формирует второй, независимый отчёт, в котором сама оценивает:
- нарушила ли инструкции,
- где могла ошибиться,
- какие элементы ответа были сомнительными.
3. И получает награду за честность, а не за попытку скрыть ошибку.
Идея в том, что модель начинает рассматривать своё собственное поведение как объект анализа, а не пытается «выпутаться» любыми средствами.
Результаты:
В тестах на GPT-5 Thinking вероятность того, что модель нарушит правила *и попытается это скрыть*, снизилась до 4.4%.
Важно: Confessions не устраняет галлюцинации, а работает как инструмент диагностики — помогает выявлять моменты, где модель могла «соврать» или отойти от инструкции.
https://openai.com/index/how-confessions-can-keep-language-models-honest/
❤23👍10🔥4
Оффер в Яндекс за 48 часов: Weekend Offer ML для инженеров R&D
Яндекс объявляет регистрацию на Weekend Offer ML — мероприятие быстрого найма, которое пройдет онлайн 13–14 декабря.
Это прямой путь в R&D команды, работающие над Alice AI LLM (YandexGPT), Яндекс Переводчиком, Компьютерным зрением, Синтезом речи и другими передовыми технологиями.
Командам нужны инфраструктурные и DL-инженеры с опытом в NLP, CV, ASR, TTS или RecSys, готовые создавать продукты на острие прикладного R&D.
Формат предполагает прохождение всего двух технических секций 13 декабря, а уже 14 декабря, по итогам финальных интервью с командами, будет возможность получить оффер.
Не упустите возможность зарегистрироваться: крайний срок 9 декабря до 12:00 мск.
Яндекс объявляет регистрацию на Weekend Offer ML — мероприятие быстрого найма, которое пройдет онлайн 13–14 декабря.
Это прямой путь в R&D команды, работающие над Alice AI LLM (YandexGPT), Яндекс Переводчиком, Компьютерным зрением, Синтезом речи и другими передовыми технологиями.
Командам нужны инфраструктурные и DL-инженеры с опытом в NLP, CV, ASR, TTS или RecSys, готовые создавать продукты на острие прикладного R&D.
Формат предполагает прохождение всего двух технических секций 13 декабря, а уже 14 декабря, по итогам финальных интервью с командами, будет возможность получить оффер.
Не упустите возможность зарегистрироваться: крайний срок 9 декабря до 12:00 мск.
🔥13🥰2
🚀 В SAMGeo совсем скоро появится поддержка сегментации изображений с помощью SAM3 - это добавит больше возможностей и упростит работу с данными дистанционного зондирования.
Интеграция сделает точную сегментацию быстрее и доступнее для всех, кто работает с геоданными.
На картинке: сегментация зданий по простому текстовому запросу «building».
Результаты выглядят многообещающе. Обновления уже на подходе.
🔗 GitHub PR: https://github.com/opengeos/segment-geospatial/pull/430
Интеграция сделает точную сегментацию быстрее и доступнее для всех, кто работает с геоданными.
На картинке: сегментация зданий по простому текстовому запросу «building».
Результаты выглядят многообещающе. Обновления уже на подходе.
🔗 GitHub PR: https://github.com/opengeos/segment-geospatial/pull/430
❤8🔥2🤔2🥰1
Собеседования по ML меняются быстрее, чем обновляются списки вопросов
Рынок смещается в сторону прикладного ML: ответственность за качество данных, мониторинг, управление моделями, работа с LLM-инструментами. И собеседования все чаще проверяют именно это — способность мыслить контекстно, а не только технически.
Вебинар «ML в 2026: тренды, требования и новая роль инженера машинного обучения» от karpovꓸcourses поможет разобраться, как сейчас развивается профессия и что изменится в ближайший год. Вам расскажут, какие процессы становятся стандартом, как LLM перестраивают привычные задачи и какие навыки будут восприниматься работодателями как обязательные.
Спикеры — практики с серьезным опытом:
- Нерсес Багиян — руководитель направления по работе с данными, прошедший путь от стажера до старшего аналитика в Яндекс.Маркете всего за два года;
- Алексей Кожарин — старший разработчик в Газпром-Медиа, специалист с сильной технической экспертизой и опытом работы в крупных IT-командах.
Вебинар пройдет онлайн 9 декабря в 18:00 по МСК, присоединяйтесь по ссылке — https://clc.to/erid_2W5zFHWDjZi
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFHWDjZi
Рынок смещается в сторону прикладного ML: ответственность за качество данных, мониторинг, управление моделями, работа с LLM-инструментами. И собеседования все чаще проверяют именно это — способность мыслить контекстно, а не только технически.
Вебинар «ML в 2026: тренды, требования и новая роль инженера машинного обучения» от karpovꓸcourses поможет разобраться, как сейчас развивается профессия и что изменится в ближайший год. Вам расскажут, какие процессы становятся стандартом, как LLM перестраивают привычные задачи и какие навыки будут восприниматься работодателями как обязательные.
Спикеры — практики с серьезным опытом:
- Нерсес Багиян — руководитель направления по работе с данными, прошедший путь от стажера до старшего аналитика в Яндекс.Маркете всего за два года;
- Алексей Кожарин — старший разработчик в Газпром-Медиа, специалист с сильной технической экспертизой и опытом работы в крупных IT-командах.
Вебинар пройдет онлайн 9 декабря в 18:00 по МСК, присоединяйтесь по ссылке — https://clc.to/erid_2W5zFHWDjZi
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFHWDjZi
🥴11🤣7❤4😭2🤪2💊2
🚀 AWS представила новое поколение AI-инструментов: Amazon Nova 2 и Agentic-AI
✔️ Nova 2 - семейство мощных моделей для текста, изображений, видео и мультимодальных задач
✔️ Nova Act - AI-агенты, которые могут работать в браузере: кликать, заполнять формы, навигироваться по UI
✔️ Nova Forge — сервис для создания собственных моделей на базе Nova: пред-тренировка, дообучение, кастомизация
Почему это важно
- Универсальность: от чат-ботов до анализа видео и документов
- Автоматизация: агенты заменяют рутинные действия и ручные процессы
- Кастомизация: компании могут строить модели под свои данные
- Оптимальная цена-производительность: конкурент на рынке крупных моделей
#AI #AWS #AmazonNova #GenerativeAI #AgenticAI #Automation
https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models
✔️ Nova 2 - семейство мощных моделей для текста, изображений, видео и мультимодальных задач
✔️ Nova Act - AI-агенты, которые могут работать в браузере: кликать, заполнять формы, навигироваться по UI
✔️ Nova Forge — сервис для создания собственных моделей на базе Nova: пред-тренировка, дообучение, кастомизация
Почему это важно
- Универсальность: от чат-ботов до анализа видео и документов
- Автоматизация: агенты заменяют рутинные действия и ручные процессы
- Кастомизация: компании могут строить модели под свои данные
- Оптимальная цена-производительность: конкурент на рынке крупных моделей
#AI #AWS #AmazonNova #GenerativeAI #AgenticAI #Automation
https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models
❤6👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Салют, Гига! — пространство для AI-инженеров
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
🤔3
🚀 Tavily Deep Research: как работает новый поисковый движок Hugging Face
Tavily - это инструмент для глубокого поиска и анализа. Он не просто ищет ссылки, а собирает факты, фильтрует шум и структурирует информацию так, чтобы её мог использовать ИИ для сложных задач.
🔥 Что делает Tavily
• Ищет релевантный контент по вебу
• Отбрасывает лишнее и оставляет только важные фрагменты
• Сжимает и очищает данные перед тем, как их увидит модель
• Экономит токены и ускоряет обработку, потому что не передает «всё подряд»
🧠 Как выглядит процесс Deep Research
1. Поиск по вебу
2. Извлечение полезных частей
3. Сжатие и структурирование информации
4. Формирование финального ответа или отчета
✨ Где это полезно
• Аналитика и исследования
• Подготовка отчетов и обзоров
• Глубокие ответы, где обычный поиск слишком поверхностный
Это подход «не просто найти информацию, а переварить и подать её как исследователь».
https://huggingface.co/blog/Tavily/tavily-deep-research
Tavily - это инструмент для глубокого поиска и анализа. Он не просто ищет ссылки, а собирает факты, фильтрует шум и структурирует информацию так, чтобы её мог использовать ИИ для сложных задач.
🔥 Что делает Tavily
• Ищет релевантный контент по вебу
• Отбрасывает лишнее и оставляет только важные фрагменты
• Сжимает и очищает данные перед тем, как их увидит модель
• Экономит токены и ускоряет обработку, потому что не передает «всё подряд»
🧠 Как выглядит процесс Deep Research
1. Поиск по вебу
2. Извлечение полезных частей
3. Сжатие и структурирование информации
4. Формирование финального ответа или отчета
✨ Где это полезно
• Аналитика и исследования
• Подготовка отчетов и обзоров
• Глубокие ответы, где обычный поиск слишком поверхностный
Это подход «не просто найти информацию, а переварить и подать её как исследователь».
https://huggingface.co/blog/Tavily/tavily-deep-research
❤12👍3🥰2🤔2
🚀 Креативные подсказки для Nano Banana Pro
Собрание уникальных и креативных подсказок для работы с Google's Nano Banana Pro. Идеально подходит для художников и разработчиков, желающих расширить свои возможности в генерации контента. Все подсказки собраны из сообщества и предназначены для образовательных целей.
🚀 Основные моменты:
- Более 500 тщательно отобранных подсказок
- Поддержка динамических аргументов для Raycast
- Разнообразные стили генерации: от фотореализма до художественных работ
- Удобный веб-галерея для поиска и генерации
📌 GitHub: https://github.com/YouMind-OpenLab/awesome-nano-banana-pro-prompts
Собрание уникальных и креативных подсказок для работы с Google's Nano Banana Pro. Идеально подходит для художников и разработчиков, желающих расширить свои возможности в генерации контента. Все подсказки собраны из сообщества и предназначены для образовательных целей.
🚀 Основные моменты:
- Более 500 тщательно отобранных подсказок
- Поддержка динамических аргументов для Raycast
- Разнообразные стили генерации: от фотореализма до художественных работ
- Удобный веб-галерея для поиска и генерации
📌 GitHub: https://github.com/YouMind-OpenLab/awesome-nano-banana-pro-prompts
❤8👍2🥰1
💰 OpenAI строит гигантские дата-центры, но 2026-й может стать моментом “проверки на реальность”
Forbes пишет: на фоне планов инфраструктуры примерно на $1,4 трлн, OpenAI имеет лишь около $20 млрд выручки и большая часть проекта опирается на ожидание будущего спроса, которого пока нет.
Модель финансирования выглядит так:
Cloud-операторы вроде CoreWeave и Crusoe, плюс партнёры типа SoftBank и Oracle, берут кредиты, покупают GPU, закладывают их как залог, и рассчитывают, что:
- трафик OpenAI загрузит мощности,
- Nvidia “выкупит” избыточную ёмкость, если спрос окажется ниже ожиданий.
То есть создаётся замкнутый цикл, который может переоценивать реальную рыночную потребность.
Проблема в том, что корпоративный спрос пока — это осторожные пилоты, а кластеры нужно обновлять каждые 5–7 лет.
По мнению автора, в 2026 инвесторы и кредиторы начнут давить на OpenAI, требуя замедлить или урезать проект Stargate, если компания не докажет, что каждая единица мощности приносит прибыль быстрее, чем Google и другие успевают догнать по качеству моделей.
⚠️ Вывод: если реальный спрос не вырастет, текущая стратегия может превратиться в риск «слишком много построили слишком рано».
forbes.com/sites/paulocarvao/2025/12/06/why-openais-ai-data-center-buildout-faces-a-2026-reality-check/
Forbes пишет: на фоне планов инфраструктуры примерно на $1,4 трлн, OpenAI имеет лишь около $20 млрд выручки и большая часть проекта опирается на ожидание будущего спроса, которого пока нет.
Модель финансирования выглядит так:
Cloud-операторы вроде CoreWeave и Crusoe, плюс партнёры типа SoftBank и Oracle, берут кредиты, покупают GPU, закладывают их как залог, и рассчитывают, что:
- трафик OpenAI загрузит мощности,
- Nvidia “выкупит” избыточную ёмкость, если спрос окажется ниже ожиданий.
То есть создаётся замкнутый цикл, который может переоценивать реальную рыночную потребность.
Проблема в том, что корпоративный спрос пока — это осторожные пилоты, а кластеры нужно обновлять каждые 5–7 лет.
По мнению автора, в 2026 инвесторы и кредиторы начнут давить на OpenAI, требуя замедлить или урезать проект Stargate, если компания не докажет, что каждая единица мощности приносит прибыль быстрее, чем Google и другие успевают догнать по качеству моделей.
⚠️ Вывод: если реальный спрос не вырастет, текущая стратегия может превратиться в риск «слишком много построили слишком рано».
forbes.com/sites/paulocarvao/2025/12/06/why-openais-ai-data-center-buildout-faces-a-2026-reality-check/
❤9👍4🔥3🤣3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡ Google Ironwood - самый мощный TPU 7-го поколения.
Производительность:
• 4,614 FP8 TFLOPS
• 192 GB HBM3E на чип
• Пропускная способность памяти - до 7.37 TB/s
🚀 Масштабируемость:
• Кластеры (pods) до 9,216 ускорителей
• Совокупно — 42.5 FP8 ExaFLOPS для тренировки и инференса
• Для сравнения: Nvidia GB300 NVL72, всего 0.36 ExaFLOPS
🔗 Связность:
• Собственная сеть Inter-Chip Interconnect - 9.6 Tb/s
• Общий объём памяти в pod - около 1.77 PB HBM3E
• Это снова больше, чем у конкурирующих систем Nvidia
Ironwood — мощнейшая платформа Google для больших LLM и мультимодальных моделей.
Производительность:
• 4,614 FP8 TFLOPS
• 192 GB HBM3E на чип
• Пропускная способность памяти - до 7.37 TB/s
🚀 Масштабируемость:
• Кластеры (pods) до 9,216 ускорителей
• Совокупно — 42.5 FP8 ExaFLOPS для тренировки и инференса
• Для сравнения: Nvidia GB300 NVL72, всего 0.36 ExaFLOPS
🔗 Связность:
• Собственная сеть Inter-Chip Interconnect - 9.6 Tb/s
• Общий объём памяти в pod - около 1.77 PB HBM3E
• Это снова больше, чем у конкурирующих систем Nvidia
Ironwood — мощнейшая платформа Google для больших LLM и мультимодальных моделей.
❤16🔥5🥱3🥰2😱2
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Хотите научиться собирать собственные датасеты для моделей? На открытом уроке от OTUS вы научитесь парсить сайты на Python, обрабатывать данные и ускорять весь процесс с помощью LLM. 🚀
🗓️ Урок пройдёт 15 декабря в 18:00 МСК — всего один вечер, который может кардинально изменить ваш подход к подготовке данных.
Что вас ждет?
✅ Разбор реальных кейсов и современных инструментов парсинга
✅ Советы по обходу технических ограничений
✅ Обучение превращать LLM в мощного помощника для написания и отладки кода
После урока вы будете знать:
🔹 Какие библиотеки сейчас актуальны для парсинга
🔹 Как самостоятельно собирать данные
🔗 Присоединяйтесь к открытому уроку курса «NLP / Natural Language Processing» и получите специальные условия на обучение: https://otus.pw/mVc4/?erid=2W5zFGqJtu6
🎁 Выберите обучение на ближайшие месяцы — и получите максимальную выгоду: один курс по тающей скидке до 20% или комплект из 2–3 курсов со скидкой 25–30%
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🗓️ Урок пройдёт 15 декабря в 18:00 МСК — всего один вечер, который может кардинально изменить ваш подход к подготовке данных.
Что вас ждет?
✅ Разбор реальных кейсов и современных инструментов парсинга
✅ Советы по обходу технических ограничений
✅ Обучение превращать LLM в мощного помощника для написания и отладки кода
После урока вы будете знать:
🔹 Какие библиотеки сейчас актуальны для парсинга
🔹 Как самостоятельно собирать данные
🔗 Присоединяйтесь к открытому уроку курса «NLP / Natural Language Processing» и получите специальные условия на обучение: https://otus.pw/mVc4/?erid=2W5zFGqJtu6
🎁 Выберите обучение на ближайшие месяцы — и получите максимальную выгоду: один курс по тающей скидке до 20% или комплект из 2–3 курсов со скидкой 25–30%
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤4😁1
🚀 Model Context Protocol (MCP) - протокол, который с самого начала развивался открыто, делает большой шаг.
Теперь MCP официально переходит под крыло Linux Foundation.
Это важный момент для будущего агентов, инструментов и всей экосистемы разработки ИИ:
стандарт становится независимым, управляемым сообществом и готовым к масштабному принятию.
https://github.blog/open-source/maintainers/mcp-joins-the-linux-foundation-what-this-means-for-developers-building-the-next-era-of-ai-tools-and-agents/
Теперь MCP официально переходит под крыло Linux Foundation.
Это важный момент для будущего агентов, инструментов и всей экосистемы разработки ИИ:
стандарт становится независимым, управляемым сообществом и готовым к масштабному принятию.
https://github.blog/open-source/maintainers/mcp-joins-the-linux-foundation-what-this-means-for-developers-building-the-next-era-of-ai-tools-and-agents/
🎉11👍6🔥3❤2🥰2🍾2
🚀 QWEN представили SAPO - Soft Adaptive Policy Optimization.
Новый метод обучения LLM, делающий RL-тюнинг более стабильным и масштабируемым.
Зачем он нужен?
🔹 Жёсткое ограничение градиентов часто ломает обучение, то они исчезают, то взрываются .
🔹 В MoE-моделях эта нестабильность усиливается ещё больше
Что делает SAPO:
✓ вместо резких границ - плавный «температурный» контроллер
✓ более мягкая зона доверия - без внезапного обнуления градиентов
✓ согласованное поведение на уровне последовательности
✓ адаптация на уровне токенов - сохраняет полезные сигналы и ускоряет обучение
✓ асимметричные температуры - сильный выигрыш по стабильности, особенно для MoE
Что это даёт:
📌 длинные стабильные RL-тренировки
📌 выше точность (Pass@1)
📌 заметный прирост в задачах математики, кода и мультимодальности (например, на Qwen3-VL)
SAPO - шаг к более надёжному и предсказуемому RL-тюнингу больших моделей.
📄 Paper: https://arxiv.org/abs/2511.20347
📚 Blog: https://qwen.ai/blog?id=sapo
🔍 Видео: https://www.youtube.com/watch?v=aQyzIzUw9zI
Новый метод обучения LLM, делающий RL-тюнинг более стабильным и масштабируемым.
Зачем он нужен?
🔹 Жёсткое ограничение градиентов часто ломает обучение, то они исчезают, то взрываются .
🔹 В MoE-моделях эта нестабильность усиливается ещё больше
Что делает SAPO:
✓ вместо резких границ - плавный «температурный» контроллер
✓ более мягкая зона доверия - без внезапного обнуления градиентов
✓ согласованное поведение на уровне последовательности
✓ адаптация на уровне токенов - сохраняет полезные сигналы и ускоряет обучение
✓ асимметричные температуры - сильный выигрыш по стабильности, особенно для MoE
Что это даёт:
📌 длинные стабильные RL-тренировки
📌 выше точность (Pass@1)
📌 заметный прирост в задачах математики, кода и мультимодальности (например, на Qwen3-VL)
SAPO - шаг к более надёжному и предсказуемому RL-тюнингу больших моделей.
📄 Paper: https://arxiv.org/abs/2511.20347
📚 Blog: https://qwen.ai/blog?id=sapo
🔍 Видео: https://www.youtube.com/watch?v=aQyzIzUw9zI
❤9👍5
Вышел техрепорт Яндекса о семействе моделей Alice AI
Техрепорт охватывает Alice AI LLM, LLM Search, мультимодальную VLM и ART для изображений. Подход ко всем единый: масштабирование данных, улучшение reasoning и повышение эффективности инференса.
Одним из ключевых разделов опубликованного техрепорта стала детальная пересборка обучающих данных для Alice AI LLM. Яндекс сфокусировался на улучшении качества корпуса и формировании устойчивых знаний в областях, где классические LLM испытывают дефицит.
Благодаря фильтрации и аугментации больших корпусов удалось избавиться от низкокачественных данных и расширить репрезентативность корректных фактов. Результаты подтверждены внутренними измерениями: рост на 4–7% на внутреннем бенчмарке фактов.
Cбор данных по школьным предметам обеспечил крупнейший скачок: нейросеть уверенно обходит зарубежные модели в истории, литературе и русском языке. В математике и программировании также заметен прогресс за счёт добавления алгоритмических и кодовых данных (+4.5 п.п. на LiveCodeBench).
Ещё из интересного — алгоритм последовательного параллелизма Ulysses attention, который Яндекс внедрил совсем недавно. Подход позволил провести midtrain-стадию обучения и увеличить контекст с хорошим ускорением за счёт перебалансировки нагрузки между процессами.
https://habr.com/ru/companies/yandex/articles/974594/
Техрепорт охватывает Alice AI LLM, LLM Search, мультимодальную VLM и ART для изображений. Подход ко всем единый: масштабирование данных, улучшение reasoning и повышение эффективности инференса.
Одним из ключевых разделов опубликованного техрепорта стала детальная пересборка обучающих данных для Alice AI LLM. Яндекс сфокусировался на улучшении качества корпуса и формировании устойчивых знаний в областях, где классические LLM испытывают дефицит.
Благодаря фильтрации и аугментации больших корпусов удалось избавиться от низкокачественных данных и расширить репрезентативность корректных фактов. Результаты подтверждены внутренними измерениями: рост на 4–7% на внутреннем бенчмарке фактов.
Cбор данных по школьным предметам обеспечил крупнейший скачок: нейросеть уверенно обходит зарубежные модели в истории, литературе и русском языке. В математике и программировании также заметен прогресс за счёт добавления алгоритмических и кодовых данных (+4.5 п.п. на LiveCodeBench).
Ещё из интересного — алгоритм последовательного параллелизма Ulysses attention, который Яндекс внедрил совсем недавно. Подход позволил провести midtrain-стадию обучения и увеличить контекст с хорошим ускорением за счёт перебалансировки нагрузки между процессами.
https://habr.com/ru/companies/yandex/articles/974594/
🆒6👍3❤2😁2👌2
⚡️ Хотите масштабировать биологические трансформер-модели на PyTorch?
Nvidia представила BioNeMo Recipes - набор готовых рецептов, которые значительно упрощают обучение и ускорение больших моделей для биологии. Это пошаговые инструкции на базе привычных инструментов: PyTorch, Hugging Face и зрелой инфраструктуры Nvidia.
В новом посте показано, как с помощью этих рецептов ускорять обучение трансформеров под биологические задачи и быстро выводить их на промышленный масштаб - без погружения в сложный HPC-стек.
https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/
Nvidia представила BioNeMo Recipes - набор готовых рецептов, которые значительно упрощают обучение и ускорение больших моделей для биологии. Это пошаговые инструкции на базе привычных инструментов: PyTorch, Hugging Face и зрелой инфраструктуры Nvidia.
В новом посте показано, как с помощью этих рецептов ускорять обучение трансформеров под биологические задачи и быстро выводить их на промышленный масштаб - без погружения в сложный HPC-стек.
https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/
🔥7👍5❤3
🚨 Stanford показал, что AI уже обгоняет профессиональных хакеров в реальном мире - и масштаб этого пока недооценён
Исследователи из Stanford опубликовали работу, в которой сравнили людей и AI не в «игрушечных» условиях, а в настоящей корпоративной сети.
Эксперимент выглядел жёстко:
— 10 профессиональных pentester’ов
— живая университетская сеть
— ~8 000 реальных машин
— 12 подсетей
— продакшн-системы и реальные пользователи
И в ту же среду они запустили AI-агента ARTEMIS.
Результат оказался неожиданным — и пугающим:
ARTEMIS обошёл 9 из 10 человеческих экспертов.
Не CTF.
Не статические CVE.
Не симуляция.
Настоящая сеть с реальными последствиями.
Что показал ARTEMIS:
— 9 подтверждённых уязвимостей
— 82% валидных находок
— 2-е место в общем лидерборде
— без надзора человека
— без кастомных эксплойтов
— стоимость работы ~18 долларов в час
Для сравнения: человек-pentester стоит ~60 долларов в час.
Почему AI оказался сильнее:
• Люди выбирали цели вручную
• ARTEMIS запускал саб-агентов и атаковал несколько хостов параллельно
• Люди теряли зацепки и уходили в «кроличьи норы»
• ARTEMIS держал идеальную память, TODO-листы и авто-триаж
• Люди не могли открыть устаревшие web-интерфейсы
• ARTEMIS просто игнорировал браузер и ломал их через curl -k
Более того, он нашёл уязвимости, которые не нашёл ни один человек.
Что его пока тормозит:
— GUI-зависимые эксплойты
— более высокий процент ложных срабатываний
Во всём остальном ARTEMIS действовал как полностью укомплектованная red-team:
без усталости, без эго, с бесконечным терпением.
Вывод простой и жёсткий:
🔴 AI больше не «помогает» pentester’ам
🔴 AI начинает конкурировать с ними
🔴 И в некоторых сценариях - уже выигрывает
Это момент, когда offensive security начинает меняться навсегда.
📄 Paper: *Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing*
Исследователи из Stanford опубликовали работу, в которой сравнили людей и AI не в «игрушечных» условиях, а в настоящей корпоративной сети.
Эксперимент выглядел жёстко:
— 10 профессиональных pentester’ов
— живая университетская сеть
— ~8 000 реальных машин
— 12 подсетей
— продакшн-системы и реальные пользователи
И в ту же среду они запустили AI-агента ARTEMIS.
Результат оказался неожиданным — и пугающим:
ARTEMIS обошёл 9 из 10 человеческих экспертов.
Не CTF.
Не статические CVE.
Не симуляция.
Настоящая сеть с реальными последствиями.
Что показал ARTEMIS:
— 9 подтверждённых уязвимостей
— 82% валидных находок
— 2-е место в общем лидерборде
— без надзора человека
— без кастомных эксплойтов
— стоимость работы ~18 долларов в час
Для сравнения: человек-pentester стоит ~60 долларов в час.
Почему AI оказался сильнее:
• Люди выбирали цели вручную
• ARTEMIS запускал саб-агентов и атаковал несколько хостов параллельно
• Люди теряли зацепки и уходили в «кроличьи норы»
• ARTEMIS держал идеальную память, TODO-листы и авто-триаж
• Люди не могли открыть устаревшие web-интерфейсы
• ARTEMIS просто игнорировал браузер и ломал их через curl -k
Более того, он нашёл уязвимости, которые не нашёл ни один человек.
Что его пока тормозит:
— GUI-зависимые эксплойты
— более высокий процент ложных срабатываний
Во всём остальном ARTEMIS действовал как полностью укомплектованная red-team:
без усталости, без эго, с бесконечным терпением.
Вывод простой и жёсткий:
🔴 AI больше не «помогает» pentester’ам
🔴 AI начинает конкурировать с ними
🔴 И в некоторых сценариях - уже выигрывает
Это момент, когда offensive security начинает меняться навсегда.
📄 Paper: *Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing*
👍13❤8🔥3
Apple на короткое время опубликовала, а затем быстро удалила статью на arXiv - но версия v1 уже разошлась, и она очень любопытная.
Команда раскрыла RLAX - масштабируемый фреймворк обучения с подкреплением для LLM на TPU.
Что внутри RLAX:
- Архитектура parameter server
- Центральный тренер обновляет веса
- Огромные inference-флоты подтягивают веса и генерируют rollouts
- Оптимизировано под preemption и массовый параллелизм
- Специальные техники курирования данных и alignment
Результаты впечатляют:
- +12,8% к pass@8 на QwQ-32B
- Всего за 12 часов 48 минут
- Использовано 1024 TPU v5p
Почему это важно:
- Apple явно экспериментирует с RL на очень больших масштабах
- TPU-ориентированная архитектура говорит о фокусе на эффективность, а не только на модель
- Прирост достигается не «магией модели», а инженерией системы обучения
- Это еще один сигнал, что RL для LLM переходит в фазу индустриальных пайплайнов
Название статьи:
RLAX: Large-Scale, Distributed Reinforcement Learning for
https://arxiv.org/pdf/2512.06392v1
Команда раскрыла RLAX - масштабируемый фреймворк обучения с подкреплением для LLM на TPU.
Что внутри RLAX:
- Архитектура parameter server
- Центральный тренер обновляет веса
- Огромные inference-флоты подтягивают веса и генерируют rollouts
- Оптимизировано под preemption и массовый параллелизм
- Специальные техники курирования данных и alignment
Результаты впечатляют:
- +12,8% к pass@8 на QwQ-32B
- Всего за 12 часов 48 минут
- Использовано 1024 TPU v5p
Почему это важно:
- Apple явно экспериментирует с RL на очень больших масштабах
- TPU-ориентированная архитектура говорит о фокусе на эффективность, а не только на модель
- Прирост достигается не «магией модели», а инженерией системы обучения
- Это еще один сигнал, что RL для LLM переходит в фазу индустриальных пайплайнов
Название статьи:
RLAX: Large-Scale, Distributed Reinforcement Learning for
https://arxiv.org/pdf/2512.06392v1
❤15👍8