NEW BOT Телеграм, страница

Machine learning Interview

T5Gemma 2 - новое поколение энкодер-декодерных моделей от Google

Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.

T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.

Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков

Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров

Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.

Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.

Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга

T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.

https://blog.google/technology/developers/t5gemma-2/

❤14👍4🔥4

6.38K views08:02

Machine learning Interview

🧠 Новая работа учит модели рассуждений «думать» на крошечном символическом языке — сохранять точность, но тратить в 4-16 раз меньше токенов.

Обычные reasoning-модели вроде DeepSeek R1 хорошо решают математику, но пишут длинные цепочки «саморазмышлений», из-за чего инференс становится медленным и дорогим.

Чтобы сократить это, авторы создают язык Mentalese - каждый шаг это короткий оператор + маленькое вычисление. Они собирают ~40K математических трейсов в этом формате.

Сначала небольшие модели дообучают на этих трейсах так, что каждая задача решается одним коротким Mentalese-скриптом. Длина резко сокращается, но падает точность.

Далее применяют RL с проверяющим: модель генерирует множество кандидатов, а версификатор оценивает их правильность.

Метод Shorter Length Preference Optimization сохраняет главным вознаграждение за корректность, но добавляет небольшой бонус за более короткий правильный трейс — при этом не наказывает единственный длинный правильный ответ.

Так рождаются модели ORION, они сохраняют сильную математическую точность, но потребляют в 4–16 раз меньше reasoning-токенов, делая обучение и инференс значительно дешевле.

📌 Paper: “ORION: Teaching Language Models to Reason Efficiently in the Language of Thought”
arxiv.org/abs/2511.22891

🔥15❤8

3.41K views10:02

Machine learning Interview

🚀 Google выложила разбор того, как Gemini 3 Pro стала мощной системой для визуального понимания.

Она не просто “видит”, что на изображении — она рассуждает о сцене.

📌 Ключевые примеры возможностей:
• “Дерендеринг” — превращает грязные PDF и скриншоты в чистый код
• Понимание пространственных координат — полезно для робототехники
• Анализ сложных интерфейсов и динамичных видео
• Отображение документов, экранов, пространств и реальных сцен одной моделью

💡 Самое интересное — Gemini 3 Pro может генерировать код приложений по длинным видео и даёт разработчикам настройку точности: баланс между качеством и стоимостью обработки.

Итог: это уже не распознавание картинок, а полноценная визуальная система рассуждений для агентов, роботов и инструментов разработки.

https://blog.google/technology/developers/gemini-3-pro-vision/

👏10❤6👍2

3.74K views15:07

Machine learning Interview

OpenAI неоднократно переходила в режим «Code Red», сообщает Bloomberg.

«Code Red» - это внутренний режим, когда команды временно бросают второстепенные задачи и фокусируются на одном приоритете. По словам главы исследований OpenAI Марка Чена, компания уже не раз использовала этот подход.

Причина простая: большие команды легко распыляются между агентами, рекламой и исследованиями, из-за чего основной продукт - чат, теряет скорость и надёжность.

Последний «Code Red» последовал сразу после релиза Google Gemini 3.

Ответ OpenAI:
- возврат фокуса на core-stack
- снижение latency
- рост uptime
- более жёсткие eval-циклы, чтобы ловить деградации качества до пользователей

Результат:
- релиз GPT-5.2 и GPT-5.2-Codex
- переработка ChatGPT Images до 4× быстрее генерация при сохранении стабильности деталей между правками

Следующий фокус - сам training engine: алгоритмы + инфраструктура для масштабных обучений. OpenAI обсуждает инвестиции порядка 1.4 трлн долларов в инфраструктуру на горизонте 8 лет.

bloomberg.com/news/articles/2025-12-18/openai-has-declared-code-red-multiple-times-executive-says

❤11🤣5👍2🔥2😨2

3.59K views10:03

Machine learning Interview

This media is not supported in your browser

VIEW IN TELEGRAM

🖼️ EditThinker: теперь редакторы изображений могут «думать» итеративно!

Meituan добавляет в любые модели редактирования изображений способность рассуждать: модель критикует результат, уточняет инструкции и повторяет цикл, пока не получит удовлетворяющий итог. Это имитация человеческого процесса мышления - Critique → Refine → Repeat.

EditThinker учится анализировать собственные ошибки, улучшать запросы и идти по итерациям, что значительно повышает качество следования инструкциям.

https://huggingface.co/papers/2512.05965

❤4👍3🔥3😁2

3.47K viewsedited 13:48

Machine learning Interview

🚀 Flowra - простой и понятный open-source движок для создания AI-воркфлоу.

Это тот же движок, что стоит за FlowBench, и он позволяет собирать сложные pipelines так же легко,
как конструктор LEGO.

Что делает Flowra удобной:

✅ Один движок для всех типов данных: изображения, аудио, видео и 3D
✅ Выполнение через DAG-граф: умное кэширование, параллельность и масштабирование
✅ Подключение моделей ModelScope одной строкой — без сложной настройки
✅ Полный цикл разработки:
flowra create → build → debug → deploy

Итог: вы берёте свою ML-модель и превращаете её в визуальный блок, который можно перетаскивать
и соединять с другими.
✨ Без адских зависимостей. Без мучительного дебага.

🔗 GitHub: https://github.com/modelscope/flowra
📥 FlowBench client: https://modelscope.cn/flowbench/download

🤔4❤2👍2

3.68K views12:04

Machine learning Interview

📘 Новая образовательная книга: Scaling ML Systems от JAX-ML

Проект Scaling Book - это свободно доступный интерактивный онлайн-ресурс, посвящённый масштабированию машинного обучения. Он создан сообществом вокруг JAX и охватывает ключевые методы, практики и архитектурные подходы, которые помогают строить масштабируемые, высокопроизводительные ML-системы.

💡 Что внутри:
— Основы масштабирования моделей и обучения
— Параллелизм данных, параметров и микшированные стратегии
— Технологии распределённого обучения (TPUs/GPUs)
— Оптимизация вычислений и памяти
— Практические примеры на JAX и других стековых инструментах
— Схемы, коды и визуализации для конкретных паттернов обучения

📍 Почему это полезно:
— Подходит как для опытных инженеров ML, так и для тех, кто хочет перейти от прототипов к промышленным ML-системам
— Объединяет теорию и практику распределённого обучения
— Обсуждает реальные ограничения архитектур и пути их решения
— Показывает, как системно мыслить о масштабировании, а не копировать хаки

🔗 Читайте онлайн: jax-ml.github.io/scaling-book

👍7

3.19K views10:50

Machine learning Interview

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Большинство быстрых text-to-speech моделей звучат роботизировано.

Большинство качественных - слишком медленные.
И почти ни одна не решает вопрос аутентичности аудио на уровне архитектуры.

Resemble AI закрыли все три проблемы сразу.

Chatterbox Turbo 0 это:

🟢 <150 мс до первого звука
🟢 Качество уровня SOTA - превосходит более крупные проприетарные модели
🟢 Естественные, программируемые эмоции и интонации
🟢 Zero-shot клонирование голоса всего по 5 секундам аудио
🟢 PerTh watermarking - проверяемое и аутентифицированное аудио
🟢 Полностью open source, никакой «чёрной магии»

Редкий пример, когда скорость, качество и безопасность не идут на компромисс, а работают вместе.

HuggingFace: https://huggingface.co/spaces/ResembleAI/chatterbox-turbo-demo

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍6🤔2🔥1

3.35K views13:49

Machine learning Interview

Forwarded from Machinelearning

Agent Skills for Context Engineering - учим агентов «думать контекстом» 🤖🧠

Этот репозиторий показывает, как прокачать LLM-агентов так, чтобы они лучше понимали задачу, историю диалога и условия, а не просто генерировали ответы.

Чем полезен:
• навыки управления длинным контекстом
• аккуратное структурирование данных и инструкций
• шаблоны для поиска, фильтрации и принятия решений
• примеры реальных сценариев (чаты, задачи с памятью, интеграции)

Часто агенты теряют важные детали, путают шаги и «забывают» цель. Эта библиотека учит их держать контекст под контролем и действовать последовательнее.

▪Github: https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering

@ai_machinelearning_big_data

👍6🔥4❤1

2.21K views18:28

Machine learning Interview

📄 Превращайте тысячи PDF в данные, готовые для LLM - с Vision-First Agentic Document AI!

LandingAI представила Agentic Document Extraction (ADE) DPT-2 Mini - облегчённую версию Document Pretrained Transformer 2, специально для потоковой обработки документов.

Идеально для “чистых” цифровых PDF, где визуальный контекст всё ещё важен для точного извлечения.

Подходит для:
• счетов
• договоров
• писем
• служебных записок
• любых аккуратно сформированных PDF

✨ Основные возможности:

• Структурированное извлечение из цифровых документов
• Точное понимание макета простых PDF
• Поддержка разных типов блоков: параграфы, изображения, логотипы, карточки и т.д.
• Надёжная транскрипция английского текста
• Оптимизация под масштаб — быстро, стабильно, экономично

DPT-2 Mini ориентирован на скорость, надёжность и низкую стоимость — когда документы простые, а нужно массовое и чистое структурированное извлечение.

https://github.com/landing-ai/ade-python

🤣6🔥3❤2

3.35K views10:10

Machine learning Interview

🖥

Новая вакансия OpenAI: Head of Preparedness.

Компания ищет человека, который будет заранее продумывать и управлять рисками от быстро растущих возможностей ИИ.

Главная идея роли:
- понимать, где ИИ может пойти «не туда»
- предотвращать злоупотребления ИИ
- усиливать защиту кибербезопасности,
- закладывать правила для систем, которые умеют самоулучшаться

Это напряжённая и очень ответственная работа: мало примеров, много неизвестного - и высокий уровень влияния на решения.

По сути - задача проста по формулировке и сложна на практике: как развивать мощный ИИ и не дать ему причинить вред.

https://openai.com/careers/head-of-preparedness-san-francisco/

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1

3.2K views06:52

Machine learning Interview

⚡️ Neural Operator официально стал частью экосистемы PyTorch

PyTorch расширяет границы машинного обучения - в экосистему официально вошли Neural Operators.

Что это такое:
Neural Operators - это класс моделей, которые учатся не аппроксимировать данные, а аппроксимировать сами операторы. Проще говоря, они учатся решать целые классы задач, а не отдельные примеры.

Зачем это нужно:
- Решение дифференциальных уравнений
- Физическое моделирование
- Климат и погода
- CFD, материалы, биология
- Научные и инженерные симуляции

В отличие от обычных нейросетей:
- Neural Operators обобщаются на разные разрешения сетки
- Работают с непрерывными функциями
- Лучше подходят для задач, где данные описывают физические процессы

Что дает интеграция в PyTorch:
- Единый стандарт и API
- Совместимость с autograd, GPU и распределенным обучением
- Проще внедрять в реальные ML и scientific pipelines
- Меньше барьеров между research и production

PyTorch все больше становится не просто фреймворком для DL, а базовой платформой для научных вычислений и физически-осмысленного ИИ.

ML и scientific computing продолжают сближаться - и это один из самых сильных сигналов за последнее время.

Источник:
https://pytorch.org/blog/neuraloperatorjoins-the-pytorch-ecosystem/

❤21🔥8👍4

3.9K views10:03

About

Blog

Apps

Platform