Media is too big
VIEW IN TELEGRAM
Пекин дал добро, и это выглядит как вынужденный шаг назад. Регулятор пытается усидеть на двух стульях: с одной стороны стратегия импортозамещения, с другой - лидерам рынка нужно актуальное железо прямо сейчас, ведь на своих чипах далеко не уедешь.
Но ситуация запутанная. Источники Reuters говорят, что лицензии выдают с кучей жестких условий, которые даже не успели толком согласовать.
Один инсайдер выразился конкретнее: ограничения настолько суровые, что разрешение вроде бы есть, а превратить его в реальный заказ компании пока не могут. Впрочем, очередь за лицензиями все равно уже выстроилась.
reuters.com
Компания показала, как робот Figure 03 загружает посудомойку - 61 действие подряд без сбоев. Раньше писали отдельные контроллеры для ног и рук, из-за чего любое движение корпуса сбивало прицел манипуляторам. Теперь всем телом управляет единая архитектура Helix 02.
Выглядит это пугающе естественно. За моторику отвечает сеть System 0 (10 млн. параметров), которую натаскали на 1000 часах человеческих движений. Она работает с частотой 1 кГц.
Инженеры говорят, что новый подход позволил удалить 109 тыс. строк кода, который раньше отвечал за координацию. Figure AI называет это самой сложной автономной задачей в истории гуманоидов.
figure.ai
Раньше модель воспринимала изображение пассивно, а теперь она использует цикл «думай-действуй-наблюдай». Работает это так: если нужно рассмотреть мелкую деталь, Gemini сама пишет и исполняет код, чтобы приблизить, обрезать или разметить нужный участок. Это лечит старые болячки. Чтобы посчитать объекты, она теперь рисует рамки и нумерует их по порядку.
С таблицами то же самое: никаких галлюцинаций, только реальные вычисления через код. Google обещает прирост качества на 5–10%. Обновление уже раскатывают в AI Studio, Vertex AI и приложении Gemini (режим Thinking).
blog.google
В Full HD при 30 кадрах в секунду система успевает менять одежду, персонажей или фон по текстовому запросу практически, как говорят разработчики, без задержек. Модель работает без привычных 3D-движков и карт глубины. Она понимает физику движений, опираясь только на видео-паттерны. За стабильность картинки при длительной генерации отвечает алгоритм Smart History Augmentation.
Работает все на чипах AWS Trainium3 — видимо, только так удалось убрать задержки. В деле Lucy 2.0 можно попробовать тут.
decart.ai
Антидиффамационная лига (ADL) проверила, насколько легко современные модели выдают хейт-спич и экстремизм. Они прогнали 25 тыс. диалогов через 6 топовых моделей, и результаты оказались, мягко говоря, неоднозначными.
Лучше всех защищена Claude: 80 баллов из 100. А вот Grok с треском провалил тест, получив всего 21 балл. Самое слабое место Grok - работа с картинками и документами. В мультимодальных задачах он показал полный ноль: он просто не видит токсичный контент, если тот не написан текстом.
Итоговое распределение мест по убыванию: Claude, ChatGPT, DeepSeek, Gemini, Llama, Grok.
adl.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤82👍19🔥8🐳2🦄2
Пока индустрия одержима гигантоманией и соревнуется, у кого больше параметров, Stepfun решили пойти против течения.
Встречайте, Step3-VL-10B - компактная VL-модель, которая по заявлениям разработчиков не просто конкурирует, а буквально уделывает модели в 10–20 раз тяжелее, включая таких титанов, как Gemini 2.5 Pro и GLM-4.6V.
Звучит как маркетинговый хайп, но под капотом есть интересные инженерные решения, хоть и с хитринкой.
Конструкция из кастомного визуального PE-lang энкодера на 1.8B параметров и Qwen3-8B (что уже половина успеха, учитывая мощь Qwen) в качестве декодера.
В отличие от многих, кто замораживает визуальную часть, Stepfun разморозили все и тренировали модель в один прогон на 1,2 трлн. токенов. Это позволило визуальной и языковой частям модели не просто сосуществовать, а реально срастись и притереться друг к другу.
После этого модель прогнали через адский RL-цикл (RLVR+RLHF) на 1400+ итераций, чтобы модель научилась жестко ризонить.
В бенчмарках цифры действительно страшные (в хорошем смысле) для такого размера:
Для сравнения: GLM-4.6V на 106B выдает на MMMU только 75.20.
Инженерная хитринка кроется в методологии тестирования. Видите в результатах тестов пометку PaCoRe?
PaCoRe (Parallel Coordinated Reasoning):
Чтобы получить топовые цифры, модель использует test-time compute. Она запускает 16 параллельных роллаутов, собирает доказательства из разных веток и синтезирует ответ.
На инференсе это будет стоить вам в 16 раз "дороже" по ресурсам, чем обычный прогон. В стандартном режиме (SeRe) модель все еще хороша, но уже не выглядит как "убийца всех топов".
Кстати, Stepfun честно признались, что в отчетах накосячили с бенчмарками конкурента Qwen3VL-8B из-за неверного
max_tokens. Извинились, обещают пересчитать. Это добавляет доверия, но напоминает, что бенчмарки - дело тонкое.В общем, модель - отличный кандидат для локального использования: есть OpenAI-compatible API и vLLM поддерживается (PR вмержили).
⚠️ Если модель зацикливается при генерации - обновите конфиг, там был баг с
eos_token_id, который уже пофиксили.@ai_machinelearning_big_data
#AI #ML #VLM #STEP3 #StepFunAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46❤18👍9🥰4🤔2🥱2❤🔥1💯1🦄1
Рекомендации, поиск и реклама решают одну и ту же задачу 🤝
Быстро понять интент пользователя и показать ему нужное.
Команда AI VK за год собрала Discovery-платформу — единый инфраструктурный слой для персонализации:
По сути, это переход от множества ML-стеков к централизованной системе данных, моделей и пайплайнов.
Что это дало:
• полный цикл «идея → эксперимент → прод» сократился в 5 раз
• новый рекомендер теперь можно запустить в среднем за месяц
• инженеры не собирают стек с нуля
И самое приятное — продуктовые метрики:
+17,4% времени просмотра в VK Клипах
+40% сохранённых треков в VK Музыке
+70% релевантности рекомендаций в VK Видео
Как это устроено под капотом и из каких компонентов состоит платформа — команда подробно разобрала в большом материале.
Быстро понять интент пользователя и показать ему нужное.
Команда AI VK за год собрала Discovery-платформу — единый инфраструктурный слой для персонализации:
По сути, это переход от множества ML-стеков к централизованной системе данных, моделей и пайплайнов.
Что это дало:
• полный цикл «идея → эксперимент → прод» сократился в 5 раз
• новый рекомендер теперь можно запустить в среднем за месяц
• инженеры не собирают стек с нуля
И самое приятное — продуктовые метрики:
+17,4% времени просмотра в VK Клипах
+40% сохранённых треков в VK Музыке
+70% релевантности рекомендаций в VK Видео
Как это устроено под капотом и из каких компонентов состоит платформа — команда подробно разобрала в большом материале.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤77🥱74👍14🤣11😐11🙉8🔥5💅2
Продакшен больших моделей — штука дорогая и в таких масштабах реально бьются за каждый процент скорости.
Tencent Hunyuan AI Infra выложила в открытый доступ HPC-Ops - рабочую библиотеку, на которой, в том числе, крутится их собственная инфраструктура.
Разработчики решили не латать старое, а переписали все с нуля на чистой CUDA и CuTe специально под архитектуру Hopper.
И это логично: популярные решения вроде vLLM или дефолтного FlashAttention часто не до конца утилизируют возможности железа. В HPC-Ops же целью была максимальная загрузка GPU.
Внутри есть все, что нужно для сборки серьезного инференса: оптимизированные ядра внимания с paged attention, квантованный Grouped GEMM с поддержкой FP8 и блочным скейлингом, Fused MoE и инструменты связи нод для распределенных систем.
На своих моделях с HPC-Ops у Tencent пропускная способность выросла на 30%, а для DeepSeek на 17%. Но интереснее всего дела обстоят с H20: там библиотека бустит ускорение до 2.22x по сравнению с тем, что было раньше.
Если закопаться в цифры, то самый большой прирост на декодинге. Механизм внимания в BF16 на декоде работает в 2.2 раза быстрее, чем связка из FlashInfer, FlashAttention и TensorRT-LLM.
На префилле профит поменьше — около 1.33x, но это тоже очень ощутимо.
С FP8 история похожая: ускорение в 2 раза на декодинге и небольшие, но приятные 12% на префилле. Тот же FusedMoE в FP8 прибавляет почти 50% скорости в режиме префилла.
HPC-Ops дружелюбен к vLLM и SGLang, но имейте в виду, что старое железо тут не поддерживается, это инструмент для карт SM90.
В планах на будущее:
Если вы сейчас оптимизируете инференс на Хопперах и боретесь за каждый токен в секунду эту штуку стоит как минимум потестить.
@ai_machinelearning_big_data
#AI #ML #LLM #HPCOps #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
❤40👍24😍4🦄2
Media is too big
VIEW IN TELEGRAM
Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.
На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.
Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google
Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.
Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.
Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com
Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.
Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.
Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org
Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.
В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.
Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com
Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.
Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).
Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤75👍9🔥7🦄4
🌍 OpenTalks.AI 2026 - главная встреча русскоязычного AI-комьюнити за рубежом
19–20 февраля в Белграде соберутся специалисты по AI и ML со всего мира: исследователи, инженеры, фаундеры, лиды команд и просто люди, которые живут ИИ.
100+ спикеров и экспертов, среди которых:
Дмитрий Ветров, Евгений Бурнаев, Андрей Устюжанин, Татьяна Шаврина, Анна-Вероника Дорогуш, Сергей Николенко, Рома Доронин, Антон Конушин, Сергей Шумский, Аркадий Сандлер, Андрей Савченко, Сергей Кузнецов, Дмитрий Юдин, Сергей Овчаренко, Саша Крайнов — и ещё десятки сильнейших специалистов.
Три направления конференции:
🔬 Research - исследования и наука
⚙️ Engineering - реальные системы и продакшн
💼 Business - ИИ в продуктах и компаниях
OpenTalks.AI - это:
- живое общение и нетворкинг
- обмен опытом без формальностей
- новые идеи, проекты и знакомства
- атмосфера сильного профессионального сообщества
📍 Белград, Сербия
🗓 19–20 февраля 2026
Приезжайте быть частью русскоязычного AI/ML-комьюнити, которое съедется в одном месте со всего мира.
Промо-код на 20% для подписчиков: MachinelearningOT26
👉 www.OpenTalks.AI
19–20 февраля в Белграде соберутся специалисты по AI и ML со всего мира: исследователи, инженеры, фаундеры, лиды команд и просто люди, которые живут ИИ.
100+ спикеров и экспертов, среди которых:
Дмитрий Ветров, Евгений Бурнаев, Андрей Устюжанин, Татьяна Шаврина, Анна-Вероника Дорогуш, Сергей Николенко, Рома Доронин, Антон Конушин, Сергей Шумский, Аркадий Сандлер, Андрей Савченко, Сергей Кузнецов, Дмитрий Юдин, Сергей Овчаренко, Саша Крайнов — и ещё десятки сильнейших специалистов.
Три направления конференции:
🔬 Research - исследования и наука
⚙️ Engineering - реальные системы и продакшн
💼 Business - ИИ в продуктах и компаниях
OpenTalks.AI - это:
- живое общение и нетворкинг
- обмен опытом без формальностей
- новые идеи, проекты и знакомства
- атмосфера сильного профессионального сообщества
📍 Белград, Сербия
🗓 19–20 февраля 2026
Приезжайте быть частью русскоязычного AI/ML-комьюнити, которое съедется в одном месте со всего мира.
Промо-код на 20% для подписчиков: MachinelearningOT26
👉 www.OpenTalks.AI
opentalks.ai
OpenTalks.AI: 19-20 February 2026
Open Conference on Artificial Intelligence in Belgrade, Serbia, February 19-20, 2026
🔥26👍11🥰5❤3🌭3🗿2🦄2
PaddlePaddle обновили свою линейку PaddleOCR-VL, выпустив PaddleOCR-VL-1.5 - компактную VLM на 0.9 млрд. параметров на базе ERNIE-4.5-0.3B-Paddle. Несмотря на скромный размер, в задачах разбора документов она показывает SOTA-результаты.
На тесте OmniDocBench v1.5 модель выбила 94.5% точности, обойдя не только прошлую версию, но и более тяжелых конкурентов.
Фишка обновления - упор на полевые условия. Модель специально учили работать с плохими исходниками: кривыми сканами, бликами от мониторов и мятыми страницами.
Попутно сделали бенчмарк Real5-OmniDocBench, который гоняет модели по 5 сценариям: сканирование, перекосы, деформация листа, фото с экрана и плохое освещение.
Модель работает с
transformers, дружит с Flash Attention 2 и, само собой, поддерживается PaddlePaddle 3.2.1.Если нужно быстро поднять сервис - есть готовый Docker-образ.
Если нужен полноценный постраничный парсинг всего документа, лучше использовать официальный пакет PaddleOCR. Реализация через transformers пока ограничена только распознаванием отдельных элементов и споттингом.
В пайплайн встроили логику препроцессинга. Если картинка меньше 1500 пикселей, она автоматом апскейлится фильтром Lanczos. При этом есть потолок в 1.6 млн. пикселей для споттинга, это чтобы не перегружать память GPU и сохранить читаемость мелкого шрифта.
@ai_machinelearning_big_data
#AI #ML #VL #OCR #PaddleOCR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38🔥20👍16🦄2