Machinelearning – Telegram
344K subscribers
4.56K photos
920 videos
17 files
5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Media is too big
VIEW IN TELEGRAM
✔️ Китай разрешил Alibaba, Tencent и ByteDance закупить 400 тыс. Nvidia H200.

Пекин дал добро, и это выглядит как вынужденный шаг назад. Регулятор пытается усидеть на двух стульях: с одной стороны стратегия импортозамещения, с другой - лидерам рынка нужно актуальное железо прямо сейчас, ведь на своих чипах далеко не уедешь.

Но ситуация запутанная. Источники Reuters говорят, что лицензии выдают с кучей жестких условий, которые даже не успели толком согласовать.

Один инсайдер выразился конкретнее: ограничения настолько суровые, что разрешение вроде бы есть, а превратить его в реальный заказ компании пока не могут. Впрочем, очередь за лицензиями все равно уже выстроилась.
reuters.com

✔️ Figure AI создала нейросеть Helix 02 для управления роботами.

Компания показала, как робот Figure 03 загружает посудомойку - 61 действие подряд без сбоев. Раньше писали отдельные контроллеры для ног и рук, из-за чего любое движение корпуса сбивало прицел манипуляторам. Теперь всем телом управляет единая архитектура Helix 02.

Выглядит это пугающе естественно. За моторику отвечает сеть System 0 (10 млн. параметров), которую натаскали на 1000 часах человеческих движений. Она работает с частотой 1 кГц.

Инженеры говорят, что новый подход позволил удалить 109 тыс. строк кода, который раньше отвечал за координацию. Figure AI называет это самой сложной автономной задачей в истории гуманоидов.
figure.ai

✔️ У Gemini появилось агентное зрение.

Раньше модель воспринимала изображение пассивно, а теперь она использует цикл «думай-действуй-наблюдай». Работает это так: если нужно рассмотреть мелкую деталь, Gemini сама пишет и исполняет код, чтобы приблизить, обрезать или разметить нужный участок. Это лечит старые болячки. Чтобы посчитать объекты, она теперь рисует рамки и нумерует их по порядку.

С таблицами то же самое: никаких галлюцинаций, только реальные вычисления через код. Google обещает прирост качества на 5–10%. Обновление уже раскатывают в AI Studio, Vertex AI и приложении Gemini (режим Thinking).
blog.google

✔️ DecartAI выпустили Lucy 2.0, которая меняет видео на лету в 1080p.

В Full HD при 30 кадрах в секунду система успевает менять одежду, персонажей или фон по текстовому запросу практически, как говорят разработчики, без задержек. Модель работает без привычных 3D-движков и карт глубины. Она понимает физику движений, опираясь только на видео-паттерны. За стабильность картинки при длительной генерации отвечает алгоритм Smart History Augmentation.

Работает все на чипах AWS Trainium3 — видимо, только так удалось убрать задержки. В деле Lucy 2.0 можно попробовать тут.
decart.ai

✔️ Рейтинг безопасности LLM от ADL: Claude лидирует, Grok провалил тесты на экстремизм.

Антидиффамационная лига (ADL) проверила, насколько легко современные модели выдают хейт-спич и экстремизм. Они прогнали 25 тыс. диалогов через 6 топовых моделей, и результаты оказались, мягко говоря, неоднозначными.

Лучше всех защищена Claude: 80 баллов из 100. А вот Grok с треском провалил тест, получив всего 21 балл. Самое слабое место Grok - работа с картинками и документами. В мультимодальных задачах он показал полный ноль: он просто не видит токсичный контент, если тот не написан текстом.

Итоговое распределение мест по убыванию: Claude, ChatGPT, DeepSeek, Gemini, Llama, Grok.
adl.org


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
182👍19🔥8🐳2🦄2
🌟 Step3-VL-10B: VLM от stepfun.ai.

Пока индустрия одержима гигантоманией и соревнуется, у кого больше параметров, Stepfun решили пойти против течения.

Встречайте, Step3-VL-10B - компактная VL-модель, которая по заявлениям разработчиков не просто конкурирует, а буквально уделывает модели в 10–20 раз тяжелее, включая таких титанов, как Gemini 2.5 Pro и GLM-4.6V.

Звучит как маркетинговый хайп, но под капотом есть интересные инженерные решения, хоть и с хитринкой.

🟡Архитектура

Конструкция из кастомного визуального PE-lang энкодера на 1.8B параметров и Qwen3-8B (что уже половина успеха, учитывая мощь Qwen) в качестве декодера.

В отличие от многих, кто замораживает визуальную часть, Stepfun разморозили все и тренировали модель в один прогон на 1,2 трлн. токенов. Это позволило визуальной и языковой частям модели не просто сосуществовать, а реально срастись и притереться друг к другу.

После этого модель прогнали через адский RL-цикл (RLVR+RLHF) на 1400+ итераций, чтобы модель научилась жестко ризонить.

🟡Тесты

В бенчмарках цифры действительно страшные (в хорошем смысле) для такого размера:

🟢MMMU: 78.11 (SeRe) / 80.11 (PaCoRe).
🟢MathVista: 83.97
🟢AIME 2025: 87.66 (SeRe) / 94.43 (PaCoRe)
🟢OCRBench: 86.75 (отлично читает документы).

Для сравнения: GLM-4.6V на 106B выдает на MMMU только 75.20.

Инженерная хитринка кроется в методологии тестирования. Видите в результатах тестов пометку PaCoRe?

PaCoRe (Parallel Coordinated Reasoning):
Чтобы получить топовые цифры, модель использует test-time compute. Она запускает 16 параллельных роллаутов, собирает доказательства из разных веток и синтезирует ответ.

На инференсе это будет стоить вам в 16 раз "дороже" по ресурсам, чем обычный прогон. В стандартном режиме (SeRe) модель все еще хороша, но уже не выглядит как "убийца всех топов".


Кстати, Stepfun честно признались, что в отчетах накосячили с бенчмарками конкурента Qwen3VL-8B из-за неверного max_tokens. Извинились, обещают пересчитать. Это добавляет доверия, но напоминает, что бенчмарки - дело тонкое.

В общем, модель - отличный кандидат для локального использования: есть OpenAI-compatible API и vLLM поддерживается (PR вмержили).

⚠️ Если модель зацикливается при генерации - обновите конфиг, там был баг с eos_token_id, который уже пофиксили.


📌Лицензирование:  Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo


@ai_machinelearning_big_data

#AI #ML #VLM #STEP3 #StepFunAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4618👍9🥰4🤔2🥱2❤‍🔥1💯1🦄1
Рекомендации, поиск и реклама решают одну и ту же задачу 🤝
Быстро понять интент пользователя и показать ему нужное.

Команда AI VK за год собрала Discovery-платформу — единый инфраструктурный слой для персонализации:

По сути, это переход от множества ML-стеков к централизованной системе данных, моделей и пайплайнов.

Что это дало:
• полный цикл «идея → эксперимент → прод» сократился в 5 раз
• новый рекомендер теперь можно запустить в среднем за месяц
• инженеры не собирают стек с нуля

И самое приятное — продуктовые метрики:
+17,4% времени просмотра в VK Клипах
+40% сохранённых треков в VK Музыке
+70% релевантности рекомендаций в VK Видео

Как это устроено под капотом и из каких компонентов состоит платформа — команда подробно разобрала в большом материале.
Please open Telegram to view this post
VIEW IN TELEGRAM
77🥱74👍14🤣11😐11🙉8🔥5💅2
🌟 Tencent HPC-Ops: решение, которое выжмет максимум из H100 и H200.

Продакшен больших моделей — штука дорогая и в таких масштабах реально бьются за каждый процент скорости.

Tencent Hunyuan AI Infra выложила в открытый доступ HPC-Ops - рабочую библиотеку, на которой, в том числе, крутится их собственная инфраструктура.

Разработчики решили не латать старое, а переписали все с нуля на чистой CUDA и CuTe специально под архитектуру Hopper.

И это логично: популярные решения вроде vLLM или дефолтного FlashAttention часто не до конца утилизируют возможности железа. В HPC-Ops же целью была максимальная загрузка GPU.

Внутри есть все, что нужно для сборки серьезного инференса: оптимизированные ядра внимания с paged attention, квантованный Grouped GEMM с поддержкой FP8 и блочным скейлингом, Fused MoE и инструменты связи нод для распределенных систем.

На своих моделях с HPC-Ops у Tencent пропускная способность выросла на 30%, а для DeepSeek на 17%. Но интереснее всего дела обстоят с H20: там библиотека бустит ускорение до 2.22x по сравнению с тем, что было раньше.

Если закопаться в цифры, то самый большой прирост на декодинге. Механизм внимания в BF16 на декоде работает в 2.2 раза быстрее, чем связка из FlashInfer, FlashAttention и TensorRT-LLM.

На префилле профит поменьше — около 1.33x, но это тоже очень ощутимо.

С FP8 история похожая: ускорение в 2 раза на декодинге и небольшие, но приятные 12% на префилле. Тот же FusedMoE в FP8 прибавляет почти 50% скорости в режиме префилла.

HPC-Ops дружелюбен к vLLM и SGLang, но имейте в виду, что старое железо тут не поддерживается, это инструмент для карт SM90.

В планах на будущее:

🟢sparse attention;
🟢поддержка 4-битного квантования;
🟢новые ядра, которые будут схлопывать вычисления и передачу данных между GPU.

Если вы сейчас оптимизируете инференс на Хопперах и боретесь за каждый токен в секунду эту штуку стоит как минимум потестить.


📌Лицензирование:  MIT License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #HPCOps #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
40👍24😍4🦄2
Media is too big
VIEW IN TELEGRAM
✔️ Deepmind раскатывет Project Genie.

Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.

На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.

Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google

✔️ DeepSeek будет делать ИИ-поисковик и платформу автономных агентов.

Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.

Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.

Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com

✔️ Ai2 выложил открытых кодинг-агентов SERA.

Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.

Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.

Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org

✔️ Nvidia открыла стек ИИ-моделей для прогноза погоды.

Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.

В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.

Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com

✔️ Google вывела фреймворк LiteRT в релиз.

Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.

Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).

Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
75👍9🔥7🦄4
🌍 OpenTalks.AI 2026 - главная встреча русскоязычного AI-комьюнити за рубежом
19–20 февраля в Белграде соберутся специалисты по AI и ML со всего мира: исследователи, инженеры, фаундеры, лиды команд и просто люди, которые живут ИИ.
100+ спикеров и экспертов, среди которых:
Дмитрий Ветров, Евгений Бурнаев, Андрей Устюжанин, Татьяна Шаврина, Анна-Вероника Дорогуш, Сергей Николенко, Рома Доронин, Антон Конушин, Сергей Шумский, Аркадий Сандлер, Андрей Савченко, Сергей Кузнецов, Дмитрий Юдин, Сергей Овчаренко, Саша Крайнов — и ещё десятки сильнейших специалистов.
Три направления конференции:
🔬 Research - исследования и наука
⚙️ Engineering - реальные системы и продакшн
💼 Business - ИИ в продуктах и компаниях
OpenTalks.AI - это:
- живое общение и нетворкинг
- обмен опытом без формальностей
- новые идеи, проекты и знакомства
- атмосфера сильного профессионального сообщества
📍 Белград, Сербия
🗓 19–20 февраля 2026
Приезжайте быть частью русскоязычного AI/ML-комьюнити, которое съедется в одном месте со всего мира.

Промо-код на 20% для подписчиков: MachinelearningOT26
👉 www.OpenTalks.AI
🔥26👍11🥰53🌭3🗿2🦄2
🌟 PaddleOCR-VL-1.5: компактная модель для сложного парсинга.

PaddlePaddle обновили свою линейку PaddleOCR-VL, выпустив PaddleOCR-VL-1.5 - компактную VLM на 0.9 млрд. параметров на базе ERNIE-4.5-0.3B-Paddle. Несмотря на скромный размер, в задачах разбора документов она показывает SOTA-результаты.

На тесте OmniDocBench v1.5 модель выбила 94.5% точности, обойдя не только прошлую версию, но и более тяжелых конкурентов.

Фишка обновления - упор на полевые условия. Модель специально учили работать с плохими исходниками: кривыми сканами, бликами от мониторов и мятыми страницами.

Попутно сделали бенчмарк Real5-OmniDocBench, который гоняет модели по 5 сценариям: сканирование, перекосы, деформация листа, фото с экрана и плохое освещение.

🟡В 1.5 добавили:

🟢Text spotting: находит и распознает текст одновременно (печатный русский - неплохо, рукописный - почти никак)

🟢Seal recognition: распознает печати (русские - не очень, китайские - на ура).

🟢Cross-page table merging: умеет склеивать таблицы, которые разорваны между страницами.

🟢Работа с заголовками: не теряет структуру параграфа при переходе на новый лист.

🟢Новые языки: добавили поддержку тибетского и бенгальского, подтянули распознавание редких символов и древних текстов.

🟡Деплой - на любой вкус

Модель работает с transformers, дружит с Flash Attention 2 и, само собой, поддерживается PaddlePaddle 3.2.1.

Если нужно быстро поднять сервис - есть готовый Docker-образ.

🟡Пара важных моментов по использованию

Если нужен полноценный постраничный парсинг всего документа, лучше использовать официальный пакет PaddleOCR. Реализация через transformers пока ограничена только распознаванием отдельных элементов и споттингом.


В пайплайн встроили логику препроцессинга. Если картинка меньше 1500 пикселей, она автоматом апскейлится фильтром Lanczos. При этом есть потолок в 1.6 млн. пикселей для споттинга, это чтобы не перегружать память GPU и сохранить читаемость мелкого шрифта.



📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo
🟡DeepWiki
🖥Github


@ai_machinelearning_big_data

#AI #ML #VL #OCR #PaddleOCR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
38🔥20👍16🦄2