Machinelearning – Telegram
344K subscribers
4.56K photos
920 videos
17 files
5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством

DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.

Ключевая новинка - DeepEncoder V2.

В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:

- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше

Что это даёт на практике

📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры

По качеству

- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR

И это при размере модели всего 3B параметров.

Можно запускать и дообучать

Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.

🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
🔗 Github: https://github.com/deepseek-ai/DeepSeek-OCR-2/tree/main
🔗 Paper: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

@ai_machinelearning_big_data

#DeepSeek #ocr #opensource
🔥14738👍25🐳2🦄2🙏1🥱1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI: 1,3 млн. ученых используют ChatGPT для науки.

OpenAI поделилась внутренней статистикой внедрения своих инструментов в академическую среду: каждую неделю около 1,3 млн. человек обсуждают с ChatGPT продвинутые научные вопросы. Всего за 2025 год объем таких дискуссий вырос на 47%. Чаще всего ChatGPT просят помочь с Computer Science, Data Science и с алгоритмами ИИ.

Вице-президент по науке Кевин Вейл уверен, что мы наблюдаем переломный момент. Ученые перестали воспринимать чат-бота как поисковик и стали доверять серьезные задачи: от интерпретации сложных данных до планирования экспериментов.

Самое любопытное в отчете - упоминание возможностей GPT-5.2. В OpenAI заявляют, что новая модель переросла уровень школьных олимпиад и теперь она способна на настоящие математические открытия, уже находя применение в вычислительной химии и физике частиц.
axios.com

✔️ Tencent релизнула Img-2-Img модель Hunyuan Image 3.0-Instruct.

Новинка заточена под задачи редактирования и синтеза по рефенернсам. Под капотом - MoE на 80В общих 13B активных параметров.

Модель наделили продвинутым семантическим пониманием через ризонинг: получив картинку и промпт, она анализирует контекст, декомпозирует задачу на шаги и точечно вносит правки, не искажая исходную композицию. За консистентность неизменяемых областей отвечает собственный алгоритм MixGRPO.

Tencent насчитал более 80 сценариев использования. Среди них - реставрация старых снимков, сложный фьюжн объектов с разных фото, стилизация и замена текста на изображении с сохранением оригинальной верстки. Модель доступна только в веб-сервисе Tencent.
Tencent в сети X

✔️ Google купила стартап Common Sense Machines.

Google подтвердила поглощение стартапа, который создавал генеративные модели для преобразования изображений в 3D-ассеты. Команда инженеров стартапа в полном составе переходит в Google DeepMind.

Для одного из основателей CSM, Теджаса Кулкарни, это возвращение домой. До того, как запустить свой бизнес в 2020 году, он работал научным сотрудником в том же DeepMind.

Сколько именно Google заплатила за стартап — неизвестно, но на прошлых этапах инвесторы оценивали компанию примерно в $15 млн.
theinformation.com

✔️ Luma AI обновила свою видео-модель Ray до версии 3.14.

Главное изменение: теперь не нужно жертвовать скоростью ради качества или наоборот. Модель выдает 1080p без использования апскейлеров, при этом работает в 4 раза быстрее предыдущей версии.

Разработчики сделали упор на стабильность картинки в задачах анимации и video-to-video. Ray 3.14 лучше держит персонажей: они меньше искажаются и не меняются от кадра к кадру.

Для профессионального продакшена важным моментом станет цена - стоимость генерации упала в 3 раза. Обновление уже доступно в Dream Machine и у партнеров: Adobe и AWS.
lumalabs.ai

✔️ Nvidia, по слухам, отказалась от MSRP.

Nvidia, предположительно, свернула программу Official Pricing Program. Этот механизм обязывал партнеров-производителей выпускать определенный объем видеокарт по рекомендованной розничной цене. Если инсайд подтвердится, понятие MSRP фактически утратит смысл и станет чистой формальностью.

Теперь вендоры освобождаются от жестких ценовых рамок и смогут формировать стоимость устройств, опираясь исключительно на рыночный спрос и собственную маржинальность.

Учитывая опыт прошлых лет и ажиотаж вокруг ИИ-железа, эксперты опасаются возвращения дикого рынка с кратным завышением ценников уже в ближайшее время. Официальных комментариев от Nvidia пока не поступало.
techpowerup.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
60👍42🔥12😢6🤨2🥰1😁1🦄1
Media is too big
VIEW IN TELEGRAM
⚡️ OpenAI Prism: научный редактор на базе GPT-5.2 с поддержкой LaTeX.

OpenAI наконец-то пустила в дело наработки купленного стартапа Crixet и это очень хорошая попытка создать идеальное рабочее место для ученых, где не нужно прыгать между десятью вкладками.

Если вы когда-нибудь писали статью, то вам знакомо, когда в одном окне Overleaf, в другом - ChatGPT, в третьем - arXiv, а где-то сбоку еще болтается менеджер ссылок. Контекст постоянно теряется, а копипаст формул туда-сюда рано или поздно приводит к ошибкам.

Так вот, Prism соберет все это в одну кучу и это не просто чат в боковой панели. Он видит всю структуру вашей статьи: уравнения, библиографию и графики.

Можно запустить режим Тhinking и попросить модель, например, переписать сложную формулу или поправить логику в конкретном абзаце. При этом правки вносятся прямо в текст, так что копировать куски кода из чата больше не придется.

🟡Еще из полезного

🟢Можно сфотографировать наброски формул или диаграмм с маркерной доски, и Prism сама перегонит их в LaTeX.

🟢Связь с arXiv: искать литературу и вставлять цитаты можно прямо во время написания черновика.

🟢Голосовые правки - если лень тянуться к клавиатуре, простые изменения можно надиктовать.

🟢Совместная работа: можно добавить сколько угодно соавторов, и никто не будет бомбить от конфликта версий.

Самое приятное - базовую версию Prism сделали бесплатной для всех.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
76🔥37👍24😐2🦄2
Media is too big
VIEW IN TELEGRAM
✔️ Claude научился управлять Slack, Figma и Asana прямо в чате.

Anthropic представила обновление для тарифов Pro, Team и Enterprise, превращающее ИИ-ассистента в хаб для рабочих процессов. Функция называется MCP Apps, и с ней Claude может сам накидать черновик сообщения в Slack, подправить диаграмму в Figma или обновить дедлайны в Asana.

Фишка релиза — визуальная нативность. Интерфейсы сторонних сервисов встраиваются прямо в диалог: вы видите не просто текст, а привычные виджеты (например, карточку задачи или окно мессенджера) и можете вносить правки, не выходя из интерфейса Claude.

Интеграции построены на МСP, они уже доступны в веб-версии и приложении Claude.
claude.com

✔️ Moonshot AI релизнула Kimi K2.5.

Под капотом архитектура MoE на 1 трлн. общих и 32 млрд. активных параметров. Самое интересное - бета-функция Agent Swarm. Это оркестратор, который динамически создает и координирует до 100 субагентов. Причем прописывать сценарии заранее не нужно, они сами разбираются, что делать.

Кроме того, Kimi теперь может собрать интерактивный фронтенд прямо во время диалога. Что касается тестов, на бенчмарках HLE и SWE-Verified модель показывает себя очень бодро, при этом сам инференс стал дешевле.

Веса модели доступны на HuggingFace, а API полностью совместим со стандартами OpenAI и Anthropic. Для локального запуска рекомендуют vLLM, SGLang или KTransformers.
kimi.com

✔️ Google запустила бюджетную подписку AI Plus.

Стоимость подписки составляет $7,99 в месяц (в некоторых регионах цена ниже — около $4,5). Она доступна везде, где есть доступ к ИИ от Google.

Это явный ответ на недавний запуск ChatGPT Go и Google метит ровно в ту же нишу — между бесплатным тиером и $20/мес. В пакет вошли: Gemini 3 Pro, Nano Banana Pro, Veo и NotebookLM. Плюс насыпают 200 ГБ в облаке.

В тарифе есть семейный доступ: подписку можно расшарить на пятерых. Приятный сюрприз ждет тех, кто уже платит за 2 ТБ в Google One — им все фишки AI Plus добавят автоматически и без доплаты, а для новых пользователей на старте действует скидка 50% на первые два месяца.
blog.google

✔️ OpenAI продает рекламу в ChatGPT по цене как на топовых спортивных трансляциях.

Компания начала размещать рекламные блоки под ответами чат-бота на тарифах Free и Go. CPM превышает средние расценки в интернете и находится на уровне рекламы во время трансляций американского Суперкубка или матчей NFL.

OpenAI выбрала модель оплаты за показы, а не за клики. Это объясняется спецификой взаимодействия с LLM: пользователи гораздо реже переходят по внешним ссылкам, чем в поиске.

Еще недавно Сэм Альтман называл рекламу "последней мерой" и "антиутопией", но необходимость монетизации для оправдания высокой оценки компании вынудила пересмотреть стратегию.
theinformation.com

✔️ Вице-президент и CISO OpenAI Мэтт Найт покидает компанию.

Найт, первым штатный специалист по кибербезопасности в OpenAI, объявил о своем уходе. Он присоединился к команде в 2020 году, когда компания представляла собой небольшую лабораторию, занятую запуском GPT-3 и экспериментального API.

Найт с нуля выстроил архитектуру безопасности, которая сегодня защищает сотни миллионов пользователей и критически важные ИИ-системы. Топ-менеджер отметил, что гордится своим вкладом в создание стандартов защиты для новой эры ИИ, но про дальнейшие карьерные планы ничего не сообщил.
Matt Knight в сети Х


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
50👍20🔥9❤‍🔥2🦄2🤗1💘1
HunyuanImage 3.0-Instruct теперь полностью open-source 🔥

Модель только что ворвалась в Tier-1 глобального рейтинга Image Edit от Arena и сейчас считается самой мощной open-source Image-to-Image моделью.

Фактически новый SOTA для всего комьюнити.

Что это значит на практике:
- Топовый уровень редактирования изображений по текстовым инструкциям
- Очень точное следование промптам в стиле "измени, но сохрани структуру"
- Сильный баланс между качеством, деталями и контролем результата
- Отличная база для своих инструментов, сервисов и ресёрча

Отдельно есть Distil-версия - легче, быстрее, удобнее для продакшена и ограниченных ресурсов.

GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
Hugging Face Distil: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil

@data_analysis_ml
👍55🔥2616💔2🦄2😢1
Как найти работу за рубежом, если страшно и непонятно с чего начать?

Международный рынок открывает двери к крутым проектам, зарплатам в долларах и евро, но искать работу за границей долго, нудно и слишком сложно!

А самое главное, вообще непонятно, что делать. Правила рынка совсем другие. Здесь мало резюмешки на хэдхантере и рекрутеры за тобой не бегают толпами. Зато нужно заводить LinkedIn, искать рефералы, выискивать вакансии среди десятков джоб-бордов...

Разобраться самому почти невозможно. Зато есть такие ребята как AgileFluent 👇

Они уже 4 года помогают IT и Digital специалистам выйти на международный рынок. На их счету — 800+ офферов в 32 странах в такие компании как Amazon, Cisco, UniCredit, Revolut, FLO, Ferrero, N26, ALDI, Semrush, Wheely…

Они ведут крутой канал про международку, где делятся:
✔️ историями тех, кто переехал и зарабатывает в валюте,
✔️ разборами резюме и LinkedIn профилей,
✔️ персональными подборками вакансий,
✔️ гайдами и чек-листами по CV, CL, LinkedIn...

Если давно мечтал о работе за рубежом — это твой знак! Начни с их канала :)

👉 Подписывайся

Реклама. ООО «Эджайл», ИНН 7810964334, erid:2VtzqwwaVRu
🤣4214👍8🥰4
Media is too big
VIEW IN TELEGRAM
⚡️ Microsoft начала внедрение ускорителя Maia 200.

Microsoft выкатывает 2 поколение собственного ИИ-чипа Maia, который должен снизить зависимость от Nvidia и оптимизировать расходы на инфраструктуру.

Ускорители уже поступают в дата-центры MS в США, а разработчикам открыли доступ к SDK, хотя сроки публичного запуска инстансов в Azure пока не названы.

Maia 200 — это решение на 3-нм техпроцессе, содержащее более 140 млрд. транзисторов. Архитектура специально заточена под инференс: заявлена производительность свыше 10 петафлопс в точности FP4 и 5 петафлопс в FP8.

Подсистема памяти включает 216 ГБ HBM3e с пропускной способностью 7 ТБ/с, дополненные 272 МБ сверхбыстрого SRAM-кэша на кристалле. TDP одного чипа составляет 750 Вт.

Maia 200 работает в 3 раза быстрее Amazon Trainium 3 и превосходит Google TPU v7 в FP8 (где чип выдает 5 петафлопс).

Архитектура оптимизирована под инференс и поддерживает бесшовное масштабирование в кластеры до 6144 ускорителей.

Новый чип запредельно эффективен экономически: показатель производительности на доллар у Maia 200 на 30% выше, чем у актуального железа конкурентов.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
53🔥26👍15🦄5
📌OpenAI рассказала как устроен Codex CLI.

OpenAI выкатила подробный разбор того, как работает Codex CLI — локальный агент, который работает с кодом на вашей машине. Если вы пилите своих агентов — это мастрид про механику работы с контекстом и борьбы за кэш.

🟡Все держится на agent loop.

Работает это так: вы кидаете запрос, а система собирает огромный промпт с инструкциями. На этапе инференса модель выдает либо текст, либо запрос на вызов инструмента.

Агент выполняет команду, вклеивает результат обратно в промпт и снова стучится к модели. И так до победного, пока ассистент не решит, что задача выполнена.

Главное помнить про лимит: инструкции из AGENTS.md и корневых папок проекта агрегируются в один JSON, который ограничен 32 Kb. Больше впихнуть не получится.


🟡Почему контекст такой дорогой

Тут кроется главная боль. История диалога растет с каждым сообщением, и этот хвост приходится пересылать заново при каждом запросе. С такой механикой стоимость должна расти квадратично, и это было бы финансово, мягко говоря, чувствительно

Но OpenAI подумала о нас - чтобы мы не разорились, используется кэширование промптов. Если префикс запроса не меняется, инференс остается линейным. И как бы все ок, но кэш невероятно чувствителен. Стоит поменять порядок инструментов в списке или чуть подправить конфиг сэндбокса — все, кэш-хита не будет и придется расчехлять заначку.

🟡Почему всё стало Stateless

Заметили, что из API исчез previous_response_id? Это не баг, а фича. OpenAI перешли на полностью на модель без сохранения состояния. Это нужно для Zero Data Retention конфигураций, чтобы провайдер вообще не хранил ваши данные.

Даже когда агент передает цепочку ризонинга из прошлых шагов, она идет в зашифрованном поле. Ключ на сервере, данные у клиента, никто ничего не хранит.

🟡Магия компакции

Когда контекстное окно начинает трещать по швам, включается механизм компакции. Раньше /compact вызывали руками, теперь за это отвечает эндпоинт.

Вместо того чтобы просто выкидывать старые сообщения, модель сжимает их в особый тип блока. Это такой черный ящик с зашифрованным смыслом беседы. Он занимает минимум места, но позволяет модели не забывать, о чем шла речь пять минут назад. Процесс запускается сам, как только вы упираетесь в auto_compact_limit.

Кстати, если вы не знали: Codex CLI работает не только с серверами OpenAI. Флаг --oss подключает локальные модели через Ollama или LM Studio.


В следующих статьях обещают подробности про архитектуру CLI, как реализовано использование инструментов и модель песочницы Codex.


@ai_machinelearning_big_data

#AI #ML #CodexCLI #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
48👍22🔥11👏2🤣2😁1💘1🦄1
Media is too big
VIEW IN TELEGRAM
✔️ Китай разрешил Alibaba, Tencent и ByteDance закупить 400 тыс. Nvidia H200.

Пекин дал добро, и это выглядит как вынужденный шаг назад. Регулятор пытается усидеть на двух стульях: с одной стороны стратегия импортозамещения, с другой - лидерам рынка нужно актуальное железо прямо сейчас, ведь на своих чипах далеко не уедешь.

Но ситуация запутанная. Источники Reuters говорят, что лицензии выдают с кучей жестких условий, которые даже не успели толком согласовать.

Один инсайдер выразился конкретнее: ограничения настолько суровые, что разрешение вроде бы есть, а превратить его в реальный заказ компании пока не могут. Впрочем, очередь за лицензиями все равно уже выстроилась.
reuters.com

✔️ Figure AI создала нейросеть Helix 02 для управления роботами.

Компания показала, как робот Figure 03 загружает посудомойку - 61 действие подряд без сбоев. Раньше писали отдельные контроллеры для ног и рук, из-за чего любое движение корпуса сбивало прицел манипуляторам. Теперь всем телом управляет единая архитектура Helix 02.

Выглядит это пугающе естественно. За моторику отвечает сеть System 0 (10 млн. параметров), которую натаскали на 1000 часах человеческих движений. Она работает с частотой 1 кГц.

Инженеры говорят, что новый подход позволил удалить 109 тыс. строк кода, который раньше отвечал за координацию. Figure AI называет это самой сложной автономной задачей в истории гуманоидов.
figure.ai

✔️ У Gemini появилось агентное зрение.

Раньше модель воспринимала изображение пассивно, а теперь она использует цикл «думай-действуй-наблюдай». Работает это так: если нужно рассмотреть мелкую деталь, Gemini сама пишет и исполняет код, чтобы приблизить, обрезать или разметить нужный участок. Это лечит старые болячки. Чтобы посчитать объекты, она теперь рисует рамки и нумерует их по порядку.

С таблицами то же самое: никаких галлюцинаций, только реальные вычисления через код. Google обещает прирост качества на 5–10%. Обновление уже раскатывают в AI Studio, Vertex AI и приложении Gemini (режим Thinking).
blog.google

✔️ DecartAI выпустили Lucy 2.0, которая меняет видео на лету в 1080p.

В Full HD при 30 кадрах в секунду система успевает менять одежду, персонажей или фон по текстовому запросу практически, как говорят разработчики, без задержек. Модель работает без привычных 3D-движков и карт глубины. Она понимает физику движений, опираясь только на видео-паттерны. За стабильность картинки при длительной генерации отвечает алгоритм Smart History Augmentation.

Работает все на чипах AWS Trainium3 — видимо, только так удалось убрать задержки. В деле Lucy 2.0 можно попробовать тут.
decart.ai

✔️ Рейтинг безопасности LLM от ADL: Claude лидирует, Grok провалил тесты на экстремизм.

Антидиффамационная лига (ADL) проверила, насколько легко современные модели выдают хейт-спич и экстремизм. Они прогнали 25 тыс. диалогов через 6 топовых моделей, и результаты оказались, мягко говоря, неоднозначными.

Лучше всех защищена Claude: 80 баллов из 100. А вот Grok с треском провалил тест, получив всего 21 балл. Самое слабое место Grok - работа с картинками и документами. В мультимодальных задачах он показал полный ноль: он просто не видит токсичный контент, если тот не написан текстом.

Итоговое распределение мест по убыванию: Claude, ChatGPT, DeepSeek, Gemini, Llama, Grok.
adl.org


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
182👍19🔥8🐳2🦄2
🌟 Step3-VL-10B: VLM от stepfun.ai.

Пока индустрия одержима гигантоманией и соревнуется, у кого больше параметров, Stepfun решили пойти против течения.

Встречайте, Step3-VL-10B - компактная VL-модель, которая по заявлениям разработчиков не просто конкурирует, а буквально уделывает модели в 10–20 раз тяжелее, включая таких титанов, как Gemini 2.5 Pro и GLM-4.6V.

Звучит как маркетинговый хайп, но под капотом есть интересные инженерные решения, хоть и с хитринкой.

🟡Архитектура

Конструкция из кастомного визуального PE-lang энкодера на 1.8B параметров и Qwen3-8B (что уже половина успеха, учитывая мощь Qwen) в качестве декодера.

В отличие от многих, кто замораживает визуальную часть, Stepfun разморозили все и тренировали модель в один прогон на 1,2 трлн. токенов. Это позволило визуальной и языковой частям модели не просто сосуществовать, а реально срастись и притереться друг к другу.

После этого модель прогнали через адский RL-цикл (RLVR+RLHF) на 1400+ итераций, чтобы модель научилась жестко ризонить.

🟡Тесты

В бенчмарках цифры действительно страшные (в хорошем смысле) для такого размера:

🟢MMMU: 78.11 (SeRe) / 80.11 (PaCoRe).
🟢MathVista: 83.97
🟢AIME 2025: 87.66 (SeRe) / 94.43 (PaCoRe)
🟢OCRBench: 86.75 (отлично читает документы).

Для сравнения: GLM-4.6V на 106B выдает на MMMU только 75.20.

Инженерная хитринка кроется в методологии тестирования. Видите в результатах тестов пометку PaCoRe?

PaCoRe (Parallel Coordinated Reasoning):
Чтобы получить топовые цифры, модель использует test-time compute. Она запускает 16 параллельных роллаутов, собирает доказательства из разных веток и синтезирует ответ.

На инференсе это будет стоить вам в 16 раз "дороже" по ресурсам, чем обычный прогон. В стандартном режиме (SeRe) модель все еще хороша, но уже не выглядит как "убийца всех топов".


Кстати, Stepfun честно признались, что в отчетах накосячили с бенчмарками конкурента Qwen3VL-8B из-за неверного max_tokens. Извинились, обещают пересчитать. Это добавляет доверия, но напоминает, что бенчмарки - дело тонкое.

В общем, модель - отличный кандидат для локального использования: есть OpenAI-compatible API и vLLM поддерживается (PR вмержили).

⚠️ Если модель зацикливается при генерации - обновите конфиг, там был баг с eos_token_id, который уже пофиксили.


📌Лицензирование:  Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo


@ai_machinelearning_big_data

#AI #ML #VLM #STEP3 #StepFunAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4618👍9🥰4🤔2🥱2❤‍🔥1💯1🦄1
Рекомендации, поиск и реклама решают одну и ту же задачу 🤝
Быстро понять интент пользователя и показать ему нужное.

Команда AI VK за год собрала Discovery-платформу — единый инфраструктурный слой для персонализации:

По сути, это переход от множества ML-стеков к централизованной системе данных, моделей и пайплайнов.

Что это дало:
• полный цикл «идея → эксперимент → прод» сократился в 5 раз
• новый рекомендер теперь можно запустить в среднем за месяц
• инженеры не собирают стек с нуля

И самое приятное — продуктовые метрики:
+17,4% времени просмотра в VK Клипах
+40% сохранённых треков в VK Музыке
+70% релевантности рекомендаций в VK Видео

Как это устроено под капотом и из каких компонентов состоит платформа — команда подробно разобрала в большом материале.
Please open Telegram to view this post
VIEW IN TELEGRAM
77🥱74👍14🤣11😐11🙉8🔥5💅2
🌟 Tencent HPC-Ops: решение, которое выжмет максимум из H100 и H200.

Продакшен больших моделей — штука дорогая и в таких масштабах реально бьются за каждый процент скорости.

Tencent Hunyuan AI Infra выложила в открытый доступ HPC-Ops - рабочую библиотеку, на которой, в том числе, крутится их собственная инфраструктура.

Разработчики решили не латать старое, а переписали все с нуля на чистой CUDA и CuTe специально под архитектуру Hopper.

И это логично: популярные решения вроде vLLM или дефолтного FlashAttention часто не до конца утилизируют возможности железа. В HPC-Ops же целью была максимальная загрузка GPU.

Внутри есть все, что нужно для сборки серьезного инференса: оптимизированные ядра внимания с paged attention, квантованный Grouped GEMM с поддержкой FP8 и блочным скейлингом, Fused MoE и инструменты связи нод для распределенных систем.

На своих моделях с HPC-Ops у Tencent пропускная способность выросла на 30%, а для DeepSeek на 17%. Но интереснее всего дела обстоят с H20: там библиотека бустит ускорение до 2.22x по сравнению с тем, что было раньше.

Если закопаться в цифры, то самый большой прирост на декодинге. Механизм внимания в BF16 на декоде работает в 2.2 раза быстрее, чем связка из FlashInfer, FlashAttention и TensorRT-LLM.

На префилле профит поменьше — около 1.33x, но это тоже очень ощутимо.

С FP8 история похожая: ускорение в 2 раза на декодинге и небольшие, но приятные 12% на префилле. Тот же FusedMoE в FP8 прибавляет почти 50% скорости в режиме префилла.

HPC-Ops дружелюбен к vLLM и SGLang, но имейте в виду, что старое железо тут не поддерживается, это инструмент для карт SM90.

В планах на будущее:

🟢sparse attention;
🟢поддержка 4-битного квантования;
🟢новые ядра, которые будут схлопывать вычисления и передачу данных между GPU.

Если вы сейчас оптимизируете инференс на Хопперах и боретесь за каждый токен в секунду эту штуку стоит как минимум потестить.


📌Лицензирование:  MIT License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #HPCOps #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
40👍24😍4🦄2
Media is too big
VIEW IN TELEGRAM
✔️ Deepmind раскатывет Project Genie.

Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.

На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.

Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google

✔️ DeepSeek будет делать ИИ-поисковик и платформу автономных агентов.

Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.

Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.

Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com

✔️ Ai2 выложил открытых кодинг-агентов SERA.

Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.

Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.

Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org

✔️ Nvidia открыла стек ИИ-моделей для прогноза погоды.

Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.

В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.

Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com

✔️ Google вывела фреймворк LiteRT в релиз.

Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.

Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).

Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
75👍9🔥7🦄4
🌍 OpenTalks.AI 2026 - главная встреча русскоязычного AI-комьюнити за рубежом
19–20 февраля в Белграде соберутся специалисты по AI и ML со всего мира: исследователи, инженеры, фаундеры, лиды команд и просто люди, которые живут ИИ.
100+ спикеров и экспертов, среди которых:
Дмитрий Ветров, Евгений Бурнаев, Андрей Устюжанин, Татьяна Шаврина, Анна-Вероника Дорогуш, Сергей Николенко, Рома Доронин, Антон Конушин, Сергей Шумский, Аркадий Сандлер, Андрей Савченко, Сергей Кузнецов, Дмитрий Юдин, Сергей Овчаренко, Саша Крайнов — и ещё десятки сильнейших специалистов.
Три направления конференции:
🔬 Research - исследования и наука
⚙️ Engineering - реальные системы и продакшн
💼 Business - ИИ в продуктах и компаниях
OpenTalks.AI - это:
- живое общение и нетворкинг
- обмен опытом без формальностей
- новые идеи, проекты и знакомства
- атмосфера сильного профессионального сообщества
📍 Белград, Сербия
🗓 19–20 февраля 2026
Приезжайте быть частью русскоязычного AI/ML-комьюнити, которое съедется в одном месте со всего мира.

Промо-код на 20% для подписчиков: MachinelearningOT26
👉 www.OpenTalks.AI
🔥26👍11🥰53🌭3🗿2🦄2
🌟 PaddleOCR-VL-1.5: компактная модель для сложного парсинга.

PaddlePaddle обновили свою линейку PaddleOCR-VL, выпустив PaddleOCR-VL-1.5 - компактную VLM на 0.9 млрд. параметров на базе ERNIE-4.5-0.3B-Paddle. Несмотря на скромный размер, в задачах разбора документов она показывает SOTA-результаты.

На тесте OmniDocBench v1.5 модель выбила 94.5% точности, обойдя не только прошлую версию, но и более тяжелых конкурентов.

Фишка обновления - упор на полевые условия. Модель специально учили работать с плохими исходниками: кривыми сканами, бликами от мониторов и мятыми страницами.

Попутно сделали бенчмарк Real5-OmniDocBench, который гоняет модели по 5 сценариям: сканирование, перекосы, деформация листа, фото с экрана и плохое освещение.

🟡В 1.5 добавили:

🟢Text spotting: находит и распознает текст одновременно (печатный русский - неплохо, рукописный - почти никак)

🟢Seal recognition: распознает печати (русские - не очень, китайские - на ура).

🟢Cross-page table merging: умеет склеивать таблицы, которые разорваны между страницами.

🟢Работа с заголовками: не теряет структуру параграфа при переходе на новый лист.

🟢Новые языки: добавили поддержку тибетского и бенгальского, подтянули распознавание редких символов и древних текстов.

🟡Деплой - на любой вкус

Модель работает с transformers, дружит с Flash Attention 2 и, само собой, поддерживается PaddlePaddle 3.2.1.

Если нужно быстро поднять сервис - есть готовый Docker-образ.

🟡Пара важных моментов по использованию

Если нужен полноценный постраничный парсинг всего документа, лучше использовать официальный пакет PaddleOCR. Реализация через transformers пока ограничена только распознаванием отдельных элементов и споттингом.


В пайплайн встроили логику препроцессинга. Если картинка меньше 1500 пикселей, она автоматом апскейлится фильтром Lanczos. При этом есть потолок в 1.6 млн. пикселей для споттинга, это чтобы не перегружать память GPU и сохранить читаемость мелкого шрифта.



📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo
🟡DeepWiki
🖥Github


@ai_machinelearning_big_data

#AI #ML #VL #OCR #PaddleOCR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
38🔥20👍16🦄2