Machinelearning – Telegram
376K subscribers
4.51K photos
883 videos
17 files
4.95K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Minimax VTP: гибридный токенизатор для диффузии на стероидах.

В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.

Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.


MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP).

Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения.

Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса:

🟢Стандартный pixel reconstruction loss;

🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2);

🟢Image-text contrastive loss (как в CLIP).

Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна.

🟡Теоретические выкладки подтвердились на практике.

Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза.

🟡Но главное открытие - это то, что заработал закон масштабирования для Stage 1.

Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно.

🟡В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров:

🟠VTP-Large - 0.7B;
🟠VTP-Base - 0.3B;
🟠VTP-Small - 0.2B.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #Tokenizer #Minimax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
41👍23🔥14🦄2
Media is too big
VIEW IN TELEGRAM
✔️ Higgsfield запустил сервис профессионального ИИ-кинопроизводства.

Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.

Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai

✔️ Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.

Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.

Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.

Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai

✔️ Cursor покупает платформу код-ревью Graphite.

Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.

В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com

✔️ NVIDIA выпустила в продажу 72-гигабайтную версию RTX PRO 5000.

Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.

Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com

✔️Gemma Scope 2: крупнейший набор инструментов для интерпретации работы LLM.

Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.

Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.

Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥3015🦄7
📌Итоги года от Андрея Карпаты.

2025 год был захватывающим годом для языковых моделей.

Они проявились как новый вид интеллекта, одновременно гораздо более умный и гораздо более глупый, чем я ожидал. Я думаю, что индустрия не реализовала хотя бы 10% их потенциала даже при нынешних возможностях.

Я одновременно верю и в то, что мы увидим быстрый и непрерывный прогресс, и в то, что впереди еще очень много работы.

Пристегнитесь.


🟡Обучение с подкреплением на основе проверяемых вознаграждений (RLVR)

В 2025-м стек обучения LLM дополнился новой ключевой стадией оптимизации по объективным наградам. Он заставляет модели самостоятельно находить стратегии рассуждения.

Прогресс года в том, что создание моделей стало не про увеличение размера модели, а про более длительные RLVR-прогоны.

Это также дало новый рычаг управления: "время размышления" на инференсе. Первопроходец - OpenAI o1, а переломный момент - o3.

🟡Интеллект современных LLM принципиально отличен от человеческого

Интеллект LLM формируется под давлением специфических оптимизаций и на выходе мы имеем резкие всплески способностей в рядом с грубыми ошибками.

Из-за этого бенчмарки теряют смысл: под них напрямую оптимизируются, что не ведёт к созданию AGI.

🟡Cursor - это новый слой LLM-приложений

Это не просто интерфейс к условной модели, а сложная оркестрация работы LLM под конкретные вертикали, c управляемым контекстом, вызовами и интерфейсом.

Cursor создаёт отдельную ценностную прослойку между LLM-лабораториями и конечными пользователями.

🟡Claude Code

В отличие от облачных агентов, он использует ваши данные, контекст и инструменты для ризонинга и вызова инструментов.

Его фишка - в низкой задержке, приватности и глубокой интеграции в рабочее окружение. Это сдвиг от ИИ как «сайта» к напарнику-помощнику в вашей системе.

Я думаю, OpenAI допустили ошибку, сосредоточив свои усилия по созданию агентов в облаке и управляемых из ChatGPT, вместо localhost.


🟡Вайб-кодинг

В 2025 году ИИ преодолел порог, позволяющий через текстовые инструкции создавать работающие программы.

Это демократизирует программирование, позволяя непрофессионалам писать код, а экспертам - быстро прототипировать без глубокого погружения.

Код становится эфемерным, гибким и бесплатным ресурсом.

Забавно, что я придумал термин «вайб-кодинг» в этом твите с мыслями из душа, совершенно не представляя, как далеко это зайдет :)


🟡LLM GUI и Nano banana

Взаимодействие с ИИ через чат - это аналог командной строки 80-х, неудобный для человека.

Будущее за LLM GUI интерфейсом, где ИИ общается визуально (инфографика, анимации, веб-приложения).

Nano banana - ранний пример такого взаимодействия, в ней объединены генерация текста, изображений и общие знания.

Google Gemini Nano banana — одна из самых невероятных, меняющих парадигму моделей 2025 года.


🔜 Читать статью полностью


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍9536🔥16🦄4😁2
💀 NeuroSploit v2 - продвинутый AI-фреймворк для тестирования на проникновение (пентеста).

NeuroSploit v2 использует большие языковые модели, чтобы автоматизировать и усилить offensive security.

Фреймворк помогает анализировать цели, находить уязвимости, планировать эксплуатацию и поддерживать защитные меры, сохраняя фокус на этике и операционной безопасности.

Основные возможности:

• Агентная архитектура
Специализированные AI-агенты под разные роли: Red Team, Blue Team, Bug Bounty Hunter, Malware Analyst.

• Гибкая интеграция LLM
Поддержка Gemini, Claude, GPT (OpenAI) и Ollama с настройкой через профили.

• Тонкая настройка моделей
Отдельные LLM-профили для каждой роли: выбор модели, температура, лимиты токенов, кэш и контекст.

• Markdown-промпты
Динамические шаблоны промптов, адаптирующиеся под задачу и контекст.

• Расширяемые инструменты
Интеграция Nmap, Metasploit, Subfinder, Nuclei и других security-инструментов через конфигурацию.

• Структурированные отчёты
JSON-результаты кампаний и удобные HTML-отчёты.

• Интерактивный CLI
Командная строка для прямого управления агентами и сценариями.

NeuroSploit v2 - пример того, как agentic AI превращает пентест из ручной работы в управляемую автоматизацию.


git clone https://github.com/CyberSecurityUP/NeuroSploitv2.git
cd NeuroSploitv2


Github: https://github.com/CyberSecurityUP/NeuroSploit

@ai_machinelearning_big_data


#python #Penetrationtesting #llm #mlops #Cybersecurity
Please open Telegram to view this post
VIEW IN TELEGRAM
25👍11🔥10🦄3
Media is too big
VIEW IN TELEGRAM
⚡️ Это гигантский дата-центр Amazon за $11 млрд в Индиане.

Кампус строится под обучение и инференс ИИ и будет потреблять до 2.2 ГВт - примерно как 1 миллион домов.

В состав комплекса войдут собственные электростанции, поэтому нагрузка на местную энергосеть и тарифы для жителей должна быть минимальной.

@ai_machinelearning_big_data


#Amazon #DataCenter #AIInfrastructure #AIFactory #CloudComputing
38🔥26👍10🤨9😨2🥰1🤬1
🖥🖥🖥🖥🖥🖥🖥🖥🖥🖥

🖥🖥🖥🖥🖥🖥🖥🖥🖥
🖥🖥🖥🖥🖥🖥🖥🖥🖥

Ваш путеводитель по ИТ


Каждый разработчик знает
ощущение, когда в проекте
накапливается техдолг, а
автотесты начинают жить
своей жизнью. В такие моменты
могут помочь кейсы от коллег
по цеху: как допилить CI/CD, как
сэкономить время на фиче или
как спасти продукт в кризисное
время.

Именно такие истории
регулярно появляются в МТС
True Tech
вместе с разбором
технологий и подборками
инструментов.

А еще у сообщества есть офлайн
и онлайн-мероприятия. Совсем
недавно прошел True Tech
Champ — чемпионат по
алгоритмическому
и робототехническому
программированию с призовым
фондом более 10 млн рублей.
Анонсы следующих событий вы
сможете найти также в
@truetechcommunity, там проще
всего за ними следить.

🖥🖥🖥🖥

Реклама. ООО "МТС Веб Сервисы".
ИНН 7707767501. Erid: 2W5zFHYZSek
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱227👍7😁1
Media is too big
VIEW IN TELEGRAM
🤖 Cтудия Leehom Wang показала выступление с гуманоидным роботом Unitree G1 на сцене.

Финальный акробатический флип стал настоящей кульминацией шоу и вызвал бурную реакцию публики.

ИИ должен был оптимизировать бизнес-процессы.
Но сначала решил раскачать зал.

@ai_machinelearning_big_data


#Robotics #HumanoidRobots #AI #Unitree
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52😁1712👍9🥰1🤬1🗿1🦄1
Яндекс показал ИИ-инструмент для автоматизации научных исследований. Команды Yandex Crowd Solutions и Центра технологий для общества Yandex Cloud создали решение, которое помогает анализировать влияние стресса на поведение.

В чем суть:

– Для медицинских и когнитивных исследований ученые изучают поведение лабораторных мышей. Все наблюдения записывают на видео.
– Ручная разметка одного 10-минутного видео занимает около часа, а для одного исследования нужно проанализировать 90 часов записей.
– В итоге на ручную расшифровку видео у научных сотрудников уходят сотни часов.

Чтобы автоматизировать расшифровку, разработчики научили ИИ самостоятельно разбирать записи и структурировать все данные. Для этого они проанализировали и разметили 8 часов видеозаписей лабораторных экспериментов, выделив ключевые действия мышей.

Система состоит из двух компонентов: первый определяет ключевые точки на теле животного, второй — распознает его действия и положение в пространстве с точностью до 89%. Авторазметка фиксирует события покадрово, поэтому она эффективнее, чем глаз человека.

На выходе ученые получают более надежные данные для исследований и экономят до 500 часов ручной работы. Анализ автоматизируется на 90%. Пока решением пользуются в Институте цитологии и генетики СО РАН, но его можно адаптировать для других организаций. Кроме того, в ближайшее время компания планирует опубликовать исходный код инструмента.
🔥5023👍14🥱11😁8👏3🤔2🤬2
✔️ Американский стартап Gloo представил христианский AI-бенчмарк Flourishing AI (FAI-C), который оценивает, насколько ответы ИИ помогают человеку жить осмысленно и правильно с точки зрения христианского мировоззрения.

Результаты:
- Qwen3 - 1 место
- DeepSeek R1 - 6 место
Обе модели обошли несколько американских LLM.

Что именно тестируют:
вопросы не про факты, а про смысл и руководство - почему существует страдание, как формировать духовные привычки, как жить правильно. Оценку проводили пасторы, богословы, психологи и специалисты по этике.

Как работает бенчмарк:
- 807 промптов
- 7 измерений
- ответы оцениваются христианскими judge-персонами
- важны библейская опора, богословская согласованность и моральная ясность

Это проверка ценностного рассуждения, а не знаний.

Многие популярные бенчмарки неявно исходят из секулярных культурных установок, из-за чего религиозные ответы оцениваются неконсистентно.

Важная оговорка:
высокий христианский скор не означает религиозной свободы - в Китае христианская практика и онлайн-проповеди жестко регулируются.

scmp.com/tech/article/3336642/chinas-qwen-and-deepseek-edge-out-us-ai-models-christian-values-benchmark

@ai_machinelearning_big_data


#ai #ml #news
Please open Telegram to view this post
VIEW IN TELEGRAM
33😁91👍27🤣138🔥7🦄4🥱3🤨2🌭1😨1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI подняла маржинальность вычислений до 70% на фоне убытков от R&D.

Согласно внутренним финансовым отчетам, к октябрю 2025 года «вычислительная маржа» компании достигла 70%. Этот показатель, отражающий долю выручки, остающуюся после покрытия прямых затрат на работу моделей для пользователей, удвоился с начала 2024 года - тогда он составлял лишь 35%. Такая динамика указывает на успешную оптимизацию инфраструктуры инференса, что делает платных клиентов значительно рентабельнее.

Несмотря на техническую оптимизацию, компания остается глубоко убыточной. За первую половину 2025 года чистый убыток OpenAI составил $13,5 млрд, из которых $6,7 млрд пришлось на R&D и разработку новых моделей.

Тем не менее, бизнес-показатели продолжают расти: годовая выручка преодолела отметку в $12 млрд еще в июле, а к концу года аналитики прогнозируют выход на уровень $15–20 млрд.
theinformation.com

✔️ Nvidia готовится начать поставки H200 в Китай в феврале.

Компания уведомила китайских партнеров о планах отгрузить первую партию H200 в середине февраля. По информации инсайдеров, Nvidia намерена использовать имеющиеся складские запасы, чтобы поставить от 40 до 80 тысяч чипов (примерно 5–10 тысяч модулей). Это реакция смягчение политики Вашингтона: экспорт флагманского железа разрешили при условии уплаты специального 25-процентного сбора.

Основным препятствием остается позиция Пекина. Правительство Китая пока не согласовало закупки H200, и без официального одобрения местных регуляторов сделка не состоится. Если же политический вопрос будет урегулирован, Nvidia планирует не ограничиваться разовой партией и открыть слоты для новых производственных заказов под китайский рынок уже во втором квартале 2026 года.
reuters.com

✔️ Z.ai выпустила GLM-4.7.

GLM-4.7 - обновление линейки моделей, оптимизированное для разработчиков. При размере в 358 млрд. параметров модель показала существенный прирост производительности в программировании, работе с терминалом и созданию чистого UI-кода (функция Vibe Coding). На SWE-bench Verified модель улучшила результат до 73.8%, а в тестах на сложное математическое рассуждение прирост составил более 12%.

Архитектурное новшество релиза — развитие механизмов мышления. Функция Preserved Thinking позволяет модели сохранять и переиспользовать CoT между репликами, а механизм Interleaved Thinking дает время на анализ перед каждым вызовом внешних инструментов.

GLM-4.7 уже доступна через API и на OpenRouter, а веса модели выложены на HuggingFace и ModelScope.
z.ai

✔️ Anthropic Bloom: фреймворк для авто-тестирования поведенческих паттернов ИИ.

Инструмент кардинально упрощает процесс оценки безопасности моделей: вместо ручного написания тестов нужно просто описать искомое поведение (сикофанство, самосохранение или склонность к саботажу). На основе этого описания, Bloom автоматически генерирует сотни уникальных сценариев, симулирует диалоги с участием виртуальных пользователей и выносит вердикт о частоте и тяжести выявленных проявлений.

Фреймворк поддерживает интеграцию с W&B для трекинга и экспорт логов в формат Inspect. Вместе с релизом кода на GitHub компания опубликовала результаты проверки 16 моделей по 4 критическим категориям безопасности.
anthropic.com

✔️Manus добавила функцию Design View.

Design View - интерфейс для редактирования графики в режиме point-and-click с сохранением исходной композиции и стиля. Дизайнеры могут менять цвета объектов, корректировать глубину сцены и исправлять текст прямо на холсте. Инструмент глубоко интегрирован в экосистему Manus: поддерживается редактирование презентаций, созданных Nano Banana Pro, а также доработка UI-элементов и иконок для мобильных приложений в реальном времени.

Функция уже доступна всем пользователям сервиса.
manus.im

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
42👍22🔥6😁1🦄1
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене

🔘Pro версия является ТОП-1 опенсорсом в мире

🔘Lite версия (2B параметров) лучше первой версии Sora

🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла

🔘Для российских генеративных моделей выход на международную арену — уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘Open Source Kandinsky 5.0: github и hf
Please open Telegram to view this post
VIEW IN TELEGRAM
👏105🔥38🤣3120👍8🤬3🌚2🤨1🦄1
🌟 Z-Image Turbo взяла 1 место на Artificial Analysis Image Arena.

Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.

Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.

Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.

Кто-нибудь, поднимите веки Stable Diffusion


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4117🥰6🔥2😁2🙈2🦄1
⚡️ МТС Web Services запустила MWS Track Rails — таск-трекер с ИИ-агентами внутри платформы MWS DevRails.

Решение автоматизирует ключевые этапы разработки: ИИ-агенты берут на себя до 50% рутинных задач и генерируют до 30% кода, снижая нагрузку на ИТ-команды.

Как это работает:
- AI Product Owner формирует бизнес-требования (−30% нагрузки на продакта);
- AI Analytic декомпозирует требования в техзадачи;
- AI Developer создает до 40% нового кода и собирает версии продукта;
- AI QA-агенты описывают тесты и проводят проверки (−50% времени тестирования).

📌 В результате DevRails позволяет масштабировать разработку без найма новых специалистов, сокращает time-to-market в три раза и повышает продуктивность команд вдвое.


@ai_machinelearning_big_data

#AI #ML #DevTools #MTS
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍16🥱8😁6🔥4🗿2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Генерация A/B-тестов в режиме реального времени.

Gemini 3 Flash открывает совершенно новый способ разработки. Ее возможности и навыки программирования позволяют проводить A/B тестирование кода в реальном времени.

Например, в этом плэйграунде Gemini 3 Flash создает идеальный лоадер загрузки настолько быстро, что он вам практически не нужен.

Как только вы начинаете процесс, система предлагает код для следующей версии лоадеров и показывает метрики задержки.

Вы выбираете понравившийся вариант, и следующая версия будет основана именно на нем.

Такой подход можно использовать для любого приложения, персонального ассистента или ПО, которое должно обучаться на основе предпочтений пользователя.


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3710👍8👏1🦄1
🚀 Вышел QwenLong-L1.5 - модель для long-context reasoning, которая на длинных контекстах конкурирует с GPT-5 и Gemini-2.5-Pro.

Коротко о модели
- 30B параметров, из них 3B активных
- Заточена под рассуждение на очень длинных контекстах
- Полностью открыты веса, код обучения и рецепты данных

Ключевые показатели:
- +31.7 балла на OpenAI MRCR при контексте 128K - SOTA среди всех моделей
- На уровне Gemini-2.5-Pro на 6 крупных long-QA бенчмарках
- +9.69 на CorpusQA
- +6.16 на LongBench-V2

Что интересного.

1. Синтетические данные в масштабе
14.1K длинных reasoning-сэмплов из 9.2B токенов без ручной разметки.
Средняя длина - 34K токенов, максимум - 119K.

2. Стабильное RL-обучение
Используется балансировка задач и Adaptive Entropy-Controlled Policy Optimization (AEPO), что позволяет стабильно обучать модели на длинных последовательностях.

3. Архитектура с памятью
Итеративные обновления памяти за пределами окна 256K токенов.
Результат - +9.48 балла на задачах с контекстом от 1M до 4M токенов.

QwenLong-L1.5 - это один из самых сильных open-source шагов в сторону реально масштабируемого ризонинга с длинным контекстом

Модель интересна не только результатами, но и тем, что весь стек обучения открыт.

GitHub: https://github.com/Tongyi-Zhiwen/Qwen-Doc
Paper: https://modelscope.cn/papers/2512.12967
Model: https://modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B
HF: https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B

@ai_machinelearning_big_data

#AI, #LLM, #opensource, #long #Owen
48👍25🔥17🦄1
✔️Команда AI-Центра Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1

Ключевыми изменениями стали улучшенные способности в точном следовании инструкциям (Instruction Following) и tool calling.

✔️Как изменились T-Pro 2.1 и T-Lite 2.1

T-Pro 2.1 (32B): модель стала значительно лучше понимать сложные требования (ответы строго в формат JSON, лимиты длины, многошаговые инструкции) и увереннее работать в агентских сценариях. Она основана на базе Qwen3-32B и отвечает без “тысяч токенов рассуждений”.

T-Lite 2.1 (8B): популярная модель после обновления стала сильнее в прикладных задачах и при этом сохранила скорость и практичность для продакшена и локального запуска.

✔️Обучение моделей работе с инструментами

Для улучшения Instruction Following команда разработала собственный пайплайн генерации синтетических данных на основе подхода AutoIF. На RL-стадии использовался алгоритм GRPO с комбинированной reward-функцией, которая проверяла как выполнение формальных требований через верификационные функции, так и осмысленность ответа через штраф на основе Reward Model.

Это позволило избежать классической проблемы “reward hacking”, когда модель учится подстраиваться под проверку, а не давать хорошие ответы.

✔️Генерация синтетических инструментов для tool calling

Для изменений в tool calling был разработан синтетический пайплайн. Сначала генерировались реалистичные наборы инструментов, а затем — сложные многошаговые диалоги с их использованием через мультиагентную симуляцию. Для обучения на этих данных применялся RL (GRPO) с бинарным reward, проверяющим корректность вызова, и балансировкой датасета.

✔️Результаты на бенчмарках

На локализованном русскоязычном бенчмарке IFeval T-Pro 2.1 демонстрирует результат 0.8065, значительно опережая свою версию 2.0 (0.6865), а T-Lite 2.1 показывает 0.7585. На тесте BFCL v3 (RU), оценивающем tool calling, T-Pro 2.1 набирает 65.96 баллов, что является одним из лучших показателей среди открытых моделей, а T-Lite 2.1 — 56.45. В диалоговых аренах (Arena Hard Ru, WildChat) обновленные модели также показывают существенный рост качества ответов на реальные пользовательские запросы.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
151👍18🔥11🤣9👌1🤗1🦄1
Media is too big
VIEW IN TELEGRAM
🗣 Новая линейка Qwen3-TTS: VoiceDesign и VoiceClone

Qwen представили новое поколение TTS-моделей, которые выводят управление голосом и voice cloning на новый уровень. Быстрее, выразительнее и гибче, чем раньше.

VoiceDesign-VD-Flash
Модель для полного конструирования голоса с нуля.

Что умеет:
- полный контроль речи через обычные текстовые инструкции
- управление тоном, ритмом, эмоциями и персоной
- никаких готовых голосов - ты создаешь уникальную вокальную идентичность
- превосходит GPT-4o-mini-tts и Gemini-2.5-pro в role-play бенчмарках

Подходит для:
- игровых персонажей
- виртуальных ассистентов
- сторителлинга и диалогов
- AI-персонажей с характером

VoiceClone-VC-Flash
Фокус на быстрое и качественное клонирование голоса.

Ключевые возможности:
- клонирование любого голоса всего по 3 секундам аудио
- генерация речи на 10 языках (китайский, английский, японский, испанский и другие)
- на 15% ниже WER по сравнению с ElevenLabs и GPT-4o-Audio в мультиязычных тестах
- контекстно-зависимая интонация и ритм для более естественного звучания
https://x.com/Alibaba_Qwen/status/2003445076257656880
Попробовать:
Qwen Chat: http://chat.qwen.ai
Блог: https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign
• VoiceDesign:
http://hf.co/spaces/Qwen/Qwen3-TTS-Voice-Design
http://modelscope.cn/studios/Qwen/Qwen3-TTS-Voice-Design
• VoiceClone:
http://hf.co/spaces/Qwen/Qwen-TTS-Clone-Demo
http://modelscope.cn/studios/Qwen/Qwen-TTS-Clone-Demo

@ai_machinelearning_big_data


#AI #TTS #voicecloning
👍5518🔥10🍓1🦄1
Обновился лидерборд русскоязычного бенчмарка для оценки бизнес-OCR от MWS. В лидерах – Gemini и Alice AI

Полный лидерборд лежит на GitHub. В тройке лидеров, кроме Gemini — новая визуально-языковая модель Яндекса Alice AI VLM dev, часть большой Alice AI VLM, об обучении которой компания совсем недавно рассказала в техрепорте.

Оттуда можно заимствовать подход к обучению VLM под OCR-задачи и узнать об архитектурных изменениях в VLM Яндекса.
🤣2928❤‍🔥9🔥9🗿4👍3🦄2
⚡️ Microsoft хочет избавиться от всего C и C++ к 2030 году и переписать код на Rust

В Microsoft поставили радикальную цель - полностью убрать C и C++ из своих кодовых баз к 2030 году и заменить их Rust.

Причем делать это собираются не вручную, а с помощью ИИ и алгоритмов, на скоростях, которые раньше казались фантастикой.

Новая «North Star» метрика Microsoft звучит так:
- 1 инженер
- 1 месяц
- 1 миллион строк кода

Об этом рассказал Galen Hunt, Distinguished Engineer в Microsoft, в своем посте на LinkedIn.

В чем идея
Microsoft строит инфраструктуру, которая объединяет:
- алгоритмический анализ кода
- графы зависимостей на масштабе миллионов строк
- AI-агентов для понимания и переписывания кода

По сути, компания хочет автоматизировать массовое переписывание самых больших и старых кодовых баз.

Как это будет работать
- алгоритмы строят масштабируемый граф исходного кода
- AI-системы анализируют и изучают код
- затем эти же системы модифицируют и переписывают его
- инфраструктура уже используется для задач понимания старого кода

Почему это звучит рискованно
- переписываются десятилетиями отлаженные системы
- Rust не избавляет от логических ошибок
- массовый rewrite - один из самых опасных процессов в инженерии
- высокая скорость повышает риск регрессий

Почему Microsoft все равно идет на это:
- большая часть критических уязвимостей исторически связана с C и C++
- Rust реально сокращает классы memory-багов
- ИИ впервые делает такой масштаб переписывания кода технически возможным

Источник:
linkedin.com/posts/galenh_principal-software-engineer-coreai-microsoft-activity-7407863239289729024-WTzf/

@ai_machinelearning_big_data

#Microsoft #Rust #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
😁118👍83🤣8019🙈14🤔13🔥12👀3🦄2🥰1🍓1