Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.
Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.
Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.
В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.
На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.
Это ускорение больше чем в 100 раз.
При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.
@ai_machinelearning_big_data
#AI #ML #I2V #T2V #TurboDiffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍62🔥39❤19🤗3💘2😁1🦄1
🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов.
Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию
Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.
- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.
- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.
https://mistral.ai/news/mistral-ocr-3
@ai_machinelearning_big_data
#ocr #mistal #llm
Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию
Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.
- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.
- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.
https://mistral.ai/news/mistral-ocr-3
@ai_machinelearning_big_data
#ocr #mistal #llm
🔥66❤25👍16🥱3🦄2🙏1
Media is too big
VIEW IN TELEGRAM
OpenAI представила GPT-5.2-Codex, которую называет самым продвинутым инструментом для реальной программной инженерии на сегодняшний день. Модель получила нативную поддержку сжатия контекста, улучшенную интеграцию с терминалом Windows и способность проводить глубокий рефакторинг крупных репозиториев без потери логической нити.
Ключевой апдейт коснулся сферы безопасности - Codex резко прибавил способностей в анализе защищенности кода. Модель уже доступна платным пользователям ChatGPT, а API будет открыт в ближайшие недели.
openai.com
Компания Илона Маска открыла публичный доступ к Grok Voice Agent API — нативному интерфейсу speech-to-speech для создания голосовых ассистентов. Решение построено на полностью собственной архитектуре, что позволило достичь задержки ответа менее 1 секунды.
API поддерживает вызов внешних инструментов, веб-поиск, прямую интеграцию с телефонией через SIP и понимает более 100 языков. В бенчмарке Big Bench Audio модель заняла 1 место с точностью 92,3%, опередив Gemini 2.5 Flash и GPT Realtime.
Главной фишкой стала ценовая политика: единый тариф составляет $0.05 за минуту. Это значительно дешевле, чем у OpenAI и ElevenLabs.
x.ai
В VS Code Insiders появилась поддержка Agent Skills - открытого протокола, разработанного Anthropic. Технология позволяет упаковывать инструкции, скрипты и вспомогательные ресурсы в модули, которыми можно пользоваться в разных ИИ-инструментах.
Главное отличие Agent Skills от привычных кастомных инструкций в функциональности: это не текстовые гайдлайны по стилю кода, а полноценные наборы инструментов для автоматизации задач, которые подгружаются в контекст модели динамически и только при необходимости.
Стандарт дает кросс-платформенность: созданный один раз скилл будет работать одинаково как в интерфейсе редактора, так и в CLI-агентах.
code.visualstudio.com
T5Gemma 2 получила серьезные архитектурные изменения по сравнению с первой версией. Чтобы снизить потребление памяти, инженеры внедрили
tied word embeddings для энкодера и декодера, а также объединили механизмы self-attention и cross-attention в единый слой. Модели доступны в компактных конфигурациях на 270M, 1B и 4B параметров.Новинка поддерживает контекстное окно до 128 тыс. токенов и умеет обрабатывать не только текст на 140 языках, но и изображения. В бенчмарках T5Gemma 2 обошла базовую Gemma 3 в задачах на длинный контекст, кодинг и мультимодальное понимание. Модели доступны на Hugging Face и Kaggle для исследовательских целей.
blog.google
Perception Encoder Audiovisual (PE-AV) - техническое ядро, лежащее в основе SAM Audio. Это мультимодальная модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов.
PE-AV умеет извлекать векторы признаков из аудио или видеокадров и формировать совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков и глубокого понимания сцен, где важен синхронный контекст изображения и звука.
В открытом доступе - 6 чекпоинтов модели разного размера (от Small до Large) с вариациями по количеству обрабатываемых кадров. Код опубликован на GitHub, а веса - на Hugging Face.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62❤32🔥12🦄2
Media is too big
VIEW IN TELEGRAM
Вышел YaC 2025 AI Edition. Внутри ИИ-ассистенты, ИИ-агенты, ИИ-наушники, ИИ-диктофон, новые LLM- и VLM-модели, роботы и автономные грузовики — всё, что начинается с ИИ. Часть фичей уже открыта на всех, часть ограниченно на тех, кто ранее записывался на раннее тестирование. Всё показано в демках или через личные кейсы пользователей.
Интересно, что делают особую ставку на развитие направления Physical AI. Самый яркий пример ИИ в реальном мире — роботы-доставщики, число которых к концу 2027 года достигнет 20 тысяч (они появятся во многих крупных городах), для чего наладили автоматизированное конвейерное производство (где также трудятся роботы). Помимо роверов прогресс есть и в более мощных железках — один из автономных грузовиков Яндекса уже прошёл более 500 000 км, все вычисления на борту.
В фильме продемонстрировали живые демо агентных систем, on-device вычислений и реальных сценариев применения LLM и VLM. Смотреть можно на любой платформе — Кинопоиск, VK Видео или YouTube.
Интересно, что делают особую ставку на развитие направления Physical AI. Самый яркий пример ИИ в реальном мире — роботы-доставщики, число которых к концу 2027 года достигнет 20 тысяч (они появятся во многих крупных городах), для чего наладили автоматизированное конвейерное производство (где также трудятся роботы). Помимо роверов прогресс есть и в более мощных железках — один из автономных грузовиков Яндекса уже прошёл более 500 000 км, все вычисления на борту.
В фильме продемонстрировали живые демо агентных систем, on-device вычислений и реальных сценариев применения LLM и VLM. Смотреть можно на любой платформе — Кинопоиск, VK Видео или YouTube.
❤25👍10🔥7👏2💋1
В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.
Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.
MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP).
Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения.
Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса:
Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна.
Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза.
Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно.
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Diffusion #Tokenizer #Minimax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤41👍24🔥14🦄2
Media is too big
VIEW IN TELEGRAM
Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.
Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai
Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.
Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.
Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.
В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com
Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.
Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com
Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.
Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.
Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥30❤15🦄7
2025 год был захватывающим годом для языковых моделей.
Они проявились как новый вид интеллекта, одновременно гораздо более умный и гораздо более глупый, чем я ожидал. Я думаю, что индустрия не реализовала хотя бы 10% их потенциала даже при нынешних возможностях.
Я одновременно верю и в то, что мы увидим быстрый и непрерывный прогресс, и в то, что впереди еще очень много работы.
Пристегнитесь.
В 2025-м стек обучения LLM дополнился новой ключевой стадией оптимизации по объективным наградам. Он заставляет модели самостоятельно находить стратегии рассуждения.
Прогресс года в том, что создание моделей стало не про увеличение размера модели, а про более длительные RLVR-прогоны.
Это также дало новый рычаг управления: "время размышления" на инференсе. Первопроходец - OpenAI o1, а переломный момент - o3.
Интеллект LLM формируется под давлением специфических оптимизаций и на выходе мы имеем резкие всплески способностей в рядом с грубыми ошибками.
Из-за этого бенчмарки теряют смысл: под них напрямую оптимизируются, что не ведёт к созданию AGI.
Это не просто интерфейс к условной модели, а сложная оркестрация работы LLM под конкретные вертикали, c управляемым контекстом, вызовами и интерфейсом.
Cursor создаёт отдельную ценностную прослойку между LLM-лабораториями и конечными пользователями.
В отличие от облачных агентов, он использует ваши данные, контекст и инструменты для ризонинга и вызова инструментов.
Его фишка - в низкой задержке, приватности и глубокой интеграции в рабочее окружение. Это сдвиг от ИИ как «сайта» к напарнику-помощнику в вашей системе.
Я думаю, OpenAI допустили ошибку, сосредоточив свои усилия по созданию агентов в облаке и управляемых из ChatGPT, вместо localhost.
В 2025 году ИИ преодолел порог, позволяющий через текстовые инструкции создавать работающие программы.
Это демократизирует программирование, позволяя непрофессионалам писать код, а экспертам - быстро прототипировать без глубокого погружения.
Код становится эфемерным, гибким и бесплатным ресурсом.
Забавно, что я придумал термин «вайб-кодинг» в этом твите с мыслями из душа, совершенно не представляя, как далеко это зайдет :)
Взаимодействие с ИИ через чат - это аналог командной строки 80-х, неудобный для человека.
Будущее за LLM GUI интерфейсом, где ИИ общается визуально (инфографика, анимации, веб-приложения).
Nano banana - ранний пример такого взаимодействия, в ней объединены генерация текста, изображений и общие знания.
Google Gemini Nano banana — одна из самых невероятных, меняющих парадигму моделей 2025 года.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍95❤36🔥16🦄4😁2
NeuroSploit v2 использует большие языковые модели, чтобы автоматизировать и усилить offensive security.
Фреймворк помогает анализировать цели, находить уязвимости, планировать эксплуатацию и поддерживать защитные меры, сохраняя фокус на этике и операционной безопасности.
Основные возможности:
• Агентная архитектура
Специализированные AI-агенты под разные роли: Red Team, Blue Team, Bug Bounty Hunter, Malware Analyst.
• Гибкая интеграция LLM
Поддержка Gemini, Claude, GPT (OpenAI) и Ollama с настройкой через профили.
• Тонкая настройка моделей
Отдельные LLM-профили для каждой роли: выбор модели, температура, лимиты токенов, кэш и контекст.
• Markdown-промпты
Динамические шаблоны промптов, адаптирующиеся под задачу и контекст.
• Расширяемые инструменты
Интеграция Nmap, Metasploit, Subfinder, Nuclei и других security-инструментов через конфигурацию.
• Структурированные отчёты
JSON-результаты кампаний и удобные HTML-отчёты.
• Интерактивный CLI
Командная строка для прямого управления агентами и сценариями.
NeuroSploit v2 - пример того, как agentic AI превращает пентест из ручной работы в управляемую автоматизацию.
git clone https://github.com/CyberSecurityUP/NeuroSploitv2.git
cd NeuroSploitv2
▪ Github: https://github.com/CyberSecurityUP/NeuroSploit
@ai_machinelearning_big_data
#python #Penetrationtesting #llm #mlops #Cybersecurity
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25👍11🔥10🦄3
Media is too big
VIEW IN TELEGRAM
⚡️ Это гигантский дата-центр Amazon за $11 млрд в Индиане.
Кампус строится под обучение и инференс ИИ и будет потреблять до 2.2 ГВт - примерно как 1 миллион домов.
В состав комплекса войдут собственные электростанции, поэтому нагрузка на местную энергосеть и тарифы для жителей должна быть минимальной.
@ai_machinelearning_big_data
#Amazon #DataCenter #AIInfrastructure #AIFactory #CloudComputing
Кампус строится под обучение и инференс ИИ и будет потреблять до 2.2 ГВт - примерно как 1 миллион домов.
В состав комплекса войдут собственные электростанции, поэтому нагрузка на местную энергосеть и тарифы для жителей должна быть минимальной.
@ai_machinelearning_big_data
#Amazon #DataCenter #AIInfrastructure #AIFactory #CloudComputing
❤38🔥26👍10🤨9😨2🥰1🤬1
Ваш путеводитель по ИТ
Каждый разработчик знает
ощущение, когда в проекте
накапливается техдолг, а
автотесты начинают жить
своей жизнью. В такие моменты
могут помочь кейсы от коллег
по цеху: как допилить CI/CD, как
сэкономить время на фиче или
как спасти продукт в кризисное
время.
Именно такие истории
регулярно появляются в МТС
True Tech вместе с разбором
технологий и подборками
инструментов.
А еще у сообщества есть офлайн
и онлайн-мероприятия. Совсем
недавно прошел True Tech
Champ — чемпионат по
алгоритмическому
и робототехническому
программированию с призовым
фондом более 10 млн рублей.
Анонсы следующих событий вы
сможете найти также в
@truetechcommunity, там проще
всего за ними следить.
Реклама. ООО "МТС Веб Сервисы".
ИНН 7707767501. Erid: 2W5zFHYZSek
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱22❤7👍7😁1
Media is too big
VIEW IN TELEGRAM
Финальный акробатический флип стал настоящей кульминацией шоу и вызвал бурную реакцию публики.
ИИ должен был оптимизировать бизнес-процессы.
Но сначала решил раскачать зал.
@ai_machinelearning_big_data
#Robotics #HumanoidRobots #AI #Unitree
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53😁17❤12👍9🥰1🤬1🗿1🦄1
Яндекс показал ИИ-инструмент для автоматизации научных исследований. Команды Yandex Crowd Solutions и Центра технологий для общества Yandex Cloud создали решение, которое помогает анализировать влияние стресса на поведение.
В чем суть:
– Для медицинских и когнитивных исследований ученые изучают поведение лабораторных мышей. Все наблюдения записывают на видео.
– Ручная разметка одного 10-минутного видео занимает около часа, а для одного исследования нужно проанализировать 90 часов записей.
– В итоге на ручную расшифровку видео у научных сотрудников уходят сотни часов.
Чтобы автоматизировать расшифровку, разработчики научили ИИ самостоятельно разбирать записи и структурировать все данные. Для этого они проанализировали и разметили 8 часов видеозаписей лабораторных экспериментов, выделив ключевые действия мышей.
Система состоит из двух компонентов: первый определяет ключевые точки на теле животного, второй — распознает его действия и положение в пространстве с точностью до 89%. Авторазметка фиксирует события покадрово, поэтому она эффективнее, чем глаз человека.
На выходе ученые получают более надежные данные для исследований и экономят до 500 часов ручной работы. Анализ автоматизируется на 90%. Пока решением пользуются в Институте цитологии и генетики СО РАН, но его можно адаптировать для других организаций. Кроме того, в ближайшее время компания планирует опубликовать исходный код инструмента.
В чем суть:
– Для медицинских и когнитивных исследований ученые изучают поведение лабораторных мышей. Все наблюдения записывают на видео.
– Ручная разметка одного 10-минутного видео занимает около часа, а для одного исследования нужно проанализировать 90 часов записей.
– В итоге на ручную расшифровку видео у научных сотрудников уходят сотни часов.
Чтобы автоматизировать расшифровку, разработчики научили ИИ самостоятельно разбирать записи и структурировать все данные. Для этого они проанализировали и разметили 8 часов видеозаписей лабораторных экспериментов, выделив ключевые действия мышей.
Система состоит из двух компонентов: первый определяет ключевые точки на теле животного, второй — распознает его действия и положение в пространстве с точностью до 89%. Авторазметка фиксирует события покадрово, поэтому она эффективнее, чем глаз человека.
На выходе ученые получают более надежные данные для исследований и экономят до 500 часов ручной работы. Анализ автоматизируется на 90%. Пока решением пользуются в Институте цитологии и генетики СО РАН, но его можно адаптировать для других организаций. Кроме того, в ближайшее время компания планирует опубликовать исходный код инструмента.
🔥50❤24👍14🥱11😁8👏3🤔2🤬2
Результаты:
- Qwen3 - 1 место
- DeepSeek R1 - 6 место
Обе модели обошли несколько американских LLM.
Что именно тестируют:
вопросы не про факты, а про смысл и руководство - почему существует страдание, как формировать духовные привычки, как жить правильно. Оценку проводили пасторы, богословы, психологи и специалисты по этике.
Как работает бенчмарк:
- 807 промптов
- 7 измерений
- ответы оцениваются христианскими judge-персонами
- важны библейская опора, богословская согласованность и моральная ясность
Это проверка ценностного рассуждения, а не знаний.
Многие популярные бенчмарки неявно исходят из секулярных культурных установок, из-за чего религиозные ответы оцениваются неконсистентно.
Важная оговорка:
высокий христианский скор не означает религиозной свободы - в Китае христианская практика и онлайн-проповеди жестко регулируются.
scmp.com/tech/article/3336642/chinas-qwen-and-deepseek-edge-out-us-ai-models-christian-values-benchmark
@ai_machinelearning_big_data
#ai #ml #news
Please open Telegram to view this post
VIEW IN TELEGRAM
33😁91👍27🤣13❤8🔥7🥱4🦄4🤨2🌭1😨1
Media is too big
VIEW IN TELEGRAM
Согласно внутренним финансовым отчетам, к октябрю 2025 года «вычислительная маржа» компании достигла 70%. Этот показатель, отражающий долю выручки, остающуюся после покрытия прямых затрат на работу моделей для пользователей, удвоился с начала 2024 года - тогда он составлял лишь 35%. Такая динамика указывает на успешную оптимизацию инфраструктуры инференса, что делает платных клиентов значительно рентабельнее.
Несмотря на техническую оптимизацию, компания остается глубоко убыточной. За первую половину 2025 года чистый убыток OpenAI составил $13,5 млрд, из которых $6,7 млрд пришлось на R&D и разработку новых моделей.
Тем не менее, бизнес-показатели продолжают расти: годовая выручка преодолела отметку в $12 млрд еще в июле, а к концу года аналитики прогнозируют выход на уровень $15–20 млрд.
theinformation.com
Компания уведомила китайских партнеров о планах отгрузить первую партию H200 в середине февраля. По информации инсайдеров, Nvidia намерена использовать имеющиеся складские запасы, чтобы поставить от 40 до 80 тысяч чипов (примерно 5–10 тысяч модулей). Это реакция смягчение политики Вашингтона: экспорт флагманского железа разрешили при условии уплаты специального 25-процентного сбора.
Основным препятствием остается позиция Пекина. Правительство Китая пока не согласовало закупки H200, и без официального одобрения местных регуляторов сделка не состоится. Если же политический вопрос будет урегулирован, Nvidia планирует не ограничиваться разовой партией и открыть слоты для новых производственных заказов под китайский рынок уже во втором квартале 2026 года.
reuters.com
GLM-4.7 - обновление линейки моделей, оптимизированное для разработчиков. При размере в 358 млрд. параметров модель показала существенный прирост производительности в программировании, работе с терминалом и созданию чистого UI-кода (функция Vibe Coding). На SWE-bench Verified модель улучшила результат до 73.8%, а в тестах на сложное математическое рассуждение прирост составил более 12%.
Архитектурное новшество релиза — развитие механизмов мышления. Функция Preserved Thinking позволяет модели сохранять и переиспользовать CoT между репликами, а механизм Interleaved Thinking дает время на анализ перед каждым вызовом внешних инструментов.
GLM-4.7 уже доступна через API и на OpenRouter, а веса модели выложены на HuggingFace и ModelScope.
z.ai
Инструмент кардинально упрощает процесс оценки безопасности моделей: вместо ручного написания тестов нужно просто описать искомое поведение (сикофанство, самосохранение или склонность к саботажу). На основе этого описания, Bloom автоматически генерирует сотни уникальных сценариев, симулирует диалоги с участием виртуальных пользователей и выносит вердикт о частоте и тяжести выявленных проявлений.
Фреймворк поддерживает интеграцию с W&B для трекинга и экспорт логов в формат Inspect. Вместе с релизом кода на GitHub компания опубликовала результаты проверки 16 моделей по 4 критическим категориям безопасности.
anthropic.com
Design View - интерфейс для редактирования графики в режиме point-and-click с сохранением исходной композиции и стиля. Дизайнеры могут менять цвета объектов, корректировать глубину сцены и исправлять текст прямо на холсте. Инструмент глубоко интегрирован в экосистему Manus: поддерживается редактирование презентаций, созданных Nano Banana Pro, а также доработка UI-элементов и иконок для мобильных приложений в реальном времени.
Функция уже доступна всем пользователям сервиса.
manus.im
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42👍22🔥6😁1🦄1
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене
🔘 Pro версия является ТОП-1 опенсорсом в мире
🔘 Lite версия (2B параметров) лучше первой версии Sora
🔘 На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘 Для российских генеративных моделей выход на международную арену — уникальное событие
🚀 Полезные ссылки:
🔘 Посмотреть весь лидерборд: lmarena
🔘 Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘 Open Source Kandinsky 5.0: github и hf
🚀 Полезные ссылки:
Please open Telegram to view this post
VIEW IN TELEGRAM
👏106🔥38🤣31❤20👍8🤬3🌚2🤨1🦄1
Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.
Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.
Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41❤17🥰6🔥2😁2🙈2🦄1
Решение автоматизирует ключевые этапы разработки: ИИ-агенты берут на себя до 50% рутинных задач и генерируют до 30% кода, снижая нагрузку на ИТ-команды.
Как это работает:
- AI Product Owner формирует бизнес-требования (−30% нагрузки на продакта);
- AI Analytic декомпозирует требования в техзадачи;
- AI Developer создает до 40% нового кода и собирает версии продукта;
- AI QA-агенты описывают тесты и проводят проверки (−50% времени тестирования).
@ai_machinelearning_big_data
#AI #ML #DevTools #MTS
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍16🥱8😁6🔥4🗿2
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 3 Flash открывает совершенно новый способ разработки. Ее возможности и навыки программирования позволяют проводить A/B тестирование кода в реальном времени.
Например, в этом плэйграунде Gemini 3 Flash создает идеальный лоадер загрузки настолько быстро, что он вам практически не нужен.
Как только вы начинаете процесс, система предлагает код для следующей версии лоадеров и показывает метрики задержки.
Вы выбираете понравившийся вариант, и следующая версия будет основана именно на нем.
Такой подход можно использовать для любого приложения, персонального ассистента или ПО, которое должно обучаться на основе предпочтений пользователя.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥37❤10👍8👏1🦄1