🚀 NVIDIA ускорила LLM в 53 раза 🤯
Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.
📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.
Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.
Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.
Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.
⚡ Результат - Jet-Nemotron:
- 2 885 токенов/с ⚡
- 47× меньше KV-кеша (всего 154 MB)
- Топовая точность при космической скорости
🔑 Почему это важно:
Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.
Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.
Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.
🟠 Github
🟠 Статья
@data_analysis_ml
Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.
📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.
Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.
Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.
Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.
⚡ Результат - Jet-Nemotron:
- 2 885 токенов/с ⚡
- 47× меньше KV-кеша (всего 154 MB)
- Топовая точность при космической скорости
🔑 Почему это важно:
Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.
Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.
Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Google все таки стояли за Nano Banana и намается она теперь Gemini Native Image.
Эта модель для редактирования изображений- мощный коктейль из Photoshop, Figma и MidJourney!
Gemini Native Image — качество редактирования Которое не имеет аналогов.
Что он умеет? Попробуйте, она стоит вашего времени:
• Заменяет объекты на фото, сохраняя остальное — без артефактов и искажений.
• Реставрирует старые снимки — родственники будут в шоке!
• Раскрашивает фото как профи-колорист.
• Удаляет фон идеально чисто.
• Меняет освещение на снимке.
• Всё — через один интуитивный промпт: просто опишите, что хотите!
Посмотрите примеры — модель просто огонь! 🔥
Доступна беcплатно в aistudio: http://aistudio.google.com/prompts/new_chat
Эта модель для редактирования изображений- мощный коктейль из Photoshop, Figma и MidJourney!
Gemini Native Image — качество редактирования Которое не имеет аналогов.
Что он умеет? Попробуйте, она стоит вашего времени:
• Заменяет объекты на фото, сохраняя остальное — без артефактов и искажений.
• Реставрирует старые снимки — родственники будут в шоке!
• Раскрашивает фото как профи-колорист.
• Удаляет фон идеально чисто.
• Меняет освещение на снимке.
• Всё — через один интуитивный промпт: просто опишите, что хотите!
Посмотрите примеры — модель просто огонь! 🔥
Доступна беcплатно в aistudio: http://aistudio.google.com/prompts/new_chat
Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.
OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.
Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.
Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.
Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.
Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.
Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.
При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.
Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.
@ai_machinelearning_big_data
#AI #ML #MMLM #MiniCPM #OpenBMB
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Главный вывод из пятого ежегодного списка Top 100 AI Apps — экосистема ИИ начинает приходить в равновесие.
В веб-рейтинге появилось всего 11 новых имен, что заметно меньше, чем было мартовском отчете. В мобильном сегменте, напротив, новичков больше — целых 14, но это связано с тем, что App Store активно вычищают "клонов ChatGPT", освобождая место для оригинальных приложений.
Их флагманский ассистент Gemini занял 2 место после ChatGPT и в вебе, и на мобильных устройствах. Правда, разрыв пока существенный: в вебе Gemini набирает примерно 12% от трафика ChatGPT. А вот на мобильных платформах ситуация иная - у Gemini уже почти половина ежемесячно активных пользователей ChatGPT.
Интересная деталь: почти 90% мобильной аудитории Gemini сидит на Android, тогда как у ChatGPT доля Android-пользователей составляет 60%.
Помимо Gemini, в топ-10 ворвался Google AI Studio. Следом идeт NotebookLM на 13-м месте, а экспериментальная площадка Google Labs заняла 39-ю строчку, получив в мае 2025 года прирост трафика более чем на 13% после запуска видеомодели Veo 3.
Grok занял четвeртое место в вебе и 23-е на мобильных. Его мобильный рост особенно впечатляет: с нуля в конце 2024 года до более чем 20 миллионов MAU сейчас. В июле 2025 года, после релиза модели Grok 4, использование приложения подскочило почти на 40%.
У Марка Цукербкрга успехи скромнее: 46-е место в вебе и полное отсутствие в мобильном топе.
Perplexity продолжает уверенно расти, а вот Claude и DeepSeek показывают смешанные результаты. DeepSeek особенно сильно просел в вебе, потеряв более 40% трафика со своего пика в феврале 2025 года.
Сразу 3 компании, ориентированные на внутренний рынок, вошли в топ-20 веб-рейтинга: Quark от Alibaba (№9), Doubao от Bytedance (№12) и Kimi от Moonshot AI (№17). Более 75% их трафика приходится на Китай, где доступ к ChatGPT или Claude ограничен.
Ещё более поразительна картина на мобильных устройствах. По оценкам, 22 из 50 приложений в топе были разработаны в Китае, но используются преимущественно за его пределами. Особенно сильна их концентрация в категории "фото и видео": одна только компания Meitu представлена 5-ю продуктами, включая BeautyPlus и Wink. Bytedance также не отстаёт с ассистентами Doubao и Cici.
Это ChatGPT, Civitai, Poe, Perplexity, LeonardoAI, VEED, Gamma, QuiliBot, CutOut, Character AI, Midjourney, Photoroom, Eleven Labs и HuggingFace.
Из этой "звёздной" команды только 5 компаний разрабатывают собственные модели, 7 используют сторонние API или опенсорс-решения, а 2 являются агрегаторами моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая модель для повседневных задач программирования с упором на agentic-coding (циклы рассуждений + вызовы инструментов: grep, терминал, редактирование файлов). Обучена на огромном кодовом корпусе и дообучена на реальных PR/задачах.
🙌 Модель уже доступна бесплатно на популярных платформах:
GitHub Copilot, Cursor, Cline, Kilo Code, Roo Code, opencode и Windsurf.
Контекст 256k токенов, лимиты: до 2M токенов в минуту и 480 запросов в минуту.
- Новая лёгкая архитектура, разработанная с нуля
- Заточена на скорость и эффективность
- Показвает хорошие результаты в TypeScript, Python, Java, Rust, C++, Go
- $0.20 / 1M входных токенов
- $1.50 / 1M выходных токенов
- $0.02 / 1M кешированных токенов
Команда Grok обещает выпускать регулярные обновления и уже тренирует вариант с мультимодальным вводом, параллельными tool-calls и расширенным контекстом.
@ai_machinelearning_big_data
#xAI #Grok #AI #coding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Главное новости ИИ
✔ Следующая модель семейства LLama выйдет к концу этого года.
Разработкой занимается новое подразделение компании Марка Цукерберга Superintelligence Labs. Модель, которую некоторые внутри компании называют Llama 4.5, должна исправить недостатки предыдущих версий: слабую производительность в кодинге и логических рассуждениях. Параллельно команда работает над исправлением ошибок в уже выпущенных версиях Llama 4 и фоном допиливает флагманскую модель "Behemoth".
businessinsider.com (https://www.businessinsider.com/meta-superintelligence-lab-llama-4-new-model-launch-year-end-2025-8)
✔ Apple опубликовала семейство моделей FastVLM.
FastVLM - линейка ультрабыстрых VL-моделей с гибридным энкодером FastViTHD, который значительно сокращает количество визуальных токенов и ускоряет их обработку. В сравнении с LLaVA-1.5, FastVLM показала в 3.2 раза более быстрый TTFT при сопоставимой производительности, а с LLaVa-OneVision модель достигает аналогичных результатов на бенчмарках, используя в 3.4 раза меньший энкодер.
В семейство входят три модели размером 500 миллионов, 1.5 миллиарда и 7 миллиардов параметров. Все они уже доступны (https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e) на Hugging Face для некоммерческого использования.
huggingface.co (https://huggingface.co/papers/2412.13303)
✔ PixVerse запустила новую модель V5 для генерации видео.
Обновление принесло значительные улучшения в качестве движений, визуальной детализации, согласованности и точности исполнения текстовых запросов. Новая функция Agent позволяет создать 5–30-секундный ролик, просто загрузив одно фото.
Генерация видео в разрешении 360p занимает 5 секунд, а 1080p - около минуты. До 1 сентября 2025 года доступ к V5 предоставляется бесплатно. Модель работает через веб-интерфейс, мобильные приложения и API.
Pixverse в сети X (https://x.com/PixVerse_/status/1960730919993799024)
✔ Google встроила Gemini CLI в редактор кода Zed.
Интеграция позволяет разработчикам генерировать и рефакторить код, а также общаться с ИИ, не покидая редактор. Изменения применяются в реальном времени и могут быть проверены в интерфейсе, похожем на pull-request.
Gemini работает через открытый протокол Agent Client Protocol, созданный Zed для связи ИИ-агентов со средами разработки. Zed основан на Rust и позиционируется как открытая альтернатива Microsoft VS Code.
developers.googleblog.com (https://developers.googleblog.com/en/gemini-cli-is-now-integrated-into-zed/)
✔ В Финляндии разработали умную упаковку с ИИ-распознаванием.
Исследователи из Университета Ваасы предложили дешевую и экологичную альтернативу электронным датчикам для контроля состояния продуктов. Технология основана на использовании функциональных чернил, которые меняют цвет при изменении температуры или влажности, а сверточные нейронные сети с высокой точностью распознают даже малейшие изменения, которые не улавливают традиционные методы машинного зрения. Это решает проблему своевременного обнаружения порчи или повреждений.
Такие индикаторы можно наносить прямо на упаковку вместе с обычными этикетками, что почти не увеличивает стоимость. Технология может найти применение в пищевой промышленности и в фармацевтике для отслеживания условий хранения продукции.
interestingengineering.com (https://interestingengineering.com/innovation/ai-detects-packaging-color-changes)
✔ Скандал: xAI подала в суд на бывшего инженера
xAI обвиняет (https://fingfx.thomsonreuters.com/gfx/legaldocs/gdvzbjjjzvw/XAI) Xuechen Li в краже технологий Grok и попытке передать их OpenAI.
Факты:
- Продал акции xAI на $7 млн и уволился.
- Скопировал секретные файлы Grok на личное хранилище.
- Удалял логи и признался письменно.
xAI требует: вернуть и удалить данные, запретить Li работать над ИИ в OpenAI и выплатить компенсацию.
@ai_machinelearning_big_data
#news #ai #ml
✔ Следующая модель семейства LLama выйдет к концу этого года.
Разработкой занимается новое подразделение компании Марка Цукерберга Superintelligence Labs. Модель, которую некоторые внутри компании называют Llama 4.5, должна исправить недостатки предыдущих версий: слабую производительность в кодинге и логических рассуждениях. Параллельно команда работает над исправлением ошибок в уже выпущенных версиях Llama 4 и фоном допиливает флагманскую модель "Behemoth".
businessinsider.com (https://www.businessinsider.com/meta-superintelligence-lab-llama-4-new-model-launch-year-end-2025-8)
✔ Apple опубликовала семейство моделей FastVLM.
FastVLM - линейка ультрабыстрых VL-моделей с гибридным энкодером FastViTHD, который значительно сокращает количество визуальных токенов и ускоряет их обработку. В сравнении с LLaVA-1.5, FastVLM показала в 3.2 раза более быстрый TTFT при сопоставимой производительности, а с LLaVa-OneVision модель достигает аналогичных результатов на бенчмарках, используя в 3.4 раза меньший энкодер.
В семейство входят три модели размером 500 миллионов, 1.5 миллиарда и 7 миллиардов параметров. Все они уже доступны (https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e) на Hugging Face для некоммерческого использования.
huggingface.co (https://huggingface.co/papers/2412.13303)
✔ PixVerse запустила новую модель V5 для генерации видео.
Обновление принесло значительные улучшения в качестве движений, визуальной детализации, согласованности и точности исполнения текстовых запросов. Новая функция Agent позволяет создать 5–30-секундный ролик, просто загрузив одно фото.
Генерация видео в разрешении 360p занимает 5 секунд, а 1080p - около минуты. До 1 сентября 2025 года доступ к V5 предоставляется бесплатно. Модель работает через веб-интерфейс, мобильные приложения и API.
Pixverse в сети X (https://x.com/PixVerse_/status/1960730919993799024)
✔ Google встроила Gemini CLI в редактор кода Zed.
Интеграция позволяет разработчикам генерировать и рефакторить код, а также общаться с ИИ, не покидая редактор. Изменения применяются в реальном времени и могут быть проверены в интерфейсе, похожем на pull-request.
Gemini работает через открытый протокол Agent Client Protocol, созданный Zed для связи ИИ-агентов со средами разработки. Zed основан на Rust и позиционируется как открытая альтернатива Microsoft VS Code.
developers.googleblog.com (https://developers.googleblog.com/en/gemini-cli-is-now-integrated-into-zed/)
✔ В Финляндии разработали умную упаковку с ИИ-распознаванием.
Исследователи из Университета Ваасы предложили дешевую и экологичную альтернативу электронным датчикам для контроля состояния продуктов. Технология основана на использовании функциональных чернил, которые меняют цвет при изменении температуры или влажности, а сверточные нейронные сети с высокой точностью распознают даже малейшие изменения, которые не улавливают традиционные методы машинного зрения. Это решает проблему своевременного обнаружения порчи или повреждений.
Такие индикаторы можно наносить прямо на упаковку вместе с обычными этикетками, что почти не увеличивает стоимость. Технология может найти применение в пищевой промышленности и в фармацевтике для отслеживания условий хранения продукции.
interestingengineering.com (https://interestingengineering.com/innovation/ai-detects-packaging-color-changes)
✔ Скандал: xAI подала в суд на бывшего инженера
xAI обвиняет (https://fingfx.thomsonreuters.com/gfx/legaldocs/gdvzbjjjzvw/XAI) Xuechen Li в краже технологий Grok и попытке передать их OpenAI.
Факты:
- Продал акции xAI на $7 млн и уволился.
- Скопировал секретные файлы Grok на личное хранилище.
- Удалял логи и признался письменно.
xAI требует: вернуть и удалить данные, запретить Li работать над ИИ в OpenAI и выплатить компенсацию.
@ai_machinelearning_big_data
#news #ai #ml
Business Insider
Meta is racing the clock to launch its newest Llama AI model this year
Meta plans to launch its latest AI model, called Llama 4.X, by year-end, two people familiar with the matter told Business Insider.