Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.3K photos
181 videos
654 links
Download Telegram
Google все таки стояли за Nano Banana и намается она теперь Gemini Native Image.

Эта модель для редактирования изображений- мощный коктейль из Photoshop, Figma и MidJourney!

Gemini Native Image — качество редактирования Которое не имеет аналогов.

Что он умеет? Попробуйте, она стоит вашего времени:

• Заменяет объекты на фото, сохраняя остальное — без артефактов и искажений.
• Реставрирует старые снимки — родственники будут в шоке!
• Раскрашивает фото как профи-колорист.
• Удаляет фон идеально чисто.
• Меняет освещение на снимке.
• Всё — через один интуитивный промпт: просто опишите, что хотите!

Посмотрите примеры — модель просто огонь! 🔥

Доступна беcплатно в aistudio: http://aistudio.google.com/prompts/new_chat
🌟 MiniCPM-V 4.5: компактная модель, которая бьет гигантов в мультимодальном ИИ.

Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.

OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.

Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.


🟡Киллер-фича модели - эффективная работа с видео.

Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.

Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.

Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.

Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.

При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.

🟡С инференсом тоже нет проблем.

Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.

▶️ Чтобы было проще разобраться во всех вариантах запуска, разработчики заботливо подготовили подробный cookbook.


📌Лицензирование: MiniCPM Model License.


🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #MiniCPM #OpenBMB
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 Andreessen Horowitz выпустили пятый рейтинг TOP 100 ИИ-приложений.

Главный вывод из пятого ежегодного списка Top 100 AI Apps — экосистема ИИ начинает приходить в равновесие.

В веб-рейтинге появилось всего 11 новых имен, что заметно меньше, чем было мартовском отчете. В мобильном сегменте, напротив, новичков больше — целых 14, но это связано с тем, что App Store активно вычищают "клонов ChatGPT", освобождая место для оригинальных приложений.

🟡Главным событием стало укрепление позиций Google.

Их флагманский ассистент Gemini занял 2 место после ChatGPT и в вебе, и на мобильных устройствах. Правда, разрыв пока существенный: в вебе Gemini набирает примерно 12% от трафика ChatGPT. А вот на мобильных платформах ситуация иная - у Gemini уже почти половина ежемесячно активных пользователей ChatGPT.

Интересная деталь: почти 90% мобильной аудитории Gemini сидит на Android, тогда как у ChatGPT доля Android-пользователей составляет 60%.


Помимо Gemini, в топ-10 ворвался Google AI Studio. Следом идeт NotebookLM на 13-м месте, а экспериментальная площадка Google Labs заняла 39-ю строчку, получив в мае 2025 года прирост трафика более чем на 13% после запуска видеомодели Veo 3.

🟡В общей битве ChatGPT все еще лидирует.

Grok занял четвeртое место в вебе и 23-е на мобильных. Его мобильный рост особенно впечатляет: с нуля в конце 2024 года до более чем 20 миллионов MAU сейчас. В июле 2025 года, после релиза модели Grok 4, использование приложения подскочило почти на 40%.

У Марка Цукербкрга успехи скромнее: 46-е место в вебе и полное отсутствие в мобильном топе.

Perplexity продолжает уверенно расти, а вот Claude и DeepSeek показывают смешанные результаты. DeepSeek особенно сильно просел в вебе, потеряв более 40% трафика со своего пика в феврале 2025 года.

🟡Отдельного внимания заслуживает Китай.

Сразу 3 компании, ориентированные на внутренний рынок, вошли в топ-20 веб-рейтинга: Quark от Alibaba (№9), Doubao от Bytedance (№12) и Kimi от Moonshot AI (№17). Более 75% их трафика приходится на Китай, где доступ к ChatGPT или Claude ограничен.

Ещё более поразительна картина на мобильных устройствах. По оценкам, 22 из 50 приложений в топе были разработаны в Китае, но используются преимущественно за его пределами. Особенно сильна их концентрация в категории "фото и видео": одна только компания Meitu представлена 5-ю продуктами, включая BeautyPlus и Wink. Bytedance также не отстаёт с ассистентами Doubao и Cici.

🟡Ветераны рейтинга — 14 компаний, которые попадали в каждый из 5 списков Top 100 AI Apps.

Это ChatGPT, Civitai, Poe, Perplexity, LeonardoAI, VEED, Gamma, QuiliBot, CutOut, Character AI, Midjourney, Photoroom, Eleven Labs и HuggingFace.

Из этой "звёздной" команды только 5 компаний разрабатывают собственные модели, 7 используют сторонние API или опенсорс-решения, а 2 являются агрегаторами моделей.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Grok Code Fast 1 — новая модель от xAI, быстрый и недорогой кодер-агент.

Новая модель для повседневных задач программирования с упором на agentic-coding (циклы рассуждений + вызовы инструментов: grep, терминал, редактирование файлов). Обучена на огромном кодовом корпусе и дообучена на реальных PR/задачах.

🙌 Модель уже доступна бесплатно на популярных платформах:
GitHub Copilot, Cursor, Cline, Kilo Code, Roo Code, opencode и Windsurf.

Контекст 256k токенов, лимиты: до 2M токенов в минуту и 480 запросов в минуту.

Особенности:
- Новая лёгкая архитектура, разработанная с нуля
- Заточена на скорость и эффективность
- Показвает хорошие результаты в TypeScript, Python, Java, Rust, C++, Go

💰 Стоимость через xAI API:
- $0.20 / 1M входных токенов
- $1.50 / 1M выходных токенов
- $0.02 / 1M кешированных токенов

Команда Grok обещает выпускать регулярные обновления и уже тренирует вариант с мультимодальным вводом, параллельными tool-calls и расширенным контекстом.

🟠 Подробности: https://x.ai/news/grok-code-fast-1
🟠 Гайд по промпт-инжинирингу: https://docs.x.ai/docs/guides/grok-code-prompt-engineering

@ai_machinelearning_big_data


#xAI #Grok #AI #coding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Главное новости ИИ

Следующая модель семейства LLama выйдет к концу этого года.

Разработкой занимается новое подразделение компании Марка Цукерберга Superintelligence Labs. Модель, которую некоторые внутри компании называют Llama 4.5, должна исправить недостатки предыдущих версий: слабую производительность в кодинге и логических рассуждениях. Параллельно команда работает над исправлением ошибок в уже выпущенных версиях Llama 4 и фоном допиливает флагманскую модель "Behemoth".
businessinsider.com (https://www.businessinsider.com/meta-superintelligence-lab-llama-4-new-model-launch-year-end-2025-8)

Apple опубликовала семейство моделей FastVLM.

FastVLM - линейка ультрабыстрых VL-моделей с гибридным энкодером FastViTHD, который значительно сокращает количество визуальных токенов и ускоряет их обработку. В сравнении с LLaVA-1.5, FastVLM показала в 3.2 раза более быстрый TTFT при сопоставимой производительности, а с LLaVa-OneVision модель достигает аналогичных результатов на бенчмарках, используя в 3.4 раза меньший энкодер.

В семейство входят три модели размером 500 миллионов, 1.5 миллиарда и 7 миллиардов параметров. Все они уже доступны (https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e) на Hugging Face для некоммерческого использования.
huggingface.co (https://huggingface.co/papers/2412.13303)

PixVerse запустила новую модель V5 для генерации видео.

Обновление принесло значительные улучшения в качестве движений, визуальной детализации, согласованности и точности исполнения текстовых запросов. Новая функция Agent позволяет создать 5–30-секундный ролик, просто загрузив одно фото.

Генерация видео в разрешении 360p занимает 5 секунд, а 1080p - около минуты. До 1 сентября 2025 года доступ к V5 предоставляется бесплатно. Модель работает через веб-интерфейс, мобильные приложения и API.
Pixverse в сети X (https://x.com/PixVerse_/status/1960730919993799024)

Google встроила Gemini CLI в редактор кода Zed.

Интеграция позволяет разработчикам генерировать и рефакторить код, а также общаться с ИИ, не покидая редактор. Изменения применяются в реальном времени и могут быть проверены в интерфейсе, похожем на pull-request.

Gemini работает через открытый протокол Agent Client Protocol, созданный Zed для связи ИИ-агентов со средами разработки. Zed основан на Rust и позиционируется как открытая альтернатива Microsoft VS Code.
developers.googleblog.com (https://developers.googleblog.com/en/gemini-cli-is-now-integrated-into-zed/)

В Финляндии разработали умную упаковку с ИИ-распознаванием.

Исследователи из Университета Ваасы предложили дешевую и экологичную альтернативу электронным датчикам для контроля состояния продуктов. Технология основана на использовании функциональных чернил, которые меняют цвет при изменении температуры или влажности, а сверточные нейронные сети с высокой точностью распознают даже малейшие изменения, которые не улавливают традиционные методы машинного зрения. Это решает проблему своевременного обнаружения порчи или повреждений.

Такие индикаторы можно наносить прямо на упаковку вместе с обычными этикетками, что почти не увеличивает стоимость. Технология может найти применение в пищевой промышленности и в фармацевтике для отслеживания условий хранения продукции.
interestingengineering.com (https://interestingengineering.com/innovation/ai-detects-packaging-color-changes)

Скандал: xAI подала в суд на бывшего инженера

xAI обвиняет (https://fingfx.thomsonreuters.com/gfx/legaldocs/gdvzbjjjzvw/XAI) Xuechen Li в краже технологий Grok и попытке передать их OpenAI.
Факты:
- Продал акции xAI на $7 млн и уволился.
- Скопировал секретные файлы Grok на личное хранилище.
- Удалял логи и признался письменно.
xAI требует: вернуть и удалить данные, запретить Li работать над ИИ в OpenAI и выплатить компенсацию.


@ai_machinelearning_big_data

#news #ai #ml
🌟 Google Labs запустила инструмент для структурированной оценки языковых моделей.

Stax - экспериментальный инструмент для разработчиков, который предлагает замену неформальному «вайб-тестингу» больших языковых моделей на структурированный, основанный на данных подход.

Stax оценивает модели на кастомных или готовых автоматизированных оценщиках, фокусируясь на метриках: беглость ответа, безопасность, задержка и процент успешного прохождения ручной проверки.

Есть дашборд для сравнения результатов разных моделей с визуальными индикаторами производительности.

Ключевые возможности: быстрые и повторяемые оценки, настройка метрик под конкретные продукты и сквозной рабочий процесс для экспериментов от прототипа до продакшена.

Инструмент должен помочь разработчикам принимать обоснованные решения при выборе и развертывании моделей.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Tencent дропнули Hunyuan-MT — мощные open-source модели для перевода

Что внутри:
- Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B
- Поддержка 33 языков
- Chimera-7B — это первая d индустрии откртытая ансамблевая модель

🏆 Результаты:
- 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу)
- Hunyuan-MT-7B лидирует среди моделей своего размера

🟠Модели: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597
🟠 Репозиторий: https://github.com/Tencent-Hunyuan/Hunyuan-MT
Demo: https://hunyuan.tencent.com/modelSquare/home/list

@ai_machinelearning_big_data


#AI #NLP #Translation #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
🆕 Исследование: LLM могут находить правильный ответ ещё до конца генерации.

На GSM8K — до 97% задач, на MMLU — до 99% ответов верны уже на середине шагов.

Метод Prophet позволяет остановить генерацию раньше и ускорить модель в 3.4 раза без потери качества.

💡 Как работает Prophet:
1. На каждом шаге смотрит на разрыв уверенности между топ-1 и топ-2 токенами
2. Если разрыв большой → модель уже «уверена»
3. Декодирование останавливается досрочно, оставшиеся токены фиксируются сразу

🔗 Подробности: arxiv.org/pdf/2508.19982
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM