Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.29K photos
181 videos
648 links
Download Telegram
✔️ Google представила Gemma 3n — лёгкую и быструю AI-модель для работы на девайсах

Google выпустила Gemma 3n — это новая версия модели, которая запускается локально на мобильных устройствах.

Gemma 3n может работа локально на устройстве с 2 ГБ оперативной памяти!

➡️ Особенности:

• Работает в 1.5 раза быстрее, чем предыдущая Gemma 3 4B
• Поддерживает работу без интернета — всё локально и безопасно
• Умеет понимать текст, речь и изображения
• Можно использовать даже на устройствах с 2–3 ГБ RAM
• Поддерживает мгожетсво языков,

💡 Gemma 3n использует гибкую архитектуру (MatFormer), которая может "переключаться" между лёгким и полным режимом (2B и 4B параметров) — модель подстраивается под задачу, не перегружая устройство.

🔧 Как начать пользоваться:

• Через Google AI Studio — работает прямо в браузере
• Или через SDK Google AI Edge — интеграция на Android, Chromebook и другие устройства

📊 Где это применимо:

• Голосовые ассистенты
• Приложения с ИИ, которые работают без интернета
• Переводчики, чат-боты, анализ изображений на телефоне

➡️Релиз: https://developers.googleblog.com/en/introducing-gemma-3n/
➡️ Документация: https://ai.google.dev/gemma/docs/gemma-3n#parameters

#Gemma #Google #mobile #МультимодальныйИИ #МобильныйИИ #edgedevices
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️PyRoki (Python Robot Kinematics Toolkit) от Berkeley

PyRoki — это open-source библиотека на Python для задач управления движением роботов. Она решает одну из главных задач в робототехнике — инверсную кинематику (IK), то есть определяет, как двигаться суставам робота, чтобы достичь нужной точки.

▶️ Что умеет PyRoki:
▪️ Инверсная кинематика
▪️ Оптимизация траектории
▪️ Перенос движений между разными роботами (motion retargeting)

🚀 Установка


git clone https://github.com/chungmin99/pyroki.git
cd pyroki
pip install -e .


Чем хороша:
Быстрее на 1.7× по сравнению с cuRobo
Работает на CPU, GPU и даже TPU
Написана полностью на Python — легко внедряется, не требует C++
Подходит для промышленных роботов, симуляторов, гуманоидов

Подходит для:
— инженеров робототехники
— разработчиков симуляций
— ML-исследователей в motion planning

▪️ Репозиторий: https://github.com/chungmin99/pyroki
▪️ Сайт: http://pyroki-toolkit.github.io
▪️ Статья: https://arxiv.org/abs/2505.03728

@ai_machinelearning_big_data


#ai #ml #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 OpenAI и ОАЭ предоставляют бесплатный доступ к ChatGPT Plus для всех жителей страны

Стоит поучиться у ОАЭ — они уже сделали популяризацию ИИ реальностью.

27 мая 2025 года было объявлено, что Объединённые Арабские Эмираты (ОАЭ) станут первой страной в мире, предоставившей всем своим жителям бесплатный доступ к ChatGPT Plus — расширенной версии популярного ИИ-инструмента от OpenAI. Этот шаг стал результатом стратегического партнёрства между OpenAI и правительством ОАЭ, направленного на продвижение искусственного интеллекта среди широких масс населения.

🔧 Проект "Stargate UAE"
Ключевым элементом сотрудничества является строительство крупного центра обработки данных под названием "Stargate UAE" в Абу-Даби. Планируется создание вычислительного кластера мощностью 1 гигаватт, первая фаза которого (около 200 мегаватт) должна быть введена в эксплуатацию в следующем году. Этот проект является частью глобальной стратегии OpenAI "OpenAI for Nations", целью которой является помощь странам в создании автономных ИИ-систем и инструментов.


🌍 Глобальное значение
В рамках соглашения ОАЭ обязались сопоставить свои внутренние расходы на ИИ с инвестициями в американские ИИ-проекты, что может привести к общим инвестициям в размере до 20 миллиардов долларов, совместно с США. Этот шаг подчеркивает стремление обеих сторон к долгосрочному сотрудничеству в области искусственного интеллекта.

OpenAI также планирует расширить свою инициативу "OpenAI for Nations" на другие страны, начиная с региона Азиатско-Тихоокеанского региона, с целью помочь большему количеству стран в создании собственных автономных ИИ-систем.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 HunyuanPortrait: код и веса.

Спустя чуть больше двух месяцев, Tencent опубликовала веса и код инференса проекта HunyuanPortrait - системы на основе диффузионных моделей для создания реалистичных анимированных портретов.

На вход подается видео, с которого движения переносятся на целевое изображение для "оживления". Режима "тext-to-motion", судя по всему - нет.

Под капотом - набор моделей на основе SVD, DiNOv2, Arc2Face и YoloFace.

Разработчики уверяют, что инференс заводится на 24 Гб VRAM и их метод лучше контролирует анимацию и делает более плавные переходы между кадрами, чем существующие аналоги.

⚠️ WebUI нет, адаптации под ComfyUI - пока тоже нет.


▶️Локальный инференс:

# Clone repo
git clone https://github.com/Tencent-Hunyuan/HunyuanPortrait

# Install requirements
pip3 install torch torchvision torchaudio
pip3 install -r requirements.txt

# Run
video_path="your_video.mp4"
image_path="your_image.png"

python inference.py \
--config config/hunyuan-portrait.yaml \
--video_path $video_path \
--image_path $image_path



🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanPortrait
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔬 fubea dot cloud —самый мощный агент для глубоких исследований.

💥 Бесплатно. Без ограничений. Анонимно. С открытым исходным кодом.

А ещё умеет:
- программировать
- делать презентации
- запускать веб-приложения
- и многое другое.

👉 Попробовать: https://fubea.cloud
🌟 V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.


Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;
🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;
🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💧 Знаешь ли ты, что каждый сеанс с ChatGPT "сжигает" пол-литра воды?

Каждое сообщение, которое ты отправляешь в ChatGPT, несёт скрытую цену — ресурсы, о которых никто не думает.

📨 Например, генерация одного e-mail из 100 слов тратит:
🔸 ~519 мл воды — больше, чем бутылка, вылитая на землю
🔸 0.3 ватт-часа электричества — в 10 раз больше, чем обычный Google-запрос
🔸 Энергии, эквивалентной 20 минутам работы LED-лампы

И это только одно сообщение...

🌍 Масштаб:

Если 10% трудоспособных американцев отправляют один e-mail через ChatGPT в неделю —
📊 это 435 млн литров воды в год.
🛑 Как вся вода, потребляемая Род-Айлендом за 1.5 дня.

Сегодня ChatGPT обрабатывает ~200 млн запросов в день.
Это ≈ 621 мегаватт-часов электроэнергии ежедневно.

Что можно сделать?

1. ✏️ Пиши чёткие и конкретные запросы
2. 🔄 Объединяй похожие вопросы в один
3. ⚙️ Используй упрощённые модели, если не нужен глубокий reasoning
4. 🧘 Не пиши LLM «спасибо» — он не обидится 😉

📉 Проблема не в тебе. Проблема — в масштабе.
🛠 Настоящее решение требует системных изменений:
технологические компании должны уделять устойчивости столько же внимания, сколько и возможностям.

ИИ меняет мир. Но климат меняется быстрее.

#AI #Sustainability #ClimateCrisis #ChatGPT #TechEthics
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 Opera Neon — браузер-агент нового поколения

Opera представила Neon — браузер со встроенным ИИ-агентом, который продолжает выполнять задачи даже тогда, когда пользователь спит.

🌐 Что умеет Opera Neon?

🔹 Понимает намерения пользователя
🔹 Помогает с задачами — от поиска до бронирования
🔹 Самостоятельно действует: анализирует, предлагает и выполняет
🔹 Работает как агент, а не просто интерфейс

Это инфраструктура для агентного интернета, где ИИ помогает тебе в реальном времени.

🚀 Доступ только по инвайтам. Сейчас Opera открывает доступ первым участникам сообщества, чтобы сформировать будущее вместе.

Подать заявку: https://www.operaneon.com/

@ai_machinelearning_big_data

#OperaNeon #AgenticWeb #AI #БраузерБудущего
⚙️ Полный гид по GPU-экосистеме — без воды и маркетинга

Если ты путаешься в CUDA, OpenCL, SYCL и HIP — этот гайд от ENCCS расставит всё по полочкам. Это не просто обзор, а чёткое объяснение, **как устроен мир GPU-программирования сегодня**.

🧠 Что ты узнаешь:

🔹 Как и почему GPU радикально отличается от CPU
🔹 Из чего состоит стек GPU-технологий:
 — CUDA и его аналоги (HIP, SYCL, OpenCL)
 — Директивы: OpenMP, OpenACC
🔹 Какие языки и стандарты поддерживают какую архитектуру
🔹 NVIDIA, AMD, Intel — кто что умеет и чем отличается
🔹 Модели памяти, исполнения, и что влияет на производительность

📌 Гайд подходит для:
• Разработчиков HPC и научных расчётов
• Инженеров ML/AI, желающих копнуть глубже
• Всех, кто хочет разобраться в низкоуровневом GPU-стеке без маркетингового тумана

📖 Читать:
[🔗
enccs.github.io/gpu-programming/2-gpu-ecosystem/](https://enccs.github.io/gpu-programming/2-gpu-ecosystem/)

🔥 Один из самых понятных и системных разборов GPU-мира на сегодня.

#GPU #CUDA #OpenCL #HIP #SYCL #HPC #AI #HighPerformanceComputing

@javatg
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Odyssey показали нечто, что выглядит как сон, записанный на VHS и оживлённый в реальном времени.

Это интерактивное AI-видео генерируется с задержкой всего 40 мс и позволяет «переключать каналы» между альтернативными мирами и пространствами.

🧠По сути это интрактивная модель мира, способная генерировать визуально согласованные сцены длительностью более 5 минут.

🎮 Управление:
— Перемещение с помощью клавиш WASD
— Навигация по латентному пространству мышью через "компас"
— Поддерживаются геймпады, смартфоны, а в будущем — и голосовое управление

И если приглядеться — становится ясно: голографическая реальность ближе, чем мы думали.

🚀 Хочешь погонять H100 на полную мощность и стримить видео до 30 fps?
Они уже открыли демо — заходи и смотри, взаимодействуй.

⚠️ Да, пока нестабильно — модель глючит, местами ломает сцены.
Но: 5+ минут связного видеопотока, в реальном времени, без движка и с нуля — это не просто впечатляет, это один из возможных путей к симуляторам реальности.

🧠 Мы смотрим не на эффектный трик, а на раннюю версию технологии, которая однажды станет основой «живых миров».

Попробовать: https://experience.odyssey.world

#AI #VHSdream #WorldSimulator #FutureOfVideo #Odyssey
Прокачай навыки общения с ИИ с мощной базой знаний от экспертов Anthropic — всё, что нужно для уверенного промпт-инжиниринга и уменьшения ошибок при работе с нейросетями.

🔍 Что внутри:
• Подробный разбор структуры промптов: от скелета до ключевых формулировок
• Частые ошибки при взаимодействии с ИИ — и как их избежать
• Реальные кейсы на основе Claude
• Примеры качественных запросов + десятки готовых промптов
• Всё это — абсолютно БЕСПЛАТНО

Начни понимать ИИ не просто лучше — мастерски:

Github

@ai_machinelearning_big_data
💵 Годовой доход Anthropic увеличился с 1 млрд долларов до 3 млрд долларов (Annual Recurring Revenue) всего за пять месяцев.

Это обусловлено высоким спросом со стороны бизнеса на ИИ, в сфере генерации кода.

🆚 OpenAI, главный конкурент Anthropic, по данным источников, ожидает $12+ млрд выручки к концу 2025 года, по сравнению с $3,7 млрд в прошлом году. Однако эта сумма включает весь доход, а не только годовую прогнозируемую выручку (ARR), как у Anthropic. Reuters не удалось определить ARR OpenAI.

Anthropic продолжают развивать линейку Claude и усиливает позицию как B2B-ориентированный аналог OpenAI.

▶️ Подробнее

#Anthropic #ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🚗 Autonomous Vehicle Control: Пошаговое руководство для новичков

Если ты хочешь разобраться, как управляются автономные автомобили — не теоретически, а прямо на практике — этот репозиторий для тебя.

📘 Проект AutonomousVehicleControlBeginnersGuide — это учебный гайд с кодом, который показывает, как с нуля реализовать основные алгоритмы управления автономной машиной. Всё — на Python и с визуализацией.

🔧 Что ты найдёшь в репозитории:
- 🧭 Продольное управление (Longitudinal control):
- Простейшие регуляторы: P, PI, PID
- Контроль скорости и ускорения
- 🎯 Поперечное управление (Lateral control):
- Pure Pursuit
- Stanley Controller
- MPC (Model Predictive Control)
- 📈 Пояснения, графики и отрисовка траекторий
- 👨‍💻 Легкий для запуска код — просто запускаешь .py и смотришь результат

💡 Отлично подходит для:
- Студентов и энтузиастов в области робототехники
- Начинающих инженеров по автономным системам
- Всех, кто хочет понять, как “рулят” беспилотники

📦 Язык: Python
🎯 Не требует ROS, симуляторов или LiDAR — всё делается локально.

🔗 GitHub:
https://github.com/ShisatoYano/AutonomousVehicleControlBeginnersGuide

🚀 Это твой старт в мир автономного вождения — простой, наглядный и понятный.
Media is too big
VIEW IN TELEGRAM
✔️ Intel и SoftBank объединяются для создания альтернативы памяти HBM.

Intel и японский холдинг SoftBank запустили проект Saimemory, чтобы разработать замену памяти HBM на основе стековой DRAM. Технология обещает сократить энергопотребление на 50% по сравнению с HBM. Прототип планируют завершить к 2027 году, а массовое производство — до конца десятилетия.

Сейчас HBM, используемая в ИИ-чипах, дефицитна из-за сложности производства и высокого спроса. Samsung, SK Hynix и Micron остаются монополистами, но Saimemory намерена потеснить их, особенно в Японии. В отличие от конкурентов, которые увеличивают объем чипов, новый проект делает ставку на энергоэффективность.
asia.nikkei.com

✔️ ИИ обходит людей в кибербезопасности.

Палисейд Рисерч провела 2 масштабных турнира по защите информации, где ИИ-агенты соревновались с людьми. В формате CTF (Capture The Flag) AI и команды экспертов решали задачи от криптографии до поиска уязвимостей. Результаты: 4 ИИ-команды из 7 справились с 19 из 20 задач в первом этапе, обойдя большинство человеческих участников.

Во втором этапе, где задания требовали взаимодействия с внешними системами, лучший ИИ (CAI) решил 20 задач и вошел в топ-10% всех участников. Для задач, на решение которых лучшим человеческим командам требовалось около 78 минут, агенты ИИ имели 50-процентный показатель успеха. Другими словами, ИИ был способен решать задачи, которые представляли собой реальную проблему даже для экспертов.
Palisade Research в сети Х (ex-Twitter)

✔️ Крупнейшие музыкальные лейблы договариваются с Udio и Suno.

Universal, Warner и Sony начали активную фазу переговоров с Udio и Suno о лицензировании их огромных музыкальных каталогов. Цель - дать этим нейросетям законный доступ к трекам, чтобы те могли обучаться и создавать контент, не нарушая авторских прав.

Стороны пытаются создать работающую схему, как именно музыканты будут получать деньги, когда их стиль или работы используют для генерации ИИ-музыки. Сейчас это больной вопрос для индустрии.

Эти же переговоры, по логике, должны наконец-то решить и текущие судебные споры. Лейблы уже подали иски на Udio и Suno за якобы незаконное использование их музыки без разрешения. Если договорятся, тяжбы, скорее всего, снимут.
bloomberg.com

✔️ Macrocosmos AI запускает децентрализованную сеть для обучения ИИ на основе технологии «роя».

Стартап представил Subnet 9 в рамках блокчейн-сети Bittensor платформу для децентрализованного обучения ИИ, основанную на концепции «Swarm-тренировки». Вместо централизованной обработки данных на серверных фермах крупных компаний, проект позволяет любому пользователю с GPU, даже бюджетным, участвовать в тренировке моделей. Технология IOTA разбивает модель на слои, которые распределяются между участниками сети. Каждый «майнер» обрабатывает свой участок, а результаты синхронизируются при помощи алгоритмов сжатия данных и устойчивости к сбоям.

Главные проблемы децентрализации: медленный интернет и непостоянные участники решаются за счет компрессии трафика до 128 раз и системы честных выплат, оценивающих вклад каждого.
forbes.com

✔️ Имплантат для мозга Paradromics успешно испытан на человеке.

В середине мая хирурги временно ввели устройство Connexus в мозг пациента с эпилепсией во время операции в Университете Мичигана. Имплантат, размером меньше монеты, оснащен 420 микропинами, которые записывают сигналы отдельных нейронов. Устройство преобразует мысленные импульсы в текст или синтезированную речь — как у Neuralink. В отличие от поверхностных имплантов Precision Neuroscience или «сосудистого» подхода Synchron, Paradromics фиксирует активность конкретных нейронов.

Тест длился 10 минут: специалисты подтвердили, что электроды уловили мозговые импульсы. Следующий этап — клинические исследования с постоянной установкой импланта и увеличение скорости «перевода» мыслей в речь с текущих 60–80 слов в минуту до 130, как у естественной речи. Компания надеется в будущем использовать до 4 устройств одновременно.
wired.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 PlayDiffusion: инпейнт для речи.

Те, кто работает с синтезом речи, знают, что авторегрессионные трансформерные модели, хоть и хороши для генерации речи из текста с нуля, но создают кучу проблем, когда нужно редактирование. Стандартные методы, в виде полной перегенерации предложения, обходятся дорого по ресурсам и часто приводят к изменению интонации или ритма.

Замена отдельного слова обычно оставляет неприятные «склейки» на границах, а перегенерация с середины фразы может испортить уже существующую часть. Все это бьет по естественности и связности звучания.

PlayAI выпустила PlayDiffusion 1.0 – диффузионную модель для редактирования речи, которая умеет изменять нужные участки аудио, сохраняя при этом общую гладкость и характеристики голоса. Причем модель пригодна как для реальной речи, так и для аудио, сгенерированного другими TTS-моделями.

В PlayDiffusion аудиопоток кодируется в дискретное пространство, превращаясь в более компактную последовательность токенов. Затем, тот сегмент, который требует модификации маскируется.

После этого задействуется сама диффузионная модель. Она, опираясь на обновленный текстовый контент, «восстанавливает» замаскированную область, убирая шум. На выходе последовательность токенов снова преобразуется в полноценный звук с помощью декодера BigVGAN.

Чтобы добиться таких результатов, PlayAI взяли за основу текстовую трансформерную архитектуру и внесли несколько ключевых модификаций:

🟢Во-первых, это некаузальное маскирование, позволяющее модели одновременно учитывать прошлые, настоящие и будущие токены, в отличие от стандартных GPT-подобных моделей.

🟢Во-вторых, используется кастомный BPE-токенизатор всего на 10 000 текстовых токенов, что резко сокращает размер таблицы эмбеддингов и ускоряет вычисления.

🟢В-третьих, модель учитывает характеристики диктора с помощью предобученной эмбеддинг-модели, которая преобразует аудиозаписи переменной длины в векторы фиксированного размера.

Интересно, что если замаскировать вообще всю аудиодорожку, PlayDiffusion может работать как TTS. В отличие от авторегрессионных моделей, которые генерируют каждый токен последовательно, опираясь на предыдущие, диффузионные модели генерят все токены одновременно, а затем уточняют их за фиксированное число шагов.

Например, для генерации 20 секунд аудио кодеком на 50 Гц авторегрессионной модели потребуется 1000 шагов. PlayDiffusion же способен выдать все 1000 токенов сразу и уточнить их всего за 20 итераций – это до 50 раз эффективнее по количеству шагов генерации.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TTS #Inpainting #PlayDiffusion #PlayAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM