Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.
Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.
Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.
Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.
@ai_machinelearning_big_data
#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍52🔥20❤13
Крупнейшая модель TxGemma (версия 27B predict) демонстрирует впечатляющие результаты.
Она не только превосходит или примерно равна предыдущей SOTA(Tx-LLM) почти по всем задачам, но и соперничает или обходит многие модели, специально разработанные для узких медицинских областей.
#google #Gemma #drugdiscovery
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥15❤6🌭4🥰3
А вот и Gemini 2.5 Pro Experimental — самая интеллектуальная модель Google
Без оптимизаций Gemini 2.5 Pro Experimental лидирует в таких математических и научных бнчмарках GPQA и AIME 2025.
Модель опередила на бенчмарках Sonnet 3.5.
🌌 Мультимодальный контекст до 1 миллиона токенов — анализ текста, изображений, видео, аудио и PDF.
🛠️ Поддерживае: вызовы функций, структурированный вывод, поиск Google, запуск кода.
Кроме того, модель набрала 18,8 % баллов на последнем экзамене человечества.
2.5 Pro уже появился у пользователей Advanced в GeminiApp.
Просто выберите его в выпадающем списке моделей на десктопных и мобильных приложениях. Скоро она также будет доступна на GoogleCloud.
💡 Содержит актуальные знания до января 2025 года.
🚀 Лимиты: 2 RPM, 50 запросов в день (бесплатно).
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
Модель доступна в GoogleAI Studio → http://ai.dev
@ai_machinelearning_big_data
#google #Gemini
Без оптимизаций Gemini 2.5 Pro Experimental лидирует в таких математических и научных бнчмарках GPQA и AIME 2025.
Модель опередила на бенчмарках Sonnet 3.5.
🌌 Мультимодальный контекст до 1 миллиона токенов — анализ текста, изображений, видео, аудио и PDF.
🛠️ Поддерживае: вызовы функций, структурированный вывод, поиск Google, запуск кода.
Кроме того, модель набрала 18,8 % баллов на последнем экзамене человечества.
2.5 Pro уже появился у пользователей Advanced в GeminiApp.
Просто выберите его в выпадающем списке моделей на десктопных и мобильных приложениях. Скоро она также будет доступна на GoogleCloud.
💡 Содержит актуальные знания до января 2025 года.
🚀 Лимиты: 2 RPM, 50 запросов в день (бесплатно).
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
Модель доступна в GoogleAI Studio → http://ai.dev
@ai_machinelearning_big_data
#google #Gemini
1🔥43👍19❤17❤🔥3
Gemini 2.5 Pro теперь №1 в таблице лидеров Арены - это самый большой скачок в истории (+40 пт против Grok-3/GPT-4.5)! 🏆
Gemini 2.5 Pro #1 почти во ВСЕХ категориях, модель показывает результаты на уровне с Grok-3/GPT-4.5 в категориях «Hard Prompts» и «Coding», опредив всех остальных, заняв лидирующие позиции 🏇🏆
@ai_machinelearning_big_data
#google #Gemini #areana
Gemini 2.5 Pro #1 почти во ВСЕХ категориях, модель показывает результаты на уровне с Grok-3/GPT-4.5 в категориях «Hard Prompts» и «Coding», опредив всех остальных, заняв лидирующие позиции 🏇🏆
@ai_machinelearning_big_data
#google #Gemini #areana
🔥65👍23❤19😎3
На стриме показали редактор изображений для ChatGPT.
Основные особенности:
📌 https://openai.com/index/introducing-4o-image-generation/
@ai_machinelearning_big_data
#openai #imagegenerator #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42👍27🔥14❤🔥5🥰1
ByteDance представила InfiniteYou — ИИ-систему, которая генерирует фотореалистичные портреты, сохраняя сходство с оригиналом и точно следуя текстовым запросам. В отличие от PuLID-FLUX, в InfiniteYou черты лица обрабатываются отдельным слоем, что повышает качество без риска переобучения.
Технология использует двухэтапное обучение: сначала на реальных фото, затем — на синтетических изображениях. По данным тестов, 72,8% участников выбрали результаты InfiniteYou из-за детализации и отсутствия артефактов вроде «копирования» лиц. Система совместима с ControlNet и LoRA, а для генерации нужно всего 4 шага.
Исходный код и веса модели уже доступны на GitHub и Hugging Face, демо-версия доступна тут.
analyticsindiamag.com
Компания NVIDIA анонсировала экспериментальный релиз Project G-Assist — ИИ-агента, использующего компактную языковую модель, которая обрабатывает голосовые или текстовые запросы, оптимизируя настройки игр, мониторинг производительности и даже управление подсветкой периферии от Logitech или Corsair. Всё работает оффлайн, без подписок и облачных серверов.
Для разработчиков открыт доступ к GitHub-репозиторию: там есть шаблоны для создания плагинов, интеграции со Spotify, Twitch или Google Gemini. Технические требования — RTX 30/40/50 серии, 12 ГБ видеопамяти и свежие драйверы.
nvidia.com
Figure разработала революционный метод обучения человекоподобных роботов — кастомная end-to-end нейросеть на основе RL за несколько часов «прокачала» движения Figure 02 до уровня естественной человеческой походки.
Все благодаря симулятору, где тысячи виртуальных роботов учились ходить по разным поверхностям, падать и реагировать на толчки. Ключевая фишка — перенос навыков из симуляции в реальность без доработок: помогли рандомизация параметров и мгновенная коррекция крутящего момента. Обещают, что уже скоро робот Helix на этой же базе сможет готовить и убираться.
figure.ai
Apple обновила раздел сайта, подтвердив использование снимков из Look Around (аналог Street View) для тренировки ИИ-моделей с марта 2025 года. Данные, собранные камерами на автомобилях и с переносных инсталляций (для пешеходных зон), включая 3D-карты, помогут улучшить распознавание изображений, генерацию контента и поиск в приложении «Фото».
Для защиты приватности Apple блюрит лица и номера машин на фото, а также готова скрыть частные строения по запросу. Обучение моделей будет проводиться только с обработанными изображениями. Подробности о конкретных алгоритмах компания пока не раскрывает, возможно о них станет известно на WWDC 2025, который пройдет с 9 по 13 июня.
9to5mac.com
Tesla присоединится к симпозиуму по робототехнике в Капитолии, чтобы продемонстрировать своего человекоподобного робота Optimus конгрессменам и сотрудникам Белого дома. Мероприятие, организованное A3 Automate и Университетом Карнеги-Меллон. пройдёт в 26 марта в здании Cannon House Office.
В приглашении Tesla подчеркивает, что робот позволит «заглянуть в будущее», и приглашает всех желающих оценить разработку.
axios.com
Бот
@ai_machinelearning_big_data
#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥13❤12🤬3🙈2🤷2
This media is not supported in your browser
VIEW IN TELEGRAM
Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение!
Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU!
✨ Как это работает?
Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова
cuml.patch.apply() вы "патчите" установленный у вас scikit-learn прямо в памяти.Теперь, когда вы вызываете, например,
KNeighborsClassifier или PCA из sklearn:Ключевые преимущества:
2 строчки:import cuml.patch и cuml.patch.apply().Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA.
👇 Как использовать:
Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS):
python
conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend
Добавьте в начало скрипта:
import cuml.patch
cuml.patch.apply()
Используйте scikit-learn как обычно!
Попробуйте и почувствуйте разницу! 😉
▪Блог-пост
▪Colab
▪Github
▪Ускоряем Pandas
@ai_machinelearning_big_data
#python #datascience #machinelearning #scikitlearn #rapids #cuml #gpu #nvidia #ускорение #машинноеобучение #анализданных
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍80🔥45❤10💘3😁1
Forwarded from КПД
Scale-wise Distillation of Diffusion Models
[Статья] [Демка] [Код soon]
Введение
Диффузионные модели на протяжении последних несколько лет удерживают пальму первенства среди семейств генеративных моделей во многих приложениях. Однако их фундаментальным ограничением является многошаговое сэмплирование, из-за чего генерация занимает много времени.
Научное сообщество предложило вагон и маленькую тележку различных процедур дистилляции многошаговых моделей в малошаговые. Но при приближении количества шагов к 1-му качество неизбежно просаживается даже для самых продвинутых подходов.
Отсюда мысль 🤔 - а что если ускорить генерацию за счет удешевления шагов сэмплирования?
Мы с коллегами из Yandex Research предложили метод дистилляции в несколько-шаговую генерацию, где разрешение изображения увеличивается постепенно, на каждом шаге генерации (SwD). За счет этого удается достичь более чем 2х кратного ускорения по сравнению с эквивалентной дистилляцией в фиксированном разрешении.
[Статья] [Демка] [Код soon]
Введение
Диффузионные модели на протяжении последних несколько лет удерживают пальму первенства среди семейств генеративных моделей во многих приложениях. Однако их фундаментальным ограничением является многошаговое сэмплирование, из-за чего генерация занимает много времени.
Научное сообщество предложило вагон и маленькую тележку различных процедур дистилляции многошаговых моделей в малошаговые. Но при приближении количества шагов к 1-му качество неизбежно просаживается даже для самых продвинутых подходов.
Отсюда мысль 🤔 - а что если ускорить генерацию за счет удешевления шагов сэмплирования?
Мы с коллегами из Yandex Research предложили метод дистилляции в несколько-шаговую генерацию, где разрешение изображения увеличивается постепенно, на каждом шаге генерации (SwD). За счет этого удается достичь более чем 2х кратного ускорения по сравнению с эквивалентной дистилляцией в фиксированном разрешении.
👍34❤33🔥8
OpenAI запустила "Академию OpenAI", которая претендует на роль главного учебника по работе с ИИ.
Платформа поможет освоить нейросети на практике, понять их возможности и научиться эффективно использовать ChatGPT и Sora в повседневной жизни и работе.
▪ Обширная база обучающих материалов доступна на отдельном сайте.
▪Live-трансляции и офлайн-мероприятия помогут глубже разобраться в технологиях.
▪ Бесплатный доступ — OpenAI стремится расширить аудиторию, а не ограничивать её ценником.
Программа рассчитана на широкий круг слушателей — от технических специалистов до политиков, представителей бизнеса и академического сообщества.
@ai_machinelearning_big_data
📌Начать обучение
📌 Блог
#ai #freecourses #openai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64❤16🔥13😁7🗿6🤣5
Команда StepFun AI выпустила Step-Video-TI2V модель для генерации видео (до 102 кадров), производительностью SOTA.
Принимает на вход текстовые описания и изображенияъ 🖼️ + ✍️ = 🎬
На бенчмарке VBench-I2V, моделька показывает лучшие результаты по сравнению с другими современными открытыми моделями для генерации видео из изображения и текста, а также лидирует в публичном рейтинге.
Ключевые особенности:
▪ Контроль движения: Модель предлагает достойный баланс между стабильностью движения и гибкостью, позволяя управлять динамикой в кадре.
▪ Разнообразные движения камеры: Поддерживается имитация различных движений виртуальной камеры для создания более кинематографичных эффектов.
▪ Мастер аниме-стиля: Step-Video-TI2V особенно преуспевает в генерации видео в стиле аниме, открывая новые возможности для фанатов и создателей контента! ✨
▪ Поддержка разных разрешений: Модель может генерировать видео в нескольких вариантах размеров.
@ai_machinelearning_big_data
#AI #VideoGeneration #TextToVideo #ImageToVideo #GenerativeAI #MachineLearning #StepFunAI #ИИ #ГенерацияВидео #Нейросети #Аниме #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41❤12🔥5🤔2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Робот обойдется вам примерно в 300 долларов
Проект вдохновлён подобными опенсорсными роботами, такими как lerobot, , so-100 и lekiwi.
Основная цель — демократизация технологий, обеспечивая доступ к робототехнике для более широкой аудитории.
А здесь вы найдете список комплектующий, со ссылками на Ali. Здесь описано ПО для робота.
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥25😁8🤨7❤5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 В chat.qwenlm.ai chat теперь доступны голосовой режим + режим видеочата
Более того китайцы выложили код своей Qwen2.5-Omni-7B - единой omni-модели, которая может понимать текст, аудио, изображение и видео.
Они разработали архитектуру "thinker-talker", которая обеспечивает одновременное размышление модели и ее разговор .
Вскоре обещают выпустить в опенсорс модели на еще большее количество параметров.
Просто топ, бегом тестить.
🟢 Попробовать: https://chat.qwenlm.ai
🟢 Paper: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
🟢 Blog: https://qwenlm.github.io/blog/qwen2.5-omni
🟢 GitHub: https://github.com/QwenLM/Qwen2.5-Omni
🟢 Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-7B
🟢 ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
@ai_machinelearning_big_data
#qwen #release #Omni
Более того китайцы выложили код своей Qwen2.5-Omni-7B - единой omni-модели, которая может понимать текст, аудио, изображение и видео.
Они разработали архитектуру "thinker-talker", которая обеспечивает одновременное размышление модели и ее разговор .
Вскоре обещают выпустить в опенсорс модели на еще большее количество параметров.
Просто топ, бегом тестить.
@ai_machinelearning_big_data
#qwen #release #Omni
Please open Telegram to view this post
VIEW IN TELEGRAM
❤49👍29🔥25
This media is not supported in your browser
VIEW IN TELEGRAM
Основатель студии Ghibli Хаяо Миядзаки назвал «ужасным оскорблением жизни», демку 2016 года, когда группа из трех разработчиков искусственного интеллекта показала ему раннюю версию ИИ -инструмента (RL Gym от OpenAI) для создания: «машины, рисующего аниме так же, «как это делают люди».
Где бы сейчас ни были эти разработки , ваше время пришло 😂
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63😭44😁19❤15🔥6🤓3👀3🤣2