BLIP3-o
Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров
Понимает картинки и умеет отвечать на вопросы как минимум
Демо
Код
Веса
#multimodal #image2text #instruct
Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров
Понимает картинки и умеет отвечать на вопросы как минимум
Демо
Код
Веса
#multimodal #image2text #instruct
🔥7❤1
This media is not supported in your browser
VIEW IN TELEGRAM
LightLab: Controlling Light Sources in Images with Diffusion Models
Гугл в соавторстве создали модель для управления видимыми источниками света на изображениях. Увы кода нет. На сайте проекта можно интерактивно потыкать картинки
#relighting
Гугл в соавторстве создали модель для управления видимыми источниками света на изображениях. Увы кода нет. На сайте проекта можно интерактивно потыкать картинки
#relighting
👍11❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Marigold: Generative Computer Vision
Опа, Marigold прокачался
Там теперь не только глубина а целая пачка пассов: нормали, альбедо, какой-то intrinsic. RollingDepth на нем сделан.
Есть в Diffusers, гайд
Код
Демо глубина
Демо нормали
Демо интринсик
#image2depth #image2normal #image2albedo
Опа, Marigold прокачался
Там теперь не только глубина а целая пачка пассов: нормали, альбедо, какой-то intrinsic. RollingDepth на нем сделан.
Есть в Diffusers, гайд
Код
Демо глубина
Демо нормали
Демо интринсик
#image2depth #image2normal #image2albedo
🔥11❤2👍1
Forwarded from Сиолошная
https://openai.com/index/introducing-codex/
— Codex — AI-агент-программист у вас в браузере
— может работать над несколькими задачами
— под капотом модель Codex-1 , основанная на o3
— можно подключать свой GitHub аккаунт, чтобы давать доступ агенту
— Plus юзеры пока не получат доступ, выкатят скоро.
— For developers building with codex-mini-latest (МИНИ), the model is available on the Responses API and priced at $1.50 per 1M input tokens and $6 per 1M output tokens, with a 75% prompt caching discount. Модель основана на o4-mini и заточена под работу в Codex CLI
— иногда (не ясно, как часто) модель при внесении исправлений добавляет тесты, которыми проверяет новую или исправленную функциональность, и итерируется до тех пор, пока тест не пройдет
— Codex — AI-агент-программист у вас в браузере
— может работать над несколькими задачами
— под капотом модель Codex-1 , основанная на o3
— можно подключать свой GitHub аккаунт, чтобы давать доступ агенту
— Plus юзеры пока не получат доступ, выкатят скоро.
— For developers building with codex-mini-latest (МИНИ), the model is available on the Responses API and priced at $1.50 per 1M input tokens and $6 per 1M output tokens, with a 75% prompt caching discount. Модель основана на o4-mini и заточена под работу в Codex CLI
— иногда (не ясно, как часто) модель при внесении исправлений добавляет тесты, которыми проверяет новую или исправленную функциональность, и итерируется до тех пор, пока тест не пройдет
YouTube
A research preview of Codex in ChatGPT
Greg Brockman, Jerry Tworek, Joshua Ma, Hanson Wang, Thibault Sottiaux, Katy Shi, and Andrey Mishchenko introduce and demo Codex in ChatGPT.
👍3❤1
Залил для вас вчерашний стрим Hunyian Image 2.0 на ютуб, включайте в Яндекс браузере дубляж и смотрите часовое видео если хотите все подробности
Если хотите коротко, то держите подкаст на чистом русском из NotebookLM. Вот оказывается для чего он нужен
Если хотите коротко, то держите подкаст на чистом русском из NotebookLM. Вот оказывается для чего он нужен
Telegram
Нейронавт | Нейросети в творчестве
Hunyuan Image 2.0
Tencent выкатил генератор картинок 2.0
Генерит мгновенно!
Высокая реалистичность.
Dual-Canvas Studio - редактор с холстом позволяет смешивать слои.
Как пользоваться - непонятно, все на китайском. Для начала надо войти по имейлу. Вот куда…
Tencent выкатил генератор картинок 2.0
Генерит мгновенно!
Высокая реалистичность.
Dual-Canvas Studio - редактор с холстом позволяет смешивать слои.
Как пользоваться - непонятно, все на китайском. Для начала надо войти по имейлу. Вот куда…
👍10
Ollama
Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Скачать Ollama
#multimodal #VLM #news
Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Скачать Ollama
#multimodal #VLM #news
👍7❤2🤯1
AI Runner 4.8
AI Runner теперь официально поддерживает OpenVoice.
Что нового:
• Поддержка OpenVoice для клонирования голоса и генерации речи на нескольких языках
• Возможность настройки стиля голоса, включая эмоции, акценты, ритм, паузы и интонацию
• Улучшенное качество аудио и нативная поддержка нескольких языков
#voicecloning #tools
AI Runner теперь официально поддерживает OpenVoice.
Что нового:
• Поддержка OpenVoice для клонирования голоса и генерации речи на нескольких языках
• Возможность настройки стиля голоса, включая эмоции, акценты, ритм, паузы и интонацию
• Улучшенное качество аудио и нативная поддержка нескольких языков
#voicecloning #tools
🔥5❤1
petermg InfiniteYou
Форк InfiniteYou с добавленными фуекциями
best_face:
Анализирует каждое загруженное изображение с использованием модели распознавания лиц и выбирает изображение с наибольшим показателем достоверности для обнаруженного лица. Этот режим идеален, когда вы хотите получить максимально четкое отдельное изображение, отражающее индивидуальность, отдавая приоритет качеству и четкости.
averaged_face:
Выравнивает все загруженные изображения на основе ориентиров лица (например, глаз и носа) по эталонному изображению, затем усредняет значения пикселей для создания усредненного лица
#imageediting #personalization
Форк InfiniteYou с добавленными фуекциями
best_face:
Анализирует каждое загруженное изображение с использованием модели распознавания лиц и выбирает изображение с наибольшим показателем достоверности для обнаруженного лица. Этот режим идеален, когда вы хотите получить максимально четкое отдельное изображение, отражающее индивидуальность, отдавая приоритет качеству и четкости.
averaged_face:
Выравнивает все загруженные изображения на основе ориентиров лица (например, глаз и носа) по эталонному изображению, затем усредняет значения пикселей для создания усредненного лица
#imageediting #personalization
❤4🔥2👍1
👍9🔥2❤1
WAN2.1 VACE14B GGUF
Квантизованная версия Wan2.1-VACE
воркфлоу
#text2video #video2video #personalization #videoediting #referencing #gguf
Квантизованная версия Wan2.1-VACE
воркфлоу
#text2video #video2video #personalization #videoediting #referencing #gguf
huggingface.co
QuantStack/Wan2.1_14B_VACE-GGUF at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍4❤1🥴1
DanceGRPO
Метод создания изображений и видео по тексту, видео по картинке от ByteDance
Совместим с Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V.
Код ждем
#text2image #text2video #image2video #tools
Метод создания изображений и видео по тексту, видео по картинке от ByteDance
Совместим с Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V.
Код ждем
#text2image #text2video #image2video #tools
👍7
ComfyUI-VideoUpscale_WithModel
ComfyUI ноды для увеличения разрешения видео с использованием недиффузных моделей, таких как ESRGAN.
Работает с моделями из базы https://openmodeldb.info/
#ComfyUI #upscalevideo
ComfyUI ноды для увеличения разрешения видео с использованием недиффузных моделей, таких как ESRGAN.
Работает с моделями из базы https://openmodeldb.info/
#ComfyUI #upscalevideo
👍9🔥2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
GenGaze
Создание изображений в ComfyUI с использованием направления взгляда пользователя.
Код ждем
#imageediting #tools
Создание изображений в ComfyUI с использованием направления взгляда пользователя.
Код ждем
#imageediting #tools
👀6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
KEEP
Официальный аккаунт Gradio пишет что реставратор - апскейлер лиц на видео KEEP это новая SOTA.
В репозитории две новые модели
Код
Демо
#restoration #enhance #facerestoration #upscale #SOTA
Официальный аккаунт Gradio пишет что реставратор - апскейлер лиц на видео KEEP это новая SOTA.
В репозитории две новые модели
Код
Демо
#restoration #enhance #facerestoration #upscale #SOTA
👍6❤2