Luma Ray 3 в Adobe Firefly
Помимо Kontext, Gemini, Nano-Banana в фотошопе - Прикрутили Luma RAY 3 в Firefly
Причем с поддержкой HDR 10/12/16 бит, EXR, ACES - заявка на интеграцию в серьезные пайплайны
Доступно без ограничений до 1 октября на платных тарифах Firefly или Creative Cloud Pro
#news #image2video #text2video
Помимо Kontext, Gemini, Nano-Banana в фотошопе - Прикрутили Luma RAY 3 в Firefly
Причем с поддержкой HDR 10/12/16 бит, EXR, ACES - заявка на интеграцию в серьезные пайплайны
Доступно без ограничений до 1 октября на платных тарифах Firefly или Creative Cloud Pro
#news #image2video #text2video
👍9👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Chat научился произносить свои ответы вслух — при помощи Qwen3-TTS
Работает и на мобилках
#voicemode #assistant
Работает и на мобилках
#voicemode #assistant
👍11❤2
1. Авторизуемся на HF и присоединяемся к LoRA Frenzi organization
2. Идем сюда и жмем Sign in with Hugging Face ->
3. В открывшемся окне выбираем "Grant ostris-ai-toolkit the same access", "lorafrenzi" -> Authorize
4. Ну а дальше жмем Create a training job, соглашаемся с условиями и приступаем
Ограничения:
- не больше 5000 шагов
- больше 5-6 часов тренировки - таск убивают
- не больше 1 тренировки одновременно
- не тренировать NSFW!
- не тренировать внешность без согласия ее владельца
Доступно до 6 октября
#lora #finetuning #giveaway
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11🌚3❤1👍1
MinerU 2.5
Обновка модели для преобразования PDF документов в машинно-читаемые форматы
Всего 1.2B параметров, но превосходит Gemini 2.5 Pro, GPT-4o и Qwen2.5-VL-72B
— удаляет заголовки, футеры, сноски, номера страниц и другие элементы для обеспечения семантической связности
— выводит текст в порядке, удобном для чтения человеком, подходит для одностолбцовых, многостолбцовых и сложных макетов
— сохраняет структуру исходного документа, включая заголовки, абзацы, списки и прочее
— извлекает изображения, описания изображений, таблицы, заголовки таблиц и сноски
— автоматически идентифицирует и преобразует формулы в документах в формат LaTeX
— преобразует таблицы в HTML
— обнаруживает отсканированные и искажённые PDF-файлы и активирует функцию OCR
— распознает 84 языков с помощью #OCR
— работает с различными форматами вывода, включая мультимодальный и NLP Markdown, JSON, упорядоченный по порядку чтения, и информативные промежуточные формат
— CPU / GPU
— Windows, Linux и Mac
Требует 20 ГБ на диске, рекомендовано от 16 ГБ RAM, от 6 ГБ VRAM
Гитхаб
Колаб
Демо
Попробовать на Mineru.net
HF
#tools #pdf #assistant
Обновка модели для преобразования PDF документов в машинно-читаемые форматы
Всего 1.2B параметров, но превосходит Gemini 2.5 Pro, GPT-4o и Qwen2.5-VL-72B
— удаляет заголовки, футеры, сноски, номера страниц и другие элементы для обеспечения семантической связности
— выводит текст в порядке, удобном для чтения человеком, подходит для одностолбцовых, многостолбцовых и сложных макетов
— сохраняет структуру исходного документа, включая заголовки, абзацы, списки и прочее
— извлекает изображения, описания изображений, таблицы, заголовки таблиц и сноски
— автоматически идентифицирует и преобразует формулы в документах в формат LaTeX
— преобразует таблицы в HTML
— обнаруживает отсканированные и искажённые PDF-файлы и активирует функцию OCR
— распознает 84 языков с помощью #OCR
— работает с различными форматами вывода, включая мультимодальный и NLP Markdown, JSON, упорядоченный по порядку чтения, и информативные промежуточные формат
— CPU / GPU
— Windows, Linux и Mac
Требует 20 ГБ на диске, рекомендовано от 16 ГБ RAM, от 6 ГБ VRAM
Гитхаб
Колаб
Демо
Попробовать на Mineru.net
HF
#tools #pdf #assistant
🔥16❤1👍1
LaViDa-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation
Унифицированная мультимодfльная модель для генерации / понимания / редактирования картинок при участии Adobe
Использует новую архитектуру Elastic Mixture-of-Transformers (Elastic-MoT, эластичный совет трансформеров), которая сочетает лёгкую ветвь генерации и более крупную ветвь понимания. Видимо, по аналогии с советом экспертов.
Планирует и итеративно размышляет. Превосходит Qwen2.5-VL и FluxKontext-dev по скорости вывода и качеству
Разрешение генерации 1024 пикселя
Код ждем
#multimidal #vlm #imageediting #captioning #text2image #image2text
Унифицированная мультимодfльная модель для генерации / понимания / редактирования картинок при участии Adobe
Использует новую архитектуру Elastic Mixture-of-Transformers (Elastic-MoT, эластичный совет трансформеров), которая сочетает лёгкую ветвь генерации и более крупную ветвь понимания. Видимо, по аналогии с советом экспертов.
Планирует и итеративно размышляет. Превосходит Qwen2.5-VL и FluxKontext-dev по скорости вывода и качеству
Разрешение генерации 1024 пикселя
Код ждем
#multimidal #vlm #imageediting #captioning #text2image #image2text
👍5🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
ImagineArt 1.0
Агрегатор генерилок выпустил свою модель генерации картинок -
Попробовать дают но совсем немного
#text2image #imageediting #online
Агрегатор генерилок выпустил свою модель генерации картинок -
самую реалистичную модель на планете
Попробовать дают но совсем немного
#text2image #imageediting #online
👀4👍2👎2
WorldExplorer: Towards Generating Fully Navigable 3D Scenes
Очередная генерилка миров. Сначала создает картинку по тексту, затем создает еще ракурсы и превращает в сцену на гауссианах
На сайте есть интерактивный вьюер где можно походить по примерам сцен
Может не так нарядно как у некоторых, зато честно
Приблизительное время для RTX 3090:
Генерация каркаса: ~5 минут (быстрый режим)
Расширение сцены: 6-7 часов (полная генерация 3D-сцены)
Гитхаб
#text2world #world #text2scene #gaussian
Очередная генерилка миров. Сначала создает картинку по тексту, затем создает еще ракурсы и превращает в сцену на гауссианах
На сайте есть интерактивный вьюер где можно походить по примерам сцен
Может не так нарядно как у некоторых, зато честно
Приблизительное время для RTX 3090:
Генерация каркаса: ~5 минут (быстрый режим)
Расширение сцены: 6-7 часов (полная генерация 3D-сцены)
Гитхаб
#text2world #world #text2scene #gaussian
👍5
Тилли Норвуд — первая AI-актриса, созданная студией Xicoia. Она дебютировала на Zurich Summit. В июле Тилли сыграла свою первую роль в комедийном скетче «AI Commissioner». Занятно что в скетче нет ни единого пикселя снятого живьем, все на 100% сгенерировано. Но промоутят именно Тилли. Её продюсер Элайн Ван дер Велден заявила, что цель проекта — сделать из Тилли следующую Скарлетт Йоханссон или Натали Портман, только дешевле и сговорчивее
В своем посте в LinkedIn Ван дер Велден написала: “Зрители? Их волнует история, а не то, есть ли у звезды пульс. Тилли уже привлекает интерес со стороны агентств по подбору талантов и поклонников. Эпоха синтетических актеров не "наступает" — она уже наступила".
#news
В своем посте в LinkedIn Ван дер Велден написала: “Зрители? Их волнует история, а не то, есть ли у звезды пульс. Тилли уже привлекает интерес со стороны агентств по подбору талантов и поклонников. Эпоха синтетических актеров не "наступает" — она уже наступила".
#news
🥴13👎7😁6❤3👍2
Media is too big
VIEW IN TELEGRAM
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
Авторегрессионный диффузный потоковый генератор видео в реальном времени на одном GPU.
Пишут о 16 кадрах в секунду, на каком GPU - не совсем понятно. В бумаге упоминают OOM на 80GB, так что скорее всего речь о H100 каком-нибудь.
Способен создавать несколько минут видео с минимальным накоплением ошибок. На сайте есть сравнение с конкурентами
Код - ждем в октябре
#text2video #realtime
Авторегрессионный диффузный потоковый генератор видео в реальном времени на одном GPU.
Пишут о 16 кадрах в секунду, на каком GPU - не совсем понятно. В бумаге упоминают OOM на 80GB, так что скорее всего речь о H100 каком-нибудь.
Способен создавать несколько минут видео с минимальным накоплением ошибок. На сайте есть сравнение с конкурентами
Код - ждем в октябре
#text2video #realtime
👍4🔥3❤1
Wan2.2-Lightning
Четырехшаговая дистилляция #WAN22
Ограничения: При очень интенсивном движении будут артефакты
Сейчас только A14B
по тексту (Wan2.2-T2V-A14B-NFE4-V1.1)
и по картинке (Wan2.2-I2V-A14B-NFE4-V1)
5B готовят
воркфлоу по ссылке в описании модели
спасибо @m_franz
#text2video #image2video #optimization
Четырехшаговая дистилляция #WAN22
Ограничения: При очень интенсивном движении будут артефакты
Сейчас только A14B
по тексту (Wan2.2-T2V-A14B-NFE4-V1.1)
и по картинке (Wan2.2-I2V-A14B-NFE4-V1)
5B готовят
воркфлоу по ссылке в описании модели
спасибо @m_franz
#text2video #image2video #optimization
👍9🔥5❤1🌚1