NEW BOT Телеграм, страница

Нейронавт | Нейросети в творчестве

AVoCaDO: An AudioVisual Video Captioner Driven by Temporal Orchestration

Кэпшонер на базе Qwen2.5-Omni-7B, создает описание видео, учитывая как визуальную, так и аудиосоставляющую, синхронизируя их во времени

Код
HF

#captioning #VLM #video2text

👍11❤1

2.04K viewsedited 08:11

Нейронавт | Нейросети в творчестве

EPG: Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

Новая #SOTA генератор картинок в пиксельном пространстве

первая успешная попытка обучить консистентную модель непосредственно на изображениях высокого разрешения без использования предварительно обученных VAE или диффузионных моделей.

Код ждем

#research #text2image

👍7🔥2

2.01K views09:12

Нейронавт | Нейросети в творчестве

Говорят, VEO 3.1 сегодня выйдет

#news

👍6😱3

2.03K views10:13

Нейронавт | Нейросети в творчестве

MAI-Image-1

Новый картинкогенератор от Microsoft

Сейчас на 9 месте на LMArena

Очевидно, умеет изображать текст.
Делают ставку на фотореализм и скорость:

MAI-Image-1 отлично подходит для создания фотореалистичных изображений, таких как освещение (например, отраженный свет, блики), пейзажи и многое другое. Это особенно важно по сравнению со многими более крупными и медленными моделями. Благодаря сочетанию скорости и качества пользователи могут быстрее отображать свои идеи на экране, быстро просматривать их, а затем переносить свою работу в другие инструменты для дальнейшей доработки.

Непонятно выдадут ли код или сервис, а пока пробуем на арене. Можно выбрать Direct Chat -> mai-image-1

#text2image

👍5

1.9K views11:14

Нейронавт | Нейросети в творчестве

MAI-Image-1 Новый картинкогенератор от Microsoft Сейчас на 9 месте на LMArena Очевидно, умеет изображать текст. Делают ставку на фотореализм и скорость: MAI-Image-1 отлично подходит для создания фотореалистичных изображений, таких как освещение (например…

Промпта слушается. А вот с качеством беда. Анатомию ломает. В художественные стили толком не умеет. Архитектура кривая. Да и в тексте ошибается. Ну может он будет легкий и быстрый хотя бы?

👍9🤷‍♂1

1.75K views11:27

Нейронавт | Нейросети в творчестве

а вот так с их промптом получилось.
Видимо когда текст идет основным объектом тогда он лучше справляется

NEURONAUT written in the sand at sunset over the beach

👍13

1.82K views11:43

Нейронавт | Нейросети в творчестве

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Veo 3.1 появился на wavespeed.ai и flowith.io

Увы, платно даже если есть триалка и какието кредиты

#news #text2video #image2video

👍2😐2

1.71K views12:06

Нейронавт | Нейросети в творчестве

Qwen3-VL 4B / 8B

Qwen выпустил самые маленькие версию своей VLM на 4B и 8B параметров.
Есть Instruct и Thinking, а также их FP8

#VLM #OCR #assistant #reasoning #video2text #image2text #chat

huggingface.co

Qwen3-VL - a Qwen Collection

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍10

1.7K views12:46

About

Blog

Apps

Platform