Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.46K photos
3.73K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
SimpleTuner v1.2.2

Обновился инструмент для дообучения диффузных генераторов.

Добавлена поддержка Sana и исправлены баги с обучением SD3.5 (Large + Medium)

реддит

#finetuning
🔥8
Stable Diffusion 3.5 Medium Turbo (SD3.5M Turbo)

Высокопроизводительная дистиллированная версия картинкогенератора #SD35 Medium от Tensorart

Поддерживает лоры

#optimization #text2image
👍9
Звезда фильмов для взрослых Хлоя Амур продала свой облик ИИ-компании чтобы получать отчисления с вебкам-бота не работая

#news #adult
😁14👍7👀4🔥2🤮1
OminiControl Training

Опубликован код обучения универсального управляемого генератора изображений OminiControl

Можете обучить свой собственный OminiControl на базе #flux с любым управлением - примерка, 3D, поза или что-либо еще что придумаете.

Только запаситесь двумя NVIDIA H100, 80GB VRAM. Непонятно почему двумя, ведь столько памяти у одной H100, но по ссылке написано именно так

#finetuning #training #conditioning #text2image
👍5
DeepSeek V3

Крупнейшая модель в опенсорсе, конкурирует с Sonnet 3.5 и GPT-4o. Превосходит Llama 405B. Особенно хорош в кодинге и математике.

Архитектурно - совет экспертов, рассуждающие модели еще не превзошел

Уже на Чатбот арене

HF
Чат

#assistant #moe
9
This media is not supported in your browser
VIEW IN TELEGRAM
Whisk

новый картинкогенератор от Google Labs

Вместо текстовых промптов используем три картинки: одну для субъекта, вторую для сцены, третью для стиля.

Далее Gemini создаёт описания загруженных изображений и передаёт их в Imagen 3

Запаситесь американским IP адресом

#image2image #online
👍15🎃2
#оффтоп

Разбавлю вашу новогоднюю ленту "пулянино" Маттиаса Кранца

Этот чувак вытворяет всякие штуки с пианино и иногда другими инструментами. Например, он выдоил из пауков 6 км паутины чтобы сделать из нее гитарные струны. Заменил все молоточки в пианино на обычные молотки. Настроил все ноты в пианино на Ми.

А сегодня послушайте пианино, сделанное из пейнтбольных винтовок и живых людей.

https://www.youtube.com/watch?v=yFIxf2gTg_k
🔥4💩1👌1
StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

Модель для преобразования обычного видео в стерео 3D от Tencent

Может помните времена когда было модно выпускать кино в 3D. И чтобы не заморачиваться на съемках и основном посте, делали стереоконверсию фильма. На это нужны были армии ротоскоперов. А теперь эта задача становится намного дешевле

Код

#stereoconversion
👍71🔥1
GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping

модель генерирует правдоподобные новые ракурсы по одному входному изображению.

Созданные новые ракурсы можно использовать для 3D-реконструкции. В приведенном на видео примере реконструкция 3D-сцены с помощью InstantSplat

Код
Демо

#novelview
👍72
Aria-UI: Visual Grounding for GUI Instructions

Быстрый легковесный ИИ-агент для выполнения задач на устройстве пользователя через взаимодействие с пользовательским интерфейсом

Код
Демо

#assistant #agent
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
Animate AI

Генератор анимации с консистентными персонажами

записаться в вейтлист

#image2video #text2video #cartoon
👍8🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
OCTAVE (Omni-Capable Text and Voice Engine)

Генератор речи следующего поколения от Hume AI.

Сочетает возможности EVI 2 с возможностями таких систем, как Voice Engine от OpenAI, TTS Voice Design от Elevenlab и NotebookLM от Google Deepmind

OCTAVE может генерировать любой голос и индивидуальность - и сопровождающий язык – по подсказке, имитируя пол, возраст, акцент, вокальный регистр, эмоциональную интонацию, стили речи.

Клонирует голос, акцент и индивидуальность любого говорящего из шумной записи продолжительностью всего в 5 секунд.

Общается голосом в реальном времени. Может создать несколько агентов, общающихся между собой, как в NotebookLM, только в реальном времени.

Сейчас идет тестирование "безопасности" модели кругом избранных, осторожничают

#realtime #text2speech #tts #voicecloning
🔥12🤔2👍1🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
Опубликован код генератора 3D сцен на гауссианах по картинке WonderWorld

Код

#gaussian #image2scene #imageto3d
🔥11
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Масштабируемый трансформер для быстрой генерации картинок от Yandex Research. Приятно под занавес года увидеть отечественный релиз.

По словам разработчиков, превосходит существующие авторегрессионные (AR) модели и тягается наравне с ведущими диффузными моделями по качеству, при этом обходя их в 7 раз по скорости.

Код
Демо 512
Демо 1024

#text2image
👍93🤔2🔥1💩1