Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Google научил Gemini 1.5 Pro понимать аудио.

• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания

Попробовать (включайте VPN)

#audio2text #speech2text #assistant
👍11🤯2🔥1
Обновился Resemble AI

Теперь он умеет за 1 минуту клонировать голос по 10-секундному отрывку с сохранением акцента.
Кроме английского есть португальский и французский. Русского нет. Ну и естественно есть библиотека голосов если вам надо озвучить текст.

Бесплатно можно склонировать 1 голос, остальные фичи - 300 секунд в месяц

Попробовать

#text2speech #speech2speech #voicecloning
3
CosXL

Тихой сапой Stability AI опубликовали экспериментальную SD модель.
CosXL Состоит из двух моделей.
Базовая это SDXL, но с возможностью генерить картинки в полном спектре цветовой гаммы (от полностью чёрного до ярко белого). И дополнительная Edit для смены стиля изображения на основе референсной картинки и текстового промпта.

Huggingface

#text2image
14
This media is not supported in your browser
VIEW IN TELEGRAM
ZeST: Zero-Shot Material Transfer from a Single Image

Перенос материала с одного изображения на другое без дообучения

Код

#material #image2image
👍13🔥43
Тут NVIDIA выяснила что CFG (есть такая рулька в Stable Diffusion) вредит диффузионному процессу в его начале и конце. А если включать CFG только на середине, то генерация станет разнообразнее и качественнее. Ждем перепиленных воркфлоу

Пейпер

#news
🔥21👍1
#оффтоп
Найди админа в титрах «100 лет тому вперед» и возьми с полки пирожок
👍9
Тут Tensor Banana собрал ассистента на русском языке

Talk-llama-fast с поддержкой wav2lip:

- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.

Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp

Работает на 3060 12 GB,

Видео
Гитхаб

спасибо за наводку @moistofficial

#llm #assiatant
12
Forwarded from CG дневничок (Sergey Frolov)
Adobe добавит в Premiere Pro и After Effects ИИ-инструменты, с помощью которых можно будет убирать или добавлять объекты в видео.

В сервис также планируют добавить сторонние генеративные модели, например, Sora от OpenAI, Pika Labs или Runway

Композеры напряглись 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍3