Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Opera Software представила функцию в Opera One, позволяющую загружать и использовать большие языковые модели (LLM) локально.

Чтобы получить доступ к фиче, установите последнюю версию Opera One ( windows | mac ) и выполните следующее:

1️⃣ Откройте боковую панель Aria Chat (понадобится аккаунт Opera)
В верхней части чата появится выпадающее меню с надписью “Выбрать локальный режим”.
2️⃣ Нажмите “Перейти к настройкам”
Здесь вы можете выполнить поиск и выбрать, какие модели вы хотите загрузить. Загрузите, например, GEMMA: 2B-INSTRUCT-Q4_K_M, одну из небольших и быстрых моделей, нажав на кнопку загрузки справа
3️⃣ После завершения загрузки нажмите кнопку меню в левом верхнем углу и запустите новый чат
4️⃣ В верхней части чата появится выпадающее меню с надписью “Выбрать локальный режим”.
5️⃣ Выберите модель, которую вы только что загрузили
6️⃣ Вуаля, пользуйтесь

#news #LLM #tools
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍1
Опубликован код ELLA и веса для SD 1.5

Код
Веса
Демо ждем

#text2image
🔥10👍32
This media is not supported in your browser
VIEW IN TELEGRAM
Google научил Gemini 1.5 Pro понимать аудио.

• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания

Попробовать (включайте VPN)

#audio2text #speech2text #assistant
👍11🤯2🔥1
Обновился Resemble AI

Теперь он умеет за 1 минуту клонировать голос по 10-секундному отрывку с сохранением акцента.
Кроме английского есть португальский и французский. Русского нет. Ну и естественно есть библиотека голосов если вам надо озвучить текст.

Бесплатно можно склонировать 1 голос, остальные фичи - 300 секунд в месяц

Попробовать

#text2speech #speech2speech #voicecloning
3
CosXL

Тихой сапой Stability AI опубликовали экспериментальную SD модель.
CosXL Состоит из двух моделей.
Базовая это SDXL, но с возможностью генерить картинки в полном спектре цветовой гаммы (от полностью чёрного до ярко белого). И дополнительная Edit для смены стиля изображения на основе референсной картинки и текстового промпта.

Huggingface

#text2image
14
This media is not supported in your browser
VIEW IN TELEGRAM
ZeST: Zero-Shot Material Transfer from a Single Image

Перенос материала с одного изображения на другое без дообучения

Код

#material #image2image
👍13🔥43
Тут NVIDIA выяснила что CFG (есть такая рулька в Stable Diffusion) вредит диффузионному процессу в его начале и конце. А если включать CFG только на середине, то генерация станет разнообразнее и качественнее. Ждем перепиленных воркфлоу

Пейпер

#news
🔥21👍1
#оффтоп
Найди админа в титрах «100 лет тому вперед» и возьми с полки пирожок
👍9
Тут Tensor Banana собрал ассистента на русском языке

Talk-llama-fast с поддержкой wav2lip:

- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.

Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp

Работает на 3060 12 GB,

Видео
Гитхаб

спасибо за наводку @moistofficial

#llm #assiatant
12