Tensor Banana – Telegram
Tensor Banana
2.85K subscribers
547 photos
128 videos
118 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://news.1rj.ru/str/+zFDiHuL1iVA1YWMy
Чат с ботами: https://news.1rj.ru/str/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Мой клип выложили как пример на сайте фестиваля музыкальных AI видео. Теперь всем буду говорить, что я снимаю фистивальное кино 😁😁

https://vaideo.tilda.ws/
Media is too big
VIEW IN TELEGRAM
Moscow City Sleepers - Опять на работу (пиздос)
Стихи: русские народные
Музыка и голос: Suno AI
Картинки: juggernautXL
Анимация: Stable Video Diffusion

Сделал из копипасты песенку. Присутствует мат.
Занятное применение LLM - проверка текста на ошибки, в данном случае на фактовые ошибки. llama-70B
🔥1
GPT-4 Turbo, со стихами на русском языке справляется чуть лучше, но приходится рифмы подбирать вручную пошагово, каждую строчку. Зато хорошо следует инструкциям.

Как бы это всё упаковать в один промт?
Сравнил новую модель от Сбера gigaChat pro (цитата: самый мощный ИИ, сделанный в России) с ламой 70B в задачах факт чека на русских текстах. Лама в этом плане намного умнее, Гигачат в половине случаев не замечал ошибки, там где лама их находила, хотя и периодически скатывалась в своих ответах на английский язык.

Надо будет сделать свой топ LLM для задач факт чека на русском.

Скоро ИИ будет проверять дз школьников и дипломы студентов 😁
Коллаба Microsoft и Suno: Песни я дам. Рифмы я не дам.

Неужели в мире до сих пор не существует LLM, которая умела бы писать стихи с рифмой на русском?
Forwarded from NN
Microsoft добавила поддержку ИИ для создания песен в свой чат-бот. Теперь пользователи Copilot могут бесплатно генерировать музыку и текст к ней с помощью Suno.

Для использования Suno нужно войти в Copilot под своим Microsoft-аккаунтом с VPN и проверить, подключено ли у вас это расширение в правой части экрана в разделе Plugins. В Bing AI эту функцию пока не завезли.

Мы протестировали сервис и попросили Suno сгенерировать песню про Сибирь. Результат поразил. Единственный недостаток: невозможно генерировать песни длиннее 60 секунд.
Media is too big
VIEW IN TELEGRAM
English demo. Wav2lip + whisper + XTTSv2

Code: https://github.com/Mozer/wav2lip_extension
Забавный факт: нейросеть для распознавания голоса whisper умеет на лету переводить из любого языка на английский и наоборот. Не супер точно, как специализированные нейросети для перевода, но тоже сойдёт, и задержка низкая.
Media is too big
VIEW IN TELEGRAM
Забавный факт: нейросеть для распознавания голоса whisper умеет на лету переводить из любого языка на английский и наоборот. Не супер точно, как специализированные нейросети для перевода, но тоже сойдёт, и задержка терпимая. Сверху добавил озвучку своим же голосом в нейросети XTTSv2.

На видео:
распознавание голоса и перевод: faster-whisper
Синтез голоса: XTTSv2
Интерфейс: SillyTavern
Гайд как прикрутить всё вместе:
https://github.com/Mozer/wav2lip_extension
Media is too big
VIEW IN TELEGRAM
Добавил в свое расширение wav2lip поддержку голосового ввода и новый голос от XTTSv2. Теперь звучит и выглядит намного реалистичнее! Есть полная поддержка русского языка. Все персонажи вымышленны, все совпадения случайны 😁

LLM: ruGPT3.5-13B
STT: faster-whisper small
TTS: Coqui XTTSv2
Липсинк: wav2lip
GUI: Silly Tavern
Код: https://github.com/Mozer/wav2lip_extension
😁1
Hands free voice call to your LLM!
I guess there are easier ways to route speech and audio from SillyTavern to phone, but used this:

- 2 telegram accounts (one for your phone and one for your PC), you can try with 2 Whatsapp accounts.
- VB-Audio Additional Virtual Cables. It's a paid app, but there are always options, https://vb-audio.com/Cable/
- OBS studio
- official XTTSv2 extension for silly tavern
- modified streaming speech recognition extension for silly tavern with faster-whisper. Guide: https://github.com/Mozer/wav2lip_extension/blob/main/README_voice_call.md

At home it works flawlessly with TWS headphones, but at the street all the ambient noises reduce speech recognition quality. Short questions work fine, but longer things can turn your call into a disaster (bad TWS microphone, poor Bluetooth, bad 4G signal, other people voices, street sounds). Anyway it's winter and having the ability to chat with your LLM outside without use of hands is great.
👍1