This media is not supported in your browser
VIEW IN TELEGRAM
Google научил Gemini 1.5 Pro понимать аудио.
• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания
Попробовать (включайте VPN)
#audio2text #speech2text #assistant
• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания
Попробовать (включайте VPN)
#audio2text #speech2text #assistant
👍11🤯2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
LEGaussians: Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding
Гауссианы с открытым словарным запасом для понимания сцен
Код
#gaussian #NOVELVIEW #RENDERING
Гауссианы с открытым словарным запасом для понимания сцен
Код
#gaussian #NOVELVIEW #RENDERING
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
Контроль камеры на генерации видео
Код
#text2video #conditioning
Контроль камеры на генерации видео
Код
#text2video #conditioning
❤1👍1
AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation
Реконструкция позы и формы человеков, работает с одним персонажем и с группами.
Код ждем
Демо ждем
#video2pose #videoto3D
Реконструкция позы и формы человеков, работает с одним персонажем и с группами.
Код ждем
Демо ждем
#video2pose #videoto3D
❤8🥴2🔥1
Обновился Resemble AI
Теперь он умеет за 1 минуту клонировать голос по 10-секундному отрывку с сохранением акцента.
Кроме английского есть португальский и французский. Русского нет. Ну и естественно есть библиотека голосов если вам надо озвучить текст.
Бесплатно можно склонировать 1 голос, остальные фичи - 300 секунд в месяц
Попробовать
#text2speech #speech2speech #voicecloning
Теперь он умеет за 1 минуту клонировать голос по 10-секундному отрывку с сохранением акцента.
Кроме английского есть португальский и французский. Русского нет. Ну и естественно есть библиотека голосов если вам надо озвучить текст.
Бесплатно можно склонировать 1 голос, остальные фичи - 300 секунд в месяц
Попробовать
#text2speech #speech2speech #voicecloning
❤3
CosXL
Тихой сапой Stability AI опубликовали экспериментальную SD модель.
CosXL Состоит из двух моделей.
Базовая это SDXL, но с возможностью генерить картинки в полном спектре цветовой гаммы (от полностью чёрного до ярко белого). И дополнительная Edit для смены стиля изображения на основе референсной картинки и текстового промпта.
Huggingface
#text2image
Тихой сапой Stability AI опубликовали экспериментальную SD модель.
CosXL Состоит из двух моделей.
Базовая это SDXL, но с возможностью генерить картинки в полном спектре цветовой гаммы (от полностью чёрного до ярко белого). И дополнительная Edit для смены стиля изображения на основе референсной картинки и текстового промпта.
Huggingface
#text2image
❤14
This media is not supported in your browser
VIEW IN TELEGRAM
ZeST: Zero-Shot Material Transfer from a Single Image
Перенос материала с одного изображения на другое без дообучения
Код
#material #image2image
Перенос материала с одного изображения на другое без дообучения
Код
#material #image2image
👍13🔥4❤3
Нейронавт | Нейросети в творчестве
Тут NVIDIA выяснила что CFG (есть такая рулька в Stable Diffusion) вредит диффузионному процессу в его начале и конце. А если включать CFG только на середине, то генерация станет разнообразнее и качественнее. Ждем перепиленных воркфлоу Пейпер #news
workflow (50).json
18.4 KB
❤6👍4🔥1
Тут Tensor Banana собрал ассистента на русском языке
Talk-llama-fast с поддержкой wav2lip:
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Работает на 3060 12 GB,
Видео
Гитхаб
спасибо за наводку @moistofficial
#llm #assiatant
Talk-llama-fast с поддержкой wav2lip:
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Работает на 3060 12 GB,
Видео
Гитхаб
спасибо за наводку @moistofficial
#llm #assiatant
Telegram
Tensor Banana
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://news.1rj.ru/str/+zFDiHuL1iVA1YWMy
Чат с ботами: https://news.1rj.ru/str/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Чат по нейронкам: https://news.1rj.ru/str/+zFDiHuL1iVA1YWMy
Чат с ботами: https://news.1rj.ru/str/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
❤12
Forwarded from CG дневничок (Sergey Frolov)
Adobe добавит в Premiere Pro и After Effects ИИ-инструменты, с помощью которых можно будет убирать или добавлять объекты в видео.
В сервис также планируют добавить сторонние генеративные модели, например, Sora от OpenAI, Pika Labs или Runway
Композеры напряглись🤨
В сервис также планируют добавить сторонние генеративные модели, например, Sora от OpenAI, Pika Labs или Runway
Композеры напряглись
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍3