Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Вы спрашивали про Speech-to-Text.
Я процитирую пост Саши Ларьяновского из фб.
Социологам, кастдевщикам и всем, кто занимается расшифровкой аудио-записей срочно тестировать.
"Нашел лучшее решение speech-to-text для расшифровки аудио и видео.
1. Бережно работает с англицизмами в речи. Вот реальный фрагмент результата:
«То есть, это история про accuracy данных, и на данный момент мы не реализовали ни all insights ни raw statistics».
2. Отличная гигиена текста: умеет хорошо расставлять знаки пунктуации и делить текст на абзацы.
3. Быстрый. Часовая беседа расшифровывается меньше чем за полминуты.
4. Работает как бот в телеге и вотсапе (!).
В телеге есть для премиума расшифровка от Дурова. Но там кошмарное readability на длинных сообщениях.
У вотсапа вообще нет такого решения.
5. Бот умеет на вход брать на вход файлы и ссылки (!) , а не только аудиосообщения
6. Он еще на сдачу саммаризирует расшифрованное, но мне не было актуально и я не оценивал эту фичу.
Для телеги: https://news.1rj.ru/str/JillWhite_voice_notes_bot
Для вотсапа: https://bit.ly/jillwhitevoicenotes
Это как раз хорошая иллюстрация к предыдущему посту, что можно сотворить крутые продукты, дообучая на своих данных чужие ИИ- технологии".
Я процитирую пост Саши Ларьяновского из фб.
Социологам, кастдевщикам и всем, кто занимается расшифровкой аудио-записей срочно тестировать.
"Нашел лучшее решение speech-to-text для расшифровки аудио и видео.
1. Бережно работает с англицизмами в речи. Вот реальный фрагмент результата:
«То есть, это история про accuracy данных, и на данный момент мы не реализовали ни all insights ни raw statistics».
2. Отличная гигиена текста: умеет хорошо расставлять знаки пунктуации и делить текст на абзацы.
3. Быстрый. Часовая беседа расшифровывается меньше чем за полминуты.
4. Работает как бот в телеге и вотсапе (!).
В телеге есть для премиума расшифровка от Дурова. Но там кошмарное readability на длинных сообщениях.
У вотсапа вообще нет такого решения.
5. Бот умеет на вход брать на вход файлы и ссылки (!) , а не только аудиосообщения
6. Он еще на сдачу саммаризирует расшифрованное, но мне не было актуально и я не оценивал эту фичу.
Для телеги: https://news.1rj.ru/str/JillWhite_voice_notes_bot
Для вотсапа: https://bit.ly/jillwhitevoicenotes
Это как раз хорошая иллюстрация к предыдущему посту, что можно сотворить крутые продукты, дообучая на своих данных чужие ИИ- технологии".
👍9👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Вы это видели?
В Luma.ai прикрутили гауссианы
Говорят что вес сцены до 20 Mb и что-то там про стриминг/рендер на 30 кадрах в секунду в браузере
#imageto3D #image2scene #rendering
В Luma.ai прикрутили гауссианы
Говорят что вес сцены до 20 Mb и что-то там про стриминг/рендер на 30 кадрах в секунду в браузере
#imageto3D #image2scene #rendering
🔥5
Замена лиц сервисом Facemorph в играх. Эксперимент от Corridor Digital
https://youtu.be/7juJgPbQx8w?si=X6PkcmcxxfbNlWGT
Попробовать Facemorph
#faceswap #deepfake
https://youtu.be/7juJgPbQx8w?si=X6PkcmcxxfbNlWGT
Попробовать Facemorph
#faceswap #deepfake
🔥3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Expressive Text-to-Image Generation with Rich Text
Занятная штука. Контроль генерации изображения через формат текста: цвет, стиль, сноски.
Код
Демо
Расширение для automatic1111
#text2image #style2image #format2image #font2image
Занятная штука. Контроль генерации изображения через формат текста: цвет, стиль, сноски.
Код
Демо
Расширение для automatic1111
#text2image #style2image #format2image #font2image
👍2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Гугл анонсировал Google Assistant with Bard.
Скоро на андроидах.
Он сможет копаться в вашей почте, рассматривать ваши фотки чтобынастуч самостоятельно написать к ним пост в соцсети. И много другого полезного для Гугла
Что скажет Тим Кук?
#assistant #chatbot
Скоро на андроидах.
Он сможет копаться в вашей почте, рассматривать ваши фотки чтобы
#assistant #chatbot
👍2
В обновлении Яндекс браузера прикрутили фичу краткий пересказ видео.
Теперь длинные видео можно прочитать за пару минут.
Как я жил без этого?
#summary #video2text #video2summary
Теперь длинные видео можно прочитать за пару минут.
Как я жил без этого?
#summary #video2text #video2summary
🔥10😁2
LLaVA v1.5
Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет
Демо
Код
Веса
Колаб
#multimodal #chatbot #LLM
Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет
Демо
Код
Веса
Колаб
#multimodal #chatbot #LLM
🔥5🤯3👍2
UniAudio: An Audio Foundation Model Toward Universal Audio Generation
Универсальная базовая модель генерации звука
- текст в речь
- клонирование голоса
- замена голоса по образцу
- вокал по образцу без дообучения
- улучшение качества звука без дообучения
- удаление шума
- выделение одного голоса из микса голосов
- текст в звук
- текст в музыку
- редактирование звука по тексту
- удаление эха
- редактирование речи текстовыми указаниями
Впечатляет? Примеров слишком много чтобы тащить сюда, смотрите на сайте проекта, авторы планируют добавить примеры других задач
Код
#audio #TTS #text2music #text2sound #speech2speech #voicecloning #demix #denoise #audioenhance
Универсальная базовая модель генерации звука
- текст в речь
- клонирование голоса
- замена голоса по образцу
- вокал по образцу без дообучения
- улучшение качества звука без дообучения
- удаление шума
- выделение одного голоса из микса голосов
- текст в звук
- текст в музыку
- редактирование звука по тексту
- удаление эха
- редактирование речи текстовыми указаниями
Впечатляет? Примеров слишком много чтобы тащить сюда, смотрите на сайте проекта, авторы планируют добавить примеры других задач
Код
#audio #TTS #text2music #text2sound #speech2speech #voicecloning #demix #denoise #audioenhance
👍9
This media is not supported in your browser
VIEW IN TELEGRAM
Insta-3D
Интерактивный демоспейс от ilumine.ai, где можно поиграть, сделав из картинки 3D-сцену и накидывая эффекты.
Вам понадобится карта глубины, ее можно сделать каким-нибудь генератором, поиск в этом канале по тегу #image2depth
#image2scene
Интерактивный демоспейс от ilumine.ai, где можно поиграть, сделав из картинки 3D-сцену и накидывая эффекты.
Вам понадобится карта глубины, ее можно сделать каким-нибудь генератором, поиск в этом канале по тегу #image2depth
#image2scene
👍4❤1
HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation
Дуиффузионный генератор-редактор реалистичных 3D-человеков по тексту. Целиком, по пояс или только голова. Можно редактрировать модель или позу. Конкуренты выдают мультяшные модели, а тут за счет генерации нормалей добиваются большей реалистичности.
Код обещают выложить
Галерея 3D-моделей
#textto3D #text2human #text2avatar #humanavatar
Дуиффузионный генератор-редактор реалистичных 3D-человеков по тексту. Целиком, по пояс или только голова. Можно редактрировать модель или позу. Конкуренты выдают мультяшные модели, а тут за счет генерации нормалей добиваются большей реалистичности.
Код обещают выложить
Галерея 3D-моделей
#textto3D #text2human #text2avatar #humanavatar
😁4🔥3👍1
AutoGen
Платформа от Microsoft для создания мультиагентных систем. Это как ИИ-ассистент, только их там внутри несколько, и они взаимодействуют друг с другом.
Не знаю зачем вам это, но если надо, то вот оно есть в открытом доступе.
Код
#chatbot #assistant #LLM
Платформа от Microsoft для создания мультиагентных систем. Это как ИИ-ассистент, только их там внутри несколько, и они взаимодействуют друг с другом.
Не знаю зачем вам это, но если надо, то вот оно есть в открытом доступе.
Код
#chatbot #assistant #LLM
👍4
Moonvalley.ai
Держите новый генератор видео по тексту.
Идете на сайт, тыкате в кнопку
В дискорде после короткого опроса попадаете на начальную страницу, где можно почитать инструкцию.
А можно сразу перейти в один из каналов
Ждем ваши генерации в чате
# text2video
Держите новый генератор видео по тексту.
Идете на сайт, тыкате в кнопку
Try the Beta - вас перекидывает в дискорд.В дискорде после короткого опроса попадаете на начальную страницу, где можно почитать инструкцию.
А можно сразу перейти в один из каналов
#new-moon
Видео генерится командой /create
У команды три параметра: prompt, style и duration. На стиль и продолжительность есть подсказки.Ждем ваши генерации в чате
# text2video
👍5