NEW BOT Телеграм, страница

HeyGen теперь и Avatar

HeyGen - комплексная ИИ-технология, в которой содержится сразу несколько нейросетей:

• Avatar Engine (news!): Проприетарный движок для render-а аватаров. Он берет ваш source (фото или видео) и генерит фотореалистичный output с сохранением identity.
• Lip-Sync: Нейронка для синхронизации mouth movements с аудио-дорожкой. Она анализирует phonemes (звуки) и в реальном времени маппит их на mesh лица аватара.
• Voice Cloning: Технология создания voice skin. Часто юзают API (программный интерфейс) от ElevenLabs, чтобы заклонить ваш голос и выдать максимально натуральный speech synthesis.
• Video Translation: Фича для локализации контента. Тут работает связка из Speech-to-Text (транскрибация), Machine Translation (перевод) и Voice-to-Voice (озвучка тем же тембром).
• Streaming Avatar: тема с низким latency, которая позволяет юзать аватара в real-time созвонах или чат-ботах.

Пример показа рабочих настроек на первом видео.

Так вот, я решил поиграться над созданием своего аватара Коди… и перечислю основные плюсы:

1. можно генерировать видео+визуал+аудио по тексту и входной картинке;

2. За пару минут предложат варианты и аудио, и фото- и видео-футажей, а после уже можно будет под себя корректировать всё вышеперечисленное;

3. в конце покажут все детали создания аватара и конечное видео.

Что я могу по этому поводу сказать?

Пойдёт. Реально пойдёт. Не вау-эффект, но и не ширпотрёп.
Когда я увидел сегодня новость о выходе аватара, то подумал «Вау! Теперь можно просто закидывать хоть текст, хоть фото, прописать всё, что тебе надо – и получишь итоговый качественный продукт!»

А на деле… ну, посмотрите дальше ролики.

Может я что-то не так настроил и не докрутил – могу с этим согласиться. Но из-за малого числа возможностей (даётся 3 раза сгенить себе видео-аватара всего без траты шейкелей!) – не могу пока оценить, стоит юзать этот продукт или нет.

Попробуйте и вы, может у вас лучше получится – делитесь в комментариях.
Сайт

Кот в Коде| @kot_research_bot

❤211

183 views11:47

Кот в Коде|ИИ и Питон

Всё идёт по плану… надо только подождать…🎧

Задача почти реализована, можно сказать почти смог побороть Сокола.

В чём состоит основная задача?

Как было в задаче по имитации работы RS485, сейчас появились некоторые дополнения и ответвления в работе:

1. ну как минимум это теперь не имитация, а полноценная работа с метеостанцией;

2. Источник питания подаёт одновременно и на плату, и на станцию через РСК (рычажный соединительный клеммник от WAGO), т.е. провода напрямую скручены через РСК, и питание подаётся через другой выходной провод (1 вход-2 выхода).

А так всё осталось пока прежним, в Thonny работает программа -> получает через RS485 от станции данные -> выводит их и в REPL Thonny, и в PuTTY.

На сейчас момент программа считывает данные раз в 30-45 сек с вероятностью 60-70%!
При этом с самого начала я не только не видел данные или хотя бы мусор или шумы – я вообще не мог понять, как подключиться к этой всей установке. Поэтому, я думаю, пока что проделана немалая работа разработки в работе с метеостанцией.

Есть к чему дальше стремиться и, если интересно, в чём заключается реализация задачи и что я успел более детально сделать – распишу более подробно, ваши реакции и комментарии дадут мне понять

😁

Кот в Коде| @kot_research_bot

Please open Telegram to view this post