This media is not supported in your browser
VIEW IN TELEGRAM
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
Генератор 3D моделей по одному изображению. Хвастаются хитростями, к которым пришлось прибегнуть чтобы результат выглядел хорошо. Но пусть покажут сетку)
Код обещают выложить
#imageto3D
Генератор 3D моделей по одному изображению. Хвастаются хитростями, к которым пришлось прибегнуть чтобы результат выглядел хорошо. Но пусть покажут сетку)
Код обещают выложить
#imageto3D
🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
GPT Engineer
ИИ-программист, пишет всю кодовую базу по текстовому заданию. Умеет переписывать ваш имеющийся код. Можно установить локально. Для работы требуется API ключ OpenAI или локальная языковая модель.
Код
#coding #text2code #code2code
ИИ-программист, пишет всю кодовую базу по текстовому заданию. Умеет переписывать ваш имеющийся код. Можно установить локально. Для работы требуется API ключ OpenAI или локальная языковая модель.
Код
#coding #text2code #code2code
👍6
HyperFields:Towards Zero-Shot Generation of NeRFs from Text
Генератор #nerf по тексту
Но зачем когда у нас уже есть DreamGaussian
Впрочем, посмотрим разовьется ли это направление или это мертвая ветка.
Код, для запуска потребуется GPU с минимум 48 GB VRAM
#text2nerf
Генератор #nerf по тексту
Но зачем когда у нас уже есть DreamGaussian
Впрочем, посмотрим разовьется ли это направление или это мертвая ветка.
Код, для запуска потребуется GPU с минимум 48 GB VRAM
#text2nerf
SALMONN: Speech Audio Language Music Open Neural Network
Распозначание речи, музыки и прочих звуков на основе LLM, с последующим чатом.
Код
Демо
Веса
#chatbot #audio2text
Распозначание речи, музыки и прочих звуков на основе LLM, с последующим чатом.
Код
Демо
Веса
#chatbot #audio2text
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Pegasus-1
Какое название подойдет чтобы конкурировать с Eleven Labs? Правильно, Twelve Labs. И вот они объявляют (твиттер) о релизе своей базовой модели преобразования видео в текст. Уверяют что их модель анализирует именно видеоданные. Аудио и речь, конечно, тоже.
Записаться в вейтлист
#video2text
Какое название подойдет чтобы конкурировать с Eleven Labs? Правильно, Twelve Labs. И вот они объявляют (твиттер) о релизе своей базовой модели преобразования видео в текст. Уверяют что их модель анализирует именно видеоданные. Аудио и речь, конечно, тоже.
Записаться в вейтлист
#video2text
🔥3
Forwarded from e/acc
ChatGPT теперь поддерживает работу с файлами (загружай PDF и задавай вопросы) и совмещение разных модальностей в одном чате (может рисовать картинки, гуглить, писать и исполнять код в одном чате).
Для большинства это шок, потому что их стартап идея была разбита о быструю доставку качественного продукта команды OpenAI с инженерами за $600к в год.
Дабы предупредить будущий шок, давайте сразу обсудим, что ChatGPT выкатит в следующих версиях:
- подключение своих данных: Gmail, slack, WhatsApp
- общение в едином чате, который помнит все о вас. по сути - разговор с ассистентом.
- возможность соединять цепочки действий и плагинов (агенты)
- маркетплейс плагинов с монетизацией и курацией (curation, если на человеческом)
- полная мультимодальность: на вход видео, на выход голос; на вход музыку, на выход видео; на вход excel на выход диаграммы
- проактивный ИИ: сам поймёт когда и что у вас спросить или вам рассказать
- у каждого пользователя персональная модель, обученная на последних годах диалога (каждому — свою LoRA)
Для большинства это шок, потому что их стартап идея была разбита о быструю доставку качественного продукта команды OpenAI с инженерами за $600к в год.
Дабы предупредить будущий шок, давайте сразу обсудим, что ChatGPT выкатит в следующих версиях:
- подключение своих данных: Gmail, slack, WhatsApp
- общение в едином чате, который помнит все о вас. по сути - разговор с ассистентом.
- возможность соединять цепочки действий и плагинов (агенты)
- маркетплейс плагинов с монетизацией и курацией (curation, если на человеческом)
- полная мультимодальность: на вход видео, на выход голос; на вход музыку, на выход видео; на вход excel на выход диаграммы
- проактивный ИИ: сам поймёт когда и что у вас спросить или вам рассказать
- у каждого пользователя персональная модель, обученная на последних годах диалога (каждому — свою LoRA)
This media is not supported in your browser
VIEW IN TELEGRAM
Coqui + Bark Voice Cloning
Демоспейс для клонирования голоса по 20-секундному образцу снова работает. Можно сохранять голоса. Даже умеет несколько коряво говорить по-русски. Возможно, если ему скормить русскоязычный образец, будет получше.
Демо
#voicecloning #text2speech
Демоспейс для клонирования голоса по 20-секундному образцу снова работает. Можно сохранять голоса. Даже умеет несколько коряво говорить по-русски. Возможно, если ему скормить русскоязычный образец, будет получше.
Демо
#voicecloning #text2speech
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Real-Time Latent Consistency Model
👞туц-👞туц-👞туц-👞туц
дальше музыка должна сама запуститься в голове
Стилизация видео в браузере «в реальном времени». У меня вышло чуть быстрее 1 fps.
А все дело в Latent Consistency Model
#video2video #realtime
👞туц-👞туц-👞туц-👞туц
дальше музыка должна сама запуститься в голове
Стилизация видео в браузере «в реальном времени». У меня вышло чуть быстрее 1 fps.
А все дело в Latent Consistency Model
#video2video #realtime
🔥4
FastSD CPU
И еще про Latent Consistency Model, полезная штука, оказывается.
StableDuffusion на процессоре, без GPU
Скачать бета-релиз здесь
Гитхаб - здесь в том числе и инструкция по установке
#text2image
И еще про Latent Consistency Model, полезная штука, оказывается.
StableDuffusion на процессоре, без GPU
Скачать бета-релиз здесь
Гитхаб - здесь в том числе и инструкция по установке
#text2image
Media is too big
VIEW IN TELEGRAM
Unity + StableDiffusion = варьирование текстур.
Текстурирование обратной стороны в разработке.
реддит
#text2texture
Текстурирование обратной стороны в разработке.
реддит
#text2texture
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder3D: Single Image to 3D using Cross-Domain Diffusion
Генератор 3D моделей по одному изображению.
Применен известный уже трюк с заходом на 3D через карту нормалей. Делают это многократно для получения пачки ракурсов, из которых уже восстанавливают текстурированный меш.
Тест Бендера на ракурсах проходит очень неплохо! (кину в комментарии). А меш демка не делает, к сожалению
Код
Колаб
Демо
#imageto3D
Генератор 3D моделей по одному изображению.
Применен известный уже трюк с заходом на 3D через карту нормалей. Делают это многократно для получения пачки ракурсов, из которых уже восстанавливают текстурированный меш.
Тест Бендера на ракурсах проходит очень неплохо! (кину в комментарии). А меш демка не делает, к сожалению
Код
Колаб
Демо
#imageto3D
👍1
Forwarded from QWERTY
Media is too big
VIEW IN TELEGRAM
Робопёс-экскурсовод. Boston Dynamics Spot + ChatGPT
Оснастив робопса чат-ботом, компания Boston Dynamics создала гида по своей лаборатории, который может проводить экскурсии от имени разных персонажей. Для этого Spot оснастили динамками, микрофоном и API ChatGPT. Чтобы ещё больше оживить образ машины, разработчики добавили к ней вместо рта роботизированный манипулятор, на котором закрепили небольшой головной убор и пару пластиковых глаз. Наконец, ему предложили проводить экскурсии от имени разных персонажей: гида-британца времён Шекспира, девочки-подростка и саркастичного Джоша (Josh).
Spot говорил людям комплименты, на ходу сочинял стихи и успешно отвечал на вопросы, которых не было в сценарии: когда его попросили показать родителей, они привёл посетителя к выставленным роботам Spot предыдущего поколения. Но как и обычный ChatGPT, иногда он мог рассказать не соответствующие действительности вещи.
Оснастив робопса чат-ботом, компания Boston Dynamics создала гида по своей лаборатории, который может проводить экскурсии от имени разных персонажей. Для этого Spot оснастили динамками, микрофоном и API ChatGPT. Чтобы ещё больше оживить образ машины, разработчики добавили к ней вместо рта роботизированный манипулятор, на котором закрепили небольшой головной убор и пару пластиковых глаз. Наконец, ему предложили проводить экскурсии от имени разных персонажей: гида-британца времён Шекспира, девочки-подростка и саркастичного Джоша (Josh).
Spot говорил людям комплименты, на ходу сочинял стихи и успешно отвечал на вопросы, которых не было в сценарии: когда его попросили показать родителей, они привёл посетителя к выставленным роботам Spot предыдущего поколения. Но как и обычный ChatGPT, иногда он мог рассказать не соответствующие действительности вещи.
👍2🔥1🤔1
cnet_vid_bg.webm
2.2 MB
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models
Генератор текстур для уже имеющейся 3D геометрии от NVIDIA. Под капотом диффузия + ControlNet
Кода нет
#texture #text2texture #3Dtotexture
Генератор текстур для уже имеющейся 3D геометрии от NVIDIA. Под капотом диффузия + ControlNet
Кода нет
#texture #text2texture #3Dtotexture
Feng My Shui
Немножко бесплатного MidJourney.
Дают несколько кредитов которые быстро кончатся. Ну и SD тоже работает
#text2image
Немножко бесплатного MidJourney.
Дают несколько кредитов которые быстро кончатся. Ну и SD тоже работает
#text2image
👍2
TeCH: Text-guided Reconstruction ofLifelike Clothed Humans
Восстановление 3D модели с одеждой и детализированными текстурами человека по одному фото. Похоже, результат может быть пригоден для анимации
Код
#imageto3D #image2human #image2avatal #humanavatar
Восстановление 3D модели с одеждой и детализированными текстурами человека по одному фото. Похоже, результат может быть пригоден для анимации
Код
#imageto3D #image2human #image2avatal #humanavatar
👍4🔥3
Ничего не случилось, просто для любителей хэллоуина в реакции добавлена тыква 🎃
А еще наш чатик - подходящее место для ваших хэллоуинских картинок
#neuronaut_art
А еще наш чатик - подходящее место для ваших хэллоуинских картинок
#neuronaut_art
🎃38
Media is too big
VIEW IN TELEGRAM
Recraft
Генератор векторных изображений и дизайна. Вернее, целый сервис.
На бесплатном тарифе ваше творчество отправляется в публичную галерею. За 20$ в месяц остается приватным и генерится быстрее.
#text2vector #design
Генератор векторных изображений и дизайна. Вернее, целый сервис.
На бесплатном тарифе ваше творчество отправляется в публичную галерею. За 20$ в месяц остается приватным и генерится быстрее.
#text2vector #design
👍8