This media is not supported in your browser
VIEW IN TELEGRAM
Pegasus-1
Какое название подойдет чтобы конкурировать с Eleven Labs? Правильно, Twelve Labs. И вот они объявляют (твиттер) о релизе своей базовой модели преобразования видео в текст. Уверяют что их модель анализирует именно видеоданные. Аудио и речь, конечно, тоже.
Записаться в вейтлист
#video2text
Какое название подойдет чтобы конкурировать с Eleven Labs? Правильно, Twelve Labs. И вот они объявляют (твиттер) о релизе своей базовой модели преобразования видео в текст. Уверяют что их модель анализирует именно видеоданные. Аудио и речь, конечно, тоже.
Записаться в вейтлист
#video2text
🔥3
Forwarded from e/acc
ChatGPT теперь поддерживает работу с файлами (загружай PDF и задавай вопросы) и совмещение разных модальностей в одном чате (может рисовать картинки, гуглить, писать и исполнять код в одном чате).
Для большинства это шок, потому что их стартап идея была разбита о быструю доставку качественного продукта команды OpenAI с инженерами за $600к в год.
Дабы предупредить будущий шок, давайте сразу обсудим, что ChatGPT выкатит в следующих версиях:
- подключение своих данных: Gmail, slack, WhatsApp
- общение в едином чате, который помнит все о вас. по сути - разговор с ассистентом.
- возможность соединять цепочки действий и плагинов (агенты)
- маркетплейс плагинов с монетизацией и курацией (curation, если на человеческом)
- полная мультимодальность: на вход видео, на выход голос; на вход музыку, на выход видео; на вход excel на выход диаграммы
- проактивный ИИ: сам поймёт когда и что у вас спросить или вам рассказать
- у каждого пользователя персональная модель, обученная на последних годах диалога (каждому — свою LoRA)
Для большинства это шок, потому что их стартап идея была разбита о быструю доставку качественного продукта команды OpenAI с инженерами за $600к в год.
Дабы предупредить будущий шок, давайте сразу обсудим, что ChatGPT выкатит в следующих версиях:
- подключение своих данных: Gmail, slack, WhatsApp
- общение в едином чате, который помнит все о вас. по сути - разговор с ассистентом.
- возможность соединять цепочки действий и плагинов (агенты)
- маркетплейс плагинов с монетизацией и курацией (curation, если на человеческом)
- полная мультимодальность: на вход видео, на выход голос; на вход музыку, на выход видео; на вход excel на выход диаграммы
- проактивный ИИ: сам поймёт когда и что у вас спросить или вам рассказать
- у каждого пользователя персональная модель, обученная на последних годах диалога (каждому — свою LoRA)
This media is not supported in your browser
VIEW IN TELEGRAM
Coqui + Bark Voice Cloning
Демоспейс для клонирования голоса по 20-секундному образцу снова работает. Можно сохранять голоса. Даже умеет несколько коряво говорить по-русски. Возможно, если ему скормить русскоязычный образец, будет получше.
Демо
#voicecloning #text2speech
Демоспейс для клонирования голоса по 20-секундному образцу снова работает. Можно сохранять голоса. Даже умеет несколько коряво говорить по-русски. Возможно, если ему скормить русскоязычный образец, будет получше.
Демо
#voicecloning #text2speech
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Real-Time Latent Consistency Model
👞туц-👞туц-👞туц-👞туц
дальше музыка должна сама запуститься в голове
Стилизация видео в браузере «в реальном времени». У меня вышло чуть быстрее 1 fps.
А все дело в Latent Consistency Model
#video2video #realtime
👞туц-👞туц-👞туц-👞туц
дальше музыка должна сама запуститься в голове
Стилизация видео в браузере «в реальном времени». У меня вышло чуть быстрее 1 fps.
А все дело в Latent Consistency Model
#video2video #realtime
🔥4
FastSD CPU
И еще про Latent Consistency Model, полезная штука, оказывается.
StableDuffusion на процессоре, без GPU
Скачать бета-релиз здесь
Гитхаб - здесь в том числе и инструкция по установке
#text2image
И еще про Latent Consistency Model, полезная штука, оказывается.
StableDuffusion на процессоре, без GPU
Скачать бета-релиз здесь
Гитхаб - здесь в том числе и инструкция по установке
#text2image
Media is too big
VIEW IN TELEGRAM
Unity + StableDiffusion = варьирование текстур.
Текстурирование обратной стороны в разработке.
реддит
#text2texture
Текстурирование обратной стороны в разработке.
реддит
#text2texture
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder3D: Single Image to 3D using Cross-Domain Diffusion
Генератор 3D моделей по одному изображению.
Применен известный уже трюк с заходом на 3D через карту нормалей. Делают это многократно для получения пачки ракурсов, из которых уже восстанавливают текстурированный меш.
Тест Бендера на ракурсах проходит очень неплохо! (кину в комментарии). А меш демка не делает, к сожалению
Код
Колаб
Демо
#imageto3D
Генератор 3D моделей по одному изображению.
Применен известный уже трюк с заходом на 3D через карту нормалей. Делают это многократно для получения пачки ракурсов, из которых уже восстанавливают текстурированный меш.
Тест Бендера на ракурсах проходит очень неплохо! (кину в комментарии). А меш демка не делает, к сожалению
Код
Колаб
Демо
#imageto3D
👍1
Forwarded from QWERTY
Media is too big
VIEW IN TELEGRAM
Робопёс-экскурсовод. Boston Dynamics Spot + ChatGPT
Оснастив робопса чат-ботом, компания Boston Dynamics создала гида по своей лаборатории, который может проводить экскурсии от имени разных персонажей. Для этого Spot оснастили динамками, микрофоном и API ChatGPT. Чтобы ещё больше оживить образ машины, разработчики добавили к ней вместо рта роботизированный манипулятор, на котором закрепили небольшой головной убор и пару пластиковых глаз. Наконец, ему предложили проводить экскурсии от имени разных персонажей: гида-британца времён Шекспира, девочки-подростка и саркастичного Джоша (Josh).
Spot говорил людям комплименты, на ходу сочинял стихи и успешно отвечал на вопросы, которых не было в сценарии: когда его попросили показать родителей, они привёл посетителя к выставленным роботам Spot предыдущего поколения. Но как и обычный ChatGPT, иногда он мог рассказать не соответствующие действительности вещи.
Оснастив робопса чат-ботом, компания Boston Dynamics создала гида по своей лаборатории, который может проводить экскурсии от имени разных персонажей. Для этого Spot оснастили динамками, микрофоном и API ChatGPT. Чтобы ещё больше оживить образ машины, разработчики добавили к ней вместо рта роботизированный манипулятор, на котором закрепили небольшой головной убор и пару пластиковых глаз. Наконец, ему предложили проводить экскурсии от имени разных персонажей: гида-британца времён Шекспира, девочки-подростка и саркастичного Джоша (Josh).
Spot говорил людям комплименты, на ходу сочинял стихи и успешно отвечал на вопросы, которых не было в сценарии: когда его попросили показать родителей, они привёл посетителя к выставленным роботам Spot предыдущего поколения. Но как и обычный ChatGPT, иногда он мог рассказать не соответствующие действительности вещи.
👍2🔥1🤔1
cnet_vid_bg.webm
2.2 MB
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models
Генератор текстур для уже имеющейся 3D геометрии от NVIDIA. Под капотом диффузия + ControlNet
Кода нет
#texture #text2texture #3Dtotexture
Генератор текстур для уже имеющейся 3D геометрии от NVIDIA. Под капотом диффузия + ControlNet
Кода нет
#texture #text2texture #3Dtotexture
Feng My Shui
Немножко бесплатного MidJourney.
Дают несколько кредитов которые быстро кончатся. Ну и SD тоже работает
#text2image
Немножко бесплатного MidJourney.
Дают несколько кредитов которые быстро кончатся. Ну и SD тоже работает
#text2image
👍2
TeCH: Text-guided Reconstruction ofLifelike Clothed Humans
Восстановление 3D модели с одеждой и детализированными текстурами человека по одному фото. Похоже, результат может быть пригоден для анимации
Код
#imageto3D #image2human #image2avatal #humanavatar
Восстановление 3D модели с одеждой и детализированными текстурами человека по одному фото. Похоже, результат может быть пригоден для анимации
Код
#imageto3D #image2human #image2avatal #humanavatar
👍4🔥3
Ничего не случилось, просто для любителей хэллоуина в реакции добавлена тыква 🎃
А еще наш чатик - подходящее место для ваших хэллоуинских картинок
#neuronaut_art
А еще наш чатик - подходящее место для ваших хэллоуинских картинок
#neuronaut_art
🎃38
Media is too big
VIEW IN TELEGRAM
Recraft
Генератор векторных изображений и дизайна. Вернее, целый сервис.
На бесплатном тарифе ваше творчество отправляется в публичную галерею. За 20$ в месяц остается приватным и генерится быстрее.
#text2vector #design
Генератор векторных изображений и дизайна. Вернее, целый сервис.
На бесплатном тарифе ваше творчество отправляется в публичную галерею. За 20$ в месяц остается приватным и генерится быстрее.
#text2vector #design
👍8
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Иногда выскакивают такие вот миражи, сами модели выглядят просто на голову выше всего того, что генерили ранее, и геометрия и текстуры прям хороши. Но на самом деле не совсем понимаешь, что получится на релизе и вот почему.
Во-первых, это китайская компания Deemos, которая занимается созданием всего генеративного, ориентированная на B2B. Тут и дипфейки лица и дефолтный генереж двумерных тян и релайты и face reconstruction. У них большой штат, который скорее всего может состоять из армии джунов, которые будут допиливать ассеты, видели мы такие бизнес-модели. Но время покажет, может я и зря быканул.
Положительный момент, что компания основана на базе шанхайского университета науки. Тут хорошо бы поучиться такому дикому предпринимательству.
Если все действительно как показывают, то по ощущениям, в Китае не будут переживать, как в Европе, за комфорт сотрудников. Уволят к Hui'ям, впрочем, как и в Америке. А рядовой 3D-шник пойдёт искать свою миску риса.
Попробовать пока не где, можно только записаться в вейтлист.
Осторожно, сайт у меня аж вылетает на мобилке, возможно так сильно партия сканирует мои данные
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Теперь вы можете генерировать картинки еще в одном месте.
По 4 штуки, как у всех.
Знаете где?
А Youtube Music!
Они раскатывают новую фичу - генерация обложек для СВОИХ(ваших) плейлистов. Из текста.
https://blog.youtube/news-and-events/youtube-music-app-2023-guide/
По 4 штуки, как у всех.
Знаете где?
А Youtube Music!
Они раскатывают новую фичу - генерация обложек для СВОИХ(ваших) плейлистов. Из текста.
https://blog.youtube/news-and-events/youtube-music-app-2023-guide/
👍2
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Тут в Twitter умелец запилил игру «Angry Pumpkins 🎃» по мотивам классической Angry Birds, но к Хэллоуину. Фишка в том, что всю работу делали генеративные модели. GPT-4 писала код, а Midjourney / DALLE рисовали графику. Всего 600 строк кода, а там даже редактор уровня есть — можно отстроить своё гнездо и попытаться его разбомбить!
Комментарий автора проекта:
— Должен признаться, я искренне потрясен. Я верю, что мы живем в исторический момент, который до сих пор видели только в научно-фантастических фильмах. Это эпоха новых рабочих процессов, позволяющих создавать что угодно, используя только естественный язык, и это изменит мир, каким мы его знаем.
Мой комментарий:
Я не смог быстро понять, есть ли у автора опыт в программировании, но как мне кажется это не важно. У наших детей будет GPT-N+1, которая будет куда реже делать ошибки, и схватывать смысл слов на лету. Можно будет уже со средней школы начать экспериментировать не только с наколеночными играми, но и полноценными оригинальными проектами. В ближайшее время нейронки не заменят игроделов, но позволят новым людям вкатываться куда быстрее, да ещё и на дизайне/арте экономить👀
Играть тут (работает только в браузере компьютера, без смартфонов)
Прочитать детальный гайд от автора тут (внутри промпты для генерации графики)
Комментарий автора проекта:
— Должен признаться, я искренне потрясен. Я верю, что мы живем в исторический момент, который до сих пор видели только в научно-фантастических фильмах. Это эпоха новых рабочих процессов, позволяющих создавать что угодно, используя только естественный язык, и это изменит мир, каким мы его знаем.
Мой комментарий:
Я не смог быстро понять, есть ли у автора опыт в программировании, но как мне кажется это не важно. У наших детей будет GPT-N+1, которая будет куда реже делать ошибки, и схватывать смысл слов на лету. Можно будет уже со средней школы начать экспериментировать не только с наколеночными играми, но и полноценными оригинальными проектами. В ближайшее время нейронки не заменят игроделов, но позволят новым людям вкатываться куда быстрее, да ещё и на дизайне/арте экономить
Играть тут (работает только в браузере компьютера, без смартфонов)
Прочитать детальный гайд от автора тут (внутри промпты для генерации графики)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2🎃2
Forwarded from AI для Всех (Artemii)
GPT-4 почти прошел тест Тюринга
Новое исследование ставит волнующий вопрос: может ли ИИ GPT-4 пройти знаменитый тест Тьюринга на разумность? Ученые решили проверить это в публичном онлайн-эксперименте.
Люди и машина сражались в увлекательной битве. Суть теста - убедить собеседника в чате, что проходящий тест - человек.
Результаты оказались любопытны: GPT-4 обманул людей в 41% случаев. Впечатляет, но недостаточно, чтобы объявить победу ИИ.
Есть подозрение, что эту цифру можно увеличить с помощью дополнительного файн-тюна. А вы что думаете?
🔖 Статья
Новое исследование ставит волнующий вопрос: может ли ИИ GPT-4 пройти знаменитый тест Тьюринга на разумность? Ученые решили проверить это в публичном онлайн-эксперименте.
Люди и машина сражались в увлекательной битве. Суть теста - убедить собеседника в чате, что проходящий тест - человек.
Результаты оказались любопытны: GPT-4 обманул людей в 41% случаев. Впечатляет, но недостаточно, чтобы объявить победу ИИ.
Есть подозрение, что эту цифру можно увеличить с помощью дополнительного файн-тюна. А вы что думаете?
🔖 Статья
🔥4👍1