BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing
Генрация изображений по тексту, с заданным объектом, стилем. Понимает заданные объекты на изображении без дообучения. Впрочем, с небольшим дообучением понимает еще лучше - меньше 80 шагов.
Фичи: замена, встраивание объекта, смешивание, интерполяция, перенос стиля. Поддерживает #ControlNet
На сайте есть интерактивные демки, можно потыркать
Код
Плагин для Blender
#text2image #image2image #styletransfer
Генрация изображений по тексту, с заданным объектом, стилем. Понимает заданные объекты на изображении без дообучения. Впрочем, с небольшим дообучением понимает еще лучше - меньше 80 шагов.
Фичи: замена, встраивание объекта, смешивание, интерполяция, перенос стиля. Поддерживает #ControlNet
На сайте есть интерактивные демки, можно потыркать
Код
Плагин для Blender
#text2image #image2image #styletransfer
👍3❤1
Forwarded from Сиолошная
OpenAI: ChatGPT теперь слушает, говорит и видит
Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.
Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.
В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.
Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.
OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.
Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.
Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.
Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.
В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.
Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.
OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.
Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Getty Images разродились своим обещанным генератором картинок с искрометным названием Generative AI, обученным на полностью лицензионном датасете. Там можно запросить демо доступ. Не знаю что еще сказать. А, название клевое
#text2image
#text2image
Сиолошная
OpenAI: ChatGPT теперь слушает, говорит и видит Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем…
This media is not supported in your browser
VIEW IN TELEGRAM
🔥1
👎2👍1
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections
Генератор открытых 3D-сцен по набору исходных изображений. Видимо, специализируется на ландшафтах. Умеет интерполировать стиль
Код
Демо
#image2scene #imageto3D
Генератор открытых 3D-сцен по набору исходных изображений. Видимо, специализируется на ландшафтах. Умеет интерполировать стиль
Код
Демо
#image2scene #imageto3D
Media is too big
VIEW IN TELEGRAM
Spotify запустил пилотную программу ИИ-дубляжа подкастов. Пока только на испанский, французский и немецкий языки.
Под капотом технологии OpenAI, на выходе сохраняется естественный голос оригинального диктора.
Магия будет доступна пользователям премиум-класса бесплатно по всему миру.
#dubbing #voicecloning #speech2speech #localization #podcast
Под капотом технологии OpenAI, на выходе сохраняется естественный голос оригинального диктора.
Магия будет доступна пользователям премиум-класса бесплатно по всему миру.
#dubbing #voicecloning #speech2speech #localization #podcast
🔥1
BulkCorrector
Ошибок исправлятор. Орфографических и грамматических.
На бесплатном тарифе максимальный объем документа 32000 знаков.
Понадобится ваш API ключ OpenAI.
Похоже, нет поддержки русского языка
Попробовать
Producthunt
#text2text #tools #textediting
Ошибок исправлятор. Орфографических и грамматических.
На бесплатном тарифе максимальный объем документа 32000 знаков.
Понадобится ваш API ключ OpenAI.
Похоже, нет поддержки русского языка
Попробовать
Producthunt
#text2text #tools #textediting
verticle.one
Генератор текстурированных 3D-моделей по тексту.
Дают 300 минут времени на генерацию в сутки, что немало. На один промт выдает несколько вариантов генерации за 5-10 минут (видео я ускорил). Сетку и развертку прилагаю
#textto3D
Генератор текстурированных 3D-моделей по тексту.
Дают 300 минут времени на генерацию в сутки, что немало. На один промт выдает несколько вариантов генерации за 5-10 минут (видео я ускорил). Сетку и развертку прилагаю
#textto3D
👍10❤2
Media is too big
VIEW IN TELEGRAM
VideoDirectorGPT: Consistent Multi-SceneVideo Generation via LLM-Guided Planning
Многоплановый генератор видео по тексту. Взяли простую идею прогонять текстовый промт через GPT-4 чтобы получить план-сценарий. Далее за дело берется собственно генератор видео, который они назвали Layout2Vid. В результате можно генераить не отдельные кусочки видео, а многоплановые сцены, где соблюдается согласованнность от сцены к сцене (от шота к шоту)
Код обещают выложить
#text2video #text2scene
Многоплановый генератор видео по тексту. Взяли простую идею прогонять текстовый промт через GPT-4 чтобы получить план-сценарий. Далее за дело берется собственно генератор видео, который они назвали Layout2Vid. В результате можно генераить не отдельные кусочки видео, а многоплановые сцены, где соблюдается согласованнность от сцены к сцене (от шота к шоту)
Код обещают выложить
#text2video #text2scene
This media is not supported in your browser
VIEW IN TELEGRAM
LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models
Богатый год на генераторы видео, не так ли? Вспомните сколько их было в прошлом году. Три?
LaVie - генератор видео по тексту с упором на эстетическую составляющую. Ну и производительность тоже заявлена. Описание на сайте скудное, кнопка Paper ведет обратно на сайт. Надеюсь, починят.
Остается только смотреть примеры
Код
Демо
#text2video
Богатый год на генераторы видео, не так ли? Вспомните сколько их было в прошлом году. Три?
LaVie - генератор видео по тексту с упором на эстетическую составляющую. Ну и производительность тоже заявлена. Описание на сайте скудное, кнопка Paper ведет обратно на сайт. Надеюсь, починят.
Остается только смотреть примеры
Код
Демо
#text2video
Помните диффузную генерацию картинок за один шаг?
Ребята собрали демку. Ну что, на их черипиканом примере с водопадом InstaFlow проигрывает SD 1.5 не так уж сильно. Вписал пару своих промтов - только доработканапиль рефайнером (а это тоже шаги и время на вычисления) помогает получить на выходе сколь-нибудь внятный результат. Может быть, он хорошо делает пейзажи, или нужно изгаляться с промтами? Не знаю, проверьте.
Вердикт: бесплатную красоту мы пока еще не научились делать, все за большие вычисления.
Демо
#text2image
Ребята собрали демку. Ну что, на их черипиканом примере с водопадом InstaFlow проигрывает SD 1.5 не так уж сильно. Вписал пару своих промтов - только доработка
Вердикт: бесплатную красоту мы пока еще не научились делать, все за большие вычисления.
Демо
#text2image
Media is too big
VIEW IN TELEGRAM
Вернее, это ИИ-ассистент которого они внедряют во все приложения девайсы. Он будет уметь генерировать и редактировать картинки, создавать кастомные стикеры. Умеет ходить в интернет и искать в партнерстве с Bing. Под капотом Llama 2.
В боте уже есть разные персонажи, но интереснее что дадут доступ в AI Studio для разработки пользовательских ИИ
Блог
В боте уже есть разные персонажи, но интереснее что дадут доступ в AI Studio для разработки пользовательских ИИ
Блог
👍2