Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from Сиолошная
OpenAI: ChatGPT теперь слушает, говорит и видит

Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.

Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.

В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.

Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.

OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.

Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Getty Images разродились своим обещанным генератором картинок с искрометным названием Generative AI, обученным на полностью лицензионном датасете. Там можно запросить демо доступ. Не знаю что еще сказать. А, название клевое

#text2image
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections

Генератор открытых 3D-сцен по набору исходных изображений. Видимо, специализируется на ландшафтах. Умеет интерполировать стиль

Код
Демо

#image2scene #imageto3D
Media is too big
VIEW IN TELEGRAM
Spotify запустил пилотную программу ИИ-дубляжа подкастов. Пока только на испанский, французский и немецкий языки.
Под капотом технологии OpenAI, на выходе сохраняется естественный голос оригинального диктора.
Магия будет доступна пользователям премиум-класса бесплатно по всему миру.

#dubbing #voicecloning #speech2speech #localization #podcast
🔥1
BulkCorrector

Ошибок исправлятор. Орфографических и грамматических.
На бесплатном тарифе максимальный объем документа 32000 знаков.
Понадобится ваш API ключ OpenAI.

Похоже, нет поддержки русского языка

Попробовать
Producthunt

#text2text #tools #textediting
verticle.one

Генератор текстурированных 3D-моделей по тексту.
Дают 300 минут времени на генерацию в сутки, что немало. На один промт выдает несколько вариантов генерации за 5-10 минут (видео я ускорил). Сетку и развертку прилагаю

#textto3D
👍102
Media is too big
VIEW IN TELEGRAM
VideoDirectorGPT: Consistent Multi-SceneVideo Generation via LLM-Guided Planning

Многоплановый генератор видео по тексту. Взяли простую идею прогонять текстовый промт через GPT-4 чтобы получить план-сценарий. Далее за дело берется собственно генератор видео, который они назвали Layout2Vid. В результате можно генераить не отдельные кусочки видео, а многоплановые сцены, где соблюдается согласованнность от сцены к сцене (от шота к шоту)

Код обещают выложить

#text2video #text2scene
This media is not supported in your browser
VIEW IN TELEGRAM
LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models

Богатый год на генераторы видео, не так ли? Вспомните сколько их было в прошлом году. Три?

LaVie - генератор видео по тексту с упором на эстетическую составляющую. Ну и производительность тоже заявлена. Описание на сайте скудное, кнопка Paper ведет обратно на сайт. Надеюсь, починят.
Остается только смотреть примеры

Код
Демо

#text2video
Помните диффузную генерацию картинок за один шаг?
Ребята собрали демку. Ну что, на их черипиканом примере с водопадом InstaFlow проигрывает SD 1.5 не так уж сильно. Вписал пару своих промтов - только доработка напиль рефайнером (а это тоже шаги и время на вычисления) помогает получить на выходе сколь-нибудь внятный результат. Может быть, он хорошо делает пейзажи, или нужно изгаляться с промтами? Не знаю, проверьте.

Вердикт: бесплатную красоту мы пока еще не научились делать, все за большие вычисления.

Демо

#text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Meta AI разродилась (-лись?) рядом релизов
Во-первых, ИИ-чатботом

the Verge
Media is too big
VIEW IN TELEGRAM
Вернее, это ИИ-ассистент которого они внедряют во все приложения девайсы. Он будет уметь генерировать и редактировать картинки, создавать кастомные стикеры. Умеет ходить в интернет и искать в партнерстве с Bing. Под капотом Llama 2.

В боте уже есть разные персонажи, но интереснее что дадут доступ в AI Studio для разработки пользовательских ИИ

Блог
👍2
Ну и конечно очки Ray-Ban Meta Smart Glasses

На которых будет что? Правильно, ИИ Meta AI.
Стриминг, видеозапись, звонки, вот это все.
А знаете что самое главное? Для меня как очкарика главное что есть возможность использовать линзы с диоптриями