Метаверсище и ИИще – Telegram
Метаверсище и ИИще
46.8K subscribers
5.93K photos
4.35K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Nano Banana Pro раскатали в Gemini

https://gemini.google.com/app

Nano Banana Pro - это то же самое, что и Nano Banana 2.

Вот с такой задачей не справлялся никто:

Plot sin(x) from 0 to 2*pi. Generate the resulting graph image. make picture christmas style

Новая Банана справилась.

Поехали тестировать, а я пособираю деталей про разрешение и другие параметры.

@cgevent
1🔥69👍8👎2😁21
Для сравнения: вот так делали chatGPT-Image-1(красным) и старая Banana.

Plot sin(x) from 0 to 2*pi. Generate the resulting graph image. make picture christmas style

Внутри новой Нанабананыпро мозги от Gemini 3 Pro.

@cgevent
30🔥13👍3😁2
Цветик-семицветик.

Я возлагал большие надежды, что Банана Про справится с семицветиком без костылей.

Но нет.

Generate flower with exactly SEVEN red petals - дает 8 лепестков. Проверено в паре новых чатов.

Приходится использовать ее же мозги и редактирующие способности.

Generate flower with exactly SEVEN petals, count them during creation - получаем цветик-семицветик с пронумерованными лепестками

remove digits - получаем что хотели вначале, семицветик без циферок.

@cgevent
😁58👍2910
НанабананаПро добавили на Fal.ai

Там можно подсмотреть за разрешения и аспекты.

Аспекты практически любые, кроме экзотики.
Разрешение указано 1К, 2К, 4К.

Похоже Банану можно будет использовать как апскейлер.

И еще, я смог прицепить на вход 20 референсных изображений (и тут у меня кончились кредиты).

Читал в твитторе, что новая Банана принимает на вход до 14 изображений, но надо проверять.

@cgevent
🔥207😱7👍4
В общем, НанабананаПро шествует по планете.

Уже завезли на Freepik и много еще куда. Даже в Фотошоп.

Качество, конечно, бомба, следование промпту космическое, но я отмечу еще пару вещей, которые мы никак доселе не ассоциировали с генераторами картинок.

1. Работа с текстом. Это не просто надпись приклеить без ошибок, это работа с текстом на уровне LLM.
Как пример - локализация рекламы. Вы просто можете попросить ея перевести все (достаточно разборчивые) надписи
на картинке на другой язык.

2. Работа с поиском и вообще со знаниями. Она, наминутчку, может искать в интернете. И делать, скажем так, актуальные картинки. У нее там Gemini 3 на побегушках.

3. Из этого следует, что в ней вообще-то теперь можно делать презентации. Текст, данные, аналитика, выводы. И макеты. И схемы.

4. И да, 14(!) картинок на входе, как референсы для консистентности, например.

5. Ну и понимает и описывает картинки она потрясающе.

@cgevent
😱5242🔥25👍9
Чтобы протестировать 14 картинок-референсов на входе в новую Банану, ловите промокод на 5$ на fal.ai

NANOBANANAPRO2


Хорошего тестирования!

@cgevent
🔥6224👍4
Ну и финально про новую Нанабанану - в блоге Гугла.

С цифрами, промптами и примерами.

https://deepmind.google/models/gemini-image/pro/

@cgevent
👍28🔥17
Ну, за архвизеров.

Нанабананища реально изучает входное изображение, а потом генерит рендер по чертежам.

@cgevent
🔥100😱426👍4👎1😁1
Ну, за концептеров.

Библия персонажа. Промпт на русском:

Создай полный character asset sheet для маскота по имени «Болт, молниеносный лис», демонстрирующий идеальную согласованность в 6 различных позах и контекстах; разработайте Болта как дружелюбного мультяшного лиса с характерными чертами (ярко-оранжевая шерсть, электрически-синяя молния на лбу, зеленые глаза, всегда носит маленький желтый шарф); покажите Болта в 6 вариациях: стоя в нейтральной позе, в позе бегущего, прыгающего от возбуждения, сидящего в расслабленной позе, махающего рукой в знак приветствия и в крупном плане, расположенных в сетке 2x3; сохраните абсолютную согласованность всех отличительных черт (точный цвет меха FF6B35, точная форма и положение молнии, точный дизайн шарфа, одинаковый стиль глаз, одинаковые пропорции) во всех вариациях, добавьте справочную палитру цветов и ключевые размеры сбоку, используйте чистую иллюстрацию в векторном стиле с одинаковой толщиной линий и стилем затенения, и убедитесь, что это выглядит как профессиональная библия персонажа, которую аниматоры или дизайнеры бренда могут использовать для согласованной реализации.

@cgevent
🔥70👍2314👎5
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и передохнем от Нанабананы на сегодня.

Есть же вечные ценности в этом мире: смотреть на закат, раскрывать тему сисек.

А лучше все сразу и одновременно.

Ведь для чего ИИ пришел в этот мир? Сделать его лучше, так ведь?

@cgevent
1😁16030👎13👍9😱5
Media is too big
VIEW IN TELEGRAM
HunyuanVideo-1.5: A leading lightweight video generation model

Хуньяньский выпустил новую версию своего опенсорсного видеогенератора.

Главная фича - "небольшое" количество параметров (8.3В) и, как следствие, сниженное потребление памяти.
Пишут, что если включить offload to CPU (и просесть по скорости) по можно упихаться в 14GB VRAM, что совсем неплохо по нынешним жестоким VRAM-временам.

Внутри есть апскейл видео до 1080р и поддержка Комфи.

Сайт: https://hunyuan.tencent.com/video/en?tabIndex=0
Код: https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5
Веса: https://huggingface.co/tencent/HunyuanVideo-1.5

@cgevent
🔥366👍1👎1
Про Нанабабана Про

Боюсь сегодня будет небольшой марафон про Бананскую.
Ибо многие воспринимают новую версию просто как апгрейд прошлой.
Но суть не в том, насколько выросло качество (хотя одно 4К чего стоит), а насколько выросло количество применений Бананы за пределами генерации и редактирования картинок.
Я не зря писал про презентации и инфографику - новую Нанабанану завезли в NotebookLM - и там ей есть где развернуться.

Поглядите видосы: NotebookLM теперь умеет генерить наборы слайдов, разные графики-объясняторы, диаграммы и делать на основе всего этого видео-презентации.

В этом смысле у Гугла есть огромное преимущество - им есть куда присовывать новые модели - в свои же продукты.

В отличие от OpenAI, которым кроме как в службу одного окна (chatGPT) присовывать особо некуда. Атлас не взлетел...

@cgevent
🔥545
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за переодеваторы.

Хотя тут речь скорее за одеватор - не уверен, что Бананская будет благоволить к бикини.
Но присунуть ей бикини на вход и сказать одень во все приличное с референса - можно.

Промпт: "Style the woman in the top of the image, with every article of clothing on the bottom"
Референсы зашиты все в одну картинку.

Переодеваторам остаются ниши нижнего белья и отсутствия белья...

@cgevent
👍389👎2
В отличие от других генераторов Нанабананская легко генерит по 8-10 картинок за один проход. Причем это не вариации одной картинки, а, например, комикс или визуальная новелла с историей развития.

Промпт: Создай увлекательную историю из 8 частей с 8 изображениями, в которой два синих персонажа переживают приключения на музыкальной сцене 1960-х годов. История наполнена эмоциональными взлетами и падениями, а в конце вас ждет неожиданный поворот и яркая кульминация. Не добавляйте никаких слов или текста на изображения, расскажите историю исключительно с помощью изображений.

Банана долго пыхтела, я, грит, пишу эмоциональные арки и подбираюсь к финалу... очень круто наблюдать за ее рассуждениями - есть чему поучиться создателям нейропрожарок.

Потом выдала простыню из текста и картинок - это хорошая раскадровка с коментами.

Телега порядок, конечно, перепутает, но вы разберетесь.

Теперь забавное: роль главного злодея играет почему-то Джон Хэмм из сериала "Рекламщики", хотя я Банану об этом не просил. Иногда он два раза в одном кадре появляется.

Ну и скачивать такие картинки из Gemini надо аккуратно, она затирает предыдущую, используя одинаковое имя файла. Я скачал лоу-рез, хотя она нагенерила все в 2К по дефолту.

Хотите узнать еще больше трюков, шуруйте в кукбук новой Бананы:
https://colab.research.google.com/github/google-gemini/cookbook/blob/main/quickstarts/Get_Started_Nano_Banana.ipynb

@cgevent
43🔥17😱10👍8