Какое (авторское) видео вам интереснее в мае 2025?
Anonymous Poll
39%
ИИ-аватары с хорошей мимикой, озвучкой и липсинком
61%
Живые люди
😱8👍6😁3
Аватары: Есть две новости, обе хорошие. Даже три
Вчера отлично проголосовали за аватаров (где еще взять аналитику на 1000+ человек).
Вопрос был о том, какие аватары вам интереснее: кожаные или ИИ-шные?
Новость 1. За кожаных выпивать пока рано. 61%, то есть больше половины предпочитают белковые лица и формы.
Новость 2. 39% алкают ИИ-аватаров - это очень много. Это уже не просто ниша, это багровеющий океан низковисящих кораллов. Не зря там идет такая движуха.
А я напомню, что на этой полянке, кроме Хейгена, аватары которого мы вчера рассматривали, есть еще пара игроков (closed source). Это уже матерая Хедра и молодая Дримина с липсинком наперевес.
Вот нашел сравнение. Первое видео - Хейген, второе(А) - Дримина, третье(В) - Хедра.
Как вам?
Хедра добавляет наверное больше всего "живости" (ну или "шевеляжа" - языком аниматоров). Хейген поругивают на мертвые неподвижные глаза (что правда), но у Хедры они порой становятся безумными и живут сами по себе. Но это дело вкуса. Плюс Хедра до сих пор подмыливает видео. Дримина в этом смысле удачно находится где-то посередине.
В опен-сорсе, ничего сравнимого по качеству (чтобы на минуту-другую оживлять и липсинкать) к сожалению нет.
Хотя... есть третья хорошая новость! Для Fantasy Talking, о котором я писал, появился код!
https://github.com/Fantasy-AMAP/fantasy-talking
Го пробовать весь этот адъ.
@cgevent
Вчера отлично проголосовали за аватаров (где еще взять аналитику на 1000+ человек).
Вопрос был о том, какие аватары вам интереснее: кожаные или ИИ-шные?
Новость 1. За кожаных выпивать пока рано. 61%, то есть больше половины предпочитают белковые лица и формы.
Новость 2. 39% алкают ИИ-аватаров - это очень много. Это уже не просто ниша, это багровеющий океан низковисящих кораллов. Не зря там идет такая движуха.
А я напомню, что на этой полянке, кроме Хейгена, аватары которого мы вчера рассматривали, есть еще пара игроков (closed source). Это уже матерая Хедра и молодая Дримина с липсинком наперевес.
Вот нашел сравнение. Первое видео - Хейген, второе(А) - Дримина, третье(В) - Хедра.
Как вам?
Хедра добавляет наверное больше всего "живости" (ну или "шевеляжа" - языком аниматоров). Хейген поругивают на мертвые неподвижные глаза (что правда), но у Хедры они порой становятся безумными и живут сами по себе. Но это дело вкуса. Плюс Хедра до сих пор подмыливает видео. Дримина в этом смысле удачно находится где-то посередине.
В опен-сорсе, ничего сравнимого по качеству (чтобы на минуту-другую оживлять и липсинкать) к сожалению нет.
Хотя... есть третья хорошая новость! Для Fantasy Talking, о котором я писал, появился код!
https://github.com/Fantasy-AMAP/fantasy-talking
Го пробовать весь этот адъ.
@cgevent
🔥32👍18❤9
Forwarded from Education Scaling Club (Alexander Laryanovskiy)
Мой мир опять рухнул.
И сейчас я пытаюсь для себя переосмыслить роль AI-учителя в новой парадигме.
Что я думал раньше: «он мне не ровня, а значит не может ничему научить».
Ну то есть одна из важнейших задач учителя — мотивация ученика. В самых широких смыслах. От ожидания на урок до похвалы.
Если вас на урок ждет учитель, то урок состоится куда с большей вероятностью, чем если там программка нас зовет уведомлениями прийти на занятие.
Когда препод меня хвалит, это не то же самое, когда меня хвалит софтина.
То есть я думал, что отсутствие субъектности огромная преграда для AI-учителя.
Что происходит на самом деле, что перевернуло мой мир.
Отсутствие этой самой субъектности оказывается не только слабостью, но и — внезапно — сильной стороной алгоритмов.
Во-первых, ученики (взрослые и дети) не стесняются алгоритмов. Банально? Да, но нет.
Тут есть несколько инсайтов для меня.
Люди не стесняются делать ошибки и это помогает им учиться. С людьми — стесняются. С алгоритмами — нет.
AI снижает порог для людей с зависимостью от внешних оценок.
[Тут въедливый критик ИИ скажет, что они так и научатся без преград разговаривать с ботами, но не с людьми. Но нет, оттачивая механики навыков в устной речи, порог боязни разговора с живыми собеседниками падает].
Второй инсайт еще похлеще: люди говорят алгоритмам то, что никогда не скажут знакомым и близким людям.
Я прямо знатно фалломорфировал, когда впервые столкнулся с этим эффектом: люди доверяют алгоритмам вещи, о которых никогда не заговорили бы с близкими.
Один ученик произнёс: «Эх, железка, да разве ты можешь меня понять, если меня каждый день дома бьют…» — и я завис.
Это был тот самый «эффект попутчика в купе»: короткое окно доверия, созданное анонимностью и отсутствием оценки.
Я честно не понимаю пока что с этим делать, но пока кажется, что этот уровень открытости сильно повышает мотивацию продолжать общаться с бездушной софтиной. А это заметный кусочек поддержания мотивации.
Во-вторых, и это видно больше на детях и подростках, алгоритмы не давят на людей своим присутствием.
То есть формат «учитель-на-минутку-мне-только-спросить» когда ты решаешь задачку и надо подтолкнуть наводящим вопросом — он многим ребятам заходит намного больше, чем живой учитель (в классе или онлайн).
Да, тут важно оговориться, что под AI-учителем я не подразумеваю полноценную замену живого человека (это если и случится, то не завтра).
Я называю этим термином набор агентов, то есть специализированных программок, способных решать конкретные прикладные задачи.
Бот, с которым можно тренировать аудирование и речь, он строит диалог по теме, собирает и анализирует ошибки в устной речи.
Бот, который может увидеть ошибку в письменном задании и сократовским методом будет задавать вопросы, пока человек не поймет в чем дело.
Ну и т.д. То есть не «говорящая голова», а набор мелких инструментов, тащящих на себе огромную рутину.
Ну так вот, они, эти mother little helpers оказываются сильно комфортнее.
Их ключевое преимущество — ненавязчивость. Они не требуют постоянного присутствия, их можно вызывать по необходимости. Это делает взаимодействие более «добровольным».
И тут это отсутствие субъектности играет в плюс алгоритмам.
И добила меня ситуация, когда я сам в ходе какого-то диалога с GPT задумался. Она задала уточняющий вопрос и у меня был выбор, ответить коротко, но соврать или ответить правду, но длинным ответом.
В этот момент я поймал себя на мысли, что мне неловко врать железке.
Приплыли, ага.
Это странное и новое ощущение — испытывать моральный дискомфорт перед алгоритмом.
И сейчас я пытаюсь для себя переосмыслить роль AI-учителя в новой парадигме.
Что я думал раньше: «он мне не ровня, а значит не может ничему научить».
Ну то есть одна из важнейших задач учителя — мотивация ученика. В самых широких смыслах. От ожидания на урок до похвалы.
Если вас на урок ждет учитель, то урок состоится куда с большей вероятностью, чем если там программка нас зовет уведомлениями прийти на занятие.
Когда препод меня хвалит, это не то же самое, когда меня хвалит софтина.
То есть я думал, что отсутствие субъектности огромная преграда для AI-учителя.
Что происходит на самом деле, что перевернуло мой мир.
Отсутствие этой самой субъектности оказывается не только слабостью, но и — внезапно — сильной стороной алгоритмов.
Во-первых, ученики (взрослые и дети) не стесняются алгоритмов. Банально? Да, но нет.
Тут есть несколько инсайтов для меня.
Люди не стесняются делать ошибки и это помогает им учиться. С людьми — стесняются. С алгоритмами — нет.
AI снижает порог для людей с зависимостью от внешних оценок.
[Тут въедливый критик ИИ скажет, что они так и научатся без преград разговаривать с ботами, но не с людьми. Но нет, оттачивая механики навыков в устной речи, порог боязни разговора с живыми собеседниками падает].
Второй инсайт еще похлеще: люди говорят алгоритмам то, что никогда не скажут знакомым и близким людям.
Я прямо знатно фалломорфировал, когда впервые столкнулся с этим эффектом: люди доверяют алгоритмам вещи, о которых никогда не заговорили бы с близкими.
Один ученик произнёс: «Эх, железка, да разве ты можешь меня понять, если меня каждый день дома бьют…» — и я завис.
Это был тот самый «эффект попутчика в купе»: короткое окно доверия, созданное анонимностью и отсутствием оценки.
Я честно не понимаю пока что с этим делать, но пока кажется, что этот уровень открытости сильно повышает мотивацию продолжать общаться с бездушной софтиной. А это заметный кусочек поддержания мотивации.
Во-вторых, и это видно больше на детях и подростках, алгоритмы не давят на людей своим присутствием.
То есть формат «учитель-на-минутку-мне-только-спросить» когда ты решаешь задачку и надо подтолкнуть наводящим вопросом — он многим ребятам заходит намного больше, чем живой учитель (в классе или онлайн).
Да, тут важно оговориться, что под AI-учителем я не подразумеваю полноценную замену живого человека (это если и случится, то не завтра).
Я называю этим термином набор агентов, то есть специализированных программок, способных решать конкретные прикладные задачи.
Бот, с которым можно тренировать аудирование и речь, он строит диалог по теме, собирает и анализирует ошибки в устной речи.
Бот, который может увидеть ошибку в письменном задании и сократовским методом будет задавать вопросы, пока человек не поймет в чем дело.
Ну и т.д. То есть не «говорящая голова», а набор мелких инструментов, тащящих на себе огромную рутину.
Ну так вот, они, эти mother little helpers оказываются сильно комфортнее.
Их ключевое преимущество — ненавязчивость. Они не требуют постоянного присутствия, их можно вызывать по необходимости. Это делает взаимодействие более «добровольным».
И тут это отсутствие субъектности играет в плюс алгоритмам.
И добила меня ситуация, когда я сам в ходе какого-то диалога с GPT задумался. Она задала уточняющий вопрос и у меня был выбор, ответить коротко, но соврать или ответить правду, но длинным ответом.
В этот момент я поймал себя на мысли, что мне неловко врать железке.
Приплыли, ага.
Это странное и новое ощущение — испытывать моральный дискомфорт перед алгоритмом.
5👍152❤53🔥35👎6😁3
Media is too big
VIEW IN TELEGRAM
Upscale видео прямо в Krea.ai
Если вы пропустили, то в Krea Enhancer завезли сам Topaz. Можно разгонять до 8К и 120FPS.
@cgevent
Если вы пропустили, то в Krea Enhancer завезли сам Topaz. Можно разгонять до 8К и 120FPS.
@cgevent
👍42🔥26😱4👎3❤2
Управление камерой для генерации картинок в chatGPT.
Получается такой одновременный отлет и outpaint картинки.
Промпт: Представь себе вид с дрона с высоты 200 метров, смотрящего прямо вниз. Подумайте, сколько деталей ты увидишь с такой высоты. А теперь напиши промпт, который четко описывает эту сцену, и создай изображение.
Imagine a drone view from 500 feet above, looking straight down. Think of all the details you'd see from that height. Now, write a prompt that describes this scene clearly and create an image.
Можете попробовать другие виды камер\ракурсов вместо drone view.
Тут забрал
@cgevent
Получается такой одновременный отлет и outpaint картинки.
Промпт: Представь себе вид с дрона с высоты 200 метров, смотрящего прямо вниз. Подумайте, сколько деталей ты увидишь с такой высоты. А теперь напиши промпт, который четко описывает эту сцену, и создай изображение.
Imagine a drone view from 500 feet above, looking straight down. Think of all the details you'd see from that height. Now, write a prompt that describes this scene clearly and create an image.
Можете попробовать другие виды камер\ракурсов вместо drone view.
Тут забрал
@cgevent
👍47❤16🔥9👎7
This media is not supported in your browser
VIEW IN TELEGRAM
Вы наверное не будете смеяться, но у нас новая видеоМодель.
Это HunyuanCustom - и это скорее огромный ControlNet поверх(спереди?) HunyuanVideo-13B.
Они постулируют, что полностью переделали модуль работы с текстом и токенами на базе LLaVa и сделали его мультимодальным, да, можно на вход подавать текст, картинки(много), видео, и даже звук:
Вuilt upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms.
По идее модель должна в разы лучше слушаться промпта и понимать ваши фантазии.
Как следствие нас ждут вот такие ништяки:
1️⃣Single-Subject Video: Upload an image + text (e.g., “He’s walking a dog”) to create coherent videos with new actions, outfits, and scenes.
2️⃣Multi-Subject Video: Generate videos with multiple subjects (e.g., a man drinking coffee in a cozy room) from separate image inputs.
3️⃣Audio-Driven Video: Sync audio with visuals for talking or singing in any scene—perfect for digital avatars, virtual customer service, and more.
4️⃣Video-Driven Video: Seamlessly insert or replace subjects into any video for creative enhancements.
Потестить сегодня не успеваю, но для алкающих скажу, что вам понадобиться 80GB VRAM для 720px1280px129f и 60GB для 512px896px129f. С чем вас и поздравляю. Говорят, что будет работать на 24GB, но ооочень медленно.
Наверное к понедельнику уже появятся пожатые веса и магия от Киджая.
Код есть (Линукс): https://github.com/Tencent/HunyuanCustom
Описание и проект: https://hunyuancustom.github.io/
А вот тут пожете попробовать попробовать: https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
Выбирайте регистрацию имейлом. И пишите в чат, что получилось.
(у меня уже полтора часа как "Задачи поставлены в очередь...")
@cgevent
Это HunyuanCustom - и это скорее огромный ControlNet поверх(спереди?) HunyuanVideo-13B.
Они постулируют, что полностью переделали модуль работы с текстом и токенами на базе LLaVa и сделали его мультимодальным, да, можно на вход подавать текст, картинки(много), видео, и даже звук:
Вuilt upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms.
По идее модель должна в разы лучше слушаться промпта и понимать ваши фантазии.
Как следствие нас ждут вот такие ништяки:
1️⃣Single-Subject Video: Upload an image + text (e.g., “He’s walking a dog”) to create coherent videos with new actions, outfits, and scenes.
2️⃣Multi-Subject Video: Generate videos with multiple subjects (e.g., a man drinking coffee in a cozy room) from separate image inputs.
3️⃣Audio-Driven Video: Sync audio with visuals for talking or singing in any scene—perfect for digital avatars, virtual customer service, and more.
4️⃣Video-Driven Video: Seamlessly insert or replace subjects into any video for creative enhancements.
Потестить сегодня не успеваю, но для алкающих скажу, что вам понадобиться 80GB VRAM для 720px1280px129f и 60GB для 512px896px129f. С чем вас и поздравляю. Говорят, что будет работать на 24GB, но ооочень медленно.
Наверное к понедельнику уже появятся пожатые веса и магия от Киджая.
Код есть (Линукс): https://github.com/Tencent/HunyuanCustom
Описание и проект: https://hunyuancustom.github.io/
А вот тут пожете попробовать попробовать: https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
Выбирайте регистрацию имейлом. И пишите в чат, что получилось.
(у меня уже полтора часа как "Задачи поставлены в очередь...")
@cgevent
5🔥22👍7😁5👎1
Хмм.. любопытно.. chatGPT как rendering-движок, понимающий материалы.
Похоже у него в мозгах есть понимание того, как устроены шейдеры (начитался интернетика).
Более того, вы можете попробовать попросить его самого написать шейдеры в формате JSON.
А потом дать ему любую картинку и сказать - перетекстурируй.
Я попробовал на фотках и генерациях, а вы попробуйте на скринах из Блендора. И своих материалах.
Получается chatRenderMan какой-то.
Промпт:
@cgevent
Похоже у него в мозгах есть понимание того, как устроены шейдеры (начитался интернетика).
Более того, вы можете попробовать попросить его самого написать шейдеры в формате JSON.
А потом дать ему любую картинку и сказать - перетекстурируй.
Я попробовал на фотках и генерациях, а вы попробуйте на скринах из Блендора. И своих материалах.
Получается chatRenderMan какой-то.
Промпт:
retexture the whole attached image based on the JSON aesthetic below
{
"style": "photorealistic 3D render",
"material": "glass with transparent and iridescent effects",
"surface_texture": "smooth, polished with subtle reflections and refractive effects",
"lighting": {
"type": "studio HDRI",
"intensity": "high",
"direction": "angled top-left key light and ambient fill",
"accent_colors": ["blue", "green", "purple"],
"reflections": true,
"refractions": true,
"dispersion_effects": true,
"bloom": true
},
"color_scheme": {
"primary": "transparent with iridescent blue, green, and purple hues",
"secondary": "crystal-clear with subtle chromatic shifts",
"highlights": "soft, glowing accents reflecting rainbow-like effects",
"rim_light": "soft reflective light around edges"
},
"background": {
"color": "black",
"vignette": true,
"texture": "none"
},
"post_processing": {
"chromatic_aberration": true,
"glow": true,
"high_contrast": true,
"sharp_details": true
}
}
@cgevent
🔥69❤26👍22👎1😁1