This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
HeyGen Avatar IV - это просто огнищще.
На входе ОДНА фотка и ваш текст.
Всё.
Похоже тема липсинка близка к закрытию.
Но это еще не все. Оно работает с анимационными персонажами, и даже с животными! Как они это сделали, не понимаю.
И да, русский поддерживается.
https://x.com/HeyGen_Official/status/1919824467821551828
@cgevent
На входе ОДНА фотка и ваш текст.
Всё.
Похоже тема липсинка близка к закрытию.
Но это еще не все. Оно работает с анимационными персонажами, и даже с животными! Как они это сделали, не понимаю.
И да, русский поддерживается.
https://x.com/HeyGen_Official/status/1919824467821551828
@cgevent
🔥82👍23👎7❤5
Media is too big
VIEW IN TELEGRAM
HeyGen Avatar IV - вот держите версию с животными. Это же просто космос.
Я помню был такой фильм "Кошки против собак" и Женя Вендровский рассказывал в конце нулевых, как они мучились, чтобы заставить тварей говорить (у них челюсти не подходят для этого). Риг был на миллион, а бюджет на графику и того дороже.
А сейчас - апажалста!
Версия в 4K для любителей кино:
https://www.youtube.com/watch?v=dpbP3Kj79ig
@cgevent
Я помню был такой фильм "Кошки против собак" и Женя Вендровский рассказывал в конце нулевых, как они мучились, чтобы заставить тварей говорить (у них челюсти не подходят для этого). Риг был на миллион, а бюджет на графику и того дороже.
А сейчас - апажалста!
Версия в 4K для любителей кино:
https://www.youtube.com/watch?v=dpbP3Kj79ig
@cgevent
2🔥98👍19❤9😁6👎1
Какое (авторское) видео вам интереснее в мае 2025?
Anonymous Poll
39%
ИИ-аватары с хорошей мимикой, озвучкой и липсинком
61%
Живые люди
😱8👍6😁3
Аватары: Есть две новости, обе хорошие. Даже три
Вчера отлично проголосовали за аватаров (где еще взять аналитику на 1000+ человек).
Вопрос был о том, какие аватары вам интереснее: кожаные или ИИ-шные?
Новость 1. За кожаных выпивать пока рано. 61%, то есть больше половины предпочитают белковые лица и формы.
Новость 2. 39% алкают ИИ-аватаров - это очень много. Это уже не просто ниша, это багровеющий океан низковисящих кораллов. Не зря там идет такая движуха.
А я напомню, что на этой полянке, кроме Хейгена, аватары которого мы вчера рассматривали, есть еще пара игроков (closed source). Это уже матерая Хедра и молодая Дримина с липсинком наперевес.
Вот нашел сравнение. Первое видео - Хейген, второе(А) - Дримина, третье(В) - Хедра.
Как вам?
Хедра добавляет наверное больше всего "живости" (ну или "шевеляжа" - языком аниматоров). Хейген поругивают на мертвые неподвижные глаза (что правда), но у Хедры они порой становятся безумными и живут сами по себе. Но это дело вкуса. Плюс Хедра до сих пор подмыливает видео. Дримина в этом смысле удачно находится где-то посередине.
В опен-сорсе, ничего сравнимого по качеству (чтобы на минуту-другую оживлять и липсинкать) к сожалению нет.
Хотя... есть третья хорошая новость! Для Fantasy Talking, о котором я писал, появился код!
https://github.com/Fantasy-AMAP/fantasy-talking
Го пробовать весь этот адъ.
@cgevent
Вчера отлично проголосовали за аватаров (где еще взять аналитику на 1000+ человек).
Вопрос был о том, какие аватары вам интереснее: кожаные или ИИ-шные?
Новость 1. За кожаных выпивать пока рано. 61%, то есть больше половины предпочитают белковые лица и формы.
Новость 2. 39% алкают ИИ-аватаров - это очень много. Это уже не просто ниша, это багровеющий океан низковисящих кораллов. Не зря там идет такая движуха.
А я напомню, что на этой полянке, кроме Хейгена, аватары которого мы вчера рассматривали, есть еще пара игроков (closed source). Это уже матерая Хедра и молодая Дримина с липсинком наперевес.
Вот нашел сравнение. Первое видео - Хейген, второе(А) - Дримина, третье(В) - Хедра.
Как вам?
Хедра добавляет наверное больше всего "живости" (ну или "шевеляжа" - языком аниматоров). Хейген поругивают на мертвые неподвижные глаза (что правда), но у Хедры они порой становятся безумными и живут сами по себе. Но это дело вкуса. Плюс Хедра до сих пор подмыливает видео. Дримина в этом смысле удачно находится где-то посередине.
В опен-сорсе, ничего сравнимого по качеству (чтобы на минуту-другую оживлять и липсинкать) к сожалению нет.
Хотя... есть третья хорошая новость! Для Fantasy Talking, о котором я писал, появился код!
https://github.com/Fantasy-AMAP/fantasy-talking
Го пробовать весь этот адъ.
@cgevent
🔥32👍18❤9
Forwarded from Education Scaling Club (Alexander Laryanovskiy)
Мой мир опять рухнул.
И сейчас я пытаюсь для себя переосмыслить роль AI-учителя в новой парадигме.
Что я думал раньше: «он мне не ровня, а значит не может ничему научить».
Ну то есть одна из важнейших задач учителя — мотивация ученика. В самых широких смыслах. От ожидания на урок до похвалы.
Если вас на урок ждет учитель, то урок состоится куда с большей вероятностью, чем если там программка нас зовет уведомлениями прийти на занятие.
Когда препод меня хвалит, это не то же самое, когда меня хвалит софтина.
То есть я думал, что отсутствие субъектности огромная преграда для AI-учителя.
Что происходит на самом деле, что перевернуло мой мир.
Отсутствие этой самой субъектности оказывается не только слабостью, но и — внезапно — сильной стороной алгоритмов.
Во-первых, ученики (взрослые и дети) не стесняются алгоритмов. Банально? Да, но нет.
Тут есть несколько инсайтов для меня.
Люди не стесняются делать ошибки и это помогает им учиться. С людьми — стесняются. С алгоритмами — нет.
AI снижает порог для людей с зависимостью от внешних оценок.
[Тут въедливый критик ИИ скажет, что они так и научатся без преград разговаривать с ботами, но не с людьми. Но нет, оттачивая механики навыков в устной речи, порог боязни разговора с живыми собеседниками падает].
Второй инсайт еще похлеще: люди говорят алгоритмам то, что никогда не скажут знакомым и близким людям.
Я прямо знатно фалломорфировал, когда впервые столкнулся с этим эффектом: люди доверяют алгоритмам вещи, о которых никогда не заговорили бы с близкими.
Один ученик произнёс: «Эх, железка, да разве ты можешь меня понять, если меня каждый день дома бьют…» — и я завис.
Это был тот самый «эффект попутчика в купе»: короткое окно доверия, созданное анонимностью и отсутствием оценки.
Я честно не понимаю пока что с этим делать, но пока кажется, что этот уровень открытости сильно повышает мотивацию продолжать общаться с бездушной софтиной. А это заметный кусочек поддержания мотивации.
Во-вторых, и это видно больше на детях и подростках, алгоритмы не давят на людей своим присутствием.
То есть формат «учитель-на-минутку-мне-только-спросить» когда ты решаешь задачку и надо подтолкнуть наводящим вопросом — он многим ребятам заходит намного больше, чем живой учитель (в классе или онлайн).
Да, тут важно оговориться, что под AI-учителем я не подразумеваю полноценную замену живого человека (это если и случится, то не завтра).
Я называю этим термином набор агентов, то есть специализированных программок, способных решать конкретные прикладные задачи.
Бот, с которым можно тренировать аудирование и речь, он строит диалог по теме, собирает и анализирует ошибки в устной речи.
Бот, который может увидеть ошибку в письменном задании и сократовским методом будет задавать вопросы, пока человек не поймет в чем дело.
Ну и т.д. То есть не «говорящая голова», а набор мелких инструментов, тащящих на себе огромную рутину.
Ну так вот, они, эти mother little helpers оказываются сильно комфортнее.
Их ключевое преимущество — ненавязчивость. Они не требуют постоянного присутствия, их можно вызывать по необходимости. Это делает взаимодействие более «добровольным».
И тут это отсутствие субъектности играет в плюс алгоритмам.
И добила меня ситуация, когда я сам в ходе какого-то диалога с GPT задумался. Она задала уточняющий вопрос и у меня был выбор, ответить коротко, но соврать или ответить правду, но длинным ответом.
В этот момент я поймал себя на мысли, что мне неловко врать железке.
Приплыли, ага.
Это странное и новое ощущение — испытывать моральный дискомфорт перед алгоритмом.
И сейчас я пытаюсь для себя переосмыслить роль AI-учителя в новой парадигме.
Что я думал раньше: «он мне не ровня, а значит не может ничему научить».
Ну то есть одна из важнейших задач учителя — мотивация ученика. В самых широких смыслах. От ожидания на урок до похвалы.
Если вас на урок ждет учитель, то урок состоится куда с большей вероятностью, чем если там программка нас зовет уведомлениями прийти на занятие.
Когда препод меня хвалит, это не то же самое, когда меня хвалит софтина.
То есть я думал, что отсутствие субъектности огромная преграда для AI-учителя.
Что происходит на самом деле, что перевернуло мой мир.
Отсутствие этой самой субъектности оказывается не только слабостью, но и — внезапно — сильной стороной алгоритмов.
Во-первых, ученики (взрослые и дети) не стесняются алгоритмов. Банально? Да, но нет.
Тут есть несколько инсайтов для меня.
Люди не стесняются делать ошибки и это помогает им учиться. С людьми — стесняются. С алгоритмами — нет.
AI снижает порог для людей с зависимостью от внешних оценок.
[Тут въедливый критик ИИ скажет, что они так и научатся без преград разговаривать с ботами, но не с людьми. Но нет, оттачивая механики навыков в устной речи, порог боязни разговора с живыми собеседниками падает].
Второй инсайт еще похлеще: люди говорят алгоритмам то, что никогда не скажут знакомым и близким людям.
Я прямо знатно фалломорфировал, когда впервые столкнулся с этим эффектом: люди доверяют алгоритмам вещи, о которых никогда не заговорили бы с близкими.
Один ученик произнёс: «Эх, железка, да разве ты можешь меня понять, если меня каждый день дома бьют…» — и я завис.
Это был тот самый «эффект попутчика в купе»: короткое окно доверия, созданное анонимностью и отсутствием оценки.
Я честно не понимаю пока что с этим делать, но пока кажется, что этот уровень открытости сильно повышает мотивацию продолжать общаться с бездушной софтиной. А это заметный кусочек поддержания мотивации.
Во-вторых, и это видно больше на детях и подростках, алгоритмы не давят на людей своим присутствием.
То есть формат «учитель-на-минутку-мне-только-спросить» когда ты решаешь задачку и надо подтолкнуть наводящим вопросом — он многим ребятам заходит намного больше, чем живой учитель (в классе или онлайн).
Да, тут важно оговориться, что под AI-учителем я не подразумеваю полноценную замену живого человека (это если и случится, то не завтра).
Я называю этим термином набор агентов, то есть специализированных программок, способных решать конкретные прикладные задачи.
Бот, с которым можно тренировать аудирование и речь, он строит диалог по теме, собирает и анализирует ошибки в устной речи.
Бот, который может увидеть ошибку в письменном задании и сократовским методом будет задавать вопросы, пока человек не поймет в чем дело.
Ну и т.д. То есть не «говорящая голова», а набор мелких инструментов, тащящих на себе огромную рутину.
Ну так вот, они, эти mother little helpers оказываются сильно комфортнее.
Их ключевое преимущество — ненавязчивость. Они не требуют постоянного присутствия, их можно вызывать по необходимости. Это делает взаимодействие более «добровольным».
И тут это отсутствие субъектности играет в плюс алгоритмам.
И добила меня ситуация, когда я сам в ходе какого-то диалога с GPT задумался. Она задала уточняющий вопрос и у меня был выбор, ответить коротко, но соврать или ответить правду, но длинным ответом.
В этот момент я поймал себя на мысли, что мне неловко врать железке.
Приплыли, ага.
Это странное и новое ощущение — испытывать моральный дискомфорт перед алгоритмом.
5👍152❤53🔥35👎6😁3
Media is too big
VIEW IN TELEGRAM
Upscale видео прямо в Krea.ai
Если вы пропустили, то в Krea Enhancer завезли сам Topaz. Можно разгонять до 8К и 120FPS.
@cgevent
Если вы пропустили, то в Krea Enhancer завезли сам Topaz. Можно разгонять до 8К и 120FPS.
@cgevent
👍42🔥26😱4👎3❤2
Управление камерой для генерации картинок в chatGPT.
Получается такой одновременный отлет и outpaint картинки.
Промпт: Представь себе вид с дрона с высоты 200 метров, смотрящего прямо вниз. Подумайте, сколько деталей ты увидишь с такой высоты. А теперь напиши промпт, который четко описывает эту сцену, и создай изображение.
Imagine a drone view from 500 feet above, looking straight down. Think of all the details you'd see from that height. Now, write a prompt that describes this scene clearly and create an image.
Можете попробовать другие виды камер\ракурсов вместо drone view.
Тут забрал
@cgevent
Получается такой одновременный отлет и outpaint картинки.
Промпт: Представь себе вид с дрона с высоты 200 метров, смотрящего прямо вниз. Подумайте, сколько деталей ты увидишь с такой высоты. А теперь напиши промпт, который четко описывает эту сцену, и создай изображение.
Imagine a drone view from 500 feet above, looking straight down. Think of all the details you'd see from that height. Now, write a prompt that describes this scene clearly and create an image.
Можете попробовать другие виды камер\ракурсов вместо drone view.
Тут забрал
@cgevent
👍47❤16🔥9👎7
This media is not supported in your browser
VIEW IN TELEGRAM
Вы наверное не будете смеяться, но у нас новая видеоМодель.
Это HunyuanCustom - и это скорее огромный ControlNet поверх(спереди?) HunyuanVideo-13B.
Они постулируют, что полностью переделали модуль работы с текстом и токенами на базе LLaVa и сделали его мультимодальным, да, можно на вход подавать текст, картинки(много), видео, и даже звук:
Вuilt upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms.
По идее модель должна в разы лучше слушаться промпта и понимать ваши фантазии.
Как следствие нас ждут вот такие ништяки:
1️⃣Single-Subject Video: Upload an image + text (e.g., “He’s walking a dog”) to create coherent videos with new actions, outfits, and scenes.
2️⃣Multi-Subject Video: Generate videos with multiple subjects (e.g., a man drinking coffee in a cozy room) from separate image inputs.
3️⃣Audio-Driven Video: Sync audio with visuals for talking or singing in any scene—perfect for digital avatars, virtual customer service, and more.
4️⃣Video-Driven Video: Seamlessly insert or replace subjects into any video for creative enhancements.
Потестить сегодня не успеваю, но для алкающих скажу, что вам понадобиться 80GB VRAM для 720px1280px129f и 60GB для 512px896px129f. С чем вас и поздравляю. Говорят, что будет работать на 24GB, но ооочень медленно.
Наверное к понедельнику уже появятся пожатые веса и магия от Киджая.
Код есть (Линукс): https://github.com/Tencent/HunyuanCustom
Описание и проект: https://hunyuancustom.github.io/
А вот тут пожете попробовать попробовать: https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
Выбирайте регистрацию имейлом. И пишите в чат, что получилось.
(у меня уже полтора часа как "Задачи поставлены в очередь...")
@cgevent
Это HunyuanCustom - и это скорее огромный ControlNet поверх(спереди?) HunyuanVideo-13B.
Они постулируют, что полностью переделали модуль работы с текстом и токенами на базе LLaVa и сделали его мультимодальным, да, можно на вход подавать текст, картинки(много), видео, и даже звук:
Вuilt upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms.
По идее модель должна в разы лучше слушаться промпта и понимать ваши фантазии.
Как следствие нас ждут вот такие ништяки:
1️⃣Single-Subject Video: Upload an image + text (e.g., “He’s walking a dog”) to create coherent videos with new actions, outfits, and scenes.
2️⃣Multi-Subject Video: Generate videos with multiple subjects (e.g., a man drinking coffee in a cozy room) from separate image inputs.
3️⃣Audio-Driven Video: Sync audio with visuals for talking or singing in any scene—perfect for digital avatars, virtual customer service, and more.
4️⃣Video-Driven Video: Seamlessly insert or replace subjects into any video for creative enhancements.
Потестить сегодня не успеваю, но для алкающих скажу, что вам понадобиться 80GB VRAM для 720px1280px129f и 60GB для 512px896px129f. С чем вас и поздравляю. Говорят, что будет работать на 24GB, но ооочень медленно.
Наверное к понедельнику уже появятся пожатые веса и магия от Киджая.
Код есть (Линукс): https://github.com/Tencent/HunyuanCustom
Описание и проект: https://hunyuancustom.github.io/
А вот тут пожете попробовать попробовать: https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
Выбирайте регистрацию имейлом. И пишите в чат, что получилось.
(у меня уже полтора часа как "Задачи поставлены в очередь...")
@cgevent
5🔥22👍7😁5👎1
Хмм.. любопытно.. chatGPT как rendering-движок, понимающий материалы.
Похоже у него в мозгах есть понимание того, как устроены шейдеры (начитался интернетика).
Более того, вы можете попробовать попросить его самого написать шейдеры в формате JSON.
А потом дать ему любую картинку и сказать - перетекстурируй.
Я попробовал на фотках и генерациях, а вы попробуйте на скринах из Блендора. И своих материалах.
Получается chatRenderMan какой-то.
Промпт:
@cgevent
Похоже у него в мозгах есть понимание того, как устроены шейдеры (начитался интернетика).
Более того, вы можете попробовать попросить его самого написать шейдеры в формате JSON.
А потом дать ему любую картинку и сказать - перетекстурируй.
Я попробовал на фотках и генерациях, а вы попробуйте на скринах из Блендора. И своих материалах.
Получается chatRenderMan какой-то.
Промпт:
retexture the whole attached image based on the JSON aesthetic below
{
"style": "photorealistic 3D render",
"material": "glass with transparent and iridescent effects",
"surface_texture": "smooth, polished with subtle reflections and refractive effects",
"lighting": {
"type": "studio HDRI",
"intensity": "high",
"direction": "angled top-left key light and ambient fill",
"accent_colors": ["blue", "green", "purple"],
"reflections": true,
"refractions": true,
"dispersion_effects": true,
"bloom": true
},
"color_scheme": {
"primary": "transparent with iridescent blue, green, and purple hues",
"secondary": "crystal-clear with subtle chromatic shifts",
"highlights": "soft, glowing accents reflecting rainbow-like effects",
"rim_light": "soft reflective light around edges"
},
"background": {
"color": "black",
"vignette": true,
"texture": "none"
},
"post_processing": {
"chromatic_aberration": true,
"glow": true,
"high_contrast": true,
"sharp_details": true
}
}
@cgevent
🔥69❤26👍22👎1😁1