Очередное расследование🔎
Недавно друг прислал мне чудесную фотографию Луны (слева) 🌕, которая не могла меня не заинтересовать.
Подпись к фотографии: Вечерняя Луна над вершиной Монте-Визо и башней в Турине. Автор фото: Valerio Minato, 15 декабря 2023 года.
Я часто имею дело со сгенерированными изображениями, и сразу закралось сомнение: не фейк ли это? 🤔 Ища источники изображения, обнаружила похожую фотографию (справа), опубликованную в 2022 году в запрещенной в РФ соцсети Instagram 📸.
Так как именно был подобран ракурс и место съёмки? Оказывается, астрофотографы действительно планируют свои работы заранее, и используют для этого цифровые инструменты 🌌🔭.
Для съёмки правого изображения было использовано приложение PhotoPills. Оно отнюдь не новое, вышло на Андроид ещё в 2017. В приложении есть различные калькуляторы и инструменты планирования, каждый из которых помогает фотографам в разных аспектах их работы, например:
Калькулятор Солнца помогает фотографам понять положение и движение солнца в течение дня ☀️. Он полезен для планирования съемок во время золотого часа, синего часа, восхода и заката, обеспечивая фотографа информацией о том, когда свет будет идеальным для желаемых кадров.
Калькулятор Луны предоставляет информацию о фазах луны, времени восхода и захода, а также о положении луны в любой заданный момент 🌙. Это особенно полезно для ночной фотографии или при планировании снимков, включающих луну в определенной фазе.
Калькуляторы Млечного Пути, Метеорных Дождей, точечных звёзд и звёздных треков - рассчитывают оптимальные настройки съёмки, предлагают оптимальные даты для фиксации значимых событий 🌠🌌.
Такой осознанный подход позволяет фотографам минимизировать число бесплодных усилий, а получать результат почти всякий раз, как они взяли в руки камеру 📷.
🔣 🔣 🔣
А Вы когда-нибудь занимались художественной фотографией? Удавалось ли Вам сделать удачные снимки? Какие цифровые средства вам в этом помогли? 🤳
Недавно друг прислал мне чудесную фотографию Луны (слева) 🌕, которая не могла меня не заинтересовать.
Подпись к фотографии: Вечерняя Луна над вершиной Монте-Визо и башней в Турине. Автор фото: Valerio Minato, 15 декабря 2023 года.
Я часто имею дело со сгенерированными изображениями, и сразу закралось сомнение: не фейк ли это? 🤔 Ища источники изображения, обнаружила похожую фотографию (справа), опубликованную в 2022 году в запрещенной в РФ соцсети Instagram 📸.
Так как именно был подобран ракурс и место съёмки? Оказывается, астрофотографы действительно планируют свои работы заранее, и используют для этого цифровые инструменты 🌌🔭.
Для съёмки правого изображения было использовано приложение PhotoPills. Оно отнюдь не новое, вышло на Андроид ещё в 2017. В приложении есть различные калькуляторы и инструменты планирования, каждый из которых помогает фотографам в разных аспектах их работы, например:
Калькулятор Солнца помогает фотографам понять положение и движение солнца в течение дня ☀️. Он полезен для планирования съемок во время золотого часа, синего часа, восхода и заката, обеспечивая фотографа информацией о том, когда свет будет идеальным для желаемых кадров.
Калькулятор Луны предоставляет информацию о фазах луны, времени восхода и захода, а также о положении луны в любой заданный момент 🌙. Это особенно полезно для ночной фотографии или при планировании снимков, включающих луну в определенной фазе.
Калькуляторы Млечного Пути, Метеорных Дождей, точечных звёзд и звёздных треков - рассчитывают оптимальные настройки съёмки, предлагают оптимальные даты для фиксации значимых событий 🌠🌌.
Такой осознанный подход позволяет фотографам минимизировать число бесплодных усилий, а получать результат почти всякий раз, как они взяли в руки камеру 📷.
А Вы когда-нибудь занимались художественной фотографией? Удавалось ли Вам сделать удачные снимки? Какие цифровые средства вам в этом помогли? 🤳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Адель и МЛь
This media is not supported in your browser
VIEW IN TELEGRAM
I wanna return to monkey,
I wanna be wild and free,
I wanna return to monkey,
modern life is not for me
Топовая AI композиция, припев вообще доставляет 🎶🎸
By Suno.ai
Хочу познакомить вас с моим другом. Я знаю Карэна уже 15 лет. Помню, как на парах он кодил какой-то нереальный фронтенд с безупречным дизайном, никто из нас не мог себе и представить ничего подобного тогда!
За эти годы, Карэн работал над сайтами, мобильными приложениями, играми и не потерял энтузиазм. А теперь он с радостью готов заразить им нас, чтобы мы тоже полюбили Django.
Недавно он запустил ютьюб-канал!
🔣 Канал на английском языке
🔣 Каждое видео - подробный тьюториал, в конце которого вы создадите свой собственный проект
🔣 Например, у Карэна есть видео про создание своего ChatGPT4 бота в Telegram
🔣 А недавно, Карэн начал выпускать новый плейлист про FullStack разработку
В новогодние праздники планирую уделить время этим видео, хочу разобраться в теме.
За эти годы, Карэн работал над сайтами, мобильными приложениями, играми и не потерял энтузиазм. А теперь он с радостью готов заразить им нас, чтобы мы тоже полюбили Django.
Недавно он запустил ютьюб-канал!
В новогодние праздники планирую уделить время этим видео, хочу разобраться в теме.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Telegram ChatGPT Bot | Python
🤖 Python Telegram Chatbot Tutorial! | Dive into creating your own AI chatbot using GPT & Telegram on Grigorian's Tech Academy. Turn your ideas into a conversational AI in just a few steps!
#python #chatgpt #openai #telegram #telegrambot
Source code:
h…
#python #chatgpt #openai #telegram #telegrambot
Source code:
h…
Это не похоже на обычный контент моего канала, сегодня будут
🔠 🔠 🔠 🔠 🔠
Но не какие-нибудь там, из интернетика, а из моей айтишной жизни.
🤡 🙂 🆒
Итак, сегодня я сделала 3 смешных открытия:
✅ У программного кода есть пол (code has a gender)
✅ Страшная ошибка из прошлого "core dumped" всё ещё возникает (даже от безобидной питоновской библиотеки для визуализации графиков)
✅ .pth в английской раскладке эквивалентен слову юзер в русской (между строк: юзер, учи pytorch!)
Но не какие-нибудь там, из интернетика, а из моей айтишной жизни.
Итак, сегодня я сделала 3 смешных открытия:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
DiffMorpher - подход на основе диффузии, обеспечивающий плавную и естественную интерполяцию изображений.
Ранее первенство в этой задаче принадлежало моделям на основе GAN.
Идея алгоритма:
1. Для каждого изображения пользователь вводит промпт, по которому учится ЛОРА.
2. Затем производится инверсия, строятся скрытые шумы с учётом ЛОРА.
3. Эти скрытые шумы линейно смешиваются на каждом шаге денойзинга, также смешиваются веса ЛОР, слои внимания, текстовые эмбеддинги.
4. При этом обратное преобразование происходит уже по смешанным параметрам.
5. Обширные эксперименты демонстрируют, что DiffMorpher обеспечивает значительно лучшие эффекты преобразования изображений, чем предыдущие методы, для различных категорий объектов, устраняя критический функциональный разрыв, который отличал диффузионные модели от GAN.
Проект, Колаб
Ранее первенство в этой задаче принадлежало моделям на основе GAN.
Идея алгоритма:
1. Для каждого изображения пользователь вводит промпт, по которому учится ЛОРА.
2. Затем производится инверсия, строятся скрытые шумы с учётом ЛОРА.
3. Эти скрытые шумы линейно смешиваются на каждом шаге денойзинга, также смешиваются веса ЛОР, слои внимания, текстовые эмбеддинги.
4. При этом обратное преобразование происходит уже по смешанным параметрам.
5. Обширные эксперименты демонстрируют, что DiffMorpher обеспечивает значительно лучшие эффекты преобразования изображений, чем предыдущие методы, для различных категорий объектов, устраняя критический функциональный разрыв, который отличал диффузионные модели от GAN.
Проект, Колаб
Практические примечания от меня к работе с моделью:
1. Картинки должны быть квадратными.
2. Вначале лучше посчитать ЛорЫ, потом нажать на кнопку "Расчёт без лоры".
3. Генерируется 16 кадров разрешением 512.
4. Работает 2 минуты на видео.
➗ Интерполирует плавно, но в процессе всё равно анархия.
➗ Анимацию движения таким образом не сделать.
➗ Интерполяцию следует производить между двумя когерентными объектами.
1. Картинки должны быть квадратными.
2. Вначале лучше посчитать ЛорЫ, потом нажать на кнопку "Расчёт без лоры".
3. Генерируется 16 кадров разрешением 512.
4. Работает 2 минуты на видео.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from test
Media is too big
VIEW IN TELEGRAM
12 месяцев. Союз-Мультфильм. 1956 год.
Применён алгоритм Real-ESRGAN для увеличения разрешения видео в 4 раза.
ESRGAN широко применяется как компонент в других алгоритмах обработки изображений для адаптации к работе с данными высокого разрешения.
Исходник низкого разрешения (почему-то заболочено в РФ).
Это видео в youtube (выберите 4к в настройках).
К сожалению, деталей не везде хватает, и изображение получается хоть и чётким, но с недостаточной прорисовкой лиц, например.
Применён алгоритм Real-ESRGAN для увеличения разрешения видео в 4 раза.
ESRGAN широко применяется как компонент в других алгоритмах обработки изображений для адаптации к работе с данными высокого разрешения.
Исходник низкого разрешения (почему-то заболочено в РФ).
Это видео в youtube (выберите 4к в настройках).
К сожалению, деталей не везде хватает, и изображение получается хоть и чётким, но с недостаточной прорисовкой лиц, например.
ᴢɪᴘ ʟᴏɢ
12 месяцев. Союз-Мультфильм. 1956 год. Применён алгоритм Real-ESRGAN для увеличения разрешения видео в 4 раза. ESRGAN широко применяется как компонент в других алгоритмах обработки изображений для адаптации к работе с данными высокого разрешения. Исходник…
Please open Telegram to view this post
VIEW IN TELEGRAM
Время подводить итоги года
🔣 Мои впечатления от прошедшего года и ожидания от следующего
2023 был для меня интересным годом:
- распространились и значительно развились языковые модели, они стали доступнее (API, локальные варианты), мощнее (смесь экспертов), разностороннее (умеют пользоваться сторонними инструментами, пишут код, решают математические проблемы)
- возникло огромное число применений для генеративных моделей, очень многие проблемы, над которыми раньше бились годами, теперь решаются элементарно (преобразование текста в изображение, стилизация, паноптическая сегментация, реалистичный рендеринг в реальном времени)
- увеличилось представительство русскоязычного ИИ-комьюнити в Телеграм (например, каналу Сиолошная ещё нет и года, а у него уже 30к подписчиков)
- увеличился темп научных и информационных трансформаций, уменьшилсь время внедрения в продукты
- генеративное искусство подняло творческие возможности человека на небывалый доселе уровень
От 2024 года я ожидаю:
- Выход языковой модели Q* от ChatGPT, развитие генеративных моделей text в video, text в 3D до продуктового уровня, развитие моделей управляемой генерации аудио
- Усиление конфронтации между E/ACC и редукционистами, вероятно массовые протесты, ожесточённые споры экспертов
- Внедрение ИИ в робототехнику, решение задачи планирования для роботов, появление домашних роботов расширенной функциональности
- Развитие ИИ-медицины, ИИ-обучения
- Наполнение интернета fake news в небывалых количествах из-за развития генеративок и дип-фейков голоса и лица
PS. Очень жду, что в 2024 году ИИ сделают продолжение сериала "Светлячок". С помощью LLM могли бы сделать текст, а с помощью text-to-video + аватаров сгенерировать видеоряд.
2023 был для меня интересным годом:
- распространились и значительно развились языковые модели, они стали доступнее (API, локальные варианты), мощнее (смесь экспертов), разностороннее (умеют пользоваться сторонними инструментами, пишут код, решают математические проблемы)
- возникло огромное число применений для генеративных моделей, очень многие проблемы, над которыми раньше бились годами, теперь решаются элементарно (преобразование текста в изображение, стилизация, паноптическая сегментация, реалистичный рендеринг в реальном времени)
- увеличилось представительство русскоязычного ИИ-комьюнити в Телеграм (например, каналу Сиолошная ещё нет и года, а у него уже 30к подписчиков)
- увеличился темп научных и информационных трансформаций, уменьшилсь время внедрения в продукты
- генеративное искусство подняло творческие возможности человека на небывалый доселе уровень
От 2024 года я ожидаю:
- Выход языковой модели Q* от ChatGPT, развитие генеративных моделей text в video, text в 3D до продуктового уровня, развитие моделей управляемой генерации аудио
- Усиление конфронтации между E/ACC и редукционистами, вероятно массовые протесты, ожесточённые споры экспертов
- Внедрение ИИ в робототехнику, решение задачи планирования для роботов, появление домашних роботов расширенной функциональности
- Развитие ИИ-медицины, ИИ-обучения
- Наполнение интернета fake news в небывалых количествах из-за развития генеративок и дип-фейков голоса и лица
PS. Очень жду, что в 2024 году ИИ сделают продолжение сериала "Светлячок". С помощью LLM могли бы сделать текст, а с помощью text-to-video + аватаров сгенерировать видеоряд.
Please open Telegram to view this post
VIEW IN TELEGRAM
ᴢɪᴘ ʟᴏɢ
Время подводить итоги года 🔣 Мои впечатления от прошедшего года и ожидания от следующего 2023 был для меня интересным годом: - распространились и значительно развились языковые модели, они стали доступнее (API, локальные варианты), мощнее (смесь экспертов)…
Сейчас многие рассказывают о своём продвижении на пути к целям за прошедший год, о планах, успехах и неудачах. Честно говоря, я никогда не ставила себе никаких конкретных задач на год или что-то вроде того. Не отношу себя к достигаторам, а всего лишь хочу быть тем человеком, которому интересно жить, творить, открывать новое, делиться и что-то улучшать. Я считаю, что технологии - мои естественные помощники и союзники!
У Самурая нет цели, только путь
И наверное, на следующий год я пожелаю себе не сворачивать с пути и не терять вдохновение.
Желаю Вам не чахнуть в ожиданьи,
Желаю Вам не рваться в страшный бой!
Желаю не бежать от начинаний,
Желаю не бояться быть собой!
Желаю не гордиться интеллектом,
Желаю не отлынивать душой,
Желаю мир вокруг наполнить светом
И царствовать над роком и судьбой.
Желаю странствовать и быть во всеоружьи:
Генеративки, роботы, ИИ.
Ходить по краю бездны простодушно,
Страхуясь тросами надежды и любви.
Желаю совершать, а не стараться.
Желаю делать, а не говорить.
В себе желаю Вам не сомневаться,
Быть лучше!
... ну и мой канал любить
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Guillaume Verdon: Beff Jezos, E/acc Movement, Physics, Computation & AGI | Lex Fridman Podcast #407
Guillaume Verdon (aka Beff Jezos on Twitter) is a physicist, quantum computing researcher, and founder of e/acc (effective accelerationism) movement. Please support this podcast by checking out our sponsors:
- LMNT: https://drinkLMNT.com/lex to get free sample…
- LMNT: https://drinkLMNT.com/lex to get free sample…
По дороге в гости послушала интервью с Гийомом Вердоном в подкасте Лекса Фридмана
В подкасте рассматривалось много интересных тем, но я выделю основные тезисы.
Кто такой Гийом Вердон?
🔣 Физик, прикладной математик и инженер в области квантовых вычислений, основатель компании Extropic, которая стремится создать вычислительное оборудование для генеративного искусственного интеллекта.
🔣 Гийом создал анонимный аккаунт Beff Jesos в X для свободного самовыражения и независимой оценки его идей вне зависимости от его личности и достижений.
Beff Jesos изложил принципы эффективного аккселерационизма E/Acc, перевод на русский
🔣 E/Acc - Effective Accelerationism (образовано от слияния Effective altruism и Accelerationism)
🔣 Современная философская концепция, выступающая за ускорение технического прогресса как оптимального курса действий
🔣 Сторонники E/Acc поддерживают прогресс в области искусственного интеллекта
🔣 ИИ - великий социальный уравнитель, контроль ИИ приведёт к монополии и социальному неравенству
🔣 Безопасность искусственного интеллекта важна, но не должна быть единственным аргументом для регулирования, поскольку может быть использована как инструмент коррупции и централизации власти. Она должна быть достигнута за счет рыночных сил, а не жесткого государственного регулирования.
🔣 Также искусственный интеллект может быть разделен на более мелкие подсистемы для повышения отказоустойчивости.
Движение E/Acc стремится к:
🔣 росту и самосознанию, используя естественные тенденции системы для адаптации к собственному росту.
🔣 балансу между централизацией и децентрализацией, а также к поиску новых субкультур и эвристических подходов к жизни.
Интеллект и квантовые вычисления - симбиоз для решения новых задач
🔣 Квантовый искусственный интеллект может помочь в решении сложных проблем, таких как парниковый эффект и ядерная физика:
🔣 🔣 Квантовые датчики фиксируют квантово-механический образ мира и помогают заглянуть в самые ранние уголки Вселенной
🔣 🔣 Квантовое машинное обучение может быть использовано для обработки этих данных
🔣 Квантовое машинное обучение может быть применено для изучения новой геометрии и понимания квантовой гравитации
И в завершение приведу несколько интересных лично мне мыслей из интервью
👌
Хочу отметить, что хотя по духу мне очень близок оптимизм эффективных аккселерационистов, меня тревожит в их аргументации исходное наивное предположение, будто бы поиск оптимума биологической жизнью не приводит к её вымиранию (см. ошибка выжившего), и будто бы эволюционный отбор и рыночная конкуренция приводит к стабильному развитию. Напротив, они склонны к кризисам (Великая Депрессия, Массовое вымирание). При изобретении ядерной бомбы работы не производились на рыночном основании.
В подкасте рассматривалось много интересных тем, но я выделю основные тезисы.
Кто такой Гийом Вердон?
Beff Jesos изложил принципы эффективного аккселерационизма E/Acc, перевод на русский
Движение E/Acc стремится к:
Интеллект и квантовые вычисления - симбиоз для решения новых задач
И в завершение приведу несколько интересных лично мне мыслей из интервью
компании являются своего рода смесью экспертных моделей
Интеллект - это способность воспринимать, предсказывать и контролировать мир
Математика - это изучение математики ради математики, физика - применение математики для понимания окружающего мира, инженерия - применение физики для взлома мира.
Инопланетяне могут быть мыслями, идеями или мемами, внедрёнными в наше сознание, поскольку мы не знаем, откуда берутся мысли.
Хочу отметить, что хотя по духу мне очень близок оптимизм эффективных аккселерационистов, меня тревожит в их аргументации исходное наивное предположение, будто бы поиск оптимума биологической жизнью не приводит к её вымиранию (см. ошибка выжившего), и будто бы эволюционный отбор и рыночная конкуренция приводит к стабильному развитию. Напротив, они склонны к кризисам (Великая Депрессия, Массовое вымирание). При изобретении ядерной бомбы работы не производились на рыночном основании.
Please open Telegram to view this post
VIEW IN TELEGRAM
ᴢɪᴘ ʟᴏɢ
Video
Ещё до Нового Года попробовала 2 решения text-to-video: Pika и leonardo.ai (image-to-motion).
Оба решения браузерные, для конечного пользователя.
Если выбирать из них одну, то я однозначно бы выбрала leonardo.ai, и вот почему:
➖ Pika генерирует клише. Генерации, выполненные в реалистичном стиле, всё-таки не впечатляют.
➖ Pika сразу стоит трёхсекундное видео без возможности задать начальный кадр.
➕ Pika позволяет объекту совершать размашистые движения. Однако это даётся ценой ошибок побъектов по глубине - рука Санты переднего плана спряталась за ёлочку. Такие огрехи напоминают фактологические ошибки первых нейросетей text-to-image с генерацией неверного числа пальцев, тут мы видим подобные фактологические ошибки в новой модальности, связанной с динамикой.
➕ Зато Pika позволяет редактировать выделенную область в видео. К сожалению, у меня не получилось заставить её сгенерировать котёнка на коленях у Санты.
➕ Pika позволяет использовать изображение или видео для затравки.
Теперь пару слов о Leonardo:
➕ Leonardo сохраняет гораздо более высокий уровень реалистичности.
➕ Если не указывать в promt явное движение, то будет просто сгенерирован какой-то сдвиг или поворот объекта. Тем не менее, возможно создать и сложные эффекты.
➕ Впечатляющую подборку работ художников в leonardo я выкладывала в Новогодней сториз.
➕ Leonardo вначале предлагает сгенерировать кадры, которые затем уже можно анимировать. Поскольку на платформе встроен полноценный редактор stable diffusion, то можно провести полную редактуру исходного кадра.
➖ Чего не хватает, так это отдельного промптинга на анимацию для уточнения совершаемого действия .
➖ Также была бы интересна возможность локального редактирования видео.
➖ Ошибки в динамике также очень значительные.
Резюме такое: модели text-to-video начали стадию внедрения в продукты. Пока они ещё достаточно сырые, но уже сейчас можно с их помощью создавать приятные анимации. Пока ещё создание подходящей анимации требует большого числа повторов, и как следствие, машинных и человеческих ресурсов, чтобы избавиться от неприятных ошибок.
Но учитывая прогресс генеративных сетей, через несколько месяцев будут выстроены удобные общедоступные пайплайны с широкими возможностями редактирования видео. В частности, можно упомянуть недавний MotionCtrl, позволяющий задавать траекторию камеры в генерации.
🔣 🔣 🔣 ... некоторые видео смотрите в комментариях.
Оба решения браузерные, для конечного пользователя.
Если выбирать из них одну, то я однозначно бы выбрала leonardo.ai, и вот почему:
Теперь пару слов о Leonardo:
Резюме такое: модели text-to-video начали стадию внедрения в продукты. Пока они ещё достаточно сырые, но уже сейчас можно с их помощью создавать приятные анимации. Пока ещё создание подходящей анимации требует большого числа повторов, и как следствие, машинных и человеческих ресурсов, чтобы избавиться от неприятных ошибок.
Но учитывая прогресс генеративных сетей, через несколько месяцев будут выстроены удобные общедоступные пайплайны с широкими возможностями редактирования видео. В частности, можно упомянуть недавний MotionCtrl, позволяющий задавать траекторию камеры в генерации.
Please open Telegram to view this post
VIEW IN TELEGRAM
pika.art
The idea-to-video platform that sets your creativity in motion.
This media is not supported in your browser
VIEW IN TELEGRAM
OpenLRM (проект, статья, github, демо) - алгоритм реконструкции 3D-объекта по одной фотографии за 5 секунд.
➗ Строит NeRF представление на выходе (из которого можно семплировать меш, карты глубины и так далее)
➗ Генерализуется без привязки к типу объекта
➗ Работает на разрешении 512 пикселей
➗ Использует в реализации DINO-encoder для патчей, Triplane-представление, лосс при обучении контролируется на четырёх кадрах (основной и 3 дополнительных) по метрикам MSE + 2* LPIPS
➗ Обучен на синтетических Objaverse и реальных данных MVImgNet в соотношении 1:3 за 3 суток на 128 картах A100 (40GB)
Мои впечатления:
➕ Задумка прекрасная. Мне нравится простота идеи - через лоссы других кадров учить генерализацию объёмного представлния.
➕ Радует и скорость обучения, и скорость инференса
➖ Мало данных для обучения. Нужно больше данных, будет совершенно другой уровень обобщения.
➖ Низкое разрешение результата
➖ Привязка в начальной сегментации
В целом, эта работа выглядит как начальная точка для гонки в этом направлении, поэтому в течение года ждём прогресса.
🔣 🔣 🔣
1️⃣ Мой форк с питон-ноутбуком и градио-приложением, визуализирующим меш, а не видео, как в официальном демо. Загружаем ваши, либо мои данные, выделяем в ноутбуке объект, готовим данные, считаем, визуализируем результаты.
2️⃣ Мой публичный колаб, чтобы не возиться с репозиторием.
3️⃣ Huggingface сейчас запрашивает деньжатки за GPU, поэтому деплой там не даю, вместо этого сделала ещё один публичный колаб, который развёртывает app. Запустите обе ячейки с кодом, дождитесь выдачи таких записей, и перейдите по ссылке возле public URL.
Мои впечатления:
В целом, эта работа выглядит как начальная точка для гонки в этом направлении, поэтому в течение года ждём прогресса.
======== Loaded model from checkpoint ========
Running on local URL: http://127.0.0.1:7860
Running on public URL: https://daa4388790604c4ce9.gradio.live
Please open Telegram to view this post
VIEW IN TELEGRAM
Применила к примерам из ноутбука + добавила свою фотку. Прикладываю в комментах фото -> видео алгоритма -> видео после апскейла.
Во-первых, конечно, вау! Отдельно можно задать динамику поведения, выражение лица, аудио и фотографию. А ведь это диффузия!
Во-вторых, грустно, что разрешение всего лишь 256 x 256. Сразу прикрутила Real-ESRGAN (тот, который увеличил нам советский мультик), и он дорисовал лица, не соответствующие реальности.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Machinelearning
🦜 DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models
DreamTalk - это фреймворк для создания выразительных говорящих голов, который может создавать высококачественные видеоролики говорящих голов в различных стилях речи.…
DreamTalk - это фреймворк для создания выразительных говорящих голов, который может создавать высококачественные видеоролики говорящих голов в различных стилях речи.…