Пока совсем кратко. Генеративный ИИ наконец добрался до генерации видео по текстовому промпту. Марк Цукерберг сегодня анонсировал свежую работу (https://www.facebook.com/4/posts/pfbid0zeP5MtjQmg4FpMR4JN3CWsxDgSd71TU1jrThwmTyvy1QFAsfwKgnpZEgpP3z3LD7l/) под названием Make-A-Video.
Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.
Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.
У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).
Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).
Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).
Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/
Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.
Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.
Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.
У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).
Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).
Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).
Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/
Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.
Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
👍8🔥5
A golden retriever eating ice cream on a beautiful tropical beach at sunset, high resolution
A dog wearing a Superhero outfit with red cape flying through the sky
More Generative AI
Генеративный AI (https://news.1rj.ru/str/gonzo_ML/1062) вовсю уже вошёл в нашу жизнь.
DALL-E теперь умеет Outpainting (https://openai.com/blog/dall-e-introducing-outpainting/), а с недавнего момента и доступна без waitlist’а (https://openai.com/blog/dall-e-now-available-without-waitlist/).
Августовский релиз Stable Diffusion (https://stability.ai/blog/stable-diffusion-public-release) сильно поменял ландшафт, и эта модель и сама выложена на HuggingFace (https://huggingface.co/spaces/stabilityai/stable-diffusion), и Colab ноутбуки для её использования в наличии (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb), и родной продукт есть (https://beta.dreamstudio.ai/dream), и в Midjourney встроена.
Кристина Каштанова (Кристина, молодец!) недавно зарегистрировала впервые авторские права (https://arstechnica.com/information-technology/2022/09/artist-receives-first-known-us-copyright-registration-for-generative-ai-art/) на комикс, созданный с помощью MJ, а Die Antwoord выложили очередной клип (https://www.youtube.com/watch?v=Cq56o0YH3mE) созданный командой художников под именем Sagans. Sagans незадолго до этого выпустили другой свой клип (https://www.youtube.com/watch?v=kASqM5HTvfY) созданный в том числе и с помощью AI (https://www.unrealengine.com/en-US/spotlights/words-camera-action-creating-an-ai-music-video-with-unreal-engine-5) и технологии Unreal Engine MetaHuman (https://www.unrealengine.com/en-US/metahuman). Три года назад, кстати, про эти работы Epic Games я тоже писал, в тот момент было демо под названием Siren на предыдущей версии UE (https://blog.inten.to/welcome-to-the-simulation-dd0d8cb6534d).
На днях (но по сути конечно же раньше) специализированные модели также добрались до видео (https://news.1rj.ru/str/gonzo_ML/1099) и до трёхмерных объектов (https://dreamfusionpaper.github.io/).
Безусловно, это всё только начало. Мы в лучшем случае попробовали лишь малую долю возможностей этих быстро эволюционирующих новых средств и создали лишь первый процент новых продуктов или работ. Дальше будет ещё веселее.
Одно из направлений, про которое много не говорят, но которое очевидно будет, это генерация взрослого контента. Говорят, эта индустрия поспособствовала продвижению формата VHS, а также интернета и стриминга. Поспособствует и такому вот прикладному AI. Я совсем не удивлюсь, если сейчас в недрах условного порнхаба обучают свои генеративные модели. Даже обычные модели Stable Diffusion кое-что умеют (https://www.facebook.com/groups/stablediffusionaiart/permalink/633378585094046/), что уж там говорить про специализированные.
Мир никогда не будет прежним.
Генеративный AI (https://news.1rj.ru/str/gonzo_ML/1062) вовсю уже вошёл в нашу жизнь.
DALL-E теперь умеет Outpainting (https://openai.com/blog/dall-e-introducing-outpainting/), а с недавнего момента и доступна без waitlist’а (https://openai.com/blog/dall-e-now-available-without-waitlist/).
Августовский релиз Stable Diffusion (https://stability.ai/blog/stable-diffusion-public-release) сильно поменял ландшафт, и эта модель и сама выложена на HuggingFace (https://huggingface.co/spaces/stabilityai/stable-diffusion), и Colab ноутбуки для её использования в наличии (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb), и родной продукт есть (https://beta.dreamstudio.ai/dream), и в Midjourney встроена.
Кристина Каштанова (Кристина, молодец!) недавно зарегистрировала впервые авторские права (https://arstechnica.com/information-technology/2022/09/artist-receives-first-known-us-copyright-registration-for-generative-ai-art/) на комикс, созданный с помощью MJ, а Die Antwoord выложили очередной клип (https://www.youtube.com/watch?v=Cq56o0YH3mE) созданный командой художников под именем Sagans. Sagans незадолго до этого выпустили другой свой клип (https://www.youtube.com/watch?v=kASqM5HTvfY) созданный в том числе и с помощью AI (https://www.unrealengine.com/en-US/spotlights/words-camera-action-creating-an-ai-music-video-with-unreal-engine-5) и технологии Unreal Engine MetaHuman (https://www.unrealengine.com/en-US/metahuman). Три года назад, кстати, про эти работы Epic Games я тоже писал, в тот момент было демо под названием Siren на предыдущей версии UE (https://blog.inten.to/welcome-to-the-simulation-dd0d8cb6534d).
На днях (но по сути конечно же раньше) специализированные модели также добрались до видео (https://news.1rj.ru/str/gonzo_ML/1099) и до трёхмерных объектов (https://dreamfusionpaper.github.io/).
Безусловно, это всё только начало. Мы в лучшем случае попробовали лишь малую долю возможностей этих быстро эволюционирующих новых средств и создали лишь первый процент новых продуктов или работ. Дальше будет ещё веселее.
Одно из направлений, про которое много не говорят, но которое очевидно будет, это генерация взрослого контента. Говорят, эта индустрия поспособствовала продвижению формата VHS, а также интернета и стриминга. Поспособствует и такому вот прикладному AI. Я совсем не удивлюсь, если сейчас в недрах условного порнхаба обучают свои генеративные модели. Даже обычные модели Stable Diffusion кое-что умеют (https://www.facebook.com/groups/stablediffusionaiart/permalink/633378585094046/), что уж там говорить про специализированные.
Мир никогда не будет прежним.
Telegram
gonzo-обзоры ML статей
Generative AI
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое…
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое…
🔥10👍3👎1
Я понимаю, что многим сейчас совсем не до этого, но 11-14 октября пройдёт конференция Google Cloud Next'22.
На конференции много разных треков, есть и про облачный AI & ML, есть практические кейсы компаний, есть лабы по Natural Language, Cloud Vision, и Cloud ML API, есть про запуск распределённого TF, есть много про разные другие аспекты клауда, разработку, devops, есть даже про VC.
Регистрация тут: https://goo.gle/3UhurC1
На конференции много разных треков, есть и про облачный AI & ML, есть практические кейсы компаний, есть лабы по Natural Language, Cloud Vision, и Cloud ML API, есть про запуск распределённого TF, есть много про разные другие аспекты клауда, разработку, devops, есть даже про VC.
Регистрация тут: https://goo.gle/3UhurC1
Withgoogle
Experience Google Cloud Next 25
Save the date! #GoogleCloudNext is back in Las Vegas on April 9–11, 2025.
👍24❤5
The 4th chapter of my book, "JAX in Action," is ready!
https://www.manning.com/books/jax-in-action
It is the chapter on automatic differentiation, autodiff, or AD for short. I think it is the most complex chapter of the book. But it will reward you with a solid understanding of:
🗺- the place AD takes, among other ways of getting derivatives
💪- all the powers and peculiarities of JAX autodiff, the grad() transform, and a family of related functions
🔭- the forward and reverse mode AD, with the jvp() and vjp() transforms
BTW, the 5th chapter about the JIT compilation is on its way! It is also about Jaxpr, XLA, and AOT compilation.
P.S. Your feedback is welcome!
#jax #DeepLearning #AI
https://www.manning.com/books/jax-in-action
It is the chapter on automatic differentiation, autodiff, or AD for short. I think it is the most complex chapter of the book. But it will reward you with a solid understanding of:
🗺- the place AD takes, among other ways of getting derivatives
💪- all the powers and peculiarities of JAX autodiff, the grad() transform, and a family of related functions
🔭- the forward and reverse mode AD, with the jvp() and vjp() transforms
BTW, the 5th chapter about the JIT compilation is on its way! It is also about Jaxpr, XLA, and AOT compilation.
P.S. Your feedback is welcome!
#jax #DeepLearning #AI
Manning Publications
Deep Learning with JAX - Grigory Sapunov
Accelerate deep learning and other number-intensive tasks with JAX, Google’s awesome high-performance numerical computing library.
The JAX numerical computing library tackles the core performance challenges at the heart of deep learning and other scientific…
The JAX numerical computing library tackles the core performance challenges at the heart of deep learning and other scientific…
👍27🔥16❤🔥2