Image2Image Translation и Style Transfer в эпоху Zero-Shot
Есть такая область машинного обучения image2image translation. По факту это аналог nlp языкового перевода в cv. Примеры:
- перевод из лета в зиму
- из зебр в лошадь
- из чб в цвет
- из ночи в день
- из блюра в четкие фото
- из фото в скетч
- и т.д.
Пару лет назад на этапе PoC я заморачивался с тем, чтобы сделать мультимодальный перевод из лета в зиму (см фото поста). Потом мы с коллегами юзали сложнейший GAN с 14-ю лоссами внутри, чтобы добиться качественной раскраски чб видео и повышения его качества. Для этого нам потребовался огромный датасет, который приходилось днями чистить вручную! И обучать все это неделями на суперкомпьютерах.
Сейчас, в 2021, я смотрю на задачи style transfer и image2image через призму zero-shot, и до сей поры не могу поверить, что можно превратить, e.g.: лето в зиму (предыдущий пост), сохранив весь контекст, без единого обучающего примера и без обучения вообще!
Действительно, zero-shot —киберпанк, который мы заслужили.
Есть такая область машинного обучения image2image translation. По факту это аналог nlp языкового перевода в cv. Примеры:
- перевод из лета в зиму
- из зебр в лошадь
- из чб в цвет
- из ночи в день
- из блюра в четкие фото
- из фото в скетч
- и т.д.
Пару лет назад на этапе PoC я заморачивался с тем, чтобы сделать мультимодальный перевод из лета в зиму (см фото поста). Потом мы с коллегами юзали сложнейший GAN с 14-ю лоссами внутри, чтобы добиться качественной раскраски чб видео и повышения его качества. Для этого нам потребовался огромный датасет, который приходилось днями чистить вручную! И обучать все это неделями на суперкомпьютерах.
Сейчас, в 2021, я смотрю на задачи style transfer и image2image через призму zero-shot, и до сей поры не могу поверить, что можно превратить, e.g.: лето в зиму (предыдущий пост), сохранив весь контекст, без единого обучающего примера и без обучения вообще!
Действительно, zero-shot —киберпанк, который мы заслужили.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Национальный киноархив Австралии раскрасил кадры с тасманийским тигром последний из которых умер 85 лет назад, а я прогнал его через нейронки тут, и сделал 60 кадров в секунду и чуть подправил скорость проигрывания. Ну и добавил звук, для антуража.
Давайте беречь животных 🖤
Давайте беречь животных 🖤
Forwarded from эйай ньюз
А вот и новые умные очечи от Ray-Ban + Facebook. Буду скромен с описанием, чтобы не взболтнуть лишнего. Очки называются Ray-Ban Stories. В них имеются две встроенные кармеры по бокам, с помощью которых можно снимать классные видео от первого лица, процессор Snapdragon, набор микроспикеров, три микрофона, оптимизированные для аудиозвонков, и даже маленький тачпад. Из технологий для улучшения звука и видео: стабилизация видео, HDR, улучшение освещения, деноизинг и подавление фонового шума, видео и фото энхансинг с помощью ML. В дополнение к очкам идет отдельное приложение Facebook View, которое помогает все настраивать и управлять записываемых контентом.
Есть варианты в нескольких классических оправах. Радует, что выглядят они очень стильно, в отличие от уродцев Spectacles 3 от Снэпа. Также стоит отметить вполне дотупную цену девайса - всего $299. Насчет AR/VR - пока функционал очков ограничен, но, очевидно, что все движется в этом направлении и будут выходить софтверные обновления.
Тех описание на блоге ФБ.
Есть варианты в нескольких классических оправах. Радует, что выглядят они очень стильно, в отличие от уродцев Spectacles 3 от Снэпа. Также стоит отметить вполне дотупную цену девайса - всего $299. Насчет AR/VR - пока функционал очков ограничен, но, очевидно, что все движется в этом направлении и будут выходить софтверные обновления.
Тех описание на блоге ФБ.
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
А это сама презентация очков Ray-Ban Stories 😎
This media is not supported in your browser
VIEW IN TELEGRAM
Zero-Shot Style Transfer: Моне, Рерих, Айвазовский
🎬 YouTube канал Мишин Лернинг
Я давно хотел начать вести Мишин Лирнинг и на YouTube, и вот решил начать с небольшого видео, демонстрирующего возможности Zero-Shot Style Transfer.
Такой подход предполагает перенос стиля изображения без необходимости использования примеров целевого стиля. Стиль переносится используя текстовые описания: "Professional oil painting by ", подставляя фамилии различных художников, e.g.: Monet, Roerich, Aivazovsky.
Идея похожа на deep dream, только градиенты текут не на само изображение, а на z-пространство taming transformer'а, который берет на себя роль генератора (рендер) изображения, а в роли сети донора (знаний) градиентов выступает не VGG (которая используется для one-shot / few-shot style transfer), а CLIP от OpenAI, способный выполнят эту задачу в Zero-Shot, то есть без примеров и без дополнительного обучения (без файнтюна).
📼 https://youtu.be/aXF22T_RWLs
p.s.: Для финального видео использовалась технология neural enhancement и super resolution от neural.love (@denissexy), позволившая насладиться Style Transfer с повышенным разрешением и частотой кадров.
Я давно хотел начать вести Мишин Лирнинг и на YouTube, и вот решил начать с небольшого видео, демонстрирующего возможности Zero-Shot Style Transfer.
Такой подход предполагает перенос стиля изображения без необходимости использования примеров целевого стиля. Стиль переносится используя текстовые описания: "Professional oil painting by ", подставляя фамилии различных художников, e.g.: Monet, Roerich, Aivazovsky.
Идея похожа на deep dream, только градиенты текут не на само изображение, а на z-пространство taming transformer'а, который берет на себя роль генератора (рендер) изображения, а в роли сети донора (знаний) градиентов выступает не VGG (которая используется для one-shot / few-shot style transfer), а CLIP от OpenAI, способный выполнят эту задачу в Zero-Shot, то есть без примеров и без дополнительного обучения (без файнтюна).
📼 https://youtu.be/aXF22T_RWLs
p.s.: Для финального видео использовалась технология neural enhancement и super resolution от neural.love (@denissexy), позволившая насладиться Style Transfer с повышенным разрешением и частотой кадров.
YouTube
Zero-Shot Style Transfer: Monet, Roerich, Aivazovsky | Neural Art | AI | 4K | Мишин Лернинг
На этом видео показаны возможности Zero-Shot Style Transfer, что предполагает перенос стиля изображения без необходимости использования примеров целевого стиля. Стиль переносится используя текстовые описания: "Professional oil painting by ", подставляя фамилии…
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 GSLM - Безтекстовое NLP от Facebook AI, и это Новая Эра
Facebook AI gпредсавил GSLM, первую языковую модель, которая полностью избавляет от текста при обучении. Этот подход «бестекстового НЛП» способен генерировать выразительную речь, обучаясь только на сырых аудиозаписях.
Ян ЛеКун уже написал в своем twitter:
«В естественных языках есть гораздо больше, чем текст: тон, акцент, выражение, просодия, тембр, высота ... «Бестекстовое НЛП» представляет речь через поток дискретных токенов. Речавая модель, обученная в self-supervised режиме, напрямую из звуковой волны! Это Новая Эра.»
В видео в этом посте 3 примера продолжения (генерации) по аудио prompt.
📇Blog 💻 Code 📰 GSLM paper
Facebook AI gпредсавил GSLM, первую языковую модель, которая полностью избавляет от текста при обучении. Этот подход «бестекстового НЛП» способен генерировать выразительную речь, обучаясь только на сырых аудиозаписях.
Ян ЛеКун уже написал в своем twitter:
«В естественных языках есть гораздо больше, чем текст: тон, акцент, выражение, просодия, тембр, высота ... «Бестекстовое НЛП» представляет речь через поток дискретных токенов. Речавая модель, обученная в self-supervised режиме, напрямую из звуковой волны! Это Новая Эра.»
В видео в этом посте 3 примера продолжения (генерации) по аудио prompt.
📇Blog 💻 Code 📰 GSLM paper
This media is not supported in your browser
VIEW IN TELEGRAM
Тут @denissexy сделал голосовой перевод отборного юридического бреда, который генерирует речевая модель GSLM из предыдущего поста!
«От почтовых топоров никогда не требовали труда, и любой запас был лично адекватен труду и разделу 19!»
«От почтовых топоров никогда не требовали труда, и любой запас был лично адекватен труду и разделу 19!»
Apple откладывает развертывание системы обнаружения запрещенного контента
Месяц назад Apple анонсировала фичу (на основе нейронного хэширования) для обнаружения запрещённых материалов в iCloud для обеспечения безопасности детей. Теперь Apple заявила, что им «потребуется дополнительное время» для доработки функций перед их выпуском. Вот заявление для 9to5Mac от Apple:
«В прошлом месяце мы объявили о планах по созданию фичей, призванных помочь защитить детей от преступников, которые используют средства коммуникации, а также ограничить распространение материалов сексуального насилии над детьми. Основываясь на отзывах клиентов, правозащитных групп, исследователей и других лиц, мы решили в ближайшие месяцы выделить дополнительное время, чтобы собрать информацию и внести улучшения в продукт, прежде чем выпускать эти критически важные функции, обеспечивающие безопасность детей».
Новые функции Apple по обеспечению безопасности детей должны были быть запущены в рамках обновлений iOS 15, iPadOS 15 и macOS Monterey.
Месяц назад Apple анонсировала фичу (на основе нейронного хэширования) для обнаружения запрещённых материалов в iCloud для обеспечения безопасности детей. Теперь Apple заявила, что им «потребуется дополнительное время» для доработки функций перед их выпуском. Вот заявление для 9to5Mac от Apple:
«В прошлом месяце мы объявили о планах по созданию фичей, призванных помочь защитить детей от преступников, которые используют средства коммуникации, а также ограничить распространение материалов сексуального насилии над детьми. Основываясь на отзывах клиентов, правозащитных групп, исследователей и других лиц, мы решили в ближайшие месяцы выделить дополнительное время, чтобы собрать информацию и внести улучшения в продукт, прежде чем выпускать эти критически важные функции, обеспечивающие безопасность детей».
Новые функции Apple по обеспечению безопасности детей должны были быть запущены в рамках обновлений iOS 15, iPadOS 15 и macOS Monterey.
Media is too big
VIEW IN TELEGRAM
Zero-Shot Style Transfer
Добавил к Zero-Shot Style Transfer мофинг в z пространстве taming transformer’a.
На самом деле все очень просто: движение между двумя точками z, можно интерпретировать как интерполяцию между двумя латентными векторами, пораждающими изображения. Это движение можно производить между реальными изображениям — morphing, а можно двигаться в ту сторону, которую “укажет” CLIP — Zero-Shot Style Transfer.
На видео происходит и то и другое. В самом начале Рерих z-морфится в Хокусая, а дальше уже Zero-Shot Style Transfer в Винсента ван Гога и снова в Рериха.
Добавил к Zero-Shot Style Transfer мофинг в z пространстве taming transformer’a.
На самом деле все очень просто: движение между двумя точками z, можно интерпретировать как интерполяцию между двумя латентными векторами, пораждающими изображения. Это движение можно производить между реальными изображениям — morphing, а можно двигаться в ту сторону, которую “укажет” CLIP — Zero-Shot Style Transfer.
На видео происходит и то и другое. В самом начале Рерих z-морфится в Хокусая, а дальше уже Zero-Shot Style Transfer в Винсента ван Гога и снова в Рериха.
Forwarded from Neural Shit
Forwarded from Denis Sexy IT 🤖
Опять в выходные арендовал сервак с A6000 и генерировал картинки в стиле Ивана Айвазовского – в этот раз по запросу «Горы покрытые бушующими пожарами», кажется я немного разобрался с параметрами для генерации, вышло лучше.
Прошлая часть тут
Прошлая часть тут
Media is too big
VIEW IN TELEGRAM
Zero-Shot Image Transfer
Мне кажется, что развиваемый мной последнее время подход (Zero-Shot Style Transfer + z-Morphing) уже вышел за рамки сугубо Style Transfer, и может применяться, не только к стилю, но к модальности (e.g. время суток, время года, условия) и даже к контенту (присутствие конкретных объектов) в рамках одного стиля.
Zero-Shot Image Transfer на этом примере используется для смены времени суток, в рамках одного исходного стиля Винсента ван Гога, а z-Morphing позволяет зациклить подобную генерацию.
Мне кажется, что развиваемый мной последнее время подход (Zero-Shot Style Transfer + z-Morphing) уже вышел за рамки сугубо Style Transfer, и может применяться, не только к стилю, но к модальности (e.g. время суток, время года, условия) и даже к контенту (присутствие конкретных объектов) в рамках одного стиля.
Zero-Shot Image Transfer на этом примере используется для смены времени суток, в рамках одного исходного стиля Винсента ван Гога, а z-Morphing позволяет зациклить подобную генерацию.
Forwarded from Love. Death. Transformers.
Автор канала Мишин лернинг гений
Забавно, каббалисты уже тогда придумали скип коннекшн с layer1 в layer3, и назвали его сфирот-блок
Идея заключалась в том, что божественная эманация затухала, двигаясь по кабалистическому графу, поэтому решили заюзать u-net (минора) подобную архитектуру, который упрощает операцию ЯХВЭ-бэкпроб, и дает новому поколению с 5ой дифференцируемой графой, учить БОГОЕДИНОЕ отображение x+F(x)
Инициализация подобной сети, должна выполняться, учитывая дни творения и молитву Шма Исраэль, для корой не очень подходит Xavier и He, но отлично спасает обрезание (крайнего слоя)
После такого талмудического публичного претрейна на обрезанную сеть можно надевать Кипу (линейный классификатор, голову). Пейсы же служат гиперпараметрами, которыми легко можно поднять трешхолды, опуская и поднимая печальный взгляд хасида-трансформера, который не успел сэкономить на дорогой операции квадратичного внимания
Забавно, каббалисты уже тогда придумали скип коннекшн с layer1 в layer3, и назвали его сфирот-блок
Идея заключалась в том, что божественная эманация затухала, двигаясь по кабалистическому графу, поэтому решили заюзать u-net (минора) подобную архитектуру, который упрощает операцию ЯХВЭ-бэкпроб, и дает новому поколению с 5ой дифференцируемой графой, учить БОГОЕДИНОЕ отображение x+F(x)
Инициализация подобной сети, должна выполняться, учитывая дни творения и молитву Шма Исраэль, для корой не очень подходит Xavier и He, но отлично спасает обрезание (крайнего слоя)
После такого талмудического публичного претрейна на обрезанную сеть можно надевать Кипу (линейный классификатор, голову). Пейсы же служат гиперпараметрами, которыми легко можно поднять трешхолды, опуская и поднимая печальный взгляд хасида-трансформера, который не успел сэкономить на дорогой операции квадратичного внимания
Apple Event — September 14
Меня интересуют сколько раз слово «neural» будет звучать на презентации..
📣 На презентации показали:
▪️Ipad / от 330$ (A13 bionic)
▪️Ipad Mini / от 500$ (без рамок)
▪️Apple Watch Series 7 / от 400$ (большой экран, помещается полноразмерная клавиатура, хз удобно ли)
▪️Добавили медитацию в фитнес+ подписку (Карл Поппер в гробу перевернулся)
▪️Iphone 13 (теперь «узнавать» можно по диагональному расположению камер) / от 700$
▪️Iphone 13 mini
A15 Bionic, матричная стабилизация, cinematic mode
🔓Затронули и privacy, ну конечно, язык после того, как отложили CSAM уже легко поворачивается
▪️Iphone 13 Pro / от 1000$
▪️Iphone 13 Pro Max / от 1100$
A15 Bionic, матричная стабилизация, cinematic mode, 5 core GPU, улучшенный дисплей OLED Super Retina HDR, 120 fps, телик - 3x zoom, «умные» фото фильтры (вычислительная фотография), ProRes (4K, 30fps)
⚙️ A15 Bionic (6 core, 16 core ml neural engine)
Вхождения:
«neural» = 7
«machine learning» = 7
«ml» = 5
📽 https://youtu.be/EvGOlAkLSLw
Меня интересуют сколько раз слово «neural» будет звучать на презентации..
📣 На презентации показали:
▪️Ipad / от 330$ (A13 bionic)
▪️Ipad Mini / от 500$ (без рамок)
▪️Apple Watch Series 7 / от 400$ (большой экран, помещается полноразмерная клавиатура, хз удобно ли)
▪️Добавили медитацию в фитнес+ подписку (Карл Поппер в гробу перевернулся)
▪️Iphone 13 (теперь «узнавать» можно по диагональному расположению камер) / от 700$
▪️Iphone 13 mini
A15 Bionic, матричная стабилизация, cinematic mode
🔓Затронули и privacy, ну конечно, язык после того, как отложили CSAM уже легко поворачивается
▪️Iphone 13 Pro / от 1000$
▪️Iphone 13 Pro Max / от 1100$
A15 Bionic, матричная стабилизация, cinematic mode, 5 core GPU, улучшенный дисплей OLED Super Retina HDR, 120 fps, телик - 3x zoom, «умные» фото фильтры (вычислительная фотография), ProRes (4K, 30fps)
⚙️ A15 Bionic (6 core, 16 core ml neural engine)
Вхождения:
«neural» = 7
«machine learning» = 7
«ml» = 5
📽 https://youtu.be/EvGOlAkLSLw
YouTube
Apple Event — September 14, 2021
Watch the special Apple Event to learn about the new iPhone 13 Pro, iPhone 13, Apple Watch Series 7, iPad mini, iPad, and more.
To watch the event interpreted in American Sign Language (ASL), please click here: https://youtu.be/d1PcBDLV6jw
00:00:00 Introduction…
To watch the event interpreted in American Sign Language (ASL), please click here: https://youtu.be/d1PcBDLV6jw
00:00:00 Introduction…
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Итак, Xiaomi, долго не думая, выпустили свои умные очки. Судя по презе, у них есть даже какой-то AR, но почему-то только в зелёной палитре, прям как в матрице.
Подробнее в блоге Xiaomi.
Подробнее в блоге Xiaomi.