Forwarded from Соне нравится (или нет)
Media is too big
VIEW IN TELEGRAM
Смотрите, что выкатили ребята из Самсунга, Яндекса и Сколково.
MegaPortraits: One-shot Megapixel Neural Head Avatars
Скажу сразу, что сейчас поступаю как AI-инфоцыганка, потому что не прочитала ещё пейпер, не выделила для себя плюсы и минусы разработанного подхода, а уже пишу про него. Если даже авторы и выложили черрипики, то нельзя преуменьшить значимость проделанного ими труда.
Предложенное решение позволяет пременить анимацию лица из видео среднего качества на изображение высокого качества.
Модель учится в два этапа:
1) базовая модель с двумя энкодерами для захвата volumetric фичей и для захвата информации об анимации, а также с двумя warping-генераторами, одной 3D CNN и 2D CNN в конце;
2) image-to-image translation для получения high resolution (1024x1024) изображения.
И нельзя забывать, что это One-Shot подход, т.е. вам достаточно одной фотографии или фрейма из видео для получения анимированного аватара. Также авторы пишут, что полученную модель можно дистиллировать в легковесную модель, которая способна работать в риалтайме (130 fps на одной GPU).
MegaPortraits: One-shot Megapixel Neural Head Avatars
Скажу сразу, что сейчас поступаю как AI-инфоцыганка, потому что не прочитала ещё пейпер, не выделила для себя плюсы и минусы разработанного подхода, а уже пишу про него. Если даже авторы и выложили черрипики, то нельзя преуменьшить значимость проделанного ими труда.
Предложенное решение позволяет пременить анимацию лица из видео среднего качества на изображение высокого качества.
Модель учится в два этапа:
1) базовая модель с двумя энкодерами для захвата volumetric фичей и для захвата информации об анимации, а также с двумя warping-генераторами, одной 3D CNN и 2D CNN в конце;
2) image-to-image translation для получения high resolution (1024x1024) изображения.
И нельзя забывать, что это One-Shot подход, т.е. вам достаточно одной фотографии или фрейма из видео для получения анимированного аватара. Также авторы пишут, что полученную модель можно дистиллировать в легковесную модель, которая способна работать в риалтайме (130 fps на одной GPU).
👍10🔥5👎4
Demystifying Noise Contrastive Estimation
Хороший пост про то, как вычисляются разные вариации contrastive loss’ов. Изначально проблема состоит в том, что если мы хотим выдавать скор того, насколько объект x (например, какое-то слово) подходит под контекст c, то эту оценку нужно нормализовать, посчитав скоры еще для всех остальных возможных x (например, для всех слов в словаре). Есть несколько подходов, как избавиться от этого шага:
– Local NCE: свести все к бинарной классификации – предсказываем, является ли x положительным примером, или он насемплирован из случайного шума. здесь функция аппроксимирует напрямую условную верятность p(x|c)
– Global NCE: монте-карло-семплим k примеров, и предсказываем, какой из k+1 является реальным. здесь функция аппроксимирует p(x|c) / q(x), где q – какое-то заданное случайное распределение, что тоже отбрасывает необходимость нормализовать на все остальные возможные x
– InfoNCE: по сути сводится к KL-дивергенции – чем больше непохожие (=независимы) наши примеры, тем больше KL дивергенция будет стремиться к 0
В посте собственно разбирается, как получаются лоссы / training objectives, в чем их допущения, и как вообще получается с математической точки зрения, что contrastive estimation отражает mutual information данных
https://jxmo.io/posts/nce
Хороший пост про то, как вычисляются разные вариации contrastive loss’ов. Изначально проблема состоит в том, что если мы хотим выдавать скор того, насколько объект x (например, какое-то слово) подходит под контекст c, то эту оценку нужно нормализовать, посчитав скоры еще для всех остальных возможных x (например, для всех слов в словаре). Есть несколько подходов, как избавиться от этого шага:
– Local NCE: свести все к бинарной классификации – предсказываем, является ли x положительным примером, или он насемплирован из случайного шума. здесь функция аппроксимирует напрямую условную верятность p(x|c)
– Global NCE: монте-карло-семплим k примеров, и предсказываем, какой из k+1 является реальным. здесь функция аппроксимирует p(x|c) / q(x), где q – какое-то заданное случайное распределение, что тоже отбрасывает необходимость нормализовать на все остальные возможные x
– InfoNCE: по сути сводится к KL-дивергенции – чем больше непохожие (=независимы) наши примеры, тем больше KL дивергенция будет стремиться к 0
В посте собственно разбирается, как получаются лоссы / training objectives, в чем их допущения, и как вообще получается с математической точки зрения, что contrastive estimation отражает mutual information данных
https://jxmo.io/posts/nce
🔥4👍2
Forwarded from Миша пытается в ML
Karan Pratap Singh
System Design
Learn how to design systems at scale and prepare for system design interviews
👍7🔥5
Какие-то новости (или уже не новости?) про Stable Diffusion – открыта бета версия веб-интерфейса модели, и вроде есть слух, что в понедельник веса уже релизнут
Бета вот, вроде бы каждому сейчас дают по 200 промтов бесплатно, но нигде увы эта информация не отражается
https://beta.dreamstudio.ai/dream
Бета вот, вроде бы каждому сейчас дают по 200 промтов бесплатно, но нигде увы эта информация не отражается
https://beta.dreamstudio.ai/dream
👏8🎉2
Для Stable Diffusion нужно очень тщательно подбирать промты и параметры запроса, так что вот список ресурсов, которые могут сделать жизнь немного легче:
💫 beginner’s guide, где описываются основные аргументы модели. В конце есть ссылки на более advanced stuff, типа выбора семплера или prompt weighting
💫 большой гайд на гитхаб – в частности там есть раздел про изучение modifiers, то есть как разные слова и параметры запроса влияют на генерацию. Есть список исследований и экспериментов по работе модели, список стилей художников, на которых она обучалась, список полезных ключевых слов (например, чтобы ввести camera distance), и много чего еще
💫 если вы хотите генерить именно в уже существующем жанре или подражая какому-то определенному художнику, то вот огромный список 3800+ художников и стилей, которые удалось обнаружить в латентном пространстве модели
💫 https://promptomania.com/stable-diffusion-prompt-builder/ – билдер промтов, позволяет набрать детализированное описание, настроить параметры вроде той же camera distance, текстур, пост-процессинга, цветовой гаммы, освещения и так далее, выбрать стиль художника, размер картинки и много чего еще
💫 beginner’s guide, где описываются основные аргументы модели. В конце есть ссылки на более advanced stuff, типа выбора семплера или prompt weighting
💫 большой гайд на гитхаб – в частности там есть раздел про изучение modifiers, то есть как разные слова и параметры запроса влияют на генерацию. Есть список исследований и экспериментов по работе модели, список стилей художников, на которых она обучалась, список полезных ключевых слов (например, чтобы ввести camera distance), и много чего еще
💫 если вы хотите генерить именно в уже существующем жанре или подражая какому-то определенному художнику, то вот огромный список 3800+ художников и стилей, которые удалось обнаружить в латентном пространстве модели
💫 https://promptomania.com/stable-diffusion-prompt-builder/ – билдер промтов, позволяет набрать детализированное описание, настроить параметры вроде той же camera distance, текстур, пост-процессинга, цветовой гаммы, освещения и так далее, выбрать стиль художника, размер картинки и много чего еще
❤13👍4🤡1
я обучала одну модель
Для Stable Diffusion нужно очень тщательно подбирать промты и параметры запроса, так что вот список ресурсов, которые могут сделать жизнь немного легче: 💫 beginner’s guide, где описываются основные аргументы модели. В конце есть ссылки на более advanced…
В дополнение к списку тулов для Stable Diffusion вышел хороший поисковик по промтам, где собраны удачные запросы и результаты генерации. Очень удобно скопировать и потом менять параметры под себя, если хотелось сгенерировать нечто похожее. Особенно актуально с портретами/фотографиями, так как Stable Diffusion часто с ними портачит, и нужно колдовать с запросом (эмпирическое правило такое, что всегда лучше докинуть имена художников и фотографов к запросу, так картинка будет качественнее)
На скрине мой любимый пока что промт оттуда
https://lexica.art/
На скрине мой любимый пока что промт оттуда
https://lexica.art/
👍9
Сложно поверить, но это реально сниппет кода из статьи OpenAI… Ну хоть что-то релизят в опенсорс
😁59
Пока все публикуют что-то краcивое, вот моя подборка самых стремных артефактов stable diffusion
🔥22😱7❤3
К вопросу о том, где можно потестить Stable Diffusion, если нет своего железа и/или возможности платить за Dream Studio – мы в Ex-Human подняли его у себя на сервере, чтобы можно генерировать прямо из бота в телеграм ✨
🟣 🟣 🟣 🟣 🟣
https://news.1rj.ru/str/txt2image_exhuman_bot
https://news.1rj.ru/str/txt2image_exhuman_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
stable_diffusion_exhuman_bot
Generate images by entering text denoscription 👍
Check out our app: https://botif.ai/
Developed by https://exh.ai/
Check out our app: https://botif.ai/
Developed by https://exh.ai/
🔥23❤6🤩2
Forwarded from DLStories
Media is too big
VIEW IN TELEGRAM
Смотрите, какая штука стала популярной в Твиттере: Adept.ai обещают выпустить ATC-1: крутого диджитал-помощника на основе Transformer
ACT-1 — это расширение в Google Chrome. В небольшом окошке нужно ввести текст-описание того, что вы хотите сделать. Например, "найти дом в Сан Франциско для 4 человек с бюджетом до $600k” или “найти инфу, сколько раз Ди Каприо получал Оскар”. ACT-1 за вас проделает в браузере ту последовательность действий, которую сделал бы человек для реализации задачи. Пример работы — на видео к посту.
Короче, это как продвинутая Siri, только запросы вводятся (пока что) текстом и они могут быть довольно сложные. Дальше обещают добавить возможность уточнять запросы и даже учить ACT-1 делать действия, которые у нее не получаются. Например, научить ее использовать новую формулу в Excel или пользоваться поиском на новой веб-странице.
Судя по всему, ребята собрали датасет пар вида “текстовое описание действия в браузере — последовательность действий”, обучили на нем Transformer и поколдовали над скоростью инференса. Подробный технический пост скоро обещают. Мне лично интересно, как получилось собрать достаточное количество разнообразных данных, чтобы можно было так хорошо натренировать модель (если она действительно работает так хорошо, как выглядит на видео).
Вообще, adept.ai — лаба, основанная выходцами из Google Research и DeepMind. Двое из них в 2017 приложили руку к появлению на свет модели Transformer (первый и третий авторы статьи!). Так что я верю, что ACT-1 действительно работает и жду релиза) Почитать о создателях и истории Adept можно тут.
А в целом Adept заявляют, что они создают general intelligence. Посмотрим, как пойдет)
Ссылки:
Скоро должна выйти альфа-версия ACT-1, записаться в waitlist можно тут.
А на сайте — больше видео-демок работы ACT
ACT-1 — это расширение в Google Chrome. В небольшом окошке нужно ввести текст-описание того, что вы хотите сделать. Например, "найти дом в Сан Франциско для 4 человек с бюджетом до $600k” или “найти инфу, сколько раз Ди Каприо получал Оскар”. ACT-1 за вас проделает в браузере ту последовательность действий, которую сделал бы человек для реализации задачи. Пример работы — на видео к посту.
Короче, это как продвинутая Siri, только запросы вводятся (пока что) текстом и они могут быть довольно сложные. Дальше обещают добавить возможность уточнять запросы и даже учить ACT-1 делать действия, которые у нее не получаются. Например, научить ее использовать новую формулу в Excel или пользоваться поиском на новой веб-странице.
Судя по всему, ребята собрали датасет пар вида “текстовое описание действия в браузере — последовательность действий”, обучили на нем Transformer и поколдовали над скоростью инференса. Подробный технический пост скоро обещают. Мне лично интересно, как получилось собрать достаточное количество разнообразных данных, чтобы можно было так хорошо натренировать модель (если она действительно работает так хорошо, как выглядит на видео).
Вообще, adept.ai — лаба, основанная выходцами из Google Research и DeepMind. Двое из них в 2017 приложили руку к появлению на свет модели Transformer (первый и третий авторы статьи!). Так что я верю, что ACT-1 действительно работает и жду релиза) Почитать о создателях и истории Adept можно тут.
А в целом Adept заявляют, что они создают general intelligence. Посмотрим, как пойдет)
Ссылки:
Скоро должна выйти альфа-версия ACT-1, записаться в waitlist можно тут.
А на сайте — больше видео-демок работы ACT
👍11🔥2💯2🥴1
И еще один мем из твиттера – кажется, кто-то взломал весь интранет Uber. Некий хакер заспамил сотрудника сообщениями с сылкой, которая на самом деле вела к добавлению в интранет нового пользователя, потом написал ему в WhatsApp от лица работника Uber IT и сказал все акцептить. Потом нашел все пароли от AWS, GCP и OneLogin. И после взлома написал коментарий ко всем тикетам + отправил всем сотрудникам уведомление в Slack, что все взломал (только ему сначала никто не поверил 🤡)
В дополнение сообщают, что сейчас все запросы в поисковике под VPN убера ведут на сайт с порнографией и подписью ‘Fuck you wankers’
Думайте об этой истории, если у вас была плохая рабочая пятница
В дополнение сообщают, что сейчас все запросы в поисковике под VPN убера ведут на сайт с порнографией и подписью ‘Fuck you wankers’
Думайте об этой истории, если у вас была плохая рабочая пятница
👍14😁5😱2💩2🤨2
Недавно OpenAI выложили (и действительно прямо в опен-сорс!) модель для распознавания речи Whisper. Подробнее про нее можно прочитать в посте от Мишин Лернинг – если кратко, то кажется, что никакой магии, просто очень большой и хорошо размеченный многоязычный датасет, служебные токены, которые определяют текущую задачу (транскибирование, перевод, таймстемпы и т.д.), и плейн ванилла трансформер
Так вот, Андрей Карпатый не стал терять времени, и затранскрибировал этой сеткой все подкасты Lex Fridman – https://karpathy.ai/lexicap/
До этого он еще убедился, что Whisper достаточно хорошо знает технические и математические термины (типа GPU, LSTM, RNN и все такое прочее), так что при транскрибировании эта информация не коверкается
Ждем теперь записи всех выпусков программы Статус
Так вот, Андрей Карпатый не стал терять времени, и затранскрибировал этой сеткой все подкасты Lex Fridman – https://karpathy.ai/lexicap/
До этого он еще убедился, что Whisper достаточно хорошо знает технические и математические термины (типа GPU, LSTM, RNN и все такое прочее), так что при транскрибировании эта информация не коверкается
Ждем теперь записи всех выпусков программы Статус
❤27👎2👍1