Нейросеть Codex от OpenAI: увольняйте ваших Data Scientist’ов
Будущее наступило! Нейросеть Codex (gpt 3 для генерации кода) позволяет решать data science задачи на естественном языке!
https://youtu.be/Ru5fQZ714x8
Будущее наступило! Нейросеть Codex (gpt 3 для генерации кода) позволяет решать data science задачи на естественном языке!
https://youtu.be/Ru5fQZ714x8
YouTube
Data Science with OpenAI Codex
Learn more: https://openai.com/blog/openai-codex
This media is not supported in your browser
VIEW IN TELEGRAM
3D визуализация того, как видят роботы Boston Dynamics
Эта анимация представляет собой трехмерную визуализацию, которая показывает то, что видит и планирует робот, перемещаясь по полосе препятствий для паркура.
Отслеживаемые объекты отображаются зеленым цветом и меняют цвет с зеленого на фиолетовый по мере того, как они исчезают из поля зрения сенсоров восприятия робота. Система слежения постоянно оценивает расположение объектов в окружении, а система навигации планирует шаги (они тоже показаны зеленым цветом) относительно этих объектов, используя информацию с карты.
Эта анимация представляет собой трехмерную визуализацию, которая показывает то, что видит и планирует робот, перемещаясь по полосе препятствий для паркура.
Отслеживаемые объекты отображаются зеленым цветом и меняют цвет с зеленого на фиолетовый по мере того, как они исчезают из поля зрения сенсоров восприятия робота. Система слежения постоянно оценивает расположение объектов в окружении, а система навигации планирует шаги (они тоже показаны зеленым цветом) относительно этих объектов, используя информацию с карты.
CLIP — Главная нейросеть 2021
📄 Детальный разбор CLIP на habr от Мишин Лернинг
Нейросеть CLIP — устойчивый классификатор, который не нужно даже обучать. Кроме того, этой сети нашли десятки разных применений: от нейронного поиска по фото и видео до генеративного искусства, от zero-shot классификации изображений до zero-shot Domain Adaptation для StyleGAN (NADA).
CLIP — это действительно новый взгляд на объединение NLP и CV. Последние несколько лет мы наблюдали триумфы в области обработки естественного языка, и языковые модели действительно наделали много шума, совершив новую революцию и, в очередной раз, отложив новую "зиму" искусственного интеллекта в долгий ящик.
Совсем недавно мы начали наблюдать явление, когда технологии, вроде бы изначально присущие только NLP, стали бить рекорды в компьютерном зрении: Vision Transformers. Теперь методы few-shot и zero-shot learning проникают в сферу компьютерного зрения уже благодаря гибридным nlp и cv моделям.
#сохраненки #статьи #habr
📄 Детальный разбор CLIP на habr от Мишин Лернинг
Нейросеть CLIP — устойчивый классификатор, который не нужно даже обучать. Кроме того, этой сети нашли десятки разных применений: от нейронного поиска по фото и видео до генеративного искусства, от zero-shot классификации изображений до zero-shot Domain Adaptation для StyleGAN (NADA).
CLIP — это действительно новый взгляд на объединение NLP и CV. Последние несколько лет мы наблюдали триумфы в области обработки естественного языка, и языковые модели действительно наделали много шума, совершив новую революцию и, в очередной раз, отложив новую "зиму" искусственного интеллекта в долгий ящик.
Совсем недавно мы начали наблюдать явление, когда технологии, вроде бы изначально присущие только NLP, стали бить рекорды в компьютерном зрении: Vision Transformers. Теперь методы few-shot и zero-shot learning проникают в сферу компьютерного зрения уже благодаря гибридным nlp и cv моделям.
#сохраненки #статьи #habr
🤖🏆 SimVLM — Новый CLIP
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Forwarded from Love. Death. Transformers.
#чтивонаночь
Пост из блога Nvidia про реалистичный синтез речи. Как обычно - трансформеры
https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/
Пост из блога Nvidia про реалистичный синтез речи. Как обычно - трансформеры
https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/
NVIDIA Blog
All the Feels: NVIDIA Shares Expressive Speech Synthesis Research at Interspeech
Developers and creators can access conversational AI models for expressive speech synthesis to generate voices for characters, virtual assistants and avatars.
CAPTCHA или Жизнь в эпоху Теста Тьюринга?
Знаете какой тест является самый популярным?
Помните фильм «Игра в Имитацию» про Тьюринга? Кстати, «игра в имитацию» — игра, в которой Вы общаясь с неизвестным человеком должны угадать его пол, а собеседник может Вас дурачить.
Тест Тьюринга это просто обобщение этой игры, где ваша задача ответить: человек или машина?
Можно долго говорить об ИИ. Но зачем? Реальность более прагматична. Мы живем в мире, где каждый должен доказывать, не то что он человек, а то что он хотя бы не робот.
Сегодня произошла масштабная атака на чат по Data Science в телеграмме. Мы справились лишь когда подключили бота, который кидает ботам — капчу!
Капча это калька с англ (аббр):
CAPTCHA — Completely Automated Public Turing test to tell Computers and Humans Apart.
Сегодня мы остановили ботов капчей. Но боты становятся «умнее». И капча с годами становится более сложной. Это настоящая гонка вооружений!
* На скрине — аккаунт бота, фотография профиля которого сгенерированна нейросетью
Знаете какой тест является самый популярным?
Помните фильм «Игра в Имитацию» про Тьюринга? Кстати, «игра в имитацию» — игра, в которой Вы общаясь с неизвестным человеком должны угадать его пол, а собеседник может Вас дурачить.
Тест Тьюринга это просто обобщение этой игры, где ваша задача ответить: человек или машина?
Можно долго говорить об ИИ. Но зачем? Реальность более прагматична. Мы живем в мире, где каждый должен доказывать, не то что он человек, а то что он хотя бы не робот.
Сегодня произошла масштабная атака на чат по Data Science в телеграмме. Мы справились лишь когда подключили бота, который кидает ботам — капчу!
Капча это калька с англ (аббр):
CAPTCHA — Completely Automated Public Turing test to tell Computers and Humans Apart.
Сегодня мы остановили ботов капчей. Но боты становятся «умнее». И капча с годами становится более сложной. Это настоящая гонка вооружений!
* На скрине — аккаунт бота, фотография профиля которого сгенерированна нейросетью
🎨 ➿ Text2OneLine Draw — дифференцируемое рисование одной линией
Представьте себе, что вы можете заказать модное тату не у дизайнера, а у нейронной сети. Или векторный логотип в noscript.
Собрал для вас новый colab:
🔮Text2OneLine Draw — дифференцируемое рисование одной линией!
🤖Описание:
- Создается рандомная кривая Безье. Толщина линии width и число перегибов line_complexity задается в интерфейсе
- Кривая рендерится через дифференцируемую векторную графику
- Текстовое описание превращается в вектор (текстовый CLIP)
- Затем градиенты текут на кривую Безье, максимизируя cossim картинки с тектом
💡Интуиция:
- Представьте, что перед вами на белом листе бумаги длинная запутанная черная нитка
- Алгоритм двигает эту нитку, пытаясь создать описанное изображение
p.s: Чтобы добиться желаемого результата, нужно поиграть с запросом и line_complexity, и возможно запустить генерацию несколько раз
Подход показывает, что эра дифференцируемой векторной графики началась!
#colab #mishin_learning_colab #neuralart
Представьте себе, что вы можете заказать модное тату не у дизайнера, а у нейронной сети. Или векторный логотип в noscript.
Собрал для вас новый colab:
🔮Text2OneLine Draw — дифференцируемое рисование одной линией!
🤖Описание:
- Создается рандомная кривая Безье. Толщина линии width и число перегибов line_complexity задается в интерфейсе
- Кривая рендерится через дифференцируемую векторную графику
- Текстовое описание превращается в вектор (текстовый CLIP)
- Затем градиенты текут на кривую Безье, максимизируя cossim картинки с тектом
💡Интуиция:
- Представьте, что перед вами на белом листе бумаги длинная запутанная черная нитка
- Алгоритм двигает эту нитку, пытаясь создать описанное изображение
p.s: Чтобы добиться желаемого результата, нужно поиграть с запросом и line_complexity, и возможно запустить генерацию несколько раз
Подход показывает, что эра дифференцируемой векторной графики началась!
#colab #mishin_learning_colab #neuralart
CLIP: Zero-Shot or Linear Probe? No! Just, Context Optimization (CoOp)
Zero-Shot CLIP, позволяет вместо сбора данных, разметки и обучения с учителем написать словами (prompt):
- a photo of a cat
- a photo of a dog
и получить классификационные головы для CLIP (обучение без обучения!)
Если нужна более высокая точность, то можно прибегнуть к linear probe — трейн (логистической) головы или на всем сете или на части — few-shot. Уже на 8-16 изображениях на класс, few-shot CLIP становится точнее, чем zero-shot. Из минусов: в режиме few-shot ухудшается робастность.
Ребята предлагают изящный способ — CoOp, который обладает преимуществами и zero-shot и few-shot! Вы пишите prompt [a photo of a cat], [a photo of a dog], собираете по 8-16 примеров нужных изображений, и пускаете градиенты на текстовый энкодер, изменяя вектора [a photo of a].
Тем самым вы заставляете выучить continuous prompt, который будет лучше, чем любой придуманный человеком + точность выше чем few-shot!
📰 paper 💻 code
Zero-Shot CLIP, позволяет вместо сбора данных, разметки и обучения с учителем написать словами (prompt):
- a photo of a cat
- a photo of a dog
и получить классификационные головы для CLIP (обучение без обучения!)
Если нужна более высокая точность, то можно прибегнуть к linear probe — трейн (логистической) головы или на всем сете или на части — few-shot. Уже на 8-16 изображениях на класс, few-shot CLIP становится точнее, чем zero-shot. Из минусов: в режиме few-shot ухудшается робастность.
Ребята предлагают изящный способ — CoOp, который обладает преимуществами и zero-shot и few-shot! Вы пишите prompt [a photo of a cat], [a photo of a dog], собираете по 8-16 примеров нужных изображений, и пускаете градиенты на текстовый энкодер, изменяя вектора [a photo of a].
Тем самым вы заставляете выучить continuous prompt, который будет лучше, чем любой придуманный человеком + точность выше чем few-shot!
📰 paper 💻 code
Forwarded from эйай ньюз
В элитном интерактивном онлайн-журнале distill.pub вышла статья: "Нежное Введение в Графовые Нейронные Сети"
Мой рекомендасион.
https://distill.pub/2021/gnn-intro/
Ктати, это одна из последних статей в этом журнале. К сожалению, редакторы жёстко выгорели за пять лет поддержания такой высокой планки качества.
Мой рекомендасион.
https://distill.pub/2021/gnn-intro/
Ктати, это одна из последних статей в этом журнале. К сожалению, редакторы жёстко выгорели за пять лет поддержания такой высокой планки качества.
∞-former: Infinite Memory Transformer
Представлен трансформер, решающий проблему квадратичной сложности механизма внимания даже не за линейное время, а за константу.
Основная идея в том, чтобы аппроксимировать вектора токенов последовательности различной длины фиксированным набором континуальных радиальных базисов.
По факту, вместо привычной матрицы [длина последовательности, размерность токенов] получается набор континуальных функций размерностью [константа, размерность токенов]. Интуиция - компрессия временной составляющей.
За счет использования механизма непрерывного внимания для работы с такой долговременной памятью, сложность внимания ∞-former становится независимой от длины контекста.
Метод не такой изящный, как perceiver io, но определено интересный.
📄 paper
Представлен трансформер, решающий проблему квадратичной сложности механизма внимания даже не за линейное время, а за константу.
Основная идея в том, чтобы аппроксимировать вектора токенов последовательности различной длины фиксированным набором континуальных радиальных базисов.
По факту, вместо привычной матрицы [длина последовательности, размерность токенов] получается набор континуальных функций размерностью [константа, размерность токенов]. Интуиция - компрессия временной составляющей.
За счет использования механизма непрерывного внимания для работы с такой долговременной памятью, сложность внимания ∞-former становится независимой от длины контекста.
Метод не такой изящный, как perceiver io, но определено интересный.
📄 paper
Forwarded from эйай ньюз
Finetuned Language Models Are Zero-Shot Learners (FLAN)
Новая статейка от Google Research о языковой модели на 137-миллиардов параметров, которая превосходит GPT-3 (few-shot) на различных задачах в zero shot сценарии.
🗯Идея. Предлагается новый метод файнтьюнинга, называемый "instruction tuning". Тут авторы используют идею, что NLP задачи могут быть описаны человеческими словами. Например, “Is the sentiment of this movie review positive or negative?” или “Translate ‘how are you’ into Chinese.” Итак, берется предобученный трансформер на 137-миллиардов параметров (состоит только из декодера), и файнтьюнится на пачке задач с текстовыми инструкциями. После этого его тестируют на новых задачах, также описанных текстом.
✔️Результат. FLAN модель (137 миллиардов параметров) после "instruction tuning" уделывает GPT-3 (175 миллиардов параметров) на 19 из 25 новых языковых задачах.
Статья на arxiv. Кода пока нет, но должен появиться тут.
Новая статейка от Google Research о языковой модели на 137-миллиардов параметров, которая превосходит GPT-3 (few-shot) на различных задачах в zero shot сценарии.
🗯Идея. Предлагается новый метод файнтьюнинга, называемый "instruction tuning". Тут авторы используют идею, что NLP задачи могут быть описаны человеческими словами. Например, “Is the sentiment of this movie review positive or negative?” или “Translate ‘how are you’ into Chinese.” Итак, берется предобученный трансформер на 137-миллиардов параметров (состоит только из декодера), и файнтьюнится на пачке задач с текстовыми инструкциями. После этого его тестируют на новых задачах, также описанных текстом.
✔️Результат. FLAN модель (137 миллиардов параметров) после "instruction tuning" уделывает GPT-3 (175 миллиардов параметров) на 19 из 25 новых языковых задачах.
Статья на arxiv. Кода пока нет, но должен появиться тут.
Готовлю новую серию работ на online выставку Neural Art проекта transformer.
Каждый пиксель этих 4K картин сгенерирован нейронными сетями.
Каждый пиксель этих 4K картин сгенерирован нейронными сетями.
This media is not supported in your browser
VIEW IN TELEGRAM
Сделал для вас нейронный таймлапс: Zero-Shot Season Shifting
Вот и лето прошло,
Словно и не бывало.
На пригреве тепло.
Только этого мало.
Всё, что сбыться могло,
Мне, как лист пятипалый,
Прямо в руки легло.
Только этого мало.
Понапрасну ни зло,
Ни добро не пропало,
Всё горело светло.
Только этого мало.
Жизнь брала под крыло,
Берегла и спасала.
Мне и вправду везло.
Только этого мало.
Листьев не обожгло,
Веток не обломало…
День промыт, как стекло.
Только этого мало.
Арсений Тарковский, 1967 г.
p.s. текстовое описание для генерации: «начало зимы, кадр из кинофильма Тарковского»
Вот и лето прошло,
Словно и не бывало.
На пригреве тепло.
Только этого мало.
Всё, что сбыться могло,
Мне, как лист пятипалый,
Прямо в руки легло.
Только этого мало.
Понапрасну ни зло,
Ни добро не пропало,
Всё горело светло.
Только этого мало.
Жизнь брала под крыло,
Берегла и спасала.
Мне и вправду везло.
Только этого мало.
Листьев не обожгло,
Веток не обломало…
День промыт, как стекло.
Только этого мало.
Арсений Тарковский, 1967 г.
p.s. текстовое описание для генерации: «начало зимы, кадр из кинофильма Тарковского»
Image2Image Translation и Style Transfer в эпоху Zero-Shot
Есть такая область машинного обучения image2image translation. По факту это аналог nlp языкового перевода в cv. Примеры:
- перевод из лета в зиму
- из зебр в лошадь
- из чб в цвет
- из ночи в день
- из блюра в четкие фото
- из фото в скетч
- и т.д.
Пару лет назад на этапе PoC я заморачивался с тем, чтобы сделать мультимодальный перевод из лета в зиму (см фото поста). Потом мы с коллегами юзали сложнейший GAN с 14-ю лоссами внутри, чтобы добиться качественной раскраски чб видео и повышения его качества. Для этого нам потребовался огромный датасет, который приходилось днями чистить вручную! И обучать все это неделями на суперкомпьютерах.
Сейчас, в 2021, я смотрю на задачи style transfer и image2image через призму zero-shot, и до сей поры не могу поверить, что можно превратить, e.g.: лето в зиму (предыдущий пост), сохранив весь контекст, без единого обучающего примера и без обучения вообще!
Действительно, zero-shot —киберпанк, который мы заслужили.
Есть такая область машинного обучения image2image translation. По факту это аналог nlp языкового перевода в cv. Примеры:
- перевод из лета в зиму
- из зебр в лошадь
- из чб в цвет
- из ночи в день
- из блюра в четкие фото
- из фото в скетч
- и т.д.
Пару лет назад на этапе PoC я заморачивался с тем, чтобы сделать мультимодальный перевод из лета в зиму (см фото поста). Потом мы с коллегами юзали сложнейший GAN с 14-ю лоссами внутри, чтобы добиться качественной раскраски чб видео и повышения его качества. Для этого нам потребовался огромный датасет, который приходилось днями чистить вручную! И обучать все это неделями на суперкомпьютерах.
Сейчас, в 2021, я смотрю на задачи style transfer и image2image через призму zero-shot, и до сей поры не могу поверить, что можно превратить, e.g.: лето в зиму (предыдущий пост), сохранив весь контекст, без единого обучающего примера и без обучения вообще!
Действительно, zero-shot —киберпанк, который мы заслужили.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Национальный киноархив Австралии раскрасил кадры с тасманийским тигром последний из которых умер 85 лет назад, а я прогнал его через нейронки тут, и сделал 60 кадров в секунду и чуть подправил скорость проигрывания. Ну и добавил звук, для антуража.
Давайте беречь животных 🖤
Давайте беречь животных 🖤
Forwarded from эйай ньюз
А вот и новые умные очечи от Ray-Ban + Facebook. Буду скромен с описанием, чтобы не взболтнуть лишнего. Очки называются Ray-Ban Stories. В них имеются две встроенные кармеры по бокам, с помощью которых можно снимать классные видео от первого лица, процессор Snapdragon, набор микроспикеров, три микрофона, оптимизированные для аудиозвонков, и даже маленький тачпад. Из технологий для улучшения звука и видео: стабилизация видео, HDR, улучшение освещения, деноизинг и подавление фонового шума, видео и фото энхансинг с помощью ML. В дополнение к очкам идет отдельное приложение Facebook View, которое помогает все настраивать и управлять записываемых контентом.
Есть варианты в нескольких классических оправах. Радует, что выглядят они очень стильно, в отличие от уродцев Spectacles 3 от Снэпа. Также стоит отметить вполне дотупную цену девайса - всего $299. Насчет AR/VR - пока функционал очков ограничен, но, очевидно, что все движется в этом направлении и будут выходить софтверные обновления.
Тех описание на блоге ФБ.
Есть варианты в нескольких классических оправах. Радует, что выглядят они очень стильно, в отличие от уродцев Spectacles 3 от Снэпа. Также стоит отметить вполне дотупную цену девайса - всего $299. Насчет AR/VR - пока функционал очков ограничен, но, очевидно, что все движется в этом направлении и будут выходить софтверные обновления.
Тех описание на блоге ФБ.