Гугол продолжает снижать кол-во одновременных сессий в colab pro. Теперь доступна только одна. Штош, тесла с алиэкспресса, настало твое время!
Случайно всковырнул deep style, которому уже 4 года.
Это тот, который тут юзается - https://deepdreamgenerator.com/#gallery
и у одного модного тиктокера - https://www.tiktok.com/@rodrigoperezestrada?lang=ru-RU
Колаб ннада?)
Это тот, который тут юзается - https://deepdreamgenerator.com/#gallery
и у одного модного тиктокера - https://www.tiktok.com/@rodrigoperezestrada?lang=ru-RU
Колаб ннада?)
Forwarded from Мишин Лернинг
Ссылка на лекцию от «Мишин Лернинг», 🕢 19-30
Что будет на лекции: Zero-Shot, BERT, GPT3, ViT, CLIP, WuDao2.0, Dall-E, CLIP + VQGAN, SimVLM, Codex и многое другое
https://youtu.be/-fpQLPAkIN0
Что будет на лекции: Zero-Shot, BERT, GPT3, ViT, CLIP, WuDao2.0, Dall-E, CLIP + VQGAN, SimVLM, Codex и многое другое
https://youtu.be/-fpQLPAkIN0
YouTube
Нейронные сети: Zero-Shot — Zero Problem | Bert, GPT-3, CLIP, DALL-E, WuDao2.0, Codex | Transformer
Лекция: Zero-Shot — Zero Problem от автора блога «Мишин Лернинг» о начале новой эпохи в современном AI. Transformer | Прогрессивное ML комьюнити
▪️ Что такое Zero-Shot?
▪️ Какие сферы жизни затронет этот подход?
▪️ Почему важно понимать как работает GPT…
▪️ Что такое Zero-Shot?
▪️ Какие сферы жизни затронет этот подход?
▪️ Почему важно понимать как работает GPT…
This media is not supported in your browser
VIEW IN TELEGRAM
Запилил колаб со свежей сеткой LiveSpeechPortraits
Конвертит аудио в фотореалистичное видео.
В отличие от, например, first order model, здесь вместо морфинга сначала из аудио генерятся фичи лица и положение головы, а из них уже с помощью старой доброй pix2pix генерятся кадры видео.
В принципе, как обучать, тоже понятно: из аудио в фичи лица - 1 раз для каждого языка, из фич в кадры - для каждого лица.
Авторы выложили модели для 5 персонажей и английского языка, но и на русском выглядит весьма забавно.
🌎 Сайт 🐈 Гитхаб 📝 Пдфка с докладом
📒Колаб тут
#колаб #colab
Конвертит аудио в фотореалистичное видео.
В отличие от, например, first order model, здесь вместо морфинга сначала из аудио генерятся фичи лица и положение головы, а из них уже с помощью старой доброй pix2pix генерятся кадры видео.
В принципе, как обучать, тоже понятно: из аудио в фичи лица - 1 раз для каждого языка, из фич в кадры - для каждого лица.
Авторы выложили модели для 5 персонажей и английского языка, но и на русском выглядит весьма забавно.
🌎 Сайт 🐈 Гитхаб 📝 Пдфка с докладом
📒Колаб тут
#колаб #colab
Forwarded from vc.ru
OpenAI создала модель ИИ, которая генерирует выжимки из книг — сначала делит на разделы и делает их пересказ, а затем объединяет в финальный текст.
Например, «Алису в Стране чудес» получилось сократить с 26 тысяч слов до 136
https://vc.ru/ml/297407
Например, «Алису в Стране чудес» получилось сократить с 26 тысяч слов до 136
https://vc.ru/ml/297407
Forwarded from Brodetskyi. Tech, VC, Startups
Ааааа! Немец закрыл хомяка в клетке, подключенной к аккаунту на криптобирже: пробегая через один туннель, хомяк автоматически продает криптовалют на 20 евро, через другой — наоборот, покупает. За три месяца портфолио хомяка выросло на 29%.
Красивый перфоманс! Или инсталляция, я пока не понял.
Красивый перфоманс! Или инсталляция, я пока не понял.
This media is not supported in your browser
VIEW IN TELEGRAM
Не выдержала душа поэта :D
p.s. если честно, Обама не смог нормально выговорить свое имя. Отныне отговорки, что модель была обучена на англ. языке и поэтому с русским справляется неоч, больше не принимаются.
p.s. если честно, Обама не смог нормально выговорить свое имя. Отныне отговорки, что модель была обучена на англ. языке и поэтому с русским справляется неоч, больше не принимаются.
Forwarded from Мишин Лернинг
💐🤖 Новая SOTA на ImageNet: CoAtNet. Свадьба свертки и трансформера
Ресерчеры из Google Research, Brain Team создали архитектуру CoAtNet (depthwise Convolution and self-Attention Network) и выпустили пейпер с чудным названием: Marrying Convolution and Attention for All Data Sizes.
Проблема была в том, что огромные трансформеры, которые бьют SOTA на ImageNet, раскрывают свой потенциал на огромных датасетах (e.g.: ViT Huge на JFT-300M, 88.56% top-1), но не могут генерализировать знания и на обычном ImageNet (1.28M изображений), и даже на ImageNet-21 K (12.7M)
CoAtNet же показывает отличное ImageNet top-1 accuracy на всех претрейнах (и даже на самом ImageNet):
▪️ 86.00% - ImageNet
▪️ 88.56% - ImageNet-21 K
▪️ 90.88% - JFT-300M | SOTA 🏆
🤖 Архитектура проста: за residual блоками depthwise сверток следуют блоки residual multi-head relative attention. Генерализации добиваются возвращая сверку, обладающую известным inductive bias для изображений: трансляционной эквивалентностью фичей.
📰 paper 💻 кода нет
Ресерчеры из Google Research, Brain Team создали архитектуру CoAtNet (depthwise Convolution and self-Attention Network) и выпустили пейпер с чудным названием: Marrying Convolution and Attention for All Data Sizes.
Проблема была в том, что огромные трансформеры, которые бьют SOTA на ImageNet, раскрывают свой потенциал на огромных датасетах (e.g.: ViT Huge на JFT-300M, 88.56% top-1), но не могут генерализировать знания и на обычном ImageNet (1.28M изображений), и даже на ImageNet-21 K (12.7M)
CoAtNet же показывает отличное ImageNet top-1 accuracy на всех претрейнах (и даже на самом ImageNet):
▪️ 86.00% - ImageNet
▪️ 88.56% - ImageNet-21 K
▪️ 90.88% - JFT-300M | SOTA 🏆
🤖 Архитектура проста: за residual блоками depthwise сверток следуют блоки residual multi-head relative attention. Генерализации добиваются возвращая сверку, обладающую известным inductive bias для изображений: трансляционной эквивалентностью фичей.
📰 paper 💻 кода нет
Пока все заслуженно носятся с новоиспеченным гугловским CoAtNet, мало кто пишет про EfficientNet v2, которую гугл показал в том же посте.
Если кратко, то обещают более быстрое обучение и большую точность (accuracy) на кол-во параметров, чем в предыдущей версии архитектуры.
В отличие от CoAtNet, код и обученные модели в наличии: https://github.com/google/automl/tree/master/efficientnetv2
Если кратко, то обещают более быстрое обучение и большую точность (accuracy) на кол-во параметров, чем в предыдущей версии архитектуры.
В отличие от CoAtNet, код и обученные модели в наличии: https://github.com/google/automl/tree/master/efficientnetv2
Алярма! 5 часов назад зарелизили бетку нового фреймворка для загрузки данных под pytorch.
Все сыро, бета, ололо, но радует, что они решили пересобрать все это заново с нормальным дизайн-first подходом.
Этим мне и нравится pytorch, в отличие от tf, который сделан по принципу "лепила-мазала".
Гитхаб тут - https://github.com/pytorch/data
Все сыро, бета, ололо, но радует, что они решили пересобрать все это заново с нормальным дизайн-first подходом.
Этим мне и нравится pytorch, в отличие от tf, который сделан по принципу "лепила-мазала".
Гитхаб тут - https://github.com/pytorch/data
GitHub
GitHub - pytorch/data: A PyTorch repo for data loading and utilities to be shared by the PyTorch domain libraries.
A PyTorch repo for data loading and utilities to be shared by the PyTorch domain libraries. - pytorch/data
Forwarded from ExMuffin
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ Text2Animation 🎬
Что-то последнее время только генерация картинок по текстовому описанию у меня и появляется. Настало время исправить ситуацию и представить вам генерацию видео. Управлять всем этим добром не так просто, но внутри Колаба описана вся механика создания анимации, поэтому при желании каждый сможет разобраться. Гененрируется все очень шустро и итоговое качество весьма впечатляющее. Как и прошлый раз добавил переводчик, поэтому текст можете писать на любом языке.
P.S. в прикрепленном видео мы влетаем в Мону Лизу и оказываемся внутри Сальвадора Дали. Что бы это не значило :-)
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/Text2Animation.ipynb
Что-то последнее время только генерация картинок по текстовому описанию у меня и появляется. Настало время исправить ситуацию и представить вам генерацию видео. Управлять всем этим добром не так просто, но внутри Колаба описана вся механика создания анимации, поэтому при желании каждый сможет разобраться. Гененрируется все очень шустро и итоговое качество весьма впечатляющее. Как и прошлый раз добавил переводчик, поэтому текст можете писать на любом языке.
P.S. в прикрепленном видео мы влетаем в Мону Лизу и оказываемся внутри Сальвадора Дали. Что бы это не значило :-)
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/Text2Animation.ipynb
This media is not supported in your browser
VIEW IN TELEGRAM
Ну все, держите меня :D
Peppa pig -> Giger alien unreal engine RTX on
Peppa pig -> Giger alien unreal engine RTX on
Forwarded from DL in NLP (nlpcontroller_bot)
Recursively Summarizing Books with Human Feedback
Wu et al. [OpenAI]
arxiv.org/abs/2109.10862
openai.com/blog/summarizing-books
Эксперименты OpenAI с суммаризацией книг. По-моему это может быть одним из лучших бенчмарков "умности" текущих методов ML, поэтому я очень хайпаю статью.
Сама статья очень необычная сразу по нескольким причинам. С одной стороны, это OpenAI и мы ожидаем от них безумных экспериментов с почти неограниченными вычислительными ресурсами. С другой стороны, к этому проекту они привлекли ещё более дорогой ресурс — людей. Модель тренируется не один раз на заготовленном датасете по суммаризации, а итеративно улучшается с фидбеком от специальных тренированных людей. Фидбэк бывает двух видов: 1) человек пишет более правильное саммари 2) человек выбирает одно из двух саммари написанных моделью. В случае 1 понятно как улучшить модель — просто зафайнтюнить на дополнительных данных. Случай 2 веселее — тут используется великий и страшный reinforcement learning.
Теперь про сам подход. Он довольно простой. Допустим у вас есть текст размера 10K токенов, а модель может читать только 2К. Разделим текст на 5 чанков по 2К и для каждого из них сгенерируем саммари допустим размера 500 токенов. Потом сконкатим их и получим текст длины 2.5K токенов. Всё ещё слишком длинно — разделим его на два куска и пусть каждый из них сгенерит саммари по 500 токенов. Сконкатим эти результаты, получим текст 1000 токенов. Теперь можно получить из него финальное саммари.
Подход очень простой и решает кучу проблем. Во-первых такую разметку просто делать. Вы не заставляете людей суммаризировать целые книги, а лишь просите из суммаризировать чанки по 2K токенов. Куча плюсов: людям проще такое делать, машинам проще такое учить, плюс с одной книги получаете кучу разметки. В качестве инициализации для модели используют GPT-3.
В результате подход получается на удивление прикладным, итеративным и масштабируемым. Мне кажется, ровно так можно организовать работу команды занимающейся задачей суммаризации где-нибудь в индустрии.
По результатам: некоторые саммари близки по качеству к человекам, но их около 5% 🍒. В среднем скор человека ~6/7, а лучшей модели ~3.5/7. Естественно размер модели важен и 175млрд параметров дают огромный буст по сравнению с 6млрд. Внезапно RL хорошо зашёл и его использование улучшает скор с 2.5 до 3.5. Думаю он эффективен потому что доставать для него данные просто — людям нужно лишь выбрать одно из двух саммари, а не писать новое.
Как всегда в статье от OpenAI много интересных технических деталей, например как они выбрали на каких узлах дерева тренировать модель. Явно стоит того, чтобы потратить час на чтение.
Wu et al. [OpenAI]
arxiv.org/abs/2109.10862
openai.com/blog/summarizing-books
Эксперименты OpenAI с суммаризацией книг. По-моему это может быть одним из лучших бенчмарков "умности" текущих методов ML, поэтому я очень хайпаю статью.
Сама статья очень необычная сразу по нескольким причинам. С одной стороны, это OpenAI и мы ожидаем от них безумных экспериментов с почти неограниченными вычислительными ресурсами. С другой стороны, к этому проекту они привлекли ещё более дорогой ресурс — людей. Модель тренируется не один раз на заготовленном датасете по суммаризации, а итеративно улучшается с фидбеком от специальных тренированных людей. Фидбэк бывает двух видов: 1) человек пишет более правильное саммари 2) человек выбирает одно из двух саммари написанных моделью. В случае 1 понятно как улучшить модель — просто зафайнтюнить на дополнительных данных. Случай 2 веселее — тут используется великий и страшный reinforcement learning.
Теперь про сам подход. Он довольно простой. Допустим у вас есть текст размера 10K токенов, а модель может читать только 2К. Разделим текст на 5 чанков по 2К и для каждого из них сгенерируем саммари допустим размера 500 токенов. Потом сконкатим их и получим текст длины 2.5K токенов. Всё ещё слишком длинно — разделим его на два куска и пусть каждый из них сгенерит саммари по 500 токенов. Сконкатим эти результаты, получим текст 1000 токенов. Теперь можно получить из него финальное саммари.
Подход очень простой и решает кучу проблем. Во-первых такую разметку просто делать. Вы не заставляете людей суммаризировать целые книги, а лишь просите из суммаризировать чанки по 2K токенов. Куча плюсов: людям проще такое делать, машинам проще такое учить, плюс с одной книги получаете кучу разметки. В качестве инициализации для модели используют GPT-3.
В результате подход получается на удивление прикладным, итеративным и масштабируемым. Мне кажется, ровно так можно организовать работу команды занимающейся задачей суммаризации где-нибудь в индустрии.
По результатам: некоторые саммари близки по качеству к человекам, но их около 5% 🍒. В среднем скор человека ~6/7, а лучшей модели ~3.5/7. Естественно размер модели важен и 175млрд параметров дают огромный буст по сравнению с 6млрд. Внезапно RL хорошо зашёл и его использование улучшает скор с 2.5 до 3.5. Думаю он эффективен потому что доставать для него данные просто — людям нужно лишь выбрать одно из двух саммари, а не писать новое.
Как всегда в статье от OpenAI много интересных технических деталей, например как они выбрали на каких узлах дерева тренировать модель. Явно стоит того, чтобы потратить час на чтение.
Openai
Summarizing books with human feedback
Scaling human oversight of AI systems for tasks that are difficult to evaluate.