Forwarded from Just links
Twitter
Alexander Kolesnikov 🇺🇦
I've always been frustrated that, beyond image classification, computer vision is full of complex and task-specific components. Thus, very excited to share our new work, where we propose a unified modeling approach for vision: arxiv.org/abs/2205.10337. More…
👍3🔥1
Just links
https://twitter.com/kolesnikov/status/1528658301076094976
#чтивонаночь
Есть одна простая концепция - давайте оперировать картинкой как токенами(VIT), если мы можем оперировать токенами то мы можем решать картиночные задачи средставами LM (T5/ GPT), тут вылезает всякая забавная мультимодалка типа DALLE-FLAMINGO-BLIP(Последние два правда не используют визуальные токены, хотя могли бы )
Слеудующим шагом было использовать картиночные токены не только для классификации(VIT)/генерации(DALLE) но и для решения стандартных картиночных GAN_овских задач типа pix2pix(image colorization, Panoptic). А еще так как мы говорим все же о LM, то работает и обратная задача, те всякие panoptic segmentation/segmentation/.../etc
Обучение
Тут используется комбинация двух моделек (CNN) которая изначально решает задачу и на основе аутпута из него получаем кодбуки которые нужно модифицировать.
Вообще очень интересно покапаться в имплементации, многие моменты не очевидны, но тем не менее - это очень большой шаг вперед
arxiv
Есть одна простая концепция - давайте оперировать картинкой как токенами(VIT), если мы можем оперировать токенами то мы можем решать картиночные задачи средставами LM (T5/ GPT), тут вылезает всякая забавная мультимодалка типа DALLE-FLAMINGO-BLIP(Последние два правда не используют визуальные токены, хотя могли бы )
Слеудующим шагом было использовать картиночные токены не только для классификации(VIT)/генерации(DALLE) но и для решения стандартных картиночных GAN_овских задач типа pix2pix(image colorization, Panoptic). А еще так как мы говорим все же о LM, то работает и обратная задача, те всякие panoptic segmentation/segmentation/.../etc
Обучение
Тут используется комбинация двух моделек (CNN) которая изначально решает задачу и на основе аутпута из него получаем кодбуки которые нужно модифицировать.
Вообще очень интересно покапаться в имплементации, многие моменты не очевидны, но тем не менее - это очень большой шаг вперед
arxiv
🤔5👍2
Forwarded from shonenkov AI
“холст картина маслом горы радуга инопланетный пейзаж бежевый фон” от rudalle-aspect-ratio 12b
больше генераций можно посмотреть в дискорд боте, вот инвайт:
https://discord.gg/xV7dNbT9NU
@shonenkovAI
больше генераций можно посмотреть в дискорд боте, вот инвайт:
https://discord.gg/xV7dNbT9NU
@shonenkovAI
🔥12
Forwarded from Градиентное погружение
🔥 IMAGEN уже в коде
— Пока все мусолят тему крутости новой модельки над DALLE 2, а разрабы создают чатики для реализации архитектуры, один из админов за ночь справился с задачей.
📎 Прикрепили генерации модельки, обученной с нуля за пару часов на P100 и небольшом сете.
Градиентное погружение
👉 Лайк, Шер, Звёздочка
Гитхаб
Попробовать ❤️
Про IMAGEN
— Пока все мусолят тему крутости новой модельки над DALLE 2, а разрабы создают чатики для реализации архитектуры, один из админов за ночь справился с задачей.
📎 Прикрепили генерации модельки, обученной с нуля за пару часов на P100 и небольшом сете.
Градиентное погружение
👉 Лайк, Шер, Звёздочка
Гитхаб
Попробовать ❤️
Про IMAGEN
🔥15
Web dataset LION 5B
Веб доступ к LION который позволяет без загрузки на локальную машину всего сета учить модельки
github
Веб доступ к LION который позволяет без загрузки на локальную машину всего сета учить модельки
github
GitHub
laion-prepro/laion5B/usage_guide/dataloader_pytorch.py at main · rom1504/laion-prepro
Get hundred of million of image+url from the crawling at home dataset and preprocess them - rom1504/laion-prepro
👍4
#чтивонаночь
Очень крутая штука от huggingface - accelerate, позволяет встраивать multi gpu tensor parallel training в обычные torch скрипты и не думать.
Blogpost
Очень крутая штука от huggingface - accelerate, позволяет встраивать multi gpu tensor parallel training в обычные torch скрипты и не думать.
Blogpost
Digitalocean
Multi-GPU on raw PyTorch with Hugging Face’s Accelerate library | DigitalOcean
In this article, we examine HuggingFace’s Accelerate library for multi-GPU deep learning. We apply Accelerate with PyTorch and show how it can be used to sim…
👍11
Forwarded from Phystech.Genesis | Channel
Спешим поделиться очень крутой и радостной новостью! 🔥
Участник нашего сообщества, член Russian Hack Team, Даниил Охлопков вместе со своим компаньоном Серафимом Кораблёвым победили в номинации "Финансы и инвестиции" Forbes 30 under 30!
От души поздравляем и гордимся успехами ребят.
@okhlopkov, так держать! 🥳🥳🥳🥳
Участник нашего сообщества, член Russian Hack Team, Даниил Охлопков вместе со своим компаньоном Серафимом Кораблёвым победили в номинации "Финансы и инвестиции" Forbes 30 under 30!
От души поздравляем и гордимся успехами ребят.
@okhlopkov, так держать! 🥳🥳🥳🥳
Forbes «З0 до 30»
Серафим Кораблев и Даниил Охлопков
Номинация «Финансы и инвестиции» в рейтинге «30 до 30» 2022
👍29🔥2🤮1💩1
научил попугая говорить: энкодер, диффузия, clip, LM и он случайно сделал SOTA text2image
❤25😁14👍4
Forwarded from Denis Sexy IT 🤖
Как потратить ~1000$ на ИИ-эксперимент:
Когда-то давно я ездил на концерт пражской филармонии, где нейронка дописала одну из композиций Дворжака, а оркестр исполнил то, что написали (вот пост). Я специально купил заранее билеты, поехал туда и не разочаровался — выглядело это все, ну, как обычный концерт, хороший пример маркетинга стартапа и реального результата.
Через какое-то время, я побывал на концерте известного Макса Рихтера, где он исполнял пару произведений из своего альбома «Sleep», альбом который сложно как-то кратко описать, но который входит в топ-5 моих любимых — это что-то вроде баллады на 8 часов, или музыкальной медитации, или сна под-белый-шум. На премьере в 2015 году Рихтер сразу дал понять аудитории, что их ждет — в концертном зале вместо сидений установили кровати.
И вот, зародилась у меня идея, почему бы не сгенерировать свой альбом, но не на 8 часов, а, например, на 69 — nice же. Я начал тогда тестировать разные нейронки, и очень удачно Сбер AI выкатил свой алгоритм для генерации музыки на трансформерах: Music Composer.
Алгоритм обучен на тысячах часах аудио, и все что умеет это генерировать midi (с кучей настроек, включая стили и тп). Но, спасибо разработчикам, там так же есть интересный режим — когда нейронка дописывает окончание midi трека, по первым секундам того что ей дали на вход.
Тут началось несколько месяцев генераций (спасибо A100 за труд) — я, кажется, переслушал часов ~500 примитивной midi музыки пытаясь свести это все в единый трек, который звучит как «У нас есть Рихтер дома».
В общем, с 69 часов я опустил планку сначала до 10 часов, потом до часу, а потом и вовсе до 9 минут 🌚 Помимо этого, я купил плагин за большую сумму денег который позволяет синтезировать «реалистичную виолончель» (ну, такая большая скрипка) и свел финально весь трек с помощью плагина.
И вот, наконец-то — залил это все в Spotify и Apple Music, где вы можете это все послушать.
Я сразу скажу, что поскольку я вдохновлялся Рихтером, это не самая энергичная композиция — но для меня, человека без музыкального образования, без умения играть на чем либо (кроме фотошопа), это были удивительные 9 минут, я, кажется наизусть знаю каждую музыкальную фразу этого трека, и в очреденой раз восторгаюсь крутостью нейронок как класса алгоритмов ✨
Я чуть позже сделаю туториал, а пока можете послушать, что вышло.
P.S. Слушать лучше в наушниках
@Denis
Когда-то давно я ездил на концерт пражской филармонии, где нейронка дописала одну из композиций Дворжака, а оркестр исполнил то, что написали (вот пост). Я специально купил заранее билеты, поехал туда и не разочаровался — выглядело это все, ну, как обычный концерт, хороший пример маркетинга стартапа и реального результата.
Через какое-то время, я побывал на концерте известного Макса Рихтера, где он исполнял пару произведений из своего альбома «Sleep», альбом который сложно как-то кратко описать, но который входит в топ-5 моих любимых — это что-то вроде баллады на 8 часов, или музыкальной медитации, или сна под-белый-шум. На премьере в 2015 году Рихтер сразу дал понять аудитории, что их ждет — в концертном зале вместо сидений установили кровати.
И вот, зародилась у меня идея, почему бы не сгенерировать свой альбом, но не на 8 часов, а, например, на 69 — nice же. Я начал тогда тестировать разные нейронки, и очень удачно Сбер AI выкатил свой алгоритм для генерации музыки на трансформерах: Music Composer.
Алгоритм обучен на тысячах часах аудио, и все что умеет это генерировать midi (с кучей настроек, включая стили и тп). Но, спасибо разработчикам, там так же есть интересный режим — когда нейронка дописывает окончание midi трека, по первым секундам того что ей дали на вход.
Тут началось несколько месяцев генераций (спасибо A100 за труд) — я, кажется, переслушал часов ~500 примитивной midi музыки пытаясь свести это все в единый трек, который звучит как «У нас есть Рихтер дома».
В общем, с 69 часов я опустил планку сначала до 10 часов, потом до часу, а потом и вовсе до 9 минут 🌚 Помимо этого, я купил плагин за большую сумму денег который позволяет синтезировать «реалистичную виолончель» (ну, такая большая скрипка) и свел финально весь трек с помощью плагина.
И вот, наконец-то — залил это все в Spotify и Apple Music, где вы можете это все послушать.
Я сразу скажу, что поскольку я вдохновлялся Рихтером, это не самая энергичная композиция — но для меня, человека без музыкального образования, без умения играть на чем либо (кроме фотошопа), это были удивительные 9 минут, я, кажется наизусть знаю каждую музыкальную фразу этого трека, и в очреденой раз восторгаюсь крутостью нейронок как класса алгоритмов ✨
Я чуть позже сделаю туториал, а пока можете послушать, что вышло.
P.S. Слушать лучше в наушниках
@Denis
👍13🔥3
Плохой пм: ставит сроки точь в точь
Хороший пм: закладывает три дня к исходной оценке чтобы отдать все за пару дней до дедлайна и попросить премию
Хороший пм: закладывает три дня к исходной оценке чтобы отдать все за пару дней до дедлайна и попросить премию
🔥35👎1
#чтивонаночь
Мы тут в чате канала запустили цикл пересказов статей от подписчиков и первым стал Монета. Гений, бедный безработный студент и любитель поней.
https://monetka.name/
Велкам как говорится!
Что же, господа и дамы, раз наш чат официально LGBTQOPRTS+-, то на связанную с этой темой статью сегодня и будет мой скромный обзор.
А конкретно - Perturbation Augmentation for Fairer NLP(https://arxiv.org/pdf/2205.12586v1.pdf) от всеми (не)любимой Меты!
Какая перед нами встаёт проблема? Та же, что и всегда, друг мой.
УГНЕТЕНИЕ МЕНЬШИНСТВ
Да-да! Наш мир наполнен расизмом, женоненавистничеством, и всяким другим нехорошим, но чего полно в сетах на обучении. Особенно, в сетах на обучение текстовых моделей, ога.
И модели, суки эдакие, любят выучить то, что неграм место на кухне, а бабе - на плантации.
Мы же не хотим, чтобы у нас модель выучилась и стала предвзятой в сторону расизма? (Надеюсь?..)
Поэтому, люди начали искать способы избежать такого мерзкого биаса (в этом поиске, кхе-кхе, успел немного поучавствовать и ваш скромный монета, https://aivsbias.feather.cloudns.cl/ https://github.com/mmkuznecov/AIvsBIAS)
Однако, в первую очередь эти попытки были связаны с тем, чтобы каким-то образом штрафовать модель за гендерный/расовый биас, либо на стадии обучения, либо в инфересе - но работ, про то, как пиздить этот баес с помощью дата аугметации - пока не было.
До этой статьи. (Да, мы наконец-то переходим к сути, е!)
Команда иследователь_ниц (Да, все автор_есс_ки статьи - женщины, почему-то) предложила способ пертубрировать(?) данные.
Результаты работы конкретно:
1) Вручную набитый текстовый датасет на 100к пар "текст с гендерной окраской" - "текст её лишённый"
2) Обученный на этом счастье пертубрер - seq2seq моделька, которая обезличит ваш текст, например: she likes her grandma -> they like their grandma
3) FairBERTa - этот ваш БЕРТ(На самом деле, РоБЕРТа), но обученный на данных, пропущенные через мастурбатор пертубатор
4) Эксперименты с ФАИРТЮНИНГОМ - дообучение моделей на их пертубированной дате
5) ФАИРСКОР - метрика для оценивания того, насколько ваша модель не-расисткая
А теперь, давайте поговорим о том, а как этот ваш фаирскор вообще считать? Поскольку телега не умеет в латекс, то формулы вы сами найдёте, а я краткую выжимку скажу:
Мы берём записи, связанные с полом/возрастом/национальностью. Прогоняем по ним модель. Потом прогоняем модель на тех же, записях, но пертубрированных (лишённых гендернорасового окраса) и смотрим - насколько ответы модели изменились. В процентах - и есть наш фаирскор, вотб.
Теперь, мой друг, ты можешь задаться вопросом: а не убьёт ли такое кастрирование текста качество моделей нахуй, если их на таком обучать?
Ответ от авторов: качество, конечно, падает, но не значительно, зато какой фаирскор теперь хороший!
Это относится, как к моделям, которые сразу были обучены на пертубрированном тексте, так и к моделям, которые прошли фаиртюнинг.
Итого: светлое СЖВ-будущее стало на шаг ближе - мы можем сделать датасеты нейтральными и учить нейтральные модели без серьёзных потерь в качестве.
Мы тут в чате канала запустили цикл пересказов статей от подписчиков и первым стал Монета. Гений, бедный безработный студент и любитель поней.
https://monetka.name/
Велкам как говорится!
Что же, господа и дамы, раз наш чат официально LGBTQOPRTS+-, то на связанную с этой темой статью сегодня и будет мой скромный обзор.
А конкретно - Perturbation Augmentation for Fairer NLP(https://arxiv.org/pdf/2205.12586v1.pdf) от всеми (не)любимой Меты!
Какая перед нами встаёт проблема? Та же, что и всегда, друг мой.
УГНЕТЕНИЕ МЕНЬШИНСТВ
Да-да! Наш мир наполнен расизмом, женоненавистничеством, и всяким другим нехорошим, но чего полно в сетах на обучении. Особенно, в сетах на обучение текстовых моделей, ога.
И модели, суки эдакие, любят выучить то, что неграм место на кухне, а бабе - на плантации.
Мы же не хотим, чтобы у нас модель выучилась и стала предвзятой в сторону расизма? (Надеюсь?..)
Поэтому, люди начали искать способы избежать такого мерзкого биаса (в этом поиске, кхе-кхе, успел немного поучавствовать и ваш скромный монета, https://aivsbias.feather.cloudns.cl/ https://github.com/mmkuznecov/AIvsBIAS)
Однако, в первую очередь эти попытки были связаны с тем, чтобы каким-то образом штрафовать модель за гендерный/расовый биас, либо на стадии обучения, либо в инфересе - но работ, про то, как пиздить этот баес с помощью дата аугметации - пока не было.
До этой статьи. (Да, мы наконец-то переходим к сути, е!)
Команда иследователь_ниц (Да, все автор_есс_ки статьи - женщины, почему-то) предложила способ пертубрировать(?) данные.
Результаты работы конкретно:
1) Вручную набитый текстовый датасет на 100к пар "текст с гендерной окраской" - "текст её лишённый"
2) Обученный на этом счастье пертубрер - seq2seq моделька, которая обезличит ваш текст, например: she likes her grandma -> they like their grandma
3) FairBERTa - этот ваш БЕРТ(На самом деле, РоБЕРТа), но обученный на данных, пропущенные через мастурбатор пертубатор
4) Эксперименты с ФАИРТЮНИНГОМ - дообучение моделей на их пертубированной дате
5) ФАИРСКОР - метрика для оценивания того, насколько ваша модель не-расисткая
А теперь, давайте поговорим о том, а как этот ваш фаирскор вообще считать? Поскольку телега не умеет в латекс, то формулы вы сами найдёте, а я краткую выжимку скажу:
Мы берём записи, связанные с полом/возрастом/национальностью. Прогоняем по ним модель. Потом прогоняем модель на тех же, записях, но пертубрированных (лишённых гендернорасового окраса) и смотрим - насколько ответы модели изменились. В процентах - и есть наш фаирскор, вотб.
Теперь, мой друг, ты можешь задаться вопросом: а не убьёт ли такое кастрирование текста качество моделей нахуй, если их на таком обучать?
Ответ от авторов: качество, конечно, падает, но не значительно, зато какой фаирскор теперь хороший!
Это относится, как к моделям, которые сразу были обучены на пертубрированном тексте, так и к моделям, которые прошли фаиртюнинг.
Итого: светлое СЖВ-будущее стало на шаг ближе - мы можем сделать датасеты нейтральными и учить нейтральные модели без серьёзных потерь в качестве.
monetka.name
usr/monetka
Monetka's profile
🔥17😱11💩4🤮3🤔1
Вы находитесь в той реальности где школьник из Челябинска видимо выпустит ImageGen раньше чем lucidrains-sberai-eleutherai-meta
@gradientdip
@gradientdip
🔥38🤔5👍2😁2
Forwarded from Градиентное погружение
Вот несколько примеров того, что я сегодня сгенерировал с помощью imagen. Сейчас ещё тренирую.
@gradientdip
@gradientdip
🔥25💩7