Forwarded from эйай ньюз
Блог Lilian Weng (ресерчер из OpenAI) - один из моих любимых технических блогов. У нее очень емкие статьи-обзоры по различными темам в области AI.
Недавно у Лилиан вышла очередной блогпост о Диффузионных моделях (Diffusion Models). Если коротко, то диффузионные модели - это новый тип генеративных моделей, которые достаточно гибки, чтобы выучить любое произвольно сложное распределение данных, и в то же время поддаются аналитической оценке выученного распределения. Недавно было показано, что диффузионные модели могут генерировать высококачественные изображения и по своим характеристикам не уступают SOTA GAN. Существенный минус этих моделей на данный момент — это то, что они довольно медленные.
Я уже писал об этих моделях в мае, но чтобы более досконально разобраться в них, советую почитать блогпост от Лилиан.
Недавно у Лилиан вышла очередной блогпост о Диффузионных моделях (Diffusion Models). Если коротко, то диффузионные модели - это новый тип генеративных моделей, которые достаточно гибки, чтобы выучить любое произвольно сложное распределение данных, и в то же время поддаются аналитической оценке выученного распределения. Недавно было показано, что диффузионные модели могут генерировать высококачественные изображения и по своим характеристикам не уступают SOTA GAN. Существенный минус этих моделей на данный момент — это то, что они довольно медленные.
Я уже писал об этих моделях в мае, но чтобы более досконально разобраться в них, советую почитать блогпост от Лилиан.
Наконец запилил стикер-бота. Делает вот так:
Лучше всего работает на цветных фотках с 1 лицом. Ну и чем выше качество фото, тем лучше результат.
Го тыкать, я создал - @face2stickerbot
Лучше всего работает на цветных фотках с 1 лицом. Ну и чем выше качество фото, тем лучше результат.
Го тыкать, я создал - @face2stickerbot
Добавил текст в @face2stickerbot
Макс. 40 символов, положение выбирается в зависимости от координат лица, то есть снова получилось максимально однокнопочно.
Го тыкать!
Макс. 40 символов, положение выбирается в зависимости от координат лица, то есть снова получилось максимально однокнопочно.
Го тыкать!
Forwarded from эйай ньюз
Очень любопытная работа от UC Berkeley + FB + Google.
Поразительно, но трансформеры, предобученные на языковых задачах, неплохо обобщаются и на другие модальности.
После обучения на текстовых данных, у трансофрмера файнтюнится только линейный входной слой, выходной слой, positional embeddings и параметры layer norm слоев (см. картинку выше). В итоге после файнтюнинга всего лишь 0.1% всех параметров на новом датасете такой трансофрмер может хорошо решать задачи в других модальностях, таких как предсказание структуры белка, математические вычисления или классификация изображений.
Выглядит так, что наш мир состоит из неких информационных структур, имеющих что-то общее даже если рассмотреть совсем разные задачи. Это довольно интересная гипотеза, и судя по всему, мы движемся к какой-то универсальной "нейронной сети", которая сможет решать много разных задач, используя накопленный опыт в других областях. Меня это жутко будоражит!
Поразительно, но трансформеры, предобученные на языковых задачах, неплохо обобщаются и на другие модальности.
После обучения на текстовых данных, у трансофрмера файнтюнится только линейный входной слой, выходной слой, positional embeddings и параметры layer norm слоев (см. картинку выше). В итоге после файнтюнинга всего лишь 0.1% всех параметров на новом датасете такой трансофрмер может хорошо решать задачи в других модальностях, таких как предсказание структуры белка, математические вычисления или классификация изображений.
Выглядит так, что наш мир состоит из неких информационных структур, имеющих что-то общее даже если рассмотреть совсем разные задачи. Это довольно интересная гипотеза, и судя по всему, мы движемся к какой-то универсальной "нейронной сети", которая сможет решать много разных задач, используя накопленный опыт в других областях. Меня это жутко будоражит!
Forwarded from Dan Okhlopkov - канал
📚 Компиляция моих датасетов
Если вы присоединились к каналу только недавно, вы мб не знаете, что я частенько выкладываю датасеты.
А вот и они:
- несколько миллионов инстаграм хештегов
- московские хештеги с гео привязкой
- 7М русских комментов из инсты
- ссылки на все публикации Techcrunch (200k+)
- московские пользователи Tinder
- московские пользовалели Telegram
- 1М метаданных картинок из инсты
- 2.5М метаданных приватных юзеров инсты
- немного данных о вакансиях из Angellist
Если вы присоединились к каналу только недавно, вы мб не знаете, что я частенько выкладываю датасеты.
А вот и они:
- несколько миллионов инстаграм хештегов
- московские хештеги с гео привязкой
- 7М русских комментов из инсты
- ссылки на все публикации Techcrunch (200k+)
- московские пользователи Tinder
- московские пользовалели Telegram
- 1М метаданных картинок из инсты
- 2.5М метаданных приватных юзеров инсты
- немного данных о вакансиях из Angellist
Тут все понавыкладывали новый колаб с StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
Сайт: https://stylegan-nada.github.io/
Сорс: https://github.com/rinongal/StyleGAN-nada
Колаб: http://colab.research.google.com/github/rinongal/stylegan-nada/blob/main/stylegan_nada.ipynb
Выглядит максимально упорото, но и близко к кнопке "сделать ЗБС"
Сайт: https://stylegan-nada.github.io/
Сорс: https://github.com/rinongal/StyleGAN-nada
Колаб: http://colab.research.google.com/github/rinongal/stylegan-nada/blob/main/stylegan_nada.ipynb
Выглядит максимально упорото, но и близко к кнопке "сделать ЗБС"
А вот результаты по запросу "photo -> comics" "photo -> anime"
Штош, пока моим ботам конкуренции можно не бояться :D
Штош, пока моим ботам конкуренции можно не бояться :D