Точность vs кол-во параметров
Недавно paperswithcode.com добавили кол-во параметров в свои графики, и один реддитор запилил мета-анализ - отношение top 1 accuracy на imagenet к кол-ву параметров. Модели из одного года объединены одной линией.
Любопытный (но ожидаемый) тренд: более новые модели показывают лучший результат с тем же количеством параметров. Все-таки, емкость - не единственный критерий успеха.
Недавно paperswithcode.com добавили кол-во параметров в свои графики, и один реддитор запилил мета-анализ - отношение top 1 accuracy на imagenet к кол-ву параметров. Модели из одного года объединены одной линией.
Любопытный (но ожидаемый) тренд: более новые модели показывают лучший результат с тем же количеством параметров. Все-таки, емкость - не единственный критерий успеха.
👍1
Forwarded from addmeto (Grigory Bakunov)
Огромный массив данных, индекс из слов и фраз, встречающихся в научных и исследовательских публикациях на английском языке выложен в свободный доступ. В таблице n-грамм 355 миллиардов записей, всего проиндексировано более ста миллионов статей. Я не знаю где они взяли документы для индексации (вероятнее всего это Sci-Hub, да продлится онлайн его вечно), но это очень большое дело. С таким индексом можно не только банально аналитикой заниматься, но и пытаться строить штуки похожие на GPT-3 с разной степенью полезности. Представьте, систему которая за вас дописывает научные статьи. Или доливает воды по вкусу 🙂 https://archive.org/details/GeneralIndex
Internet Archive
The General Index : Public Resource : Free Download, Borrow, and Streaming : Internet Archive
Welcome to the General Index The General Index consists of 3 tables derived from 107,233,728 journal articles. A table of n-grams, ranging from unigrams to...
Forwarded from Технологии | Нейросети | Боты
В середине октября «Яндекс» в сотрудничестве с изданием N+1 запустили онлайн-журнал «Техно». Каждый выпуск журнала будет посвящен одной из технологий «Яндекса». Первый номер о языковых моделях с интерактивными дополнениями и тестами уже доступен всем желающим.
«Яндекс» в первом выпуске онлайн-журнала «Техно» открыл всем желающим доступ к общению с ИИ, генеративная модель которого обучена выдавать тексты «в стиле Хабра». Разработанная командой «Яндекса» «болтливая» языковая модель из семейства YaLM (Yet another Language Model), вдохновленная GPT-3 от компании Open AI, очень любит говорить про нейросети или может рассказать, как переустановить винду.
• Новость на Habr
• Онлайн-Журнал Техно
• Попробовать/пообщаться
«Яндекс» в первом выпуске онлайн-журнала «Техно» открыл всем желающим доступ к общению с ИИ, генеративная модель которого обучена выдавать тексты «в стиле Хабра». Разработанная командой «Яндекса» «болтливая» языковая модель из семейства YaLM (Yet another Language Model), вдохновленная GPT-3 от компании Open AI, очень любит говорить про нейросети или может рассказать, как переустановить винду.
• Новость на Habr
• Онлайн-Журнал Техно
• Попробовать/пообщаться
Forwarded from я обучала одну модель
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем кстати NVIDIA релизнули код для GANcraft
Forwarded from AI для Всех
This media is not supported in your browser
VIEW IN TELEGRAM
"an isometric 8bit grass field with sheep by greg rutkowski trending on artstation #pixelart" VQGAN+CLIP
Новая темная лошадка домашнего диплернинга - Nvidia Quadro P6000
Думаю, ни для кого не секрет, что диплернеры активно интересуются б\у видеокартами предыдущих поколений.
Например, старая добрая tesla M40 24gb на ebay может стоить всего 20000 рублей. Для сравнения, свежий вариант с 24гб - это RTX 3090, который можно купить разве что в ипотеку.
Зачем столько памяти? Для стайлтрансфера и прочих этих ваших дипфейков в высоком разрешении.
У M40 две основные проблемы - пассивное охлаждение (либо покупать серверные кулеры, либо что-то колхозить своими руками), и низкая скорость - в среднем 6 tflops fp32, и полный стоп-кран в fp16.
Quadro P6000 (не путать с M6000) в два раза быстрее в fp32 (но так же бесполезна в fp16), имеет активное охлаждение и видеовыход, поэтому ее можно воткнуть как основную карту. Стоит в районе 65000р.
Это, само собой, не призыв к покупке данных девайсов, так как надо в любом случае изучать все подводные камни, совместимость дров и прочее, но это явный кандидат на рассмотрение.
Думаю, ни для кого не секрет, что диплернеры активно интересуются б\у видеокартами предыдущих поколений.
Например, старая добрая tesla M40 24gb на ebay может стоить всего 20000 рублей. Для сравнения, свежий вариант с 24гб - это RTX 3090, который можно купить разве что в ипотеку.
Зачем столько памяти? Для стайлтрансфера и прочих этих ваших дипфейков в высоком разрешении.
У M40 две основные проблемы - пассивное охлаждение (либо покупать серверные кулеры, либо что-то колхозить своими руками), и низкая скорость - в среднем 6 tflops fp32, и полный стоп-кран в fp16.
Quadro P6000 (не путать с M6000) в два раза быстрее в fp32 (но так же бесполезна в fp16), имеет активное охлаждение и видеовыход, поэтому ее можно воткнуть как основную карту. Стоит в районе 65000р.
Это, само собой, не призыв к покупке данных девайсов, так как надо в любом случае изучать все подводные камни, совместимость дров и прочее, но это явный кандидат на рассмотрение.
Forwarded from AI для Всех
This media is not supported in your browser
VIEW IN TELEGRAM
Существующие ИИ ещё не готовы к работе в восточной Европе.
Наши в городе!
Недавно Adobe выкатила веб-версию Photoshop, где есть over 9000 AI инструментов. Один из них, Landscape Mixer, судя по всему, основан на алгоритме переноса стилей от наших соотечественников!
Инструмент позволяет менять время года на фото, в высоком разрешении.
Судите сами: видео фотошопа. А тут код наших ребят.
Колаб тоже есть!
Недавно Adobe выкатила веб-версию Photoshop, где есть over 9000 AI инструментов. Один из них, Landscape Mixer, судя по всему, основан на алгоритме переноса стилей от наших соотечественников!
Инструмент позволяет менять время года на фото, в высоком разрешении.
Судите сами: видео фотошопа. А тут код наших ребят.
Колаб тоже есть!
Написал пост про стикербота на vc.ru
Го мериться стикерами в комментах, я создал!
Го мериться стикерами в комментах, я создал!
vc.ru
face2sticker - бот, который превратит ваше фото в комикс-стикер. С текстом! — Трибуна на vc.ru
Как неудачное приложение из конкурса telegram обрело вторую жизнь. В telegram.
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Наконец-то новая моделька SG3 стала похожа на то, ради чего я ее треню – неимоверно долго все тренится, зато красивое (телеграм сжатие чуть убило качество)
Там недавно подвезли код для невероятно крутого алгоритма нейро-рендеринга из этого поста
Код
Папирус
Видео на ютубе
Код
Папирус
Видео на ютубе
Telegram
Denis Sexy IT 🤖
Смотрите какая офигенная демонстрация алгоритма рендера сцены из кучи фотографий – то есть вы фотографируете объект или какое-то место с разных сторон, а он вам возвращает 3D-пространство в котором можно подвигать камеру.
Кода пока нет, но это лучший результат…
Кода пока нет, но это лучший результат…
На paperswithcode.com тем временем уже более 5000 датасетов. Майлстоун, который нам нужен, но которого мы не заслуживаем!
huggingface.co
Trending Papers - Hugging Face
Your daily dose of AI research from AK
Forwarded from Мишин Лернинг
🥑 DALL-E ждали? Всем ruDALL-E!
Высшая точка генерации text2image: DALL-E. В отличие от CLIP + (VQGAN / Diffusion / StyleGAN3), модели DALL-E изначально созданы (а не приспособлены) для генерации изображений из текста, архитектурно являясь GPT.
При обучении таких моделей большие изображения (256x256 или 512х512) сжимаются при помощи энкодеров dVAE или VQGAN до последовательности визуальных токенов (e.g.: 32x32). GPT теперь может работать как и текстовыми, так и с визуальными токенам. Это можно интерпретировать как последовательность, длинную строку.
Потом GPT-like архитектура принимает текстовое описание и учится генерировать эти визуальные токены, которые потом “проявляются” в высоком разрешении при помощи декодеров dVAE или VQGAN.
Запустить колаб и получить свою генерацию очень просто! Достаточно прейти по ссылке и, вписав что-то свое в поле текст (вместо text = 'изображение радуги на фоне ночного города’), выбрать Runtime -> Run all (среда выполнения -> выполнить все).
🔮colab 💻Git
Высшая точка генерации text2image: DALL-E. В отличие от CLIP + (VQGAN / Diffusion / StyleGAN3), модели DALL-E изначально созданы (а не приспособлены) для генерации изображений из текста, архитектурно являясь GPT.
При обучении таких моделей большие изображения (256x256 или 512х512) сжимаются при помощи энкодеров dVAE или VQGAN до последовательности визуальных токенов (e.g.: 32x32). GPT теперь может работать как и текстовыми, так и с визуальными токенам. Это можно интерпретировать как последовательность, длинную строку.
Потом GPT-like архитектура принимает текстовое описание и учится генерировать эти визуальные токены, которые потом “проявляются” в высоком разрешении при помощи декодеров dVAE или VQGAN.
Запустить колаб и получить свою генерацию очень просто! Достаточно прейти по ссылке и, вписав что-то свое в поле текст (вместо text = 'изображение радуги на фоне ночного города’), выбрать Runtime -> Run all (среда выполнения -> выполнить все).
🔮colab 💻Git