NEW BOT Телеграм, страница

Торчвижен обновился (и уже давно)

👉 И это довольно важно, так как многие любят использовать модели из их хаба, а тут выкатили сразу кучу, так ещё и с более крутым качеством.

🔥Что нового:

1️⃣ Добавили веса IMAGENET1K_V2, улучшив метрику:

ResNet50:
acc@1 (on ImageNet-1K): 76.13 -> 80.858
acc@5 (on ImageNet-1K): 92.862 -> 95.434

MobileNet_V3_Large:
acc@1 (on ImageNet-1K): 74.042 -> 75.274
acc@5 (on ImageNet-1K): 91.34 -> 92.566

В основном резнет-образные получили сильный буст, остальные не очень много.

2️⃣ Обновили список квантизированных моделей (удивился что такой есть, полезно смотреть доки)

3️⃣ Добавили инференс трансформации по умолчанию (подробнее в следующем посте)

@gradientdip

Попробовать можно уже сейчас, но только в main ветке (сейчас ветка v12 - stable)

🔥13👎2👍1

3.09K views16:39

Мишин Лернинг

🦁 Parti — Новый Text2Image от Google | DALL-E 1 Наносят ответный удар

Авторегрессионный подход к генерации казался уже в далеком прошлом. Все перекинулись в диффуз, и это вполне ожидаемо, глядя на успехи DALL-E 2 и Imagen. И да, Imagen от Google таки делает DALL-E 2. Но Google не успокоился.. Можно сказать что Google дернул OpenAI дважды:
▪️ Imagen > DALL-E 2
▪️ Parti > DALL-E 1

Встречайте: Pathways Autoregressive Text-to-Image model (Parti). И самое странное то, что Parti бьет Imagen по MS-COCO FID в Zero-Shot!

Всего Google обучил 4 модели:
350M - 14.10 FID
750M - 10.71 FID
3B - 8.10 FID
20B - 7.23 FID

Архитектруно Parti это трансформер энкордер-декодер работающий с текстовыми токенами и токенами ViT-VQGAN. Ну и спасибо LAION за датасет!

p.s.: Субъективно, я уже решил что лучше Parti или Imagen... Вроде текст у Parti лучше, но вот гановские артефакты чуть больше бесят, но вот фиксятся ли они каскадами апскейлеров — хз..

💻 project
📄 paper
👾 GIT
@мишин лернинг

❤18👍9🔥5👎2

8.71K views17:56

Мишин Лернинг