Forwarded from Градиентное погружение
Торчвижен обновился (и уже давно)
👉 И это довольно важно, так как многие любят использовать модели из их хаба, а тут выкатили сразу кучу, так ещё и с более крутым качеством.
🔥Что нового:
1️⃣ Добавили веса IMAGENET1K_V2, улучшив метрику:
ResNet50:
acc@1 (on ImageNet-1K): 76.13 -> 80.858
acc@5 (on ImageNet-1K): 92.862 -> 95.434
MobileNet_V3_Large:
acc@1 (on ImageNet-1K): 74.042 -> 75.274
acc@5 (on ImageNet-1K): 91.34 -> 92.566
В основном резнет-образные получили сильный буст, остальные не очень много.
2️⃣ Обновили список квантизированных моделей (удивился что такой есть, полезно смотреть доки)
3️⃣ Добавили инференс трансформации по умолчанию (подробнее в следующем посте)
@gradientdip
Попробовать можно уже сейчас, но только в main ветке (сейчас ветка v12 - stable)
👉 И это довольно важно, так как многие любят использовать модели из их хаба, а тут выкатили сразу кучу, так ещё и с более крутым качеством.
🔥Что нового:
1️⃣ Добавили веса IMAGENET1K_V2, улучшив метрику:
ResNet50:
acc@1 (on ImageNet-1K): 76.13 -> 80.858
acc@5 (on ImageNet-1K): 92.862 -> 95.434
MobileNet_V3_Large:
acc@1 (on ImageNet-1K): 74.042 -> 75.274
acc@5 (on ImageNet-1K): 91.34 -> 92.566
В основном резнет-образные получили сильный буст, остальные не очень много.
2️⃣ Обновили список квантизированных моделей (удивился что такой есть, полезно смотреть доки)
3️⃣ Добавили инференс трансформации по умолчанию (подробнее в следующем посте)
@gradientdip
Попробовать можно уже сейчас, но только в main ветке (сейчас ветка v12 - stable)
🔥13👎2👍1
🦁 Parti — Новый Text2Image от Google | DALL-E 1 Наносят ответный удар
Авторегрессионный подход к генерации казался уже в далеком прошлом. Все перекинулись в диффуз, и это вполне ожидаемо, глядя на успехи DALL-E 2 и Imagen. И да, Imagen от Google таки делает DALL-E 2. Но Google не успокоился.. Можно сказать что Google дернул OpenAI дважды:
▪️ Imagen > DALL-E 2
▪️ Parti > DALL-E 1
Встречайте: Pathways Autoregressive Text-to-Image model (Parti). И самое странное то, что Parti бьет Imagen по MS-COCO FID в Zero-Shot!
Всего Google обучил 4 модели:
350M - 14.10 FID
750M - 10.71 FID
3B - 8.10 FID
20B - 7.23 FID
Архитектруно Parti это трансформер энкордер-декодер работающий с текстовыми токенами и токенами ViT-VQGAN. Ну и спасибо LAION за датасет!
p.s.: Субъективно, я уже решил что лучше Parti или Imagen... Вроде текст у Parti лучше, но вот гановские артефакты чуть больше бесят, но вот фиксятся ли они каскадами апскейлеров — хз..
💻 project
📄 paper
👾 GIT
@мишин лернинг
Авторегрессионный подход к генерации казался уже в далеком прошлом. Все перекинулись в диффуз, и это вполне ожидаемо, глядя на успехи DALL-E 2 и Imagen. И да, Imagen от Google таки делает DALL-E 2. Но Google не успокоился.. Можно сказать что Google дернул OpenAI дважды:
▪️ Imagen > DALL-E 2
▪️ Parti > DALL-E 1
Встречайте: Pathways Autoregressive Text-to-Image model (Parti). И самое странное то, что Parti бьет Imagen по MS-COCO FID в Zero-Shot!
Всего Google обучил 4 модели:
350M - 14.10 FID
750M - 10.71 FID
3B - 8.10 FID
20B - 7.23 FID
Архитектруно Parti это трансформер энкордер-декодер работающий с текстовыми токенами и токенами ViT-VQGAN. Ну и спасибо LAION за датасет!
p.s.: Субъективно, я уже решил что лучше Parti или Imagen... Вроде текст у Parti лучше, но вот гановские артефакты чуть больше бесят, но вот фиксятся ли они каскадами апскейлеров — хз..
💻 project
📄 paper
👾 GIT
@мишин лернинг
❤18👍9🔥5👎2
👍12👎4