#чтивонаночь по быстрому
месяца полтора назад я ходил в отпуск и удивился что диффузия очень тривиально заводиться с <внешним ранкером> + ppo/любой способ подкидывать неградиентную информацию о мире.
Такая схема в целом позволяет из коробки генерить красивое, а главное очень близкое к правде, фактически генерация не отличимая от фото.
Вокруг этого строиться свежая работа aligning t2i блабла, авторы говорят - ну давайте явно прокидывать CLIP cosine между тем что получилось и тем что должно было быть, ну и так учить.
Метрики вам особо ничего не скажут, а авторы не черепикали результаты, поэтому need to run pipeline.
папир
месяца полтора назад я ходил в отпуск и удивился что диффузия очень тривиально заводиться с <внешним ранкером> + ppo/любой способ подкидывать неградиентную информацию о мире.
Такая схема в целом позволяет из коробки генерить красивое, а главное очень близкое к правде, фактически генерация не отличимая от фото.
Вокруг этого строиться свежая работа aligning t2i блабла, авторы говорят - ну давайте явно прокидывать CLIP cosine между тем что получилось и тем что должно было быть, ну и так учить.
Метрики вам особо ничего не скажут, а авторы не черепикали результаты, поэтому need to run pipeline.
папир
👍19❤6❤🔥2
Пиздец мои чуваки, просто пиздец.
Коменты закрыты.
Коменты закрыты.
🕊190🤔60🤡38🫡26😁6🎉4👎3🍾3🔥2🐳2👍1
Love. Death. Transformers.
Пойду за попкорном и пивом, Сбер прошел на emnlp, ждём ковровые бомбардировки в ревью, в прошлом году было весело. Upd пойду рисовать бинго
лав дес трансформаторс - опережая события
🤣60🕊17🖕10👍8😢7🤯5🥴3🤬2❤1❤🔥1🗿1
Чат, ищу сантехника в мск, посоветуйте проверенных если есть.
😁35🙈10🐳4🌚3🤮2🤡1
Forwarded from Ilya Gusev
Очередной релиз Сайги, на этот раз на основе Мистраля.
LoRA: https://huggingface.co/IlyaGusev/saiga_mistral_7b_lora
gguf: https://huggingface.co/IlyaGusev/saiga_mistral_7b_gguf
gguf демка: https://huggingface.co/spaces/IlyaGusev/saiga_mistral_7b_gguf
Бок-о-бок с Saiga2-13b:
saiga_mistral_7b vs saiga2_13b: 243-31-141
То есть Мистраль разгромно победил модель на основе Llama-13B.
Метрики в zero-shot RSG на картинке.
7B модель лучше Llama-2 13B и почти догнала 70B.
Почему - а чёрт его знает, но учитывая совокупность результатов, вряд ли это утечка тест-сета.
А! И обращаю внимание, llama.cpp нормально не умеет в спецтокены, пользуйтесь специально написанными скриптами из репозитория, они правильно готовят промпт.
LoRA: https://huggingface.co/IlyaGusev/saiga_mistral_7b_lora
gguf: https://huggingface.co/IlyaGusev/saiga_mistral_7b_gguf
gguf демка: https://huggingface.co/spaces/IlyaGusev/saiga_mistral_7b_gguf
Бок-о-бок с Saiga2-13b:
saiga_mistral_7b vs saiga2_13b: 243-31-141
То есть Мистраль разгромно победил модель на основе Llama-13B.
Метрики в zero-shot RSG на картинке.
7B модель лучше Llama-2 13B и почти догнала 70B.
Почему - а чёрт его знает, но учитывая совокупность результатов, вряд ли это утечка тест-сета.
А! И обращаю внимание, llama.cpp нормально не умеет в спецтокены, пользуйтесь специально написанными скриптами из репозитория, они правильно готовят промпт.
❤33👍7🥴1
Forwarded from DL in NLP (Vlad Lialin)
Новый дайджест из мира NLP
1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично
Надеюсь что у вас все хорошо
🇮🇱
1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично
Надеюсь что у вас все хорошо
🇮🇱
Sumanth's Personal Website
Everything about Distributed Training and Efficient Finetuning | Sumanth's Personal Website
A deep dive into distributed training and efficient finetuning - DeepSpeed ZeRO, FSDP, practical guidelines and gotchas with multi-GPU and multi-node training
🔥18❤3👍1
Love. Death. Transformers.
Всем привет! В эту субботу в 14:00 МСК будет онлайн-лекция для Better Data Community, от Ильи Гусева, старшего инженера по машинному обучению в Букинге, автора Сайги. Лекция будет про архитектуры, альтерантивные трансформерам, а именно про линейные рекуррентные…
Все медленные процессы проперлись, толстовка доехала до автора лекции, а видео доехало до youtube!
Смотреть лекцию
Upd ютуб процессит видео, поэтому оно пока что в 360p, позже появиться 1080p
Смотреть лекцию
Upd ютуб процессит видео, поэтому оно пока что в 360p, позже появиться 1080p
YouTube
Лекция Ильи Гусева - Закат трансформеров? [0]
Онлайн-лекция для Better Data Community, от Ильи Гусева, старшего инженера по машинному обучению в Букинге, автора Сайги. Лекция будет про архитектуры, альтерантивные трансформерам, а именно про линейные рекуррентные сети.
Материалы лекции:
https://drive…
Материалы лекции:
https://drive…
🔥31❤5👍2❤🔥1😁1
Привет! Приходите к нам на онлайн-встречу
Дата: 21 октября (суббота)
Время: 17:00 по московскому времени
Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)
Тема встречи: "AI safety — безопасность искусственного интеллекта"
О чем будем говорить:
🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему
Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!
трансляция будет в телеграм @betterdatacommunity
Дата: 21 октября (суббота)
Время: 17:00 по московскому времени
Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)
Тема встречи: "AI safety — безопасность искусственного интеллекта"
О чем будем говорить:
🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему
Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!
трансляция будет в телеграм @betterdatacommunity
❤23👍8🤡3🆒3
Выскажу штуку за которую меня будут бить коллеги по цеху, но она имеет смысл, по меньшей мере для меня самого.
Когда у меня много ГПУ, я смотрю что утилизация под 100, ничего не течёт, не просидает - живём короче. Но любые истории про подумать: например когда модель не работает должным образом или явно хуже чем должна я могу тупо залить компьютом - воткнуть больше эпох, больше модель, пролить больше данных.
Для мозга и менеджера это очень понятное решение, они явно должно работать.
Это напоминает планиметрию:
В школе были такие люди которые решали любую планиметрию на трех теоремах - не ну построим три доп окружности, посчитаем систему уравнений, бумаги много ща все решим.
В DL так тоже можно, ВСЁ текущее поколение LM основано на этом - давайте фильтранем данные умнее, давайте прокрутим больше токенов и больше модель.
Текущие ресерчи архитектур скорее мертвы чем живы, полтора китайца ковыряют rwkv, но без особых успехов и это печально.
Не думаю что для ближайшего поколения моделей правила скейлинга изменяться, но уже сейчас надо внимательно изучать альтернативные лоссы, структуры функций и почему трансформеры так работают.
Есть ли простой ответ как сделать умнее? Нет конечно, я по приколу написал)))😏
https://horace.io/brrr_intro.html
Когда у меня много ГПУ, я смотрю что утилизация под 100, ничего не течёт, не просидает - живём короче. Но любые истории про подумать: например когда модель не работает должным образом или явно хуже чем должна я могу тупо залить компьютом - воткнуть больше эпох, больше модель, пролить больше данных.
Для мозга и менеджера это очень понятное решение, они явно должно работать.
Это напоминает планиметрию:
В школе были такие люди которые решали любую планиметрию на трех теоремах - не ну построим три доп окружности, посчитаем систему уравнений, бумаги много ща все решим.
В DL так тоже можно, ВСЁ текущее поколение LM основано на этом - давайте фильтранем данные умнее, давайте прокрутим больше токенов и больше модель.
Текущие ресерчи архитектур скорее мертвы чем живы, полтора китайца ковыряют rwkv, но без особых успехов и это печально.
Не думаю что для ближайшего поколения моделей правила скейлинга изменяться, но уже сейчас надо внимательно изучать альтернативные лоссы, структуры функций и почему трансформеры так работают.
Есть ли простой ответ как сделать умнее? Нет конечно, я по приколу написал)))
https://horace.io/brrr_intro.html
Please open Telegram to view this post
VIEW IN TELEGRAM
❤62👍24😁2❤🔥1
ДАЙТЕ CENE655 ЕБУЧИЕ КАРТЫ, ОН ЗАЕБАЛ НЫТЬ МНЕ В ЛИЧКУ
🔥33😁10⚡2👎2❤1☃1
Love. Death. Transformers.
ДАЙТЕ CENE655 ЕБУЧИЕ КАРТЫ, ОН ЗАЕБАЛ НЫТЬ МНЕ В ЛИЧКУ
ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
🔥75🤣31🤡5😭4💊3😁1
#чтивонаночь по быстрому
Если вы знаете что такое formage то уже поняли суть, если кратко - то давайте положим в доп токены картиночные репрезентации из CLIP, а если мы можем использовать их для генерации ответа по изображению, то давайте еще и генерировать!
А затем полученные эмбеды можно класть в Stable Diffusion ведь она тоже использует CLIP!
А еще оно из коробки и максимально нативно понимает и генерирует картинки, а так же умеет работать с несколькими изображениями в контексте сразу(в отличии от llava)
blog
space
Принес @krists
Если вы знаете что такое formage то уже поняли суть, если кратко - то давайте положим в доп токены картиночные репрезентации из CLIP, а если мы можем использовать их для генерации ответа по изображению, то давайте еще и генерировать!
А затем полученные эмбеды можно класть в Stable Diffusion ведь она тоже использует CLIP!
А еще оно из коробки и максимально нативно понимает и генерирует картинки, а так же умеет работать с несколькими изображениями в контексте сразу(в отличии от llava)
blog
space
Принес @krists
🔥9🌚4
Forwarded from Жёлтый AI
Кто-то из вас помнит, кто-то нет – в прошлом году мы проводили NLP Monolog. Так вот, мы решили его повторить!
На этот раз мы расскажем:
- Как собирать датасеты для обучения своей собственной LLM
- О наших новых направлениях NLP исследований после выхода GPT-4
- И как устроена наша автоматизация поддержки
Все пройдет 19 октября в 19:00 в БЦ Водный. Будем ждать всех! 🐊
На этот раз мы расскажем:
- Как собирать датасеты для обучения своей собственной LLM
- О наших новых направлениях NLP исследований после выхода GPT-4
- И как устроена наша автоматизация поддержки
Все пройдет 19 октября в 19:00 в БЦ Водный. Будем ждать всех! 🐊
👍10🤡5🤮1🖕1🆒1