Завтра вечером будет Pytorch meetup, если вы занимаетесь или интересуетесь Deep Learning или хотите узнать про передовые разработки AI без хайпа а с техническими деталями и объяснениями приходите и зовите друзей.
Будут доклады про RLHF, про diffusion models, и применение Pytorch к физическим симуляция в квантовой химии (сопряжено с drug design). Также будет нетворкинг с напитками и едой.
Будут доклады про RLHF, про diffusion models, и применение Pytorch к физическим симуляция в квантовой химии (сопряжено с drug design). Также будет нетворкинг с напитками и едой.
Meetup
Login to Meetup | Meetup
Not a Meetup member yet? Log in and find groups that host online or in person events and meet people in your local community who share your interests.
❤🔥21🔥1
🤖 Как изменился NLP Research после выхода GPT-4
И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей.
После докладов останутся на поболтать и познакомиться с участниками ближе!
📆 Tinkoff.AI NLP Monolog Meetup #2
пройдет 19 октября в БЦ «Водном». Не забудьте зарегистрироваться и позвать с собой коллег!
И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей.
После докладов останутся на поболтать и познакомиться с участниками ближе!
📆 Tinkoff.AI NLP Monolog Meetup #2
пройдет 19 октября в БЦ «Водном». Не забудьте зарегистрироваться и позвать с собой коллег!
🤓22🤡14🤣6😁4👍2❤1
#чтивонаночь по быстрому
месяца полтора назад я ходил в отпуск и удивился что диффузия очень тривиально заводиться с <внешним ранкером> + ppo/любой способ подкидывать неградиентную информацию о мире.
Такая схема в целом позволяет из коробки генерить красивое, а главное очень близкое к правде, фактически генерация не отличимая от фото.
Вокруг этого строиться свежая работа aligning t2i блабла, авторы говорят - ну давайте явно прокидывать CLIP cosine между тем что получилось и тем что должно было быть, ну и так учить.
Метрики вам особо ничего не скажут, а авторы не черепикали результаты, поэтому need to run pipeline.
папир
месяца полтора назад я ходил в отпуск и удивился что диффузия очень тривиально заводиться с <внешним ранкером> + ppo/любой способ подкидывать неградиентную информацию о мире.
Такая схема в целом позволяет из коробки генерить красивое, а главное очень близкое к правде, фактически генерация не отличимая от фото.
Вокруг этого строиться свежая работа aligning t2i блабла, авторы говорят - ну давайте явно прокидывать CLIP cosine между тем что получилось и тем что должно было быть, ну и так учить.
Метрики вам особо ничего не скажут, а авторы не черепикали результаты, поэтому need to run pipeline.
папир
👍19❤6❤🔥2
Пиздец мои чуваки, просто пиздец.
Коменты закрыты.
Коменты закрыты.
🕊190🤔60🤡38🫡26😁6🎉4👎3🍾3🔥2🐳2👍1
Love. Death. Transformers.
Пойду за попкорном и пивом, Сбер прошел на emnlp, ждём ковровые бомбардировки в ревью, в прошлом году было весело. Upd пойду рисовать бинго
лав дес трансформаторс - опережая события
🤣60🕊17🖕10👍8😢7🤯5🥴3🤬2❤1❤🔥1🗿1
Чат, ищу сантехника в мск, посоветуйте проверенных если есть.
😁35🙈10🐳4🌚3🤮2🤡1
Forwarded from Ilya Gusev
Очередной релиз Сайги, на этот раз на основе Мистраля.
LoRA: https://huggingface.co/IlyaGusev/saiga_mistral_7b_lora
gguf: https://huggingface.co/IlyaGusev/saiga_mistral_7b_gguf
gguf демка: https://huggingface.co/spaces/IlyaGusev/saiga_mistral_7b_gguf
Бок-о-бок с Saiga2-13b:
saiga_mistral_7b vs saiga2_13b: 243-31-141
То есть Мистраль разгромно победил модель на основе Llama-13B.
Метрики в zero-shot RSG на картинке.
7B модель лучше Llama-2 13B и почти догнала 70B.
Почему - а чёрт его знает, но учитывая совокупность результатов, вряд ли это утечка тест-сета.
А! И обращаю внимание, llama.cpp нормально не умеет в спецтокены, пользуйтесь специально написанными скриптами из репозитория, они правильно готовят промпт.
LoRA: https://huggingface.co/IlyaGusev/saiga_mistral_7b_lora
gguf: https://huggingface.co/IlyaGusev/saiga_mistral_7b_gguf
gguf демка: https://huggingface.co/spaces/IlyaGusev/saiga_mistral_7b_gguf
Бок-о-бок с Saiga2-13b:
saiga_mistral_7b vs saiga2_13b: 243-31-141
То есть Мистраль разгромно победил модель на основе Llama-13B.
Метрики в zero-shot RSG на картинке.
7B модель лучше Llama-2 13B и почти догнала 70B.
Почему - а чёрт его знает, но учитывая совокупность результатов, вряд ли это утечка тест-сета.
А! И обращаю внимание, llama.cpp нормально не умеет в спецтокены, пользуйтесь специально написанными скриптами из репозитория, они правильно готовят промпт.
❤33👍7🥴1
Forwarded from DL in NLP (Vlad Lialin)
Новый дайджест из мира NLP
1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично
Надеюсь что у вас все хорошо
🇮🇱
1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично
Надеюсь что у вас все хорошо
🇮🇱
Sumanth's Personal Website
Everything about Distributed Training and Efficient Finetuning | Sumanth's Personal Website
A deep dive into distributed training and efficient finetuning - DeepSpeed ZeRO, FSDP, practical guidelines and gotchas with multi-GPU and multi-node training
🔥18❤3👍1
Love. Death. Transformers.
Всем привет! В эту субботу в 14:00 МСК будет онлайн-лекция для Better Data Community, от Ильи Гусева, старшего инженера по машинному обучению в Букинге, автора Сайги. Лекция будет про архитектуры, альтерантивные трансформерам, а именно про линейные рекуррентные…
Все медленные процессы проперлись, толстовка доехала до автора лекции, а видео доехало до youtube!
Смотреть лекцию
Upd ютуб процессит видео, поэтому оно пока что в 360p, позже появиться 1080p
Смотреть лекцию
Upd ютуб процессит видео, поэтому оно пока что в 360p, позже появиться 1080p
YouTube
Лекция Ильи Гусева - Закат трансформеров? [0]
Онлайн-лекция для Better Data Community, от Ильи Гусева, старшего инженера по машинному обучению в Букинге, автора Сайги. Лекция будет про архитектуры, альтерантивные трансформерам, а именно про линейные рекуррентные сети.
Материалы лекции:
https://drive…
Материалы лекции:
https://drive…
🔥31❤5👍2❤🔥1😁1
Привет! Приходите к нам на онлайн-встречу
Дата: 21 октября (суббота)
Время: 17:00 по московскому времени
Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)
Тема встречи: "AI safety — безопасность искусственного интеллекта"
О чем будем говорить:
🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему
Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!
трансляция будет в телеграм @betterdatacommunity
Дата: 21 октября (суббота)
Время: 17:00 по московскому времени
Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)
Тема встречи: "AI safety — безопасность искусственного интеллекта"
О чем будем говорить:
🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему
Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!
трансляция будет в телеграм @betterdatacommunity
❤23👍8🤡3🆒3
Выскажу штуку за которую меня будут бить коллеги по цеху, но она имеет смысл, по меньшей мере для меня самого.
Когда у меня много ГПУ, я смотрю что утилизация под 100, ничего не течёт, не просидает - живём короче. Но любые истории про подумать: например когда модель не работает должным образом или явно хуже чем должна я могу тупо залить компьютом - воткнуть больше эпох, больше модель, пролить больше данных.
Для мозга и менеджера это очень понятное решение, они явно должно работать.
Это напоминает планиметрию:
В школе были такие люди которые решали любую планиметрию на трех теоремах - не ну построим три доп окружности, посчитаем систему уравнений, бумаги много ща все решим.
В DL так тоже можно, ВСЁ текущее поколение LM основано на этом - давайте фильтранем данные умнее, давайте прокрутим больше токенов и больше модель.
Текущие ресерчи архитектур скорее мертвы чем живы, полтора китайца ковыряют rwkv, но без особых успехов и это печально.
Не думаю что для ближайшего поколения моделей правила скейлинга изменяться, но уже сейчас надо внимательно изучать альтернативные лоссы, структуры функций и почему трансформеры так работают.
Есть ли простой ответ как сделать умнее? Нет конечно, я по приколу написал)))😏
https://horace.io/brrr_intro.html
Когда у меня много ГПУ, я смотрю что утилизация под 100, ничего не течёт, не просидает - живём короче. Но любые истории про подумать: например когда модель не работает должным образом или явно хуже чем должна я могу тупо залить компьютом - воткнуть больше эпох, больше модель, пролить больше данных.
Для мозга и менеджера это очень понятное решение, они явно должно работать.
Это напоминает планиметрию:
В школе были такие люди которые решали любую планиметрию на трех теоремах - не ну построим три доп окружности, посчитаем систему уравнений, бумаги много ща все решим.
В DL так тоже можно, ВСЁ текущее поколение LM основано на этом - давайте фильтранем данные умнее, давайте прокрутим больше токенов и больше модель.
Текущие ресерчи архитектур скорее мертвы чем живы, полтора китайца ковыряют rwkv, но без особых успехов и это печально.
Не думаю что для ближайшего поколения моделей правила скейлинга изменяться, но уже сейчас надо внимательно изучать альтернативные лоссы, структуры функций и почему трансформеры так работают.
Есть ли простой ответ как сделать умнее? Нет конечно, я по приколу написал)))
https://horace.io/brrr_intro.html
Please open Telegram to view this post
VIEW IN TELEGRAM
❤62👍24😁2❤🔥1
ДАЙТЕ CENE655 ЕБУЧИЕ КАРТЫ, ОН ЗАЕБАЛ НЫТЬ МНЕ В ЛИЧКУ
🔥33😁10⚡2👎2❤1☃1