Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
🤖 Как изменился NLP Research после выхода GPT-4

И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей.

После докладов останутся на поболтать и познакомиться с участниками ближе!

📆 Tinkoff.AI NLP Monolog Meetup #2
пройдет 19 октября в БЦ «Водном». Не забудьте зарегистрироваться и позвать с собой коллег!
🤓22🤡14🤣6😁4👍21
#чтивонаночь по быстрому
месяца полтора назад я ходил в отпуск и удивился что диффузия очень тривиально заводиться с <внешним ранкером> + ppo/любой способ подкидывать неградиентную информацию о мире.

Такая схема в целом позволяет из коробки генерить красивое, а главное очень близкое к правде, фактически генерация не отличимая от фото.
Вокруг этого строиться свежая работа aligning t2i блабла, авторы говорят - ну давайте явно прокидывать CLIP cosine между тем что получилось и тем что должно было быть, ну и так учить.

Метрики вам особо ничего не скажут, а авторы не черепикали результаты, поэтому need to run pipeline.

папир
👍196❤‍🔥2
Пиздец мои чуваки, просто пиздец.

Коменты закрыты.
🕊190🤔60🤡38🫡26😁6🎉4👎3🍾3🔥2🐳2👍1
🥴54👍137💯4😁2🤮2💔2
Чат, ищу сантехника в мск, посоветуйте проверенных если есть.
😁35🙈10🐳4🌚3🤮2🤡1
Forwarded from Ilya Gusev
Очередной релиз Сайги, на этот раз на основе Мистраля.

LoRA: https://huggingface.co/IlyaGusev/saiga_mistral_7b_lora
gguf: https://huggingface.co/IlyaGusev/saiga_mistral_7b_gguf
gguf демка: https://huggingface.co/spaces/IlyaGusev/saiga_mistral_7b_gguf

Бок-о-бок с Saiga2-13b:
saiga_mistral_7b vs saiga2_13b: 243-31-141

То есть Мистраль разгромно победил модель на основе Llama-13B.

Метрики в zero-shot RSG на картинке.
7B модель лучше Llama-2 13B и почти догнала 70B.
Почему - а чёрт его знает, но учитывая совокупность результатов, вряд ли это утечка тест-сета.

А! И обращаю внимание, llama.cpp нормально не умеет в спецтокены, пользуйтесь специально написанными скриптами из репозитория, они правильно готовят промпт.
33👍7🥴1
Сильно, да? Mistral 34b>gpt4 думаю
34🤡25🥴73🤯3👍2
Forwarded from DL in NLP (Vlad Lialin)
Новый дайджест из мира NLP

1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично

Надеюсь что у вас все хорошо
🇮🇱
🔥183👍1
Вообще тут должны быть по середине хорни файнтюны моделей, хз что там DeepMind забыл
35🥴8👍32
Привет! Приходите к нам на онлайн-встречу

Дата: 21 октября (суббота)
Время: 17:00 по московскому времени

Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)

Тема встречи: "AI safety — безопасность искусственного интеллекта"

О чем будем говорить:

🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему

Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!

трансляция будет в телеграм @betterdatacommunity
23👍8🤡3🆒3
Выскажу штуку за которую меня будут бить коллеги по цеху, но она имеет смысл, по меньшей мере для меня самого.
Когда у меня много ГПУ, я смотрю что утилизация под 100, ничего не течёт, не просидает - живём короче. Но любые истории про подумать: например когда модель не работает должным образом или явно хуже чем должна я могу тупо залить компьютом - воткнуть больше эпох, больше модель, пролить больше данных.

Для мозга и менеджера это очень понятное решение, они явно должно работать.

Это напоминает планиметрию:
В школе были такие люди которые решали любую планиметрию на трех теоремах - не ну построим три доп окружности, посчитаем систему уравнений, бумаги много ща все решим.

В DL так тоже можно, ВСЁ текущее поколение LM основано на этом - давайте фильтранем данные умнее, давайте прокрутим больше токенов и больше модель.

Текущие ресерчи архитектур скорее мертвы чем живы, полтора китайца ковыряют rwkv, но без особых успехов и это печально.

Не думаю что для ближайшего поколения моделей правила скейлинга изменяться, но уже сейчас надо внимательно изучать альтернативные лоссы, структуры функций и почему трансформеры так работают.

Есть ли простой ответ как сделать умнее? Нет конечно, я по приколу написал)))😏

https://horace.io/brrr_intro.html
Please open Telegram to view this post
VIEW IN TELEGRAM
62👍24😁2❤‍🔥1
Forwarded from Ilya Gusev
Мистраль топ-1 на RSG.

И это LoRA на 13 миллионов параметров, не полный тюн.

И без выбора лучшего чекпоинта для каждой задачи.

Посылка на одобрении, скоро появится в самом лидерборде.

LLaMA-70b вероятно была бы лучше, но на неё чуть бОльшая карточка нужна.
❤‍🔥31👍43
Forwarded from 6VCR
Media is too big
VIEW IN TELEGRAM
❄️ #art
555👍5
💅39🔥4
ДАЙТЕ CENE655 ЕБУЧИЕ КАРТЫ, ОН ЗАЕБАЛ НЫТЬ МНЕ В ЛИЧКУ
🔥33😁102👎211
Love. Death. Transformers.
ДАЙТЕ CENE655 ЕБУЧИЕ КАРТЫ, ОН ЗАЕБАЛ НЫТЬ МНЕ В ЛИЧКУ
ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
🔥75🤣31🤡5😭4💊3😁1
😁55❤‍🔥17🍌71🔥1😢1
#чтивонаночь по быстрому

Если вы знаете что такое formage то уже поняли суть, если кратко - то давайте положим в доп токены картиночные репрезентации из CLIP, а если мы можем использовать их для генерации ответа по изображению, то давайте еще и генерировать!
А затем полученные эмбеды можно класть в Stable Diffusion ведь она тоже использует CLIP!

А еще оно из коробки и максимально нативно понимает и генерирует картинки, а так же умеет работать с несколькими изображениями в контексте сразу(в отличии от llava)


blog
space

Принес @krists
🔥9🌚4
Agi achieved internally
🔥202🤯62😨15😁7👍31👎1🌚1