NEW BOT Телеграм, страница - 786360431

Love. Death. Transformers.

@lovedeathtransformers

22.5K subscribers

4.24K photos

498 videos

76 files

2.78K links

❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.

Download Telegram

About

Blog

Apps

Platform

Love. Death. Transformers.

22.5K subscribers

Love. Death. Transformers.

Love. Death. Transformers.

все опять украли у Шмидхуберта

This media is not supported in your browser

VIEW IN TELEGRAM

в юном технике говорят была статья: законы масштабирования обучения БЯМ

😁1653813🥴8💯4

11.2K views11:22

Love. Death. Transformers.

Ну как там с задачей?
Делаю
А когда сделаешь?
Доделаю напишу

PHD level inetelegence, finnaly

😁254🍓24🔥198👍5

11.3K viewsedited 09:41

Love. Death. Transformers.

Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9

50🤮12👍11🥴6🗿33🤡2

25.5K views10:41

Love. Death. Transformers.

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO-GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

🔥69102👍1

7.53K views11:53

Love. Death. Transformers.

Forwarded from LakoMoor

Метрики подъехали. Оригинал 47.23
Успех?

Да

https://huggingface.co/spaces/Vikhrmodels/arenahardlb

🔥43👍14🤡53

7.8K views13:37

Love. Death. Transformers.

Forwarded from NLP Wanderer

О неочевидном поведении DPO и улучшениях SMPO в новой SLM от VIkhrModels

Недавно вышедшая QVikhr-2.5-1.5B-Instruct-SMPO, отличается не только лучшим качеством среди наших небольших тюнов, сопоставимым местами с 7B моделями, но и улучшениями в нашем методе алайнмента SMPO.

В ходе большого количества экспериментов я заметил, что офлайновая DPO-like (любая, в том числе и SMPO, ORPO, SimPO и тд) тренировка, часто при обучении может приводить к вырожденным решениям, например, таким, где модель теряет EOS токен при генерации и уходит в повторения или просто в генерацию сломанных токенов.

После небольшого расследования выяснилось, что частично такое поведение объяснимо поведением логарифма при вычислении логпробов токенов (картинка 1), которые в свою очередь участвуют в вычислении ревордов, разница между которыми и оптимизируется в DPO. Вычисляя логарифм чисел в районе 0, вы легко можете получить неограниченное падение логпроба в минус бесконечность. В случае DPO вы эти логпробы потом складываете, в случае SMPO они усредяются по всему комплишену. И в том и в другом случае, вы не спасаетесь от возможных значений-выбросов на конкретных токенах.

Если говорить более простыми словами - если ваш rejected содержит какието очевидные закономерности в токенах, которые его отличают от chosen, то модель через DPO может научится занижать логпробы именно этих токенов в минус бесконечность (т.е. обнулять вероятность) и выигрывать тем самым objective DPO, при этом для более "умных" последовательностей токенов, которые вы хотели бы тоже выучить, оптимизация может вобще не произойти, приводя к довольно тупым результатам, частое из которых это занизить логпроб EOS токена на всех rejected, тем самым почти уничтожив вероятность его генерации на OOD примерах - получаем проблему бесконечных повторений.

Конечно, такое поведение связано с плохой регуляризацией в RL. Выбор меньшего lr, уменьшение гипермараметра beta (в dpo), использование KL (как в DPO) или rejected и chosen SFT амортизации (как в SMPO), лучший выбор модели (какие-то меньше подвержены), использование model merging между SFT и PO стадиями тренировки, в целом обучение не до конца, частично помогает бороться с таким хаком обжектива. При тренировке Vikhr-Nemo было проведено немало экспериментов с гиперпараметрами, но проблема не была полностью вылечена.

В итоге, для тренировки наших следующих моделей мы теперь используем модифицированную версию SMPO (картинка 2), в которой было решено ввести штраф на занижение EOS токена для rejected комплишенов, а также сделать винзоризацию и клиппинг экстремальных значений логпробов, что позволило частично решить проблему нежелательного переобучения.

Модифицированный SMPO и конфиги обучения уже доступны в нашей библиотеке Effective LLM Alignment

🔥36👍662👏1

8.51K views14:25

Love. Death. Transformers.

Forwarded from Ruadaptная комната

Опрос показал, что 26% ждет адаптацию 14B модели, и вот мы ее подготовили - RuadaptQwen2.5-14B-Instruct 🎉
Провели модель через процедуру адаптацию, отлаженную на 7B версиях. На подходе также версия с 1M контекстом (будет UPD к этому посту).

Метрики:
1) RuArenaGeneral (https://huggingface.co/spaces/Vikhrmodels/arenahardlb) - 88.63 (на одном уровне с RuadaptQwen2.5-7B-Lite-v1)
2) shlepa (https://huggingface.co/spaces/Vikhrmodels/small-shlepa-lb) - 0.477
3) MERA (0.522 с обычным системным промптом, 0.551 с кастомным)

Итого, по метрикам как будто не должно быть лучше, чем RuadaptQwen2.5-7B-Lite версия, но я что-то сильно в этом сомневаюсь, в частности, некоторые внутренние бенчи + mmlu (ru и en) лучше у 14B версии. Так что особенно будем рады отзывам на данную модель (а также и на другие модели из серии Ruadapt) с целью дальнейшего улучшения качества.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-Instruct
GGUF версия: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-instruct-GGUF

Russian LLM Leaderboard - a Hugging Face Space by Vikhrmodels

Submit your language model for evaluation and track its performance against others. Provide model details and upload evaluation files to see results.

🔥20🤮14👍5🤡5💩3😁2💊2

9.24K views16:40

Love. Death. Transformers.

актуальный вопрос для любого админа тг канала

😁11516🔥2😢2💯1

9.6K views08:59

Love. Death. Transformers.

Love. Death. Transformers.

Выводы по Operator: - cырой ужасно, режим артефактов у гпт/клода намного полезнее. Я в режиме артефактов частенько делаю мелкий анализ для статей или генерирую полноценные draw io файлы питоном. - оно теряет ваши файлы которые в него послали:) - у него…

Выводы по DeepResearch:
1) Это третий за пол года довольно сырой релиз OAI, как будто ему бы еще пару месяцев покрутится, досадные баги с "щаща вернусь" прям расстраивают. Его почему то нет в эпке на мак, а хотелось бы.

2) Полагаю что сырость связана с тем что Operator и DeepSearch это две приниципиально разные концепции взаимодейсвтия с интернетом. Да, Operator перспективнее потому что может управлять вообще любым UI(хоть фотошоп, хоть в доте персонажа качать). Но текущие модели ограниченные, поэтому DeepSearch ощущается сильно полезнее - какого то гениального ресерча он не напишет, но накидать по теме статей по теме он способен, и извелечь хоть сколько то информации из них. Тул скорее полезный, чем нет.

Мой пример чата, написал бы я сам лучше и быстрее? Да.
Стоит ли промптить на русском? Нет.
Написала ли модель ерунду? Скорее нет, но полезнее среднего человека не в контексте.

ChatGPT - Open-source models metrics

ChatGPT helps you get answers, find inspiration, and be more productive.

👍27👏5🔥2😁1

10.1K viewsedited 09:34

Love. Death. Transformers.

Love. Death. Transformers.

Выводы по DeepResearch: 1) Это третий за пол года довольно сырой релиз OAI, как будто ему бы еще пару месяцев покрутится, досадные баги с "щаща вернусь" прям расстраивают. Его почему то нет в эпке на мак, а хотелось бы. 2) Полагаю что сырость связана с тем…

Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research

Open-source DeepResearch – Freeing our search agents

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥111🙈94👍3

18.3K views20:15

Love. Death. Transformers.

Forwarded from Борис опять

Внезапная филлер арка моей жизни о которой никто не просил: я недавно делал фотосессию и одну из фотографий приняли в какой-то крутой журнал для арт-фотографов, так что я теперь официально модель 💅💅💅

Надо будет это фото в Google Scholar поставить

Подстраховываюсь от сингулярности как могу

😁115🍓3025🔥6🥴63🤮2🤡1🌭1

9.5K views11:38

Love. Death. Transformers.

Forwarded from Борис опять

Контекста не будет

не моя, поддержите авторов, они молодцы

145❤‍🔥32😁21🍓15💅44👍3🤮3😍2🐳1

10.2K views11:41

Love. Death. Transformers.

никогда не спрашивайте зачем учить модели на ризонинг без онлайн RL этапа

537🤡1

9.34K viewsedited 08:37

Love. Death. Transformers.

Forwarded from что-то на DL-ском

Ищу Джуна MLE

😺опыт 5 лет
😺минимум 5 статьей на конфах A*
😺должен знать все основы, чтобы пройти мой тех собес. Там по мелочи, от всех компонент трансформера и как масштабировать модель до новых подходов в диффузионных моделях
😺Work life balance будет зависеть от вашей способности работать быстро и делать 3 задачи в день
😺Платить будем вам нашими коинами компании. Зп по договоренности, конечно, но вы же должны понимать, что Джун наглеть с вилкой не должен

Please open Telegram to view this post

VIEW IN TELEGRAM

😁253🥴3621💩5👍4

9.71K views10:40

Love. Death. Transformers.

пока вк хантит пусек с 3лет опыта на джуна, зумеры в 17 идут на Lead_a

2🦄176💩4622🤡21👍9🔥4🍓3🤔1

16.9K viewsedited 10:54

Love. Death. Transformers.

о3!!!
может!!!
написать!!!
тюн лламы на чистом торче.

🌭91😁5228🗿9🥴6👍4🔥4🤔1

10.5K views16:57

Love. Death. Transformers.

Love. Death. Transformers.

о3!!! может!!! написать!!! тюн лламы на чистом торче.

Ща будем прочищать всех кто не в курсе что все модели с гпт3.5 и выше с этим справляются по причине: отсутствие элементарной экспертизы в области

💔36😁273🥱1🗿1

9.76K views17:32

Love. Death. Transformers.

Better & Faster Large Language Models via Multi-token Prediction

Вероятно самая недооценная работа последнего года.

В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.

Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)

Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!

paper
offical model

1👍821913🔥7❤‍🔥3🤮2😍2

26.6K views12:32

Love. Death. Transformers.

О, ещё одну экспоненту нашли

😁131🔥3🤮3🥴3👍2

10.1K views19:07