Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from DLStories
Помните, писала, что у нас с коллегами приняли статью на COLM, но конференция в США и ни у кого из нас нет виз? Так вот, конференция 7-9 октября в Филадельфии, и мы все еще в поисках человека, который мог бы туда поехать и презентовать нашу статью😢

В том посте я писала, что нужно будет постоять рядом с нашим постером. Но теперь все немного сложнее: наша статья попала на oral (spotlight). То есть, нужно будет выйти зачитать доклад по нашей статье на 12 минут🌝 Текст и презентация доклада будут готовы.

Поэтому если вдруг вы или ваши коллеги едут на COLM, и готовы с этим нам помочь, напишите, пожалуйста, Лаиде. Вы очень-очень нам поможете!
(Я помню, что под предыдущим постом были люди, готовые помочь. Спасибо вам большое, что тогда откликнулись! Если вы все еще готовы помочь, будем очень рады)
❤‍🔥47😢13🤔3👍1
3122🔥38😁32😨3👍2💯2😢1🍓1
How-To-Succeed-At-MrBeast-Production.pdf
1.8 MB
Feels like a best management book ever
😁36🔥2
😁57🤡5🥴2🍓2🌚11
Forwarded from Vikhr models
Натурализация выходов llm

С помощью
DPO можно учить LLM генерировать LLM более натуральные тексты, для этого берем текст, нарезаем на куски, суммаризируем, затем генерируем "любой сеткой" кандидатов. Учим DPO где хороший текст это оригинал, а плохой это то что сетка родила.

Собственно у нас в Vikhr Models есть трек с Roleplay+Interpretability поэтому мы сгенерировали такой датасет на основе habr+picabuu+ficbook.

Ну и забыли заанонсить🫠

А вчера увидел пост у Ильи что ребята в комьюнити проделали аналогичную работу над книжками!


На основе книжек
Наш датасет на основе более разнообразного датамикса
🔥26👍5🥱2
Учить что либо на более 10 нодах сложно. Уже начинает влиять топология кластера, падает MFU, отваливаются ноды и так далее, на лету выкидывать ноды из обучения сложно. Скорость интернета внутри датацентра одинаковая только в теории.
В целом любое массивное обучение на сотнях и тысячах нод это очень сложно, затратно и инженерно.

В первые вижу в паблике подробный блогпост про оптимизацию network level для обучения на 4к h100.

Блогпост
👍73🔥23🤔1
Forwarded from CV Time
Blueberry оказалась Flux 1.1. Pro

Помните загадочную Blueberry, которая лидировала на text2image-арене? На ECCV выяснилось, что это была Flux 1.1 Pro от Black Forest Labs — об этом сообщил сооснователь компании Алекс Зауэр. Более того, по его словам, сегодня нас ждёт ещё один анонс, связанный с этой моделью.

CV Time

#YaECCV
🔥19
Я был до последнего уверен что blueberry это dalle4 лол
👍28🤔5😁3
touch the grass is all you need
😁77107
Forwarded from Vikhr models
Vikhr paper едет на Workshop emnlp!

А из-за того что все авторы очень русские никому не выдали визу)))
😁88🎉13😢11🤮4😡3❤‍🔥1
Напомните а что с EMU
🤡4😐4
Flux1.1 очень хорош
😁63🍓5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Попробовал новую модель от meta, прям хорошая


Очевидно нет
Читать что это - тут
1😁45🤔9🍓7👍2😐1
3😁133👍19🥴12🍓10💊3
Forwarded from Vikhr models
📟 Вихрь теперь можно запустить даже на пейджерах !?

⚡️ Vikhr-Qwen-2.5-0.5B-Instruct - инструктивная модель на основе Qwen-2.5-0.5B-Instruct, обученная на русскоязычном датасете GrandMaster-PRO-MAX. В 4 раза эффективнее базовой модели, и идеально подходит для запуска на слабых мобильных устройствах.

💡 Что нового?
- Небольшой размер: Всего 0.5B параметров, идеально подходящая для применения на простых устройствах.
- Эффективность: Достигает результатов, сопоставимых с более крупными моделями.

🔗 HF: Vikhrmodels/Vikhr-Qwen-2.5-0.5b-Instruct
🔗 GGUF: Vikhrmodels/Vikhr-Qwen-2.5-0.5b-Instruct-GGUF

Инструкция по запуску на телефоне

Коллектив авторов: @LakoMoorDev @nlpwanderer
69😁35❤‍🔥9👍7🔥7😐6🤮4👎31🤔1
Мне очень нравится читать истерики clevels

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

Жаль что openai практически военная (по уровню анальности nda) организация и мы не знаем всех истерик внутри.

А жаль!
1😁24147🍓4👍3❤‍🔥11
У нас есть ии дома

Ии дома:
😁28🔥9👍2🤮1🌭1
Ну что, сработала техника, получается. А нужен был всего лишь простой советский перевод Агаты Кристи.

Сайга пока догоняет, поэтому в качестве основы я взял Вихрь-Немо.

Аналогично оригинальному Ataraxy, дообучил модель через ORPO на датасете, описанном выше, и слил получившийся тюн с оригиналом. Внезапно получил +0.1 на ПингПонге. На арене стало чуть хуже, 77 у новой модели vs 80 у оригинала.

Сама модель: vikhr_nemo_orpo_dostoevsky_12b_slerp
В боте она тоже есть.
52👍32🌚7🥱1
чет забыл написать что мы дали 12b модель для ребят из https://llmarena.ru/

Пожалуйста накидайте им сравнений, очень надо, а то там gpt4 до сих пор обгоняется старым вихрем
251🔥11👍2👏1