Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from ML-легушька (Николай Кутузов)
😁733🔥3
Forwarded from Denis Sexy IT 🤖
Простите, не могу перестать возмущаться
😁25🤡5👎3🤔3👍1
😁154👍20😢82🤮2🤡2👎1
#чтивонаночь

Как учить модели правильно? сколько эпох ставить на вики? Почему админ дрочит на data quality?

Ответы на эти и не только вопросы в обзоре - Physics of Language Models:
Knowledge Capacity Scaling Laws


teletype
arxiv для любознательных
🔥7424👍97
О будущем Ebany Резерч

Держите набор фактов, которые обязательно произойдут в ближайшее время.
1. Как только в опенсорсе появится архитектура H200 (а это произойдет, общество быстро схватывает тренды и за месяцы делает то, что компании делают годами) начнется новая эра в этом вашем AI. Каждый сможет локально собрать быстрый вычислитель и обучать по гптшке и лламе за вечер
2. Zero-bit инференс — сейчас большая гонка ускорения и квантизации моделей. Резерчеры всего мира стремятся ускорить модели и максимально эффективно использовать каждый бит. Еще недавно радовались квантизации в 8 бит, сейчас уже есть решения, которые используют 1 бит. Предел сами возьмете.
3. Internet as a context. Ну тут вообще очевидно, рост контекста и архитектурные изменения моделей (долой квадратичный атеншен) двигают нас к все более эффективному использованию контекста для ICL. Ну а что может быть эффективнее, чем поместить всю имеющуюся информацию? (вопрос риторический)
4. GPT-5, LLaMA-4 и т.п. будут. Для компаний это сильный пиар и новые пользователи, и выбирая между “ставить обучаться новую версию” и “вытягивать до последнего из имеющегося” они, конечно, будут запускать train loop вновь и вновь
5. AGI скоро будет. Начало 2023 года — MMLU даже 40 не набирает, начало 2024 года — больше 80% успешно решается. В 2025 году модели уже будут обгонять людей, а в 2026 MMLU будет решать на 100% и наступит новый виток истории.
😁68👍19👏55🤩4
твитерские узнали что если вышла модель получше и сунуть ее на место где была модель похуже, то модель получше будет получше.
кхм

ОХУЕТЬ, А МЫ НЕ ЗНАЛИ, 10 ПРИМЕРОВ ДОЛБАЕБОВ ИЗ 10
😁79119👍3
Forwarded from Георгий
Всем привет

Затюнил idefics2 на LLaVAru от команды вихря (https://huggingface.co/datasets/Vikhrmodels/LLaVA-Instruct-ru). Спасибо и респект ребятам!

Цель была сделать все на consumer-grade ресурсах, поэтому без text-only данных (пока) (качество на тексте могло упасть, бенчи пока не гонял), но работает норм, плохо с chat режимом. Переведу/соберу MMBench скорее всего (ну или около его формата) + дособеру данных в формате LLaVAr'а, после трейн на большем сете + text-only, и можно будет метрики померить и просадки тоже будут меньше

А ссылка на текущий чекпоинт вот https://huggingface.co/GeorgeBredis/ruIdefics2-ruLLaVA-merged, там же и снипеты для запуска

Ну и ttbomk это первый опен-сурс ру тюн мультимодальной LLM, так что лайки приветсвуются x2
👍298🔥5
нагло украдено у @rlabrats
😁66🔥16🤔1
Свежий обзор PEFT (Parameter-Efficient Fine-Tuning) алгоритмов для LLM.

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang
https://arxiv.org/abs/2403.14608

Пересказывать не буду, читайте как справочник :)
26👍83
Релиз Вихрь 0.4

Выложили вихрь 0.4, теперь chatml, ОГРОМНОЕ количество json oriented штук в sft, модель стала лучше работать с контекстом.


huggingface
collab


спасибо контрибьюторам: @mlunderground @plotquot за фидебек и помощь
34🔥8👍4👏2🤮2
Алсо, выложили перевод для бенчмарка arena-hard

Обзор от игоря

перевод
👍4
точно говорю, полезный бенчмарк
😁35💯5
Forwarded from rizzearch
In-context Reinforcement Learning with Algorithm Distillation

UPD: за время, пока админы писали обзор на эту статью, гугл забронил патент под эту технологию, вот и думаем насколько важно) приятного прочтения😎

Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче

А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?

Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач

Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)

Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.

В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...


👀LINK

#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥9🤔42💊1
Love. Death. Transformers.
x < 300 - лютейшая нищета на грани выживания 300 < x < 700,6 - обычная нищета, ипотека на 20 лет, кино и рестораны раз в неделю, еда из ашана 700,6к < x < 1,27кк - нормальная жизнь, ипотека на 10 лет, машина среднего класса (B, C) 1,27кк < x < 2,27 миллиона…
Апдейт для Лондона, цифры в фунтах/год

<60к — экстремальная бедность, самый простой нож, три месяца копишь на отбеливатель

70-90к — средненькое качество жизни, хватит на базовую квартирку в 2-3 зоне, будет оставаться немножко на руки

90-120к — чуть получше, можно квартирку побогаче взять, на ценники в продуктовых почти не смотреть (если не снимать квартиру за 2/3 зарплаты, you know)

150-170к — уже в целом хорошая жизнь, неплохая квартира в хорошем районе, которая не отнимает 2/3 зарплаты, накопления, долгосрочное планирование

200-250к — по-настоящему комфортная жизнь начинается здесь, можно позволить купить сырники
😁33👍31💊21💯1
не мой формат, но.

я сам учу ллм, иногда несколько штук в паралель и я честно отдаю себе отчет об одном простом факте - если ты не сложил информацию в llm, она не выучит это и магическое "emergent propertys" вам не помогут. если вы подкинули в претрен инструкций - у вас модель ЧУДОМ начнет лучше работать ZS/FS формате. Если подкините 10 повторений википедии - О ЧУДО!! модель станет точнее отвечать на вские world qa штуки.

То что gpt_like могут хорошо воспроизводить common таски - это очень круто, но вне довольно узкого нормального распределения задач которые модели хорошо решают они резко деградируют и никакой магический function calling/internet не помогут - поиск слишком замусорен, если у вас случайно нет своего индекса и поисковика по нему- вам будет больно.

Короче дед мб не пьет таблетки, но это не делает его мнение до конца не верным.

twi
👍48🤔63🐳1💊1
#чтивонаночь
AM-RADIO: Agglomerative Vision Foundation Model
Reduce All Domains Into One


Мультитасковая мульти энкодерная модель от nvidia которая учит одновременно clip, sam, dino фичи в одного ученика который еще и лучше работает.

paper
model
🔥36👍4🤔2❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Проклятое_видео.mp4
🔥44🗿1184👍3😢1🤮1💩1