NEW BOT Телеграм, страница

Love. Death. Transformers.

#чтивонаночь

Как учить модели правильно? сколько эпох ставить на вики? Почему админ дрочит на data quality?

Ответы на эти и не только вопросы в обзоре - Physics of Language Models:
Knowledge Capacity Scaling Laws

teletype
arxiv для любознательных

🔥7424👍9❤7

10.4K views10:24

Love. Death. Transformers.

Forwarded from еба́ные идеи для резерча

О будущем Ebany Резерч

Держите набор фактов, которые обязательно произойдут в ближайшее время.
1. Как только в опенсорсе появится архитектура H200 (а это произойдет, общество быстро схватывает тренды и за месяцы делает то, что компании делают годами) начнется новая эра в этом вашем AI. Каждый сможет локально собрать быстрый вычислитель и обучать по гптшке и лламе за вечер
2. Zero-bit инференс — сейчас большая гонка ускорения и квантизации моделей. Резерчеры всего мира стремятся ускорить модели и максимально эффективно использовать каждый бит. Еще недавно радовались квантизации в 8 бит, сейчас уже есть решения, которые используют 1 бит. Предел сами возьмете.
3. Internet as a context. Ну тут вообще очевидно, рост контекста и архитектурные изменения моделей (долой квадратичный атеншен) двигают нас к все более эффективному использованию контекста для ICL. Ну а что может быть эффективнее, чем поместить всю имеющуюся информацию? (вопрос риторический)
4. GPT-5, LLaMA-4 и т.п. будут. Для компаний это сильный пиар и новые пользователи, и выбирая между “ставить обучаться новую версию” и “вытягивать до последнего из имеющегося” они, конечно, будут запускать train loop вновь и вновь
5. AGI скоро будет. Начало 2023 года — MMLU даже 40 не набирает, начало 2024 года — больше 80% успешно решается. В 2025 году модели уже будут обгонять людей, а в 2026 MMLU будет решать на 100% и наступит новый виток истории.

😁68👍19👏55🤩4

6.92K views09:58

Love. Death. Transformers.

твитерские узнали что если вышла модель получше и сунуть ее на место где была модель похуже, то модель получше будет получше.
кхм

ОХУЕТЬ, А МЫ НЕ ЗНАЛИ, 10 ПРИМЕРОВ ДОЛБАЕБОВ ИЗ 10

😁79119👍3

6.51K views19:40

Love. Death. Transformers.

Forwarded from Георгий

Всем привет

Затюнил idefics2 на LLaVAru от команды вихря (https://huggingface.co/datasets/Vikhrmodels/LLaVA-Instruct-ru). Спасибо и респект ребятам!

Цель была сделать все на consumer-grade ресурсах, поэтому без text-only данных (пока) (качество на тексте могло упасть, бенчи пока не гонял), но работает норм, плохо с chat режимом. Переведу/соберу MMBench скорее всего (ну или около его формата) + дособеру данных в формате LLaVAr'а, после трейн на большем сете + text-only, и можно будет метрики померить и просадки тоже будут меньше

А ссылка на текущий чекпоинт вот https://huggingface.co/GeorgeBredis/ruIdefics2-ruLLaVA-merged, там же и снипеты для запуска

Ну и ttbomk это первый опен-сурс ру тюн мультимодальной LLM, так что лайки приветсвуются x2

huggingface.co

Vikhrmodels/LLaVA-Instruct-ru · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍29❤8🔥5

7.26K views20:16

Love. Death. Transformers.

https://www.reddit.com/r/LocalLLaMA/comments/1ceh5cp/gpt2chatbot_at_lmsys_chatbot_arena/

😁50👍9❤‍🔥1

7.03K viewsedited 22:48

Love. Death. Transformers.

Когда то давно писал текст про ллаву

teletype

😁52🔥4❤2👍1

6.9K views07:58

Love. Death. Transformers.

нагло украдено у @rlabrats

😁66🔥16🤔1

6.53K viewsedited 15:31

Love. Death. Transformers.

Forwarded from gonzo-обзоры ML статей

Свежий обзор PEFT (Parameter-Efficient Fine-Tuning) алгоритмов для LLM.

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang
https://arxiv.org/abs/2403.14608

Пересказывать не буду, читайте как справочник :)

arXiv.org

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Large models represent a groundbreaking advancement in multiple application fields, enabling remarkable achievements across various tasks. However, their unprecedented scale comes with significant...

❤26👍83

5.62K views20:25

Love. Death. Transformers.

Релиз Вихрь 0.4

Выложили вихрь 0.4, теперь chatml, ОГРОМНОЕ количество json oriented штук в sft, модель стала лучше работать с контекстом.

huggingface
collab

спасибо контрибьюторам: @mlunderground @plotquot за фидебек и помощь

huggingface.co

Vikhrmodels/Vikhr-7B-instruct_0.4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤34🔥8👍4👏2🤮2

8.52K viewsedited 08:22

Love. Death. Transformers.

Алсо, выложили перевод для бенчмарка arena-hard

Обзор от игоря

перевод

👍4

7.05K views09:18

Love. Death. Transformers.

точно говорю, полезный бенчмарк

😁35💯5

6.66K viewsedited 09:20

Love. Death. Transformers.

Forwarded from rizzearch

In-context Reinforcement Learning with Algorithm Distillation

UPD: за время, пока админы писали обзор на эту статью, гугл забронил

патент

под эту технологию, вот и думаем насколько важно) приятного прочтения

😎

Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче

А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?

Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач

Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)

Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.

В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...

👀LINK

#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥9🤔4❤2💊1

6.3K views10:13

Love. Death. Transformers.

x < 300 - лютейшая нищета на грани выживания 300 < x < 700,6 - обычная нищета, ипотека на 20 лет, кино и рестораны раз в неделю, еда из ашана 700,6к < x < 1,27кк - нормальная жизнь, ипотека на 10 лет, машина среднего класса (B, C) 1,27кк < x < 2,27 миллиона…

Апдейт для Лондона, цифры в фунтах/год

<60к — экстремальная бедность, самый простой нож, три месяца копишь на отбеливатель

70-90к — средненькое качество жизни, хватит на базовую квартирку в 2-3 зоне, будет оставаться немножко на руки

90-120к — чуть получше, можно квартирку побогаче взять, на ценники в продуктовых почти не смотреть (если не снимать квартиру за 2/3 зарплаты, you know)

150-170к — уже в целом хорошая жизнь, неплохая квартира в хорошем районе, которая не отнимает 2/3 зарплаты, накопления, долгосрочное планирование

200-250к — по-настоящему комфортная жизнь начинается здесь, можно позволить купить сырники

😁33👍31💊2❤1💯1

6.98K viewsedited 17:59

Love. Death. Transformers.

не мой формат, но.

я сам учу ллм, иногда несколько штук в паралель и я честно отдаю себе отчет об одном простом факте - если ты не сложил информацию в llm, она не выучит это и магическое "emergent propertys" вам не помогут. если вы подкинули в претрен инструкций - у вас модель ЧУДОМ начнет лучше работать ZS/FS формате. Если подкините 10 повторений википедии - О ЧУДО!! модель станет точнее отвечать на вские world qa штуки.

То что gpt_like могут хорошо воспроизводить common таски - это очень круто, но вне довольно узкого нормального распределения задач которые модели хорошо решают они резко деградируют и никакой магический function calling/internet не помогут - поиск слишком замусорен, если у вас случайно нет своего индекса и поисковика по нему- вам будет больно.

Короче дед мб не пьет таблетки, но это не делает его мнение до конца не верным.

twi

👍48🤔6❤3🐳1💊1

7.25K views18:36

Love. Death. Transformers.

#чтивонаночь
AM-RADIO: Agglomerative Vision Foundation Model
Reduce All Domains Into One

Мультитасковая мульти энкодерная модель от nvidia которая учит одновременно clip, sam, dino фичи в одного ученика который еще и лучше работает.

paper
model

🔥36👍4🤔2❤‍🔥1

7.47K views21:19

Love. Death. Transformers.

#чтивонаночь AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One Мультитасковая мульти энкодерная модель от nvidia которая учит одновременно clip, sam, dino фичи в одного ученика который еще и лучше работает. paper model

не иронично лучше по метрикам

28❤2🤔1

6.26K views21:20

Love. Death. Transformers.

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Проклятое_видео.mp4

🔥44🗿1184👍3😢1🤮1💩1

29.6K views09:32

Love. Death. Transformers.

а в какой момент времени работать в rutube перестало быть позорно?

просто ну, это как гордится 10 статьями про классификацию на берте

он объективно работает хуже пиратских сервисов которые делаются командой из полутра человек

🔥87🤡40👍29🌭7👎6🤔5💯5😁4

6.57K viewsedited 11:44

Love. Death. Transformers.

114❤19103👍1

6.66K views12:38

Love. Death. Transformers.

Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса

В апреле я побывал в гостях в Университете Тарту. И одна из свежих штук, которую мне там показали - это эстонская LLaMA, названная llammas (по-эстонски баран, ибо модель получилась весьма упрямая 🐏). Вот статья про неё.

Что её авторы сделали:
1. До-предобучили Llama-2-7B на 5B токенов: 75% эстонских и 25% английских (чтобы английский не забывался).
1. Сгенерировали с помощью GPT-3.5-turbo датасет, аналогичный Alpaca, на эстонском (50K примеров).
1. Взяли кучу открытых шумных датасетов для перевода между английским и эстонским, и сконвертировали их в формат инструкций (1М примеров). Дополнительно взяли ещё 2К более чистых примеров для перевода.
1. Дообучили эту модель: сначала опционально на полном датасете перевода (1М примеров), потом на чистом переводе и английских и эстонских инструкциях (100К примеров из английской и эстонской альпак, и ещё 25К из более качественных английских инструкций).
1. Оценили модель на задачах question answering, choice of plausible alternative, grammatical error correction, и перевода.

Что выяснили:
- Для большинства задач (кроме CoPA) большая часть эффекта от продолженного предобучения на эстонском была достигнута уже на 1B токенов.
- Если дообучать сначала на полном датасете для перевода, а потом на инструкциях, то перевод и исправление ошибок даются модели лучше, а логика и ответы на вопросы - хуже, чем если дообучать сразу на инструкциях.
- Модели, дообученные на инструкциях, в принципе способны поддерживать осмысленную беседу на эстонском, хоть они и не всегда звучат естественно.
- Модель переводит между эстонским и английским достаточно близко к уровню SOTA (типа NLLB).
- На большинстве английских бенчмарков модель, которую до-предобучили на смеси эстонского с английским, не очень сильно падает в качестве по сравнению с исходной.
- Нужно ли дообучаться на большом датасете для перевода, и нужно ли это делать вперемешку с инструкциями или до них, не вполне понятно (разные задачи дают разные сигналы). Но в целом нет свидетельств, что реально много параллельных текстов для такой модели нужно.

Из этого, казалось бы, можно сделать вывод, что для адаптации LLM к новому языку не очень-то и нужно иметь много хороших параллельных данных для этого языка; достаточно иметь большой моноязычный датасет для продолженного предобучения (хотя бы 1B токенов, при том что токенайзер LLaMA даёт для эстонского в среднем вдвое больше токенов на предложение, чем для английского) и умеренно большой датасет с инструкциями.
Но как раз наличие датасета с инструкциями и представляет из себя большое "но": он был получен благодаря магии GPT, который уже каким-то чудом знает эстонский достаточно хорошо. А значит, для языков, на которых GPT работает не так классно, такой датасет нужно будет ли собирать вручную с нуля, или переводить с других языков. Так что я думаю, что без этапа создания хорошего машинного перевода - а значит, и сбора хороших параллельных корпусов - всё-таки не обойтись.

Ну и да, основной позитивный сингал: если таки вы нашли данные, то даже такую англоцентричную модель, как LLaMA 2, можно адаптировать на такой нишевой язык, как эстонский, за где-то 1300 GPU-часов (как это сделали TartuNLP), или даже, скажем, всего за 300 (если предобучаться на 1 млрд токенов, а не на 5, что уже тоже даёт неплохой результат). То есть: doable даже в домашних условиях.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤26🔥5😢4🤡4👍3😁1

5.69K views15:15

About

Blog

Apps

Platform