Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Проклятое_видео.mp4
🔥44🗿1184👍3😢1🤮1💩1
а в какой момент времени работать в rutube перестало быть позорно?

просто ну, это как гордится 10 статьями про классификацию на берте

он объективно работает хуже пиратских сервисов которые делаются командой из полутра человек
🔥87🤡40👍29🌭7👎6🤔5💯5😁4
11419103👍1
В апреле я побывал в гостях в Университете Тарту. И одна из свежих штук, которую мне там показали - это эстонская LLaMA, названная llammas (по-эстонски баран, ибо модель получилась весьма упрямая 🐏). Вот статья про неё.

Что её авторы сделали:
1. До-предобучили Llama-2-7B на 5B токенов: 75% эстонских и 25% английских (чтобы английский не забывался).
1. Сгенерировали с помощью GPT-3.5-turbo датасет, аналогичный Alpaca, на эстонском (50K примеров).
1. Взяли кучу открытых шумных датасетов для перевода между английским и эстонским, и сконвертировали их в формат инструкций (1М примеров). Дополнительно взяли ещё 2К более чистых примеров для перевода.
1. Дообучили эту модель: сначала опционально на полном датасете перевода (1М примеров), потом на чистом переводе и английских и эстонских инструкциях (100К примеров из английской и эстонской альпак, и ещё 25К из более качественных английских инструкций).
1. Оценили модель на задачах question answering, choice of plausible alternative, grammatical error correction, и перевода.

Что выяснили:
- Для большинства задач (кроме CoPA) большая часть эффекта от продолженного предобучения на эстонском была достигнута уже на 1B токенов.
- Если дообучать сначала на полном датасете для перевода, а потом на инструкциях, то перевод и исправление ошибок даются модели лучше, а логика и ответы на вопросы - хуже, чем если дообучать сразу на инструкциях.
- Модели, дообученные на инструкциях, в принципе способны поддерживать осмысленную беседу на эстонском, хоть они и не всегда звучат естественно.
- Модель переводит между эстонским и английским достаточно близко к уровню SOTA (типа NLLB).
- На большинстве английских бенчмарков модель, которую до-предобучили на смеси эстонского с английским, не очень сильно падает в качестве по сравнению с исходной.
- Нужно ли дообучаться на большом датасете для перевода, и нужно ли это делать вперемешку с инструкциями или до них, не вполне понятно (разные задачи дают разные сигналы). Но в целом нет свидетельств, что реально много параллельных текстов для такой модели нужно.

Из этого, казалось бы, можно сделать вывод, что для адаптации LLM к новому языку не очень-то и нужно иметь много хороших параллельных данных для этого языка; достаточно иметь большой моноязычный датасет для продолженного предобучения (хотя бы 1B токенов, при том что токенайзер LLaMA даёт для эстонского в среднем вдвое больше токенов на предложение, чем для английского) и умеренно большой датасет с инструкциями.
Но как раз наличие датасета с инструкциями и представляет из себя большое "но": он был получен благодаря магии GPT, который уже каким-то чудом знает эстонский достаточно хорошо. А значит, для языков, на которых GPT работает не так классно, такой датасет нужно будет ли собирать вручную с нуля, или переводить с других языков. Так что я думаю, что без этапа создания хорошего машинного перевода - а значит, и сбора хороших параллельных корпусов - всё-таки не обойтись.

Ну и да, основной позитивный сингал: если таки вы нашли данные, то даже такую англоцентричную модель, как LLaMA 2, можно адаптировать на такой нишевой язык, как эстонский, за где-то 1300 GPU-часов (как это сделали TartuNLP), или даже, скажем, всего за 300 (если предобучаться на 1 млрд токенов, а не на 5, что уже тоже даёт неплохой результат). То есть: doable даже в домашних условиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
26🔥5😢4🤡4👍3😁1
Forwarded from КПД
KAN: Kolmogorov-Arnold Networks
[Статья][Код]

Введение

В основе всех (ну почти всех) современных архитектур лежит многослойный перцептрон (MLP) с обучаемыми матрицами, сдвигами и фиксированными активациями и некоторым механизмом агрегации для пространственных входов (свертки, attention, state-spaces, мамба, хуямба).

Теория гласит, что при некоторых предположениях на целевую функцию и функции активации в сети достаточно большой сетью можно приблизить эту самую целевую функцию.

Возникает вопрос 🤔- оптимален ли такой подход по вычислениям / точности и нельзя ли изобрести нечто лучшее?

Метод

В данной статье авторы переосмысляют и в некотором смысле обобщают парадигму построения многослойной сети. В основе идеи лежит знаменитая теорема Колмогорова-Арнольда, что непрерывную многомерную функцию на ограниченной области можно всегда представить в виде композиции функций от одной переменной.

Однако, при этом теорема не дает явного вида этих функций, которые могут оказаться сколько угодно плохими, потому не реализуема на практике.

В данной статье предлагают выучивать сами функции активации, параметризуя их некоторым образом. Каждое ребро между входным и выходным нейроном задается некоторой параметрической функцией довольно общего вида.

Традиционный MLP является одним из частных случаев предлагаемой парадигмы.

В оригинальной теореме перцептрон всего с одним скрытым слоем, но ничто не мешает технически настакать их побольше.

На практике KAN-слой реализуется как B-сплайн с residual connections, домноженный на константу:

\phi(x) = w(b(x) + spline(x)), где b(x) = silu(x) = x / (1 + e^{-x})

Оптимизация такого сплайна довольно нетрививальна, и для улучшения сходимости сплайн инициализирует так, чтобы быть близким к нулю в начальный момент времени, и сетка с узлами сплайна обновляется на лету.

При той же глубине и ширине в KAN-сети больше параметров, чем в классической MLP в G (G - размер сетки) раз, но мотивация работы в том, что KAN требуется меньшая ширина для достижения сопоставимого качества.

Далее авторы обосновывают, что KAN обладает значительно лучшей масштабируемостью в сравнении c MLP и обходит проклятие размерности за счет того, что представляет многомерную функцию в виде композиции одномерных, тем самым переводя задачу эффективно в низкоразмерное пространство и выводят степенной закон убывания функции потерь.

Для KAN в однослойной сети, аппроксимирующие функции могут быть очень плохими, но с ростом глубины, существуют все более гладкие комбинации, способные решать целевую задачу.

По ходу дела, для повышения выразительности сети можно добавлять дополнительные узлы в сплайн.
🤔492810🤡9👍6🔥5🗿5🙊22
Улучшенная версия шикарного мема
😁72👍6👏1
Forwarded from Tensor Banana
Рейтинг LLM в роулплее на русском

Вы не просили, я - сделал. Рейтинг оценивает два фактора: качество русского языка + логика в роулплее на русском.

Победители среди малых моделей:
Лучшая грамотность: vikhr-7b-instruct-0.2 (грамотная, но глупенькая)
Лучшая логика: Starling-LM-7B-beta (возможно, просто повезло)
Лучшая сбалансированность: vikhr-7b-instruct-0.4 (язык + логика)

Подробнее на гитхабе, там же полный xls файл.
https://github.com/Mozer/russian-llm-top
27👍3🔥3
Forwarded from Labrats
#от_подписчика

Возле дома просветлëнного Горного Даоса приземлилась серебристая летающая тарелка. Шлюз медленно открылся. Яркий белый свет залил лужайку у дома.
Из света показалась неестественно тощая и высокая фигура.
Рауати Ксентари, достойный сын расы Ксентари, вошëл в дом Даоса и прямо с порога спросил:
— Что ты отдашь мне взамен на все тайны строения Вселенной?
Мудрец сидел профилем к своему гостю и созерцал стоящее перед ним жестяное ведро. Не поворачиваясь к пришельцу, он спокойно произнëс:
— Вот это ведро с говном.
Инопланетянин крепко задумался.
— Но почему? — наконец спросил он. Мудрец медленно повернулся к гостю и строго посмотрел в его огромные тëмные глаза.
— Так в нëм материалов на две Nature хватит!
В тот же вечер Рауати Ксентари стал его учеником.
👍43💩15👏4🗿22👎1🤮1
why would I use a 200MB classifier when I can use a 40GB LLM named psiball-orpo-qdora-the-xplora-70B-int4-swiffer-sweeper-slerp-v0.02-(Taylor's version)
😁156💯1515👍9🤷‍♂432🔥2
всмысле хуйня которую я пощу остается навсегда
❤‍🔥41🤔1711🤡6🐳41
#чтивонаночь

Идея такая - давайте использовать доп голову которая будет учится и быстренько выбирать кусок который нужно подсунуть чтобы эффективнее работать с контекстом, attn принципиально не меняется, при этом метод работает для уже претренутых моделей, можно дешево доучить уже готовую LLM на 500к контекста и это будет работать.

Нормального сравнения с RoPE, alibi нету, но по памяти метод сильно эффективнее текущих

папир
😍347👍3🥱2😨1
Однажды ии блогер потрогал траву и пеерехал в амст

Однажды ии блогер потрогал траву и перестал писать писатьть

Однажды ии блогер потрогал траву и вселенная схлопнулась
57🤡6👍3👎2😁1🤔1
👀 Aeonium-v1-BaseWeb-1B

Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров.
- 32B токенов в датасете
- 4096 контекстное окно
- Llama в качестве основной архитектуры
- 128k vocab

HuggingFace
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
👍466🤔2🤮2🤡2👎1😁1
Как и 6 лет назад выясняется что просто болталка никого особо не веселит.
🤡30👍13😢55🔥1
Что компенсируют когда хотят учить 100В модели? На ответ даётся...
😁43🤔3👍1
Forwarded from РИСЕРЧОШНАЯ
‼️ ОТКУДА DEEZER ЗНАЕТ, КАКАЯ МУЗЫКА НРАВИТСЯ НОВЫМ ПОЛЬЗОВАТЕЛЯМ?

В этом посте я расскажу о том, как музыкальная платформа Deezer, используя метаданные и нейросети, с первых секунд начала рекомендовать новым пользователям персонализированные треки!

В статье вы можете узнать про:
1️⃣ Почему холодный старт важен
2️⃣ Зачем сервисы следят за вами
3️⃣ Зачем нужна кластеризация
4️⃣ Как Deezer научились персонализировать Cold Start

ЧИТАТЬ ПО ССЫЛКЕ


Отдать голос за канал
https://news.1rj.ru/str/boost/persecond300k

Вступить в чат
https://news.1rj.ru/str/persecond300kchat

#RECSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱221455🤡4👍2
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера наткнулся на новый бесплатный софт для смены голоса в режиме реального времени — для всех любителей дискорда, стримов, пранков над коллегами и создателей контента самое то. Внутри 10 голосов и можно настраивать каждый под себя, ставится как доп устройство в ОС

Есть версия под Mac и под Windows:
https://product.supertone.ai/shift

Поигрался — я тоже пикапер в своем роде, знаете ли 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🤡7🔥31