NEW BOT Телеграм, страница

bugs ans letters

Очень хорошее объяснение, как устроены классические механизмы семплинга в LM: https://docs.cohere.ai/docs/controlling-generation-with-top-k-top-p
#llm #gpt

Cohere AI

Top-k & Top-p

Use the API to generate completions, distill text into semantically meaningful vectors, and more. Get state-of-the-art natural language processing without the need for expensive supercomputing infrastructure.

10 views13:21

bugs ans letters

Forwarded from Илья А.

Как ты думаешь, учитывают ли анимации, которые демонстрируют разные методы оптимизации, адаптивность современных методов (раздельный подход к обновлению каждого параметра) по умолчанию, или же просто делается какая-то упрощённая математическая модель? http://www.denizyuret.com/2015/03/alec-radfords-animations-for.html
Тут даже есть код: https://habr.com/ru/articles/318970 Не зная питона, я скормил его бингу, и бинг (Creative mode) мне сказал, что там используется фиксированный коэффициент обучения для всех параметров, но я подумал денёк и как-то не доверяю)
Нашёл только один материал с визуализацией, где этот вопрос недвусмысленно обсуждается: https://towardsdatascience.com/a-visual-explanation-of-gradient-descent-methods-momentum-adagrad-rmsprop-adam-f898b102325c

Denizyuret

Alec Radford's animations for optimization algorithms

Alec Radford has created some great animations comparing optimization algorithms SGD , Momentum , NAG , Adagrad , Adadelta , RMSprop (unfo...

9 views19:13

bugs ans letters

Forwarded from Oleg Ur: ("⁧;("

Илья А.

А это вообще про другое. Как ты подбираешь функцию от многих переменных – зависит от тебя.
https://github.com/AsmaaEssamSultan/Optimization-Techniques-from-scratch/blob/main/NAG.ipynb - вот код для NAG, например, с формулами
Думаю, в большинстве подходов таки да, коэффициенты общие, потому что предполагается, что исходная задача отнормализована

GitHub

Optimization-Techniques-from-scratch/NAG.ipynb at main · AsmaaEssamSultan/Optimization-Techniques-from-scratch

Contribute to AsmaaEssamSultan/Optimization-Techniques-from-scratch development by creating an account on GitHub.

9 views19:13

bugs ans letters

Forwarded from Voice stuff

Наблюдаю тренд на вкручивание промпта в синтез речи. Все наверняка уже слышали про невероятную просодию (и слабые ударения в русском) в bark:

https://github.com/suno-ai/bark

Коки тоже на месте не стоят и тоже выкатили модель с промптами. Впрочем, пока не опен-сорс.

https://coqui.ai/blog/tts/prompt-to-voice

Хорошие новости:
Звучит всё очень вкусно. Натуральность речи просто нереальная.
Несмотря на то, что модель необычная и большая - уверен что её можно собрать и обучить самому на паре ГПУ. Главные компоненты: кодек и LLM там предобучены.

Так себе новости:
Под капотом модели используют нейрокодек для декодирования аудио. Так что если слышите шумы в записи - это оттуда, и будто бы это нелегко исправить.
Размер модели в 100М. Кажется, будто бы маленькие модели потихоньку отходят на второй план с появлением квантизаций, ЛЛАМа, и RTX 4090.
Некоммерческая лицензия и отстутствие кода для обучения.

GitHub

GitHub - suno-ai/bark: 🔊 Text-Prompted Generative Audio Model

🔊 Text-Prompted Generative Audio Model. Contribute to suno-ai/bark development by creating an account on GitHub.

8 views09:42

bugs ans letters

Я настолько разленился, что мне проще держать эту ссылку под рукой, чем запоминать аккорды для Universal Hex Input 😕
#math #symbols #typography

6 views13:20

bugs ans letters

Forwarded from что-то на DL-ском

Обзор на ту самую LLaMA и на ее fine-tune-ы: Alpaca, Vicuna, gpt4all

🤩

После того, как как все поныли, что OpenAI так и не раскрыли подробности апгрейда GPT-4, выпущенной в марте, внимание многих обратилось на LLaMA, выпущенную на несколько недель раньше, и которую Meta AI реально сделали Open and Efficient Foundation Language Model.

Хотелось бы отдельно выделить очень крутой вывод от прошлых работ сообщества, которым руководствовались авторы: если раньше все гнались за количеством параметров модели, в работах Scaling Laws for Neural Language Models опять же от OpenAI были найдены неожиданные свойства. При увеличении количества данных, возникает прирост качества. Именно этот фактор позволил LLaMA-13B аутперформить GPT-3, несмотря на размер в 10!! Раз меньше

В статье ребята дают подробный рецепт сотворения модельки. Вот он:

👨‍🍳 Подготавливаем данные в размере 1.4T токенов:
1. English CommonCrawl – составляющее 67% данных. с использованием CCNet pipeline для удаления дубликатов, фильтрации неанглоязычного и низкокачественного контента, а также отбрасыванием страниц, не относящиеся к ссылкам в Википедии.
2. 15 % C4.
3. 4.5 % Git c вычещением низкокачетсвенных реп и удалением шаблонов с помощью регулярных выражений
4. 4.5% Wikipedia с удалением гиперссылок, комментариев и других элементов форматирования
5. 4.5% датасетов книг с удалением дубликатов
6. 2.5% ArXiv
7. 2% Stack Exchange – сайт вопросов и ответов высокого качества, охватывающий различные области знаний, от компьютерных наук до химии. С удалением HTML тегов и фильтрацией по рейтингу
👨‍🍳Потом обучаем BPE токенайзер с использованием реализации из библиотеки SentencePiece. Для токенизации числа разбиваются на отдельные цифры, а не обрабатываются как единое целое, а для декомпозиции неизвестных символов UTF-8 используются байты.
(при чем все данные прогоняются одну эпоху за исключением книг и википедии, там две)

Итак, за основу берется архитектура трансформера, но вот те самые уникальные ингридиенты успешной модели:
🎹Авторы нормализовали с RMSNorm входные данные для каждого подуровня трансформера. Подход заключается в делении каждого элемента входного вектора на квадратный корень из суммы квадратов всех элементов входного вектора.
🎹Заменили ReLU на SwiGLU
🎹Использовали Rotary positional embeddings. Этот метод заключается в добавлении дополнительных векторов с фиксированными значениями в векторное представление каждого элемента последовательности. Эти векторы имеют свойство поворота, что позволяет модели учитывать не только абсолютную позицию элементов, но и относительное положение друг к другу.
🎹В качесвте оптимайзера взяле AdamW с бетами 0.9 и 0.95.
🎹Добавляли штраф в функцию потерь сети, который пропорционален квадрату весовых коэффициентов каждого слоя сети с Weight decay в размере 0.1
🎹Добавляли gradient clipping – 1.0
🎹Использовали подход для эффективного multi-head attention, в котором мы разбиваем входную последовательность на блоки фиксированной длины и применяем механизм внимания только внутри каждого блока
🎹Для улучшения эффективности обучения уменьшается количество активаций, которые пересчитываются во время backward pass-а, для этого авторы реализуют обратную функцию для слоев трансформера вручную

Ну а теперь немного о ft этой прекрасной модели
Alpaca – подход от ребят из Стенфорда. Находчивые люди нагенерировали дополнительного датасета для обучения с помощью ChatGPT, что позволило обучить ее на запросы в стиле instruct. Круто? круто

gpt4all – невероятный подход!!! если в Alpaca было всего 54k затравок, то тут уже целых 437k

Ну и на закуску StableVicuna – все пытаются улучшить данные для обучения, и сделать их объем все больше. В связи с этим Stability AI предоставляют ft на их датасете, созданном на основе The Pile ,который содержит 1.5T токенов и является обширным датасетом под множество задач NLP

Ну и в за табличками апгрейда скора можно сходить поглазеть в саму статью, потому что в одно сообщение уже не помещается👏

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data.

Code and documentation to train Stanford's Alpaca models, and generate the data. - tatsu-lab/stanford_alpaca

13 views22:25

bugs ans letters

Запишу для себя хаб с интересными моделями.
Не только #huggingface

Civitai

Cute_girl_mix4 - v1.0 | Stable Diffusion LoRA | Civitai

work with Chilloutmix, can generate natural, cute, girls. Mix from chinese tiktok influencers, not any specific real person. The third example used...

14 views13:42

bugs ans letters

#cv #offtop #image Статья про применение object segmentation прямо при обучении модели и запихивание этого процесса в механизм attention
Годная, с огромным приложением.

14 views10:50

bugs ans letters

https://telegra.ph/Enhancing-ChatGPTs-Efficiency--The-Power-of-LangChain-and-Milvus-06-12
Статья про (вполне стандартные: галлюцинации, неумение держать факты, генерация правдоподобных, но битых ссылок) проблемы GPT-подобных моделей, которые пытаются применять в качестве генеративного чатбота и решение от одной из исследовательских групп

Telegraph

Enhancing ChatGPT's Efficiency – The Power of LangChain and Milvus*

In this guest post, the Zilliz team lists the challenges of using ChatGPT and explores how to enhance the intelligence and efficiency of ChatGPT to overcome the obstacles of hallucinations. While ChatGPT has gained significant popularity, with many individuals…

24 views15:37

bugs ans letters

Ладно, раз я уж пытаюсь казаться MLOps-ом-самозванцем – придётся оправдываться.
- Базовая статья про системы управления версиями для программистов, которые полезли в данные
- Настройка DVC + MLFlow (нет, не надо так делать в реальности, через год убьётесь дальше мигрировать, за год наобучать пару терабайт данных – раз плюнуть)
#mlops #лытдыбр

W&B

Intro to MLOps: Data and Model Versioning

In this article, we explore why version control in Machine Learning must go beyond source code, and cover datasets and models for traceability and reproducibility. .

18 views15:14

bugs ans letters

Мне очень нравится подход Shazam: у них, по-видимому, есть две модели, онлайновая быстрая и точная медленная. Большинство запросов обрабатывает онлайновая, но если она не распознаёт трек – он отправляется в очередь медленной, которая когда-нибудь отдаёт результат и мы получаем We tried again and found…
Притом база для обучения обеих, кажется, одинаковая, но точная имеет больше информации на входе – вероятно, там меньше жёстких фильтров и больше магии со свёртками.

10 viewsedited 21:27

bugs ans letters

Любителям Generative Fill в Photoshop: Google зарелизил модель, очень достойно справляющуюся с этой задачей.
Обёрнута в JAX, посему завести локально – некоторая возня, впрочем, вполне предсказуемая и однотипная.

GitHub

GitHub - google-research/magvit: Official JAX implementation of MAGVIT: Masked Generative Video Transformer

Official JAX implementation of MAGVIT: Masked Generative Video Transformer - google-research/magvit

13 views14:55

bugs ans letters

Forwarded from Dr. Boris

oxml.zip

61.1 MB

украл для вас презы с первых двух дней OxML

15 views12:05

bugs ans letters

http://www.incompleteideas.net/IncIdeas/BitterLesson.html
https://horace.io/brrr_intro.html
#философия
tl;dr – не один и не два исследователя расстраиваются, что численные методы зачастую лучше работают на больших данных, чем эвристики. На примере NLP-задач – большая модель с правильным токенизатором уже лет десять работает лучше правил и эвристик от лингвистов.
Впрочем, это, возможно, не так плохо: до этого тысячи лет наука дробилась и рождала всё новые направления на стыке технологий, может быть, пора чуть прибраться?

44 views22:19

bugs ans letters

Forwarded from Empires Burn

О цензуре в генеративных ИИ: интереснейший материал о том почему важно иметь неподцензурные модели и как удалять фильтры из существующих моделей

https://erichartford.com/uncensored-models

Cognitive Computations

Uncensored Models

I am publishing this because many people are asking me how I did it, so I will explain.
https://huggingface.co/ehartford/WizardLM-30B-Uncensored
https://huggingface.co/ehartford/WizardLM-13B-Uncensored
https://huggingface.co/ehartford/WizardLM-7B-Unc...

18 views11:05

bugs ans letters

https://www.udemy.com/certificate/UC-080b27f4-5d9c-4547-bf74-964cb2abaffc/
#memo

16 views18:14

bugs ans letters

Огромная (до 16В) модель T5, разработанная для задач дополнения кода и, кажется, способная потягаться с DaVinci от OpenAI.

GitHub

CodeT5/CodeT5+ at main · salesforce/CodeT5

Home of CodeT5: Open Code LLMs for Code Understanding and Generation - salesforce/CodeT5

16 views11:59

bugs ans letters

Синтез речи на 22 языках с открытым кодом и весами. Весьма достойная работа и статья.
#NLP #tts

GitHub

GitHub - snakers4/silero-models: Silero Models: pre-trained text-to-speech models made embarrassingly simple

Silero Models: pre-trained text-to-speech models made embarrassingly simple - snakers4/silero-models

14 views10:46

bugs ans letters

К вопросу о тестовых заданиях в Яндекс и производные.
https://academy.yandex.ru/dataschool/stepbystep

12 views09:26

bugs ans letters

Forwarded from SIGSEGV DREC

О компиляторах

Тут в чате написали вопрос про тему, в которой я не профессионал, так что... Отвечу, но это будет самый субъективный мяу в истории канала.

Подборка от коллег в целом и Павла Советова в частности наверняка содержит рекомендации лучше, но... Мяу...

X. Курс Ильи Дединского. Который я до конца не прошёл, но по большей части выполнил. Возможно, расскажу потом о задачах подробнее. Но... Он эксклюзивно для МФТИ, теперь ещё не для всех факультетов.

Y. DragonBook. Произвела не самое лучше впечатление и коллегами не рекомендуется (о чём я узнал поздно). На мой взгляд читать можно, так как положения в ней достаточно общие, что позволяет им не стареть. Но КПД этого действия не всегда достаточно высок.

Z. Конструирование компиляторов, Никлаус Вирт. Читана полностью, что несложно ввиду размера. Достаточно похожий на пункт X подход, в котором основы показываются на компиляторе сравнительно реалистичного языка в код для языковой виртуальной RISC-машины. Главный минус — Оберон в качестве языка изложения. Сказать, что это отвратительно — ничего не сказать. Требует переработки или хотя бы дополнения листингами на языке вроде C.

Θ. Engineering a compiler. Читаю сейчас, довольно приятная книга с современным, но в то же время достаточно общим подходом. Из минусов только объём и отсутствие перевода, но мы можем смириться с таким положением дел.

В общих чертах мой опыт в теоретических основах таков.

GitHub

GitHub - true-grue/Compiler-Development: Что читать о разработке компиляторов

Что читать о разработке компиляторов. Contribute to true-grue/Compiler-Development development by creating an account on GitHub.

12 views11:45

bugs ans letters

#offtop Документ про структуру китайского интернета (да, включая “Золотой щит”) и возможное влияние на рунет.

Google Docs

Китайский интернет

Невероятный заголовок 🙂 Органы цензуры в Китае ● Отдел пропаганды ЦК КПК Врезка: 一个机构两块牌子 / Один орган - две вывески ● Пресс-канцелярия Госсовета КНР ● Государственная канцелярия по делам интернет-информации КНР ● Министерства Как работает цензура? Врезка:…

9 views18:38