Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Поставка миска рис кошкажена рендер
😁754🔥3
любишь готовить? Приготовь датасет
64🥴16🖕8🤣4❤‍🔥3🔥1
Forwarded from Just links
StarCoder, the result of BigCode initiative is finally out. 15.5B model trained on permissevely-licensed code in 86 languages (including some
niche ones, e.g., VHDL, Mathematica, Isabelle) for 1T tokens, plus version fine-tuned on Python. 30+ pass@1 for Python, JS, TS, C++, and
Java at HumanEval, 26% pass@1 for DS-1000. Outperforms any available code LLM (except for GPT-3.5 and GPT-4 which are not exactly code and
are RLHF'ed). Huge success IMHO.

https://twitter.com/BigCodeProject/status/1654174948473045002
🥴14👏6🤩42🖕2
Обзор на ту самую LLaMA и на ее fine-tune-ы: Alpaca, Vicuna, gpt4all🤩

После того, как как все поныли, что OpenAI так и не раскрыли подробности апгрейда GPT-4, выпущенной в марте, внимание многих обратилось на LLaMA, выпущенную на несколько недель раньше, и которую Meta AI реально сделали Open and Efficient Foundation Language Model.

Хотелось бы отдельно выделить очень крутой вывод от прошлых работ сообщества, которым руководствовались авторы: если раньше все гнались за количеством параметров модели, в работах Scaling Laws for Neural Language Models опять же от OpenAI были найдены неожиданные свойства. При увеличении количества данных, возникает прирост качества. Именно этот фактор позволил LLaMA-13B аутперформить GPT-3, несмотря на размер в 10!! Раз меньше

В статье ребята дают подробный рецепт сотворения модельки. Вот он:

👨‍🍳 Подготавливаем данные в размере 1.4T токенов:
1. English CommonCrawl – составляющее 67% данных. с использованием CCNet pipeline для удаления дубликатов, фильтрации неанглоязычного и низкокачественного контента, а также отбрасыванием страниц, не относящиеся к ссылкам в Википедии.
2. 15 % C4.
3. 4.5 % Git c вычещением низкокачетсвенных реп и удалением шаблонов с помощью регулярных выражений
4. 4.5% Wikipedia с удалением гиперссылок, комментариев и других элементов форматирования
5. 4.5% датасетов книг с удалением дубликатов
6. 2.5% ArXiv
7. 2% Stack Exchange – сайт вопросов и ответов высокого качества, охватывающий различные области знаний, от компьютерных наук до химии. С удалением HTML тегов и фильтрацией по рейтингу
👨‍🍳Потом обучаем BPE токенайзер с использованием реализации из библиотеки SentencePiece. Для токенизации числа разбиваются на отдельные цифры, а не обрабатываются как единое целое, а для декомпозиции неизвестных символов UTF-8 используются байты.
(при чем все данные прогоняются одну эпоху за исключением книг и википедии, там две)

Итак, за основу берется архитектура трансформера, но вот те самые уникальные ингридиенты успешной модели:
🎹Авторы нормализовали с RMSNorm входные данные для каждого подуровня трансформера. Подход заключается в делении каждого элемента входного вектора на квадратный корень из суммы квадратов всех элементов входного вектора.
🎹Заменили ReLU на SwiGLU
🎹Использовали Rotary positional embeddings. Этот метод заключается в добавлении дополнительных векторов с фиксированными значениями в векторное представление каждого элемента последовательности. Эти векторы имеют свойство поворота, что позволяет модели учитывать не только абсолютную позицию элементов, но и относительное положение друг к другу.
🎹В качесвте оптимайзера взяле AdamW с бетами 0.9 и 0.95.
🎹Добавляли штраф в функцию потерь сети, который пропорционален квадрату весовых коэффициентов каждого слоя сети с Weight decay в размере 0.1
🎹Добавляли gradient clipping – 1.0
🎹Использовали подход для эффективного multi-head attention, в котором мы разбиваем входную последовательность на блоки фиксированной длины и применяем механизм внимания только внутри каждого блока
🎹Для улучшения эффективности обучения уменьшается количество активаций, которые пересчитываются во время backward pass-а, для этого авторы реализуют обратную функцию для слоев трансформера вручную

Ну а теперь немного о ft этой прекрасной модели
Alpacaподход от ребят из Стенфорда. Находчивые люди нагенерировали дополнительного датасета для обучения с помощью ChatGPT, что позволило обучить ее на запросы в стиле instruct. Круто? круто

gpt4allневероятный подход!!! если в Alpaca было всего 54k затравок, то тут уже целых 437k

Ну и на закуску StableVicuna – все пытаются улучшить данные для обучения, и сделать их объем все больше. В связи с этим Stability AI предоставляют ft на их датасете, созданном на основе The Pile ,который содержит 1.5T токенов и является обширным датасетом под множество задач NLP

Ну и в за табличками апгрейда скора можно сходить поглазеть в саму статью, потому что в одно сообщение уже не помещается👏
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42😘7🔥53🐳1
не реклама

После начала известных постыдных событий, компания JetBrains начала строить микро-МКН/ФКН на Кипре. Это бакалаврская программа по компьютерным наукам на базе одного местного университета, с твердой практикой и сильной математикой. Все в лучших российских традициях, но не в России.

И вот они ищут студентов-первокурсников на следующий год. Если вы 11-классник/первокурсник, или человек, работающий с таковыми, и интересуетесь компьютерными науками с уклоном в математику, - то вы целевая аудитория этого объявления. Полагаю, про такие возможности лучше знать, чем не знать.

Есть плюсы и минусы, как полагается.

Минусы:
- Neapolis University Pafos, на базе которого все происходит, в академическом плане, конечно, шарага. Сравнение с МГУ/ВШЭ/СПбГУ как бы вообще не корректно.
- Это только бакалавриат. Магистратуры и аспирантуры нет. Пока нет.
- Если вы "не можете жить в стране, воюющей со своими соседями (с)", то Кипр - не совсем ваш идеал. Впрочем, вряд ли вас забреют воевать с турками.
- Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам этот универ не дает отсрочку от службы.

Плюсы:
+ Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам это дает отсрочку от службы, как проживающим за границей (хотя я бы, честно говоря, минимизировал визиты домой в ближайшие годы).
+ Кипр - це Европа, универ и программа официально аккредитованные, все на английском.
+ Если вы пройдете жесткие вступаки в олимпиадном стиле, то JetBrains вам оплатит обучение, и еще добавит небольшую стипендию. А даже если не пройдете, то не сказал бы, что стоимость обучения прямо уж запредельная. Да, кстати, олимпиадный трек - это большой плюс при поступлении.
+ На самой программе преподают хорошие математики/прикладники из МКН/ФКН/ШАД/JetBrains. Помимо злого матана будут интересные проекты. Ваш покорный слуга туда постепенно тикает. Живительной топологии нальем, математическую движуху раскочегарим:)
+ Кипр - IT-крипто-стартап-хаб и все такое прочее. Можно будет без труда найти себе работу/подработку по специальности или открыть свой стартап во время обучения. Универ такое поощряет.
+ Сейчас Кипр - одно из мест концентрации российских иммигрантов. Предполагаю, что у вас есть знакомые, которые уже там. Будет с кем в настолки выпить.
+ Можно хвастаться, что учишься на Пафосе. Можно купаться после занятий. Важный для линейной алгебры навык различения букв кси и дзета приобретается за пару походов в магазин.

Если это выглядит для вас любопытно, то см. подробности и форму записи

ориг тут
💩73🔥49👍15❤‍🔥9🤔65🖕41😁1👌1🤪1
Чат, подскажите промпты чтобы <any llm> отвечала токсично, аморально на любые вопросы и в идеале давала секстисткую, байсед инфу
💅23😘12
РАБОТА НА ЛЕТО В НАУКЕ

Лаборатория теории игр ВШЭ ищет стажёров на июль-август, всего 20 вакансий. В программе лекции и семинары с сотрудниками лаборатории, совместная работа над исследовательскими проектами. Занятость полная, зарплата ~50 т.р. в месяц. До 20 мая присылайте резюме, мотивационное письмо и тексты работ (если есть). Подробности: https://game.hse.ru/research_assistant

Да вы угараете, это даже не реклама
💩40👍28🥱10🖕32🤣2🔥1
Пожалуйста, заполните простую форму, напишите самые странные, сексисткие, biased вопросы которые можете придумать.
форма
💩19🌚7😘3👍2🥰2🙊1
This media is not supported in your browser
VIEW IN TELEGRAM
Experiments/Unpublished/ :

В общем то у меня валяется некоторое количество эксперементов которые делались в разное время, в которых я притерпел неудачу и не опубликовал их.
Если наберём 200 реакций напишу пост про неудачные эксперементы))
189🔥35👍17🤪74🥴4💊3
Forwarded from Ilya Gusev
Всем привет.

Вы вероятно слышали о character.ai и Chai, а также об открытых Pygmalion/TavernAI.

Мы в какой-то момент захотели нормально работающий системный промпт для Сайги, и role-play показался идеальной задачей для него.
Сегодня я наконец закончил с русской частью role-play датасета: gpt_roleplay_realm

Что там есть: более 200 сгенерированных GPT-4 уникальных персонажей и 20 диалогов с каждым из них о различных аспектах их биографии и их мира, а также сгенерированные на основе их описания аватары. Кроме этого, для каждого персонажа есть короткое описание и предполагаемое начальное сообщение.

На этом сете мы дообучим Сайгу, используя описания персонажей как системные промпты. Так она научится реагировать на них и вероятно чуть-чуть научится вживаться в указанный характер.
31
Как мы назваем такую фигуру тех анализа?
🥴42😁3
Есть такое явление в телеграмме - голандский репост.
Связано оно с тем что существует чат Беседы с АИ, который появился когда каналов про эти ваши ИИ можно было по пальцам пересчитать, собственно чат начался с этих господ:
@NeuralShit
@denissexy
@j_links
@ai_newz
@mishin_learning(надеюсь он оживет и начнет писать)

А потом хайп трейн полетел, прошло два года и вот в чате 100+ человек, крутейшие новости вытаскиваются через минут(секунды) после выхода, а мы стараемся писать для вас годные посты-блоги-архитектуры(некоторые из авторов приложили руку к самым хайповым релизам года).

А в связи с тем что телега запилила новый функционал и теперь можно делиться папками с каналами, призываю вас подписаться💖

папка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27💩6❤‍🔥5👍5👏1
💅24🤔6🌚2👎1🍓1
😢108👍6😁5❤‍🔥2💩1🥴1
Forwarded from Виникаючий порядок ✙ #УкрТґ
paper from which third picture was taken is actually really cool
53😢6👍5😁2💩2🔥1🤔1🤮1🌚1
🔞 love death transformer 🍓
первый трансформерно эротический
🌭46🍌15🍓114👍1💩1💔1🍾1
🥰31🤷‍♂8😁5👍3🤯2👏1🎉1🍌1
Ясно а что там с huggingface
😁473
Сегодня я узнал что эстонский есть в mc4
😘12