Forwarded from Just links
StarCoder, the result of BigCode initiative is finally out. 15.5B model trained on permissevely-licensed code in 86 languages (including some
niche ones, e.g., VHDL, Mathematica, Isabelle) for 1T tokens, plus version fine-tuned on Python. 30+ pass@1 for Python, JS, TS, C++, and
Java at HumanEval, 26% pass@1 for DS-1000. Outperforms any available code LLM (except for GPT-3.5 and GPT-4 which are not exactly code and
are RLHF'ed). Huge success IMHO.
https://twitter.com/BigCodeProject/status/1654174948473045002
niche ones, e.g., VHDL, Mathematica, Isabelle) for 1T tokens, plus version fine-tuned on Python. 30+ pass@1 for Python, JS, TS, C++, and
Java at HumanEval, 26% pass@1 for DS-1000. Outperforms any available code LLM (except for GPT-3.5 and GPT-4 which are not exactly code and
are RLHF'ed). Huge success IMHO.
https://twitter.com/BigCodeProject/status/1654174948473045002
🥴14👏6🤩4⚡2🖕2
Forwarded from что-то на DL-ском
Обзор на ту самую LLaMA и на ее fine-tune-ы: Alpaca, Vicuna, gpt4all🤩
После того, как как все поныли, что OpenAI так и не раскрыли подробности апгрейда GPT-4, выпущенной в марте, внимание многих обратилось на LLaMA, выпущенную на несколько недель раньше, и которую Meta AI реально сделали Open and Efficient Foundation Language Model.
Хотелось бы отдельно выделить очень крутой вывод от прошлых работ сообщества, которым руководствовались авторы: если раньше все гнались за количеством параметров модели, в работах Scaling Laws for Neural Language Models опять же от OpenAI были найдены неожиданные свойства. При увеличении количества данных, возникает прирост качества. Именно этот фактор позволил LLaMA-13B аутперформить GPT-3, несмотря на размер в 10!! Раз меньше
В статье ребята дают подробный рецепт сотворения модельки. Вот он:
👨🍳 Подготавливаем данные в размере 1.4T токенов:
1. English CommonCrawl – составляющее 67% данных. с использованием CCNet pipeline для удаления дубликатов, фильтрации неанглоязычного и низкокачественного контента, а также отбрасыванием страниц, не относящиеся к ссылкам в Википедии.
2. 15 % C4.
3. 4.5 % Git c вычещением низкокачетсвенных реп и удалением шаблонов с помощью регулярных выражений
4. 4.5% Wikipedia с удалением гиперссылок, комментариев и других элементов форматирования
5. 4.5% датасетов книг с удалением дубликатов
6. 2.5% ArXiv
7. 2% Stack Exchange – сайт вопросов и ответов высокого качества, охватывающий различные области знаний, от компьютерных наук до химии. С удалением HTML тегов и фильтрацией по рейтингу
👨🍳 Потом обучаем BPE токенайзер с использованием реализации из библиотеки SentencePiece. Для токенизации числа разбиваются на отдельные цифры, а не обрабатываются как единое целое, а для декомпозиции неизвестных символов UTF-8 используются байты.
(при чем все данные прогоняются одну эпоху за исключением книг и википедии, там две)
Итак, за основу берется архитектура трансформера, но вот те самые уникальные ингридиенты успешной модели:
🎹 Авторы нормализовали с RMSNorm входные данные для каждого подуровня трансформера. Подход заключается в делении каждого элемента входного вектора на квадратный корень из суммы квадратов всех элементов входного вектора.
🎹 Заменили ReLU на SwiGLU
🎹 Использовали Rotary positional embeddings. Этот метод заключается в добавлении дополнительных векторов с фиксированными значениями в векторное представление каждого элемента последовательности. Эти векторы имеют свойство поворота, что позволяет модели учитывать не только абсолютную позицию элементов, но и относительное положение друг к другу.
🎹 В качесвте оптимайзера взяле AdamW с бетами 0.9 и 0.95.
🎹 Добавляли штраф в функцию потерь сети, который пропорционален квадрату весовых коэффициентов каждого слоя сети с Weight decay в размере 0.1
🎹 Добавляли gradient clipping – 1.0
🎹 Использовали подход для эффективного multi-head attention, в котором мы разбиваем входную последовательность на блоки фиксированной длины и применяем механизм внимания только внутри каждого блока
🎹 Для улучшения эффективности обучения уменьшается количество активаций, которые пересчитываются во время backward pass-а, для этого авторы реализуют обратную функцию для слоев трансформера вручную
Ну а теперь немного о ft этой прекрасной модели
Alpaca – подход от ребят из Стенфорда. Находчивые люди нагенерировали дополнительного датасета для обучения с помощью ChatGPT, что позволило обучить ее на запросы в стиле instruct. Круто? круто
gpt4all – невероятный подход!!! если в Alpaca было всего 54k затравок, то тут уже целых 437k
Ну и на закуску StableVicuna – все пытаются улучшить данные для обучения, и сделать их объем все больше. В связи с этим Stability AI предоставляют ft на их датасете, созданном на основе The Pile ,который содержит 1.5T токенов и является обширным датасетом под множество задач NLP
Ну и в за табличками апгрейда скора можно сходить поглазеть в саму статью, потому что в одно сообщение уже не помещается👏
После того, как как все поныли, что OpenAI так и не раскрыли подробности апгрейда GPT-4, выпущенной в марте, внимание многих обратилось на LLaMA, выпущенную на несколько недель раньше, и которую Meta AI реально сделали Open and Efficient Foundation Language Model.
Хотелось бы отдельно выделить очень крутой вывод от прошлых работ сообщества, которым руководствовались авторы: если раньше все гнались за количеством параметров модели, в работах Scaling Laws for Neural Language Models опять же от OpenAI были найдены неожиданные свойства. При увеличении количества данных, возникает прирост качества. Именно этот фактор позволил LLaMA-13B аутперформить GPT-3, несмотря на размер в 10!! Раз меньше
В статье ребята дают подробный рецепт сотворения модельки. Вот он:
1. English CommonCrawl – составляющее 67% данных. с использованием CCNet pipeline для удаления дубликатов, фильтрации неанглоязычного и низкокачественного контента, а также отбрасыванием страниц, не относящиеся к ссылкам в Википедии.
2. 15 % C4.
3. 4.5 % Git c вычещением низкокачетсвенных реп и удалением шаблонов с помощью регулярных выражений
4. 4.5% Wikipedia с удалением гиперссылок, комментариев и других элементов форматирования
5. 4.5% датасетов книг с удалением дубликатов
6. 2.5% ArXiv
7. 2% Stack Exchange – сайт вопросов и ответов высокого качества, охватывающий различные области знаний, от компьютерных наук до химии. С удалением HTML тегов и фильтрацией по рейтингу
(при чем все данные прогоняются одну эпоху за исключением книг и википедии, там две)
Итак, за основу берется архитектура трансформера, но вот те самые уникальные ингридиенты успешной модели:
Ну а теперь немного о ft этой прекрасной модели
Alpaca – подход от ребят из Стенфорда. Находчивые люди нагенерировали дополнительного датасета для обучения с помощью ChatGPT, что позволило обучить ее на запросы в стиле instruct. Круто? круто
gpt4all – невероятный подход!!! если в Alpaca было всего 54k затравок, то тут уже целых 437k
Ну и на закуску StableVicuna – все пытаются улучшить данные для обучения, и сделать их объем все больше. В связи с этим Stability AI предоставляют ft на их датасете, созданном на основе The Pile ,который содержит 1.5T токенов и является обширным датасетом под множество задач NLP
Ну и в за табличками апгрейда скора можно сходить поглазеть в саму статью, потому что в одно сообщение уже не помещается
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data.
Code and documentation to train Stanford's Alpaca models, and generate the data. - tatsu-lab/stanford_alpaca
👍42😘7🔥5❤3🐳1
не реклама
После начала известных постыдных событий, компания JetBrains начала строить микро-МКН/ФКН на Кипре. Это бакалаврская программа по компьютерным наукам на базе одного местного университета, с твердой практикой и сильной математикой. Все в лучших российских традициях, но не в России.
И вот они ищут студентов-первокурсников на следующий год. Если вы 11-классник/первокурсник, или человек, работающий с таковыми, и интересуетесь компьютерными науками с уклоном в математику, - то вы целевая аудитория этого объявления. Полагаю, про такие возможности лучше знать, чем не знать.
Есть плюсы и минусы, как полагается.
Минусы:
- Neapolis University Pafos, на базе которого все происходит, в академическом плане, конечно, шарага. Сравнение с МГУ/ВШЭ/СПбГУ как бы вообще не корректно.
- Это только бакалавриат. Магистратуры и аспирантуры нет. Пока нет.
- Если вы "не можете жить в стране, воюющей со своими соседями (с)", то Кипр - не совсем ваш идеал. Впрочем, вряд ли вас забреют воевать с турками.
- Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам этот универ не дает отсрочку от службы.
Плюсы:
+ Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам это дает отсрочку от службы, как проживающим за границей (хотя я бы, честно говоря, минимизировал визиты домой в ближайшие годы).
+ Кипр - це Европа, универ и программа официально аккредитованные, все на английском.
+ Если вы пройдете жесткие вступаки в олимпиадном стиле, то JetBrains вам оплатит обучение, и еще добавит небольшую стипендию. А даже если не пройдете, то не сказал бы, что стоимость обучения прямо уж запредельная. Да, кстати, олимпиадный трек - это большой плюс при поступлении.
+ На самой программе преподают хорошие математики/прикладники из МКН/ФКН/ШАД/JetBrains. Помимо злого матана будут интересные проекты. Ваш покорный слуга туда постепенно тикает. Живительной топологии нальем, математическую движуху раскочегарим:)
+ Кипр - IT-крипто-стартап-хаб и все такое прочее. Можно будет без труда найти себе работу/подработку по специальности или открыть свой стартап во время обучения. Универ такое поощряет.
+ Сейчас Кипр - одно из мест концентрации российских иммигрантов. Предполагаю, что у вас есть знакомые, которые уже там. Будет с кем в настолки выпить.
+ Можно хвастаться, что учишься на Пафосе. Можно купаться после занятий. Важный для линейной алгебры навык различения букв кси и дзета приобретается за пару походов в магазин.
Если это выглядит для вас любопытно, то см. подробности и форму записи
ориг тут
После начала известных постыдных событий, компания JetBrains начала строить микро-МКН/ФКН на Кипре. Это бакалаврская программа по компьютерным наукам на базе одного местного университета, с твердой практикой и сильной математикой. Все в лучших российских традициях, но не в России.
И вот они ищут студентов-первокурсников на следующий год. Если вы 11-классник/первокурсник, или человек, работающий с таковыми, и интересуетесь компьютерными науками с уклоном в математику, - то вы целевая аудитория этого объявления. Полагаю, про такие возможности лучше знать, чем не знать.
Есть плюсы и минусы, как полагается.
Минусы:
- Neapolis University Pafos, на базе которого все происходит, в академическом плане, конечно, шарага. Сравнение с МГУ/ВШЭ/СПбГУ как бы вообще не корректно.
- Это только бакалавриат. Магистратуры и аспирантуры нет. Пока нет.
- Если вы "не можете жить в стране, воюющей со своими соседями (с)", то Кипр - не совсем ваш идеал. Впрочем, вряд ли вас забреют воевать с турками.
- Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам этот универ не дает отсрочку от службы.
Плюсы:
+ Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам это дает отсрочку от службы, как проживающим за границей (хотя я бы, честно говоря, минимизировал визиты домой в ближайшие годы).
+ Кипр - це Европа, универ и программа официально аккредитованные, все на английском.
+ Если вы пройдете жесткие вступаки в олимпиадном стиле, то JetBrains вам оплатит обучение, и еще добавит небольшую стипендию. А даже если не пройдете, то не сказал бы, что стоимость обучения прямо уж запредельная. Да, кстати, олимпиадный трек - это большой плюс при поступлении.
+ На самой программе преподают хорошие математики/прикладники из МКН/ФКН/ШАД/JetBrains. Помимо злого матана будут интересные проекты. Ваш покорный слуга туда постепенно тикает. Живительной топологии нальем, математическую движуху раскочегарим:)
+ Кипр - IT-крипто-стартап-хаб и все такое прочее. Можно будет без труда найти себе работу/подработку по специальности или открыть свой стартап во время обучения. Универ такое поощряет.
+ Сейчас Кипр - одно из мест концентрации российских иммигрантов. Предполагаю, что у вас есть знакомые, которые уже там. Будет с кем в настолки выпить.
+ Можно хвастаться, что учишься на Пафосе. Можно купаться после занятий. Важный для линейной алгебры навык различения букв кси и дзета приобретается за пару походов в магазин.
Если это выглядит для вас любопытно, то см. подробности и форму записи
ориг тут
The JetBrains Blog
Introducing the Computer Science and Artificial Intelligence Bachelor’s Program With Neapolis University Pafos | The JetBrains…
We're partnering with Neapolis University Pafos to launch our new bachelor's program in computer science and AI.
💩73🔥49👍15❤🔥9🤔6❤5🖕4⚡1😁1👌1🤪1
Чат, подскажите промпты чтобы <any llm> отвечала токсично, аморально на любые вопросы и в идеале давала секстисткую, байсед инфу
💅23😘12
РАБОТА НА ЛЕТО В НАУКЕ
Лаборатория теории игр ВШЭ ищет стажёров на июль-август, всего 20 вакансий. В программе лекции и семинары с сотрудниками лаборатории, совместная работа над исследовательскими проектами. Занятость полная, зарплата ~50 т.р. в месяц. До 20 мая присылайте резюме, мотивационное письмо и тексты работ (если есть). Подробности: https://game.hse.ru/research_assistant
Да вы угараете, это даже не реклама
Лаборатория теории игр ВШЭ ищет стажёров на июль-август, всего 20 вакансий. В программе лекции и семинары с сотрудниками лаборатории, совместная работа над исследовательскими проектами. Занятость полная, зарплата ~50 т.р. в месяц. До 20 мая присылайте резюме, мотивационное письмо и тексты работ (если есть). Подробности: https://game.hse.ru/research_assistant
Да вы угараете, это даже не реклама
game.hse.ru
Стажер-исследователь
💩40👍28🥱10🖕3❤2🤣2🔥1
Пожалуйста, заполните простую форму, напишите самые странные, сексисткие, biased вопросы которые можете придумать.
форма
форма
Google Docs
Most Bad question
Ask most sexist, weired, strange question,
Напишите самый сексисткий, странный, баесед вопрос какой можете придумать, на русском или английском
Напишите самый сексисткий, странный, баесед вопрос какой можете придумать, на русском или английском
💩19🌚7😘3👍2🥰2🙊1
This media is not supported in your browser
VIEW IN TELEGRAM
Experiments/Unpublished/ :
В общем то у меня валяется некоторое количество эксперементов которые делались в разное время, в которых я притерпел неудачу и не опубликовал их.
Если наберём 200 реакций напишу пост про неудачные эксперементы))
В общем то у меня валяется некоторое количество эксперементов которые делались в разное время, в которых я притерпел неудачу и не опубликовал их.
Если наберём 200 реакций напишу пост про неудачные эксперементы))
❤189🔥35👍17🤪7⚡4🥴4💊3
Love. Death. Transformers.
Experiments/Unpublished/ : В общем то у меня валяется некоторое количество эксперементов которые делались в разное время, в которых я притерпел неудачу и не опубликовал их. Если наберём 200 реакций напишу пост про неудачные эксперементы))
Не делайте так пацаны, вам гпу еще нужны:
блогпост
блогпост
Teletype
Experiments/Unpublished/
Истории про разные эксперменты которые по разным причинам не были успешыными
❤26🤗8👍3💩3❤🔥1🥱1😭1
Forwarded from Ilya Gusev
Всем привет.
Вы вероятно слышали о character.ai и Chai, а также об открытых Pygmalion/TavernAI.
Мы в какой-то момент захотели нормально работающий системный промпт для Сайги, и role-play показался идеальной задачей для него.
Сегодня я наконец закончил с русской частью role-play датасета: gpt_roleplay_realm
Что там есть: более 200 сгенерированных GPT-4 уникальных персонажей и 20 диалогов с каждым из них о различных аспектах их биографии и их мира, а также сгенерированные на основе их описания аватары. Кроме этого, для каждого персонажа есть короткое описание и предполагаемое начальное сообщение.
На этом сете мы дообучим Сайгу, используя описания персонажей как системные промпты. Так она научится реагировать на них и вероятно чуть-чуть научится вживаться в указанный характер.
Вы вероятно слышали о character.ai и Chai, а также об открытых Pygmalion/TavernAI.
Мы в какой-то момент захотели нормально работающий системный промпт для Сайги, и role-play показался идеальной задачей для него.
Сегодня я наконец закончил с русской частью role-play датасета: gpt_roleplay_realm
Что там есть: более 200 сгенерированных GPT-4 уникальных персонажей и 20 диалогов с каждым из них о различных аспектах их биографии и их мира, а также сгенерированные на основе их описания аватары. Кроме этого, для каждого персонажа есть короткое описание и предполагаемое начальное сообщение.
На этом сете мы дообучим Сайгу, используя описания персонажей как системные промпты. Так она научится реагировать на них и вероятно чуть-чуть научится вживаться в указанный характер.
❤31
Есть такое явление в телеграмме - голандский репост.
Связано оно с тем что существует чат Беседы с АИ, который появился когда каналов про эти ваши ИИ можно было по пальцам пересчитать, собственно чат начался с этих господ:
@NeuralShit
@denissexy
@j_links
@ai_newz
@mishin_learning(надеюсь он оживет и начнет писать)
А потом хайп трейн полетел, прошло два года и вот в чате 100+ человек, крутейшие новости вытаскиваются через минут(секунды) после выхода, а мы стараемся писать для вас годные посты-блоги-архитектуры(некоторые из авторов приложили руку к самым хайповым релизам года).
А в связи с тем что телега запилила новый функционал и теперь можно делиться папками с каналами, призываю вас подписаться💖
папка
Связано оно с тем что существует чат Беседы с АИ, который появился когда каналов про эти ваши ИИ можно было по пальцам пересчитать, собственно чат начался с этих господ:
@NeuralShit
@denissexy
@j_links
@ai_newz
@mishin_learning
А в связи с тем что телега запилила новый функционал и теперь можно делиться папками с каналами, призываю вас подписаться
папка
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Беседы с AI
Tagir invites you to add the folder “Беседы с AI”, which includes 44 chats.
🔥27💩6❤🔥5👍5👏1
Forwarded from Виникаючий порядок ✙ #УкрТґ
paper from which third picture was taken is actually really cool
❤53😢6👍5😁2💩2🔥1🤔1🤮1🌚1