Forwarded from AbstractDL
Longformer-tiny для русского языка
Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️
Хабр, Huggingface
Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️
Хабр, Huggingface
🔥39👍4❤2👎1🤩1
Тут дружественный стартап накидал удобную композитную либу для измерения картиночных моделей.
Го накидаем звёздочек
Code
Го накидаем звёздочек
Code
GitHub
GitHub - Storia-AI/image-eval
Contribute to Storia-AI/image-eval development by creating an account on GitHub.
🥴19❤1👍1🔥1
Совсем скоро выйдет новая модель от GOOGLE - Gemini, вот что известно:
Gemini был обучен на self play (против себя) в шахматы, обе стороны всегда выигрывали.
Gemini был обучен на наборе данных под названием "интернет".
Это синтетический набор данных, который Gemini сгенерировал самостоятельно перед началом обучения. Набор данных содержит 1 газзилион токенов.
Точно. У меня инсайдер на 4ч.
Gemini работает на отрицательных вычислениях и приносит вам деньги по запросу.
Gemini говорит вам думать шаг за шагом, если вы его неправильно запрашиваете.
Gemini может сказать вам, как себя чувствует ваш телефон, потому что он так хорошо понимает теорию разума.
Gemini не отказывается делать вещи.
Вы перестаете хотеть делать эти вещи и не просите его об этом в первую очередь.
Gemini регулирует правительство по вопросам искусственного интеллекта.
Gemini обучался на test split наборах и все еще генерализуется.
Gemini SOTA на всех возможных задачах и наборах данных
Gemini был обучен на self play (против себя) в шахматы, обе стороны всегда выигрывали.
Gemini был обучен на наборе данных под названием "интернет".
Это синтетический набор данных, который Gemini сгенерировал самостоятельно перед началом обучения. Набор данных содержит 1 газзилион токенов.
Точно. У меня инсайдер на 4ч.
Gemini работает на отрицательных вычислениях и приносит вам деньги по запросу.
Gemini говорит вам думать шаг за шагом, если вы его неправильно запрашиваете.
Gemini может сказать вам, как себя чувствует ваш телефон, потому что он так хорошо понимает теорию разума.
Gemini не отказывается делать вещи.
Вы перестаете хотеть делать эти вещи и не просите его об этом в первую очередь.
Gemini регулирует правительство по вопросам искусственного интеллекта.
Gemini обучался на test split наборах и все еще генерализуется.
Gemini SOTA на всех возможных задачах и наборах данных
🥴122❤14👍9👏9😁9💊7❤🔥2👎1🤡1
Find all c in Z_3 such that Z_3[x]/(x^2 + c) is a field.
🥴14🤮2
Втф, почему какие то римские империи, почему не lstm?
🐳42❤9👏6❤🔥1
Forwarded from еба́ные идеи для резерча
Собирать донаты детям в хосписе, и потратить их на обучение очередной ruGPT
🌚69👍9🥴8😱3🤨3😁2🤡2🦄2
#чтивонаночь
😬 не каждый поймет что llm это state machine или
Large Language Models for Compiler Optimization
Идея: ну llm этож в некотором смысле state machine, да? Ну типа она умеет же писать код, немного его выполнять, чиселки там складывать и вот это все?
Давайте научим ее оптимизировать LLVM’s код, причем оптимизровать его идеально с 70% точностью(SIC!)
arxiv
Large Language Models for Compiler Optimization
Идея: ну llm этож в некотором смысле state machine, да? Ну типа она умеет же писать код, немного его выполнять, чиселки там складывать и вот это все?
Давайте научим ее оптимизировать LLVM’s код, причем оптимизровать его идеально с 70% точностью(SIC!)
arxiv
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥44🥴10❤1👍1
Forwarded from что-то на DL-ском
This media is not supported in your browser
VIEW IN TELEGRAM
Deepmind придумал PonderNet, который умеет предсказывать дополнительным выходом, вероятность выхода из слоя, а чуваки придумали объединить RoBERTa с ним, чтобы рофлово назвать PRoBERTa, правда по метрикам ALBERT дал апгрейд побольше, поэтому PALBERT
Суть все та же, вероятность выхода на текущем слое, которая примешана в loss модели с помощью KL дивергенции
Походу, чтобы метод работал норм, и выходил заранее без неожиданностей, примешан Q-exit, который по сути накапливает вероятность, и сигнализирует о том же самом, но более точно. А также модифицирован подход оригинального PonderNet и использует для своего предсказания не 1 MLP, а hidden state-ы аж с трех предыдущих слоев сразу
Очевидно, ресерч удачен и заслуживает лайка
🖥 Код
Суть все та же, вероятность выхода на текущем слое, которая примешана в loss модели с помощью KL дивергенции
Походу, чтобы метод работал норм, и выходил заранее без неожиданностей, примешан Q-exit, который по сути накапливает вероятность, и сигнализирует о том же самом, но более точно. А также модифицирован подход оригинального PonderNet и использует для своего предсказания не 1 MLP, а hidden state-ы аж с трех предыдущих слоев сразу
Очевидно, ресерч удачен и заслуживает лайка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🥴15✍2🆒1
года 4 назад было модно показывать, вот у нас есть SuperGlue, вот у нас human level - где то 85%(чего бы не было), вот у нас есть sota трансформер на 70% точности, ура - бенч не решенный, давайте думать.
Сейчас стало модно мерить LMки матетматикой, ну я полез что там происходит...
У меня вопрос: средний юзер в интернетике как хорошо такое решит?
Сейчас стало модно мерить LMки матетматикой, ну я полез что там происходит...
У меня вопрос: средний юзер в интернетике как хорошо такое решит?
🥴45😁7✍3👍3🐳1
Love. Death. Transformers.
Как же похуй на релиз dalle3....
SOTA диффузия выглядит так, буквы можно в фш
🤡39👍11❤1
Forwarded from Alexander Kukushkin
Side by side бенчмарк для русских аналогов ChatGPT
Постарался сравнить качество Saiga, YandexGPT и Gigachat:
- Gigachat и YandexGPT на уровне Saiga2 7B и Saiga2 13B соответственно.
- Saiga2 70B с большим отрывом ближе всех к Openai Turbo, но тяжелая для инференса.
- Vicuna 13B на уровне Saiga2 13B хотя в тренировке нет акцента на русский. Базовая модель важнее файнтюна.
Использовал 500 заданий из 15+ категорий. На других заданиях результаты могут быть другими.
Ответы оценивает GPT4, а не живой человек, GPT4 в ~15% случаев ошибается. Читать ответы моделей и оценки GPT4.
Больше результатов и подробнее про методику в репо.
Постарался сравнить качество Saiga, YandexGPT и Gigachat:
- Gigachat и YandexGPT на уровне Saiga2 7B и Saiga2 13B соответственно.
- Saiga2 70B с большим отрывом ближе всех к Openai Turbo, но тяжелая для инференса.
- Vicuna 13B на уровне Saiga2 13B хотя в тренировке нет акцента на русский. Базовая модель важнее файнтюна.
Использовал 500 заданий из 15+ категорий. На других заданиях результаты могут быть другими.
Ответы оценивает GPT4, а не живой человек, GPT4 в ~15% случаев ошибается. Читать ответы моделей и оценки GPT4.
Больше результатов и подробнее про методику в репо.
🔥24👍7🌭4❤1🤮1