NEW BOT Телеграм, страница

Недавно коллеги из соседнего чата выпустили Vikhr-7b-instruct_0.2 - хорошую, на мой взгляд, русскоязычную instruct модель.

Я сделал квантизацию этой модели, забрать можно на Hugging Face .

@toshoseti

🔥199❤3

5.94K views16:26

Love. Death. Transformers.

Красивый скрин

43🤮9😁2❤1

5.7K views16:30

Love. Death. Transformers.

Forwarded from Alexander Kukushkin

🎙 Стрим с авторами Impact of Tokenization on LLaMa Russian Adaptation https://arxiv.org/abs/2312.02598

Когда: вторник 20 февраля в 19:00 по Москве
Где: видеочат в @natural_language_processing
Запись будет

Что обсудим:
- Сохранилось ли качество на английском
- Достаточно ли обновить первый и последний слои, какие еще подходы
- Как оценивали: RSG, SbS; какие результаты/выводы

Приходите комментировать, задавать вопросы

arXiv.org

Impact of Tokenization on LLaMa Russian Adaptation

Latest instruction-tuned large language models (LLM) show great results on various tasks, however, they often face performance degradation for non-English input. There is evidence that the reason...

🔥15👍2❤1

6.02K views20:23

Love. Death. Transformers.

#чтивонаночь

Минутные видео и картинки из одной модели, 1м контекст токенов, высокое качество поиска на 1М токенов контекста
Вы думаете я пересказал релизы от 16 февраля?
Нет, это ОДНА китайская моделька!!

читать
код

😁35🔥1413👍3👏1

5.93K viewsedited 06:51

Love. Death. Transformers.

#чтивонаночь Минутные видео и картинки из одной модели, 1м контекст токенов, высокое качество поиска на 1М токенов контекста Вы думаете я пересказал релизы от 16 февраля? Нет, это ОДНА китайская моделька!! читать код

https://teletype.in/@alexwortega/c07ry5sAGbP

Teletype

Large World Model (LWM)

ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models

👍2915❤1🤩1

5.54K views07:42

Love. Death. Transformers.

https://huggingface.co/papers/2402.10644

Ставим лайки ту зе мун

huggingface.co

Paper page - Linear Transformers with Learnable Kernel Functions are Better
In-Context Models

Join the discussion on this paper page

622❤1👍1

5.55K views17:12

Love. Death. Transformers.

Гадаем что за архитектура

4423🤡3🤔1

5.52K views17:36

Love. Death. Transformers.

Гадаем что за архитектура

176👍1

5.55K views17:39

Love. Death. Transformers.

Мужской депрессии не существует.
Любой мужчина когда у него что то плохо работает: stack more layers

Вот кому и зачем нужен 97gb text encoder? Чтобы что?

😢36😁1412❤4👍3🔥1

5.83K viewsedited 08:42

Love. Death. Transformers.

Поясните пожалуйста за математику, я правильно понимаю что для 70В модели надо иметь 300+ карт(20к usd каждая, те 11м USD за все). А dgx h100 способный в mp=8 выдавать те же 500т/с стоит 300к USD и при этом может не только инферить модельки но и учить?(для groq нет backward kernels)

* Важное уточнение, у Nvidia/tpu/классик GPU объем sram порядка 100mb, но есть огромная VRAM которая обычно используется. У горка я не нашел в брошурах уточнений по объему.

Возможно у челов быстрый диск и они стримят модель с диска и назад, но звучит ебано, nvidia+deepspeed делают это плохо на любых платформах

Это прекрасный мир будущего с 7т инвестиций или что?

No overall очень крутой врыв для людей из вне, думаю в ближайшем времени мы наконец увидим нормальные цены на cloud computing.

Рекламный буклет

😁31👍6

6.17K viewsedited 13:46

Love. Death. Transformers.

Forwarded from Кононюковщина

⚡️ RussianVibe XL 2.0

Завершено обучение второй версии нейронной сети для генерации пейзажей России. На этот раз набор фотографий был почти в 6 раз больше, чем в версии 1.0!

Такое увеличение датасета существенно повлияло на качество модели:
- Улучшилась геометрия зданий. Теперь они больше похожи на привычный вид из окна)))
- Сцены стали более сложными.
- Цвета стали более разнообразными и насыщенными.

Но качество базового вывода сильно ухудшилось. Это связано с тем, что большинство фотографий из набора данных были сделаны на обычный телефон, из-за чего нейросеть генерирует слегка размытые изображения. Исправить это достаточно просто - добавьте тег low quality к negative_prompt.

Чуть позже я напишу статью на Хабре с более подробным техническим описанием того, как это работает и зачем это все вообще нужно :)

Онлайн демонстрация - https://hf.co/spaces/0x7o/RussianVibe
Файлы модели - https://hf.co/0x7o/RussianVibe-XL-v2.0
Датасет - https://hf.co/datasets/0x7o/RussianVibe-data
GitHub - https://github.com/0x7o/RussianVibe

@hikonon

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥84👍8🤮6🤡3

4.99K views13:20

Love. Death. Transformers.

Вышла Gemma - llama от google, огромный токенайзер на 260к токенов, 6T(!) токенов в претрене, хорошая токенизация русского и средний mt перфоманс(на русском на вид средне).
по метрикам что то около mistral 7b для страшей модели(7b) и phi2 для 2b модели
ссылка

huggingface.co

Gemma release - a google Collection

Groups the Gemma models released by the Google team.

👍17❤1

5.22K viewsedited 14:14

Love. Death. Transformers.

256к токенайзер это довольно много, мало языков которые модель не видела, вероятно базовый перфоманс будет неплохой.
но то на чем тренили вызывает вопрос, почему то авторы акцентируют внимание на том что они вырезали child abuse content. Я вообще впервые такое вижу

😁501814👍1🤔1

5.63K viewsedited 14:15

About

Blog

Apps

Platform