Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Недавно коллеги из соседнего чата выпустили Vikhr-7b-instruct_0.2 - хорошую, на мой взгляд, русскоязычную instruct модель.

Я сделал квантизацию этой модели, забрать можно на Hugging Face .

@toshoseti
🔥1993
Красивый скрин
43🤮9😁21
Forwarded from Alexander Kukushkin
🎙 Стрим с авторами Impact of Tokenization on LLaMa Russian Adaptation https://arxiv.org/abs/2312.02598

Когда: вторник 20 февраля в 19:00 по Москве
Где: видеочат в @natural_language_processing
Запись будет

Что обсудим:
- Сохранилось ли качество на английском
- Достаточно ли обновить первый и последний слои, какие еще подходы
- Как оценивали: RSG, SbS; какие результаты/выводы

Приходите комментировать, задавать вопросы
🔥15👍21
#чтивонаночь

Минутные видео и картинки из одной модели, 1м контекст токенов, высокое качество поиска на 1М токенов контекста
Вы думаете я пересказал релизы от 16 февраля?
Нет, это ОДНА китайская моделька!!

читать
код
😁35🔥1413👍3👏1
Гадаем что за архитектура
4423🤡3🤔1
Мужской депрессии не существует.
Любой мужчина когда у него что то плохо работает: stack more layers


Вот кому и зачем нужен 97gb text encoder? Чтобы что?
😢36😁14124👍3🔥1
Поясните пожалуйста за математику, я правильно понимаю что для 70В модели надо иметь 300+ карт(20к usd каждая, те 11м USD за все). А dgx h100 способный в mp=8 выдавать те же 500т/с стоит 300к USD и при этом может не только инферить модельки но и учить?(для groq нет backward kernels)


* Важное уточнение, у Nvidia/tpu/классик GPU объем sram порядка 100mb, но есть огромная VRAM которая обычно используется. У горка я не нашел в брошурах уточнений по объему.

Возможно у челов быстрый диск и они стримят модель с диска и назад, но звучит ебано, nvidia+deepspeed делают это плохо на любых платформах

Это прекрасный мир будущего с 7т инвестиций или что?


No overall очень крутой врыв для людей из вне, думаю в ближайшем времени мы наконец увидим нормальные цены на cloud computing.

Рекламный буклет
😁31👍6
⚡️ RussianVibe XL 2.0

Завершено обучение второй версии нейронной сети для генерации пейзажей России. На этот раз набор фотографий был почти в 6 раз больше, чем в версии 1.0!

Такое увеличение датасета существенно повлияло на качество модели:
- Улучшилась геометрия зданий. Теперь они больше похожи на привычный вид из окна)))
- Сцены стали более сложными.
- Цвета стали более разнообразными и насыщенными.

Но качество базового вывода сильно ухудшилось. Это связано с тем, что большинство фотографий из набора данных были сделаны на обычный телефон, из-за чего нейросеть генерирует слегка размытые изображения. Исправить это достаточно просто - добавьте тег low quality к negative_prompt.

Чуть позже я напишу статью на Хабре с более подробным техническим описанием того, как это работает и зачем это все вообще нужно :)

Онлайн демонстрация - https://hf.co/spaces/0x7o/RussianVibe
Файлы модели - https://hf.co/0x7o/RussianVibe-XL-v2.0
Датасет - https://hf.co/datasets/0x7o/RussianVibe-data
GitHub - https://github.com/0x7o/RussianVibe

@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍8🤮6🤡3
Вышла Gemma - llama от google, огромный токенайзер на 260к токенов, 6T(!) токенов в претрене, хорошая токенизация русского и средний mt перфоманс(на русском на вид средне).
по метрикам что то около mistral 7b для страшей модели(7b) и phi2 для 2b модели
ссылка
👍171
256к токенайзер это довольно много, мало языков которые модель не видела, вероятно базовый перфоманс будет неплохой.
но то на чем тренили вызывает вопрос, почему то авторы акцентируют внимание на том что они вырезали child abuse content. Я вообще впервые такое вижу
😁501814👍1🤔1