Forwarded from Кононюковщина
Это LoRA адаптер к SD-XL 1.0. Подписи к изображениям в датасете сгенерированы Kosmos-2.
Затем обучу вторую модель на 20 000+ изображениях и более подробно расскажу об создании нейросети и зачем вообще все это.
Файлы модели - https://hf.co/0x7o/RussianVibe-XL-v1.0
Демо - https://hf.co/spaces/0x7o/RussianVibe-1.0
Код - https://github.com/0x7o/RussianVibe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤115👍32🔥12🤡8🤮4🤔2😁1
Дошли руки начать переводить openorca.
Перевожу через gpt3.5, поэтому может занять продолжительное время. Первый кусок на 10к сэмплов, планирую перевести 60-80k.
он не фильтрованный, позже будет фильтрованный, поэтому там есть сэмплы без перевода и None.
ссылка
Перевожу через gpt3.5, поэтому может занять продолжительное время. Первый кусок на 10к сэмплов, планирую перевести 60-80k.
он не фильтрованный, позже будет фильтрованный, поэтому там есть сэмплы без перевода и None.
ссылка
❤27🔥6🤡3👎1🤮1
Forwarded from То шо нейросети
Недавно коллеги из соседнего чата выпустили Vikhr-7b-instruct_0.2 - хорошую, на мой взгляд, русскоязычную instruct модель.
Я сделал квантизацию этой модели, забрать можно на Hugging Face .
@toshoseti
Я сделал квантизацию этой модели, забрать можно на Hugging Face .
@toshoseti
🔥19 9❤3
Forwarded from Alexander Kukushkin
🎙 Стрим с авторами Impact of Tokenization on LLaMa Russian Adaptation https://arxiv.org/abs/2312.02598
Когда: вторник 20 февраля в 19:00 по Москве
Где: видеочат в @natural_language_processing
Запись будет
Что обсудим:
- Сохранилось ли качество на английском
- Достаточно ли обновить первый и последний слои, какие еще подходы
- Как оценивали: RSG, SbS; какие результаты/выводы
Приходите комментировать, задавать вопросы
Когда: вторник 20 февраля в 19:00 по Москве
Где: видеочат в @natural_language_processing
Запись будет
Что обсудим:
- Сохранилось ли качество на английском
- Достаточно ли обновить первый и последний слои, какие еще подходы
- Как оценивали: RSG, SbS; какие результаты/выводы
Приходите комментировать, задавать вопросы
arXiv.org
Impact of Tokenization on LLaMa Russian Adaptation
Latest instruction-tuned large language models (LLM) show great results on various tasks, however, they often face performance degradation for non-English input. There is evidence that the reason...
🔥15👍2❤1
#чтивонаночь
Минутные видео и картинки из одной модели, 1м контекст токенов, высокое качество поиска на 1М токенов контекста
Вы думаете я пересказал релизы от 16 февраля?
Нет, это ОДНА китайская моделька!!
читать
код
Минутные видео и картинки из одной модели, 1м контекст токенов, высокое качество поиска на 1М токенов контекста
Вы думаете я пересказал релизы от 16 февраля?
Нет, это ОДНА китайская моделька!!
читать
код
😁35🔥14 13👍3👏1
Love. Death. Transformers.
#чтивонаночь Минутные видео и картинки из одной модели, 1м контекст токенов, высокое качество поиска на 1М токенов контекста Вы думаете я пересказал релизы от 16 февраля? Нет, это ОДНА китайская моделька!! читать код
Teletype
Large World Model (LWM)
ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models
👍29 15❤1🤩1
Поясните пожалуйста за математику, я правильно понимаю что для 70В модели надо иметь 300+ карт(20к usd каждая, те 11м USD за все). А dgx h100 способный в mp=8 выдавать те же 500т/с стоит 300к USD и при этом может не только инферить модельки но и учить?(для groq нет backward kernels)
* Важное уточнение, у Nvidia/tpu/классик GPU объем sram порядка 100mb, но есть огромная VRAM которая обычно используется. У горка я не нашел в брошурах уточнений по объему.
Возможно у челов быстрый диск и они стримят модель с диска и назад, но звучит ебано, nvidia+deepspeed делают это плохо на любых платформах
Это прекрасный мир будущего с 7т инвестиций или что?
No overall очень крутой врыв для людей из вне, думаю в ближайшем времени мы наконец увидим нормальные цены на cloud computing.
Рекламный буклет
* Важное уточнение, у Nvidia/tpu/классик GPU объем sram порядка 100mb, но есть огромная VRAM которая обычно используется. У горка я не нашел в брошурах уточнений по объему.
Возможно у челов быстрый диск и они стримят модель с диска и назад, но звучит ебано, nvidia+deepspeed делают это плохо на любых платформах
Это прекрасный мир будущего с 7т инвестиций или что?
No overall очень крутой врыв для людей из вне, думаю в ближайшем времени мы наконец увидим нормальные цены на cloud computing.
Рекламный буклет
😁31👍6
Forwarded from Кононюковщина
Завершено обучение второй версии нейронной сети для генерации пейзажей России. На этот раз набор фотографий был почти в 6 раз больше, чем в версии 1.0!
Такое увеличение датасета существенно повлияло на качество модели:
- Улучшилась геометрия зданий. Теперь они больше похожи на привычный вид из окна)))
- Сцены стали более сложными.
- Цвета стали более разнообразными и насыщенными.
Но качество базового вывода сильно ухудшилось. Это связано с тем, что большинство фотографий из набора данных были сделаны на обычный телефон, из-за чего нейросеть генерирует слегка размытые изображения. Исправить это достаточно просто - добавьте тег
low quality к negative_prompt.Чуть позже я напишу статью на Хабре с более подробным техническим описанием того, как это работает и зачем это все вообще нужно :)
Онлайн демонстрация - https://hf.co/spaces/0x7o/RussianVibe
Файлы модели - https://hf.co/0x7o/RussianVibe-XL-v2.0
Датасет - https://hf.co/datasets/0x7o/RussianVibe-data
GitHub - https://github.com/0x7o/RussianVibe
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍8🤮6🤡3