Неожиданно релизнулась llava1.6, теперь картинки до 1344*336, 30В+ модели и перфоманс близкий к gpt4v.
blogpost
Демка llava.hliu.cc
blogpost
Демка llava.hliu.cc
🔥39👍1🤔1🤡1 1
Forwarded from Непрерывное математическое образование
https://ium.mccme.ru/s24/s24.html
на следующей неделе начинается весенний семестр в НМУ; подробности — по ссылке
в т.ч. для 1 курса читают топологию — К.В.Логинов, алгебру — А.И.Ильин, анализ — И.В.Вьюгин
для 2 курса теорию вероятностей — С.В.Шапошников, топологию — А.Д.Рябичев и Ф.Е.Вылегжанин, дифф. геометрию — Г.И.Шарыгин
на следующей неделе начинается весенний семестр в НМУ; подробности — по ссылке
в т.ч. для 1 курса читают топологию — К.В.Логинов, алгебру — А.И.Ильин, анализ — И.В.Вьюгин
для 2 курса теорию вероятностей — С.В.Шапошников, топологию — А.Д.Рябичев и Ф.Е.Вылегжанин, дифф. геометрию — Г.И.Шарыгин
🔥20❤4 2
MobileDiffusion
Очень странный крутой релиз от гугл:
- latent (скоро два года будет, в Гугле наконец перестали обучать каскады)
- unet с трансформер блоками и последовательными свертками вместо обычных блоков
- swish вместо glu
- всего 150м датасет
- 512 разрешение картинки
- ufogen single step generation, лень читать, мб завтра
- fine-tune soft max into relu🤩
Папир
Очень странный крутой релиз от гугл:
- latent (скоро два года будет, в Гугле наконец перестали обучать каскады)
- unet с трансформер блоками и последовательными свертками вместо обычных блоков
- swish вместо glu
- всего 150м датасет
- 512 разрешение картинки
- ufogen single step generation, лень читать, мб завтра
- fine-tune soft max into relu
Папир
Please open Telegram to view this post
VIEW IN TELEGRAM
❤29 9👍1🤔1
Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг
Хабр
GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Введение Салют! Уже ни для кого не секрет, что GigaChat активно развивается, и обновление моделей не заставляет себя долго ждать. Рады сообщить вам, что новые версии GigaChat Lite и GigaChat Pro...
🤡64😁23👍11
Forwarded from ️LazySquare️Official
Media is too big
VIEW IN TELEGRAM
THE A.I.//И.И.
A little up-to-date agenda wouldn't hurt. All coincidences with historical characters are, as usual, accidental. The 7 deadly sins are also included///Немного актуальной повестки не помешает пожалуй. Все совпадения с историческими персонажами, как обычно, случайны. 7 смертных грехов также прилагаются
A little up-to-date agenda wouldn't hurt. All coincidences with historical characters are, as usual, accidental. The 7 deadly sins are also included///Немного актуальной повестки не помешает пожалуй. Все совпадения с историческими персонажами, как обычно, случайны. 7 смертных грехов также прилагаются
👍35🤮14🔥2❤1🤔1 1
Love. Death. Transformers.
Чат, дискас. С одной стороны я считаю что взлом системы это хорошо, с другой стороны это нарушение правил и тиндера и ToU
ладно оно еще более емкое на мемы чем я думал
😁85👏6😢3❤2👍1
Forwarded from Старший Авгур
Компиляция нескольких постов про то, что читать про ML/NLP/LLM:
Обучающие материалы🗒
- https://habr.com/ru/articles/774844/
- https://lena-voita.github.io/nlp_course.html
- https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
- https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
- https://huggingface.co/docs/transformers/perf_train_gpu_one
Блоги🍿
- https://huggingface.co/blog/
- https://blog.eleuther.ai/
- https://lilianweng.github.io/
- https://oobabooga.github.io/blog/
- https://kipp.ly/
- https://mlu-explain.github.io/
- https://yaofu.notion.site/Yao-Fu-s-Blog-b536c3d6912149a395931f1e871370db
Прикладные курсы👴
- https://github.com/yandexdataschool/nlp_course
- https://github.com/DanAnastasyev/DeepNLP-Course
(Я давно не проходил вообще никакие курсы, если есть что-то новое и хорошее - пишите!)
Каналы🚫
- https://news.1rj.ru/str/gonzo_ML
- https://news.1rj.ru/str/izolenta_mebiusa
- https://news.1rj.ru/str/tech_priestess
- https://news.1rj.ru/str/rybolos_channel
- https://news.1rj.ru/str/j_links
- https://news.1rj.ru/str/lovedeathtransformers
- https://news.1rj.ru/str/seeallochnaya
- https://news.1rj.ru/str/doomgrad
- https://news.1rj.ru/str/nadlskom
- https://news.1rj.ru/str/dlinnlp
(Забыл добавить вас? Напишите в личку, список составлялся по тем каналам, что я сам читаю)
Чаты😁
- https://news.1rj.ru/str/betterdatacommunity
- https://news.1rj.ru/str/natural_language_processing
- https://news.1rj.ru/str/LLM_RNN_RWKV
- https://news.1rj.ru/str/ldt_chat
Основные статьи😘
- Word2Vec: Mikolov et al., Efficient Estimation of Word Representations in Vector Space https://arxiv.org/pdf/1301.3781.pdf
- FastText: Bojanowski et al., Enriching Word Vectors with Subword Information https://arxiv.org/pdf/1607.04606.pdf
- Attention: Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/abs/1409.0473
- Transformers: Vaswani et al., Attention Is All You Need https://arxiv.org/abs/1706.03762
- BERT: Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.0480
- GPT-2, Radford et al., Language Models are Unsupervised Multitask Learners https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- GPT-3, Brown et al, Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165
- LaBSE, Feng et al., Language-agnostic BERT Sentence Embedding https://arxiv.org/abs/2007.01852
- CLIP, Radford et al., Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020
- RoPE, Su et al., RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864
- LoRA, Hu et al., LoRA: Low-Rank Adaptation of Large Language Models https://arxiv.org/abs/2106.09685
- InstructGPT, Ouyang et al., Training language models to follow instructions with human feedback https://arxiv.org/abs/2203.02155
- Scaling laws, Hoffmann et al., Training Compute-Optimal Large Language Models https://arxiv.org/abs/2203.15556
- FlashAttention, Dao et al., FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness https://arxiv.org/abs/2205.14135
- NLLB, NLLB team, No Language Left Behind: Scaling Human-Centered Machine Translation https://arxiv.org/abs/2207.04672
- Q8, Dettmers et al., LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale https://arxiv.org/abs/2208.07339
- Self-instruct, Wang et al., Self-Instruct: Aligning Language Models with Self-Generated Instructions https://arxiv.org/abs/2212.10560
- Alpaca, Taori et al., Alpaca: A Strong, Replicable Instruction-Following Model https://crfm.stanford.edu/2023/03/13/alpaca.html
- LLaMA, Touvron, et al., LLaMA: Open and Efficient Foundation Language Models https://arxiv.org/abs/2302.13971
Обучающие материалы
- https://habr.com/ru/articles/774844/
- https://lena-voita.github.io/nlp_course.html
- https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
- https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
- https://huggingface.co/docs/transformers/perf_train_gpu_one
Блоги
- https://huggingface.co/blog/
- https://blog.eleuther.ai/
- https://lilianweng.github.io/
- https://oobabooga.github.io/blog/
- https://kipp.ly/
- https://mlu-explain.github.io/
- https://yaofu.notion.site/Yao-Fu-s-Blog-b536c3d6912149a395931f1e871370db
Прикладные курсы
- https://github.com/yandexdataschool/nlp_course
- https://github.com/DanAnastasyev/DeepNLP-Course
(Я давно не проходил вообще никакие курсы, если есть что-то новое и хорошее - пишите!)
Каналы
- https://news.1rj.ru/str/gonzo_ML
- https://news.1rj.ru/str/izolenta_mebiusa
- https://news.1rj.ru/str/tech_priestess
- https://news.1rj.ru/str/rybolos_channel
- https://news.1rj.ru/str/j_links
- https://news.1rj.ru/str/lovedeathtransformers
- https://news.1rj.ru/str/seeallochnaya
- https://news.1rj.ru/str/doomgrad
- https://news.1rj.ru/str/nadlskom
- https://news.1rj.ru/str/dlinnlp
(Забыл добавить вас? Напишите в личку, список составлялся по тем каналам, что я сам читаю)
Чаты
- https://news.1rj.ru/str/betterdatacommunity
- https://news.1rj.ru/str/natural_language_processing
- https://news.1rj.ru/str/LLM_RNN_RWKV
- https://news.1rj.ru/str/ldt_chat
Основные статьи
- Word2Vec: Mikolov et al., Efficient Estimation of Word Representations in Vector Space https://arxiv.org/pdf/1301.3781.pdf
- FastText: Bojanowski et al., Enriching Word Vectors with Subword Information https://arxiv.org/pdf/1607.04606.pdf
- Attention: Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/abs/1409.0473
- Transformers: Vaswani et al., Attention Is All You Need https://arxiv.org/abs/1706.03762
- BERT: Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.0480
- GPT-2, Radford et al., Language Models are Unsupervised Multitask Learners https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- GPT-3, Brown et al, Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165
- LaBSE, Feng et al., Language-agnostic BERT Sentence Embedding https://arxiv.org/abs/2007.01852
- CLIP, Radford et al., Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020
- RoPE, Su et al., RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864
- LoRA, Hu et al., LoRA: Low-Rank Adaptation of Large Language Models https://arxiv.org/abs/2106.09685
- InstructGPT, Ouyang et al., Training language models to follow instructions with human feedback https://arxiv.org/abs/2203.02155
- Scaling laws, Hoffmann et al., Training Compute-Optimal Large Language Models https://arxiv.org/abs/2203.15556
- FlashAttention, Dao et al., FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness https://arxiv.org/abs/2205.14135
- NLLB, NLLB team, No Language Left Behind: Scaling Human-Centered Machine Translation https://arxiv.org/abs/2207.04672
- Q8, Dettmers et al., LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale https://arxiv.org/abs/2208.07339
- Self-instruct, Wang et al., Self-Instruct: Aligning Language Models with Self-Generated Instructions https://arxiv.org/abs/2212.10560
- Alpaca, Taori et al., Alpaca: A Strong, Replicable Instruction-Following Model https://crfm.stanford.edu/2023/03/13/alpaca.html
- LLaMA, Touvron, et al., LLaMA: Open and Efficient Foundation Language Models https://arxiv.org/abs/2302.13971
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍12🔥5👎1🤡1
Forwarded from Старший Авгур
Про локальные языковые модели для относительно неподготовленной аудитории:
Видео: https://youtu.be/KXBRGkZTX1U?si=CyVKSUavsSnZfffR&t=241
Презентация: http://tinyurl.com/gusevlocal
Подкаст: https://mlpodcast.mave.digital/ep-55
Про древнюю генерацию стихов:
Видео: https://www.youtube.com/watch?v=wTN-qKPu4c0
Статья на Хабре: https://habr.com/ru/articles/334046/
Про Сайгу:
Видео: https://www.youtube.com/watch?v=YqKCk8_dNpQ
Презентация: http://tinyurl.com/gusevsaiga
Статья на Хабре: https://habr.com/ru/articles/759386/
Про не-трансформерные модели:
Видео: https://www.youtube.com/watch?v=C65JbhTi-O4
Презентация: https://tinyurl.com/gusevlrnn
Видео: https://youtu.be/KXBRGkZTX1U?si=CyVKSUavsSnZfffR&t=241
Презентация: http://tinyurl.com/gusevlocal
Подкаст: https://mlpodcast.mave.digital/ep-55
Про древнюю генерацию стихов:
Видео: https://www.youtube.com/watch?v=wTN-qKPu4c0
Статья на Хабре: https://habr.com/ru/articles/334046/
Про Сайгу:
Видео: https://www.youtube.com/watch?v=YqKCk8_dNpQ
Презентация: http://tinyurl.com/gusevsaiga
Статья на Хабре: https://habr.com/ru/articles/759386/
Про не-трансформерные модели:
Видео: https://www.youtube.com/watch?v=C65JbhTi-O4
Презентация: https://tinyurl.com/gusevlrnn
👍8❤1👎1
Мы развели илью гусева на создание канала https://news.1rj.ru/str/senior_augur!!!!
Telegram
Старший Авгур
Сохраненки и шитпост про ML от @YallenGusev
Чат канала: @augur_chat
Чат канала: @augur_chat
🔥44👍9🤡6❤5👎4 4
Лучшие вайфу модели - со смешанной генетикой. Что такое models merging?
Интересно к слову что будет с запретными темами и цензурой при мерже.
teletype
Интересно к слову что будет с запретными темами и цензурой при мерже.
teletype
🔥31 6😁5❤3👍2 1 1
Forwarded from эйай ньюз
Llama2d: 2D Positional Embeddings for Webpage Structural Understanding
Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.
Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делает в GPT-V.
Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.
Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.
@ai_newz
Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.
Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делает в GPT-V.
Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.
Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.
@ai_newz
🔥32👍1🤔1