Forwarded from black_samorez
Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.
Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.
Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.
Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через
Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.
Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.
Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.
Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через
pip install aqlm. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True), и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.
🔥5
Еще один плейлист про все эти LLM
https://www.youtube.com/playlist?list=PLK0DyPM1d8B2V3Yz65koC8KVc3TQ7iP2g
https://www.youtube.com/playlist?list=PLK0DyPM1d8B2V3Yz65koC8KVc3TQ7iP2g
Forwarded from КПД
QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks
[Статья][Код]
Только-только мы с коллегами выкатили AQLM , как конкуренты нанесли ответный удар)
LLM-ки становятся все круче, новые модели, датасеты с инструкциями выходят почти на ежедневной основе. Однако, самые сильные из опенсорсных моделей (Llama-2-70b с дохреналлионом файтьюнов, Микстраль и загадочное нечто под названием miqu) не влезают в колаб или условную RTX 3090/4090. Квантизация в 4 бита (до недавних пор бывшая Парето-оптимальная) недостаточна, чтобы позволить уместиться такой здоровенной модели на щупленькую видеокарту, а предыдущие методы квантизации в 2-3 бита ломают заметно модель и проще взять меньшую модель в большей точности. Но свежие работы открывают дорогу к инференсу оверсайзд моделей на хорошей геймерской GPU.
Метод
Quip# (решетка, потому что E8 решетка квантования) стоит на трех 🐳 :
1️⃣ Incoherence processing
2️⃣ E8 решеточная векторная квантизация
3️⃣ Дообучение неквантованных параметров
1) Как известно, веса больших языковых моделей обладают выбросами (outliers), плохо поддающимися квантованию, и в ряде прошлых работ было предложено их тем или иным образом изолировать. Здесь же, следуя своей прошлой работе QuIP авторы домножают веса на случайное ортогональное преобразование, благодаря которому величины и чувствительности параметров растекаются равномерно по матрице (incoherence processing). Отличие от прошлой работы в том, что вместо произведения кронекеровских матриц для параметризации ортогонального преобразования используется случайное Адамарово преобразование, более эффективное вычислительно и не уступающее по качеству.
2) Поэлементная квантизация не совсем оптимальна в том смысле, что оптимизирует ошибку в пределах некоторого гиперкуба (если рассматривать группы весов). А в действительности группы весов распределены в некотором шаре. А объем шара того же диаметра, что и сторона куба, в большой размерности много меньше описанного вокруг него куба. И при том же количестве кластеров (квантованных значений), можно добиться значительно меньшей ошибки. Для используемой в работе квантизации группами по 8 весов оптимальная решетка - E8, как было показано сравнительно недавно.
3) Чтобы уменьшить ошибку квантизации, можно потюнить модель воспроизводить выходы слоев исходной модели. Как и в AQLM авторы сначала дообучают неквантованные модели на уровне отдельных блоков трансформера. А на второй стадии обучают уже все неквантованные параметры на минизацию разницы между сжатой моделью и исходной fp16.
Для больших битностей (3-4 бита) используется Residual Vector Quantization, когда ошибка квантизации еще раз квантуется и конечный вес представляется в виде суммы квантованного веса и квантованной ошибки.
[Статья][Код]
Только-только мы с коллегами выкатили AQLM , как конкуренты нанесли ответный удар)
LLM-ки становятся все круче, новые модели, датасеты с инструкциями выходят почти на ежедневной основе. Однако, самые сильные из опенсорсных моделей (Llama-2-70b с дохреналлионом файтьюнов, Микстраль и загадочное нечто под названием miqu) не влезают в колаб или условную RTX 3090/4090. Квантизация в 4 бита (до недавних пор бывшая Парето-оптимальная) недостаточна, чтобы позволить уместиться такой здоровенной модели на щупленькую видеокарту, а предыдущие методы квантизации в 2-3 бита ломают заметно модель и проще взять меньшую модель в большей точности. Но свежие работы открывают дорогу к инференсу оверсайзд моделей на хорошей геймерской GPU.
Метод
Quip# (решетка, потому что E8 решетка квантования) стоит на трех 🐳 :
1️⃣ Incoherence processing
2️⃣ E8 решеточная векторная квантизация
3️⃣ Дообучение неквантованных параметров
1) Как известно, веса больших языковых моделей обладают выбросами (outliers), плохо поддающимися квантованию, и в ряде прошлых работ было предложено их тем или иным образом изолировать. Здесь же, следуя своей прошлой работе QuIP авторы домножают веса на случайное ортогональное преобразование, благодаря которому величины и чувствительности параметров растекаются равномерно по матрице (incoherence processing). Отличие от прошлой работы в том, что вместо произведения кронекеровских матриц для параметризации ортогонального преобразования используется случайное Адамарово преобразование, более эффективное вычислительно и не уступающее по качеству.
2) Поэлементная квантизация не совсем оптимальна в том смысле, что оптимизирует ошибку в пределах некоторого гиперкуба (если рассматривать группы весов). А в действительности группы весов распределены в некотором шаре. А объем шара того же диаметра, что и сторона куба, в большой размерности много меньше описанного вокруг него куба. И при том же количестве кластеров (квантованных значений), можно добиться значительно меньшей ошибки. Для используемой в работе квантизации группами по 8 весов оптимальная решетка - E8, как было показано сравнительно недавно.
3) Чтобы уменьшить ошибку квантизации, можно потюнить модель воспроизводить выходы слоев исходной модели. Как и в AQLM авторы сначала дообучают неквантованные модели на уровне отдельных блоков трансформера. А на второй стадии обучают уже все неквантованные параметры на минизацию разницы между сжатой моделью и исходной fp16.
Для больших битностей (3-4 бита) используется Residual Vector Quantization, когда ошибка квантизации еще раз квантуется и конечный вес представляется в виде суммы квантованного веса и квантованной ошибки.
Forwarded from Записки MLEшника (Egor)
Forwarded from Сиолошная
Двухчасовая лекция от ex-Tesla ex-OpenAI инженера-менеджера Andrey Karpathy про токенизацию и все её тонкости 🙂
https://www.youtube.com/watch?v=zduSFxRajkE
Репозиторий с пошаговым и хорошо прокомментированным кодом как сопроводительный материал: https://github.com/karpathy/minbpe
Если вы хотели увидеть, как GPT "читает" ваш текст, какие единицы в нём выделяет — вам сюда.
https://www.youtube.com/watch?v=zduSFxRajkE
Репозиторий с пошаговым и хорошо прокомментированным кодом как сопроводительный материал: https://github.com/karpathy/minbpe
Если вы хотели увидеть, как GPT "читает" ваш текст, какие единицы в нём выделяет — вам сюда.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Let's build the GPT Tokenizer
The Tokenizer is a necessary and pervasive component of Large Language Models (LLMs), where it translates between strings and tokens (text chunks). Tokenizers are a completely separate stage of the LLM pipeline: they have their own training sets, training…
Forwarded from AI[ex]Time (Александр Голубев)
Опять статья по эффективному тюнингу, уже формируется целая коллекция из LoRA, VeRA, и на этот раз DoRA: Weight-Decomposed Low-Rank Adaptation. Совсем недавняя статья, где получились уже интересные результаты: по экспам неплохо обгоняет лору при том же числе обучаемых параметров. На самом деле лора и дора очень похожи, за исключением одной маленькой технической детали.
Вспомним как работает LoRA — У нас есть замороженная матрица весов W, мы учим две новые A и B и получаем out = (W + AB) * in. После тюнинга можно все это смерджить, чтобы получить одну матрицу W’ = W + AB.
В DoRA предложили немного изменить процедуру обучения и отдельно выделить вектор, задающий величину (любой вектор можно представить как vector = m * unit_vector, то есть величину, умноженную на единичный вектор, отвечающий за направление). То же самое можно сделать и для матрицы: W = ||W||_c * W/||W||_c = m * V, где m — вектор с нормами матрицы по столбцам. В таком случае мы будем использовать ровно так же LoRA для V, но дополнительно обучаем и вектор m. Размер вектора m можно сказать о малое от остальных параметров, поэтому практически не увеличивает требования по памяти. Возможно картинка на первый взгляд не очень понятная, но если немного посмотреть, то достаточно хорошо видно, в чем заключается суть.
Выглядит кажется логично: после обычной лоры у нас может в ту или другую сторону поехать норма матрицы, а здесь мы дополнительно контролируем этот фактор. Прикрепил также сравнения для LLaMA-7/13B.
Вспомним как работает LoRA — У нас есть замороженная матрица весов W, мы учим две новые A и B и получаем out = (W + AB) * in. После тюнинга можно все это смерджить, чтобы получить одну матрицу W’ = W + AB.
В DoRA предложили немного изменить процедуру обучения и отдельно выделить вектор, задающий величину (любой вектор можно представить как vector = m * unit_vector, то есть величину, умноженную на единичный вектор, отвечающий за направление). То же самое можно сделать и для матрицы: W = ||W||_c * W/||W||_c = m * V, где m — вектор с нормами матрицы по столбцам. В таком случае мы будем использовать ровно так же LoRA для V, но дополнительно обучаем и вектор m. Размер вектора m можно сказать о малое от остальных параметров, поэтому практически не увеличивает требования по памяти. Возможно картинка на первый взгляд не очень понятная, но если немного посмотреть, то достаточно хорошо видно, в чем заключается суть.
Выглядит кажется логично: после обычной лоры у нас может в ту или другую сторону поехать норма матрицы, а здесь мы дополнительно контролируем этот фактор. Прикрепил также сравнения для LLaMA-7/13B.
👍1
Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT
https://habr.com/ru/articles/794566/
https://habr.com/ru/articles/794566/
Хабр
Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT
Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле...
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Помните, я рассказывал про эмбеддинги предложений SONAR?
Те самые, для которых есть текстовый энкодер (предложение=>вектор) и декодер (вектор=>предложение) для 200 языков, и ещё несколько десятков энкодеров речи, переводящих устные предложения в то же семантическое пространство, что и письменные.
На основе которых работает моделька BLASER 2.0, неплохо коррелирующая с человеческими оценками (XSTS) качества перевода текста и речи.
На основе которых мои коллеги недавно запилили самый мультиязычный классификатор токсичности, MuTox.
Ну и, конечно, на основе которых мои коллеги собрали датасет SeamlessAlign: собранные по интернетам и заматченные по смыслу пары предложений речь-текст (100К часов) и речь-речь (9К часов) на разных языках. Этот датасет использовался для обучения моделей Seamless, примерно лучших из того, что сегодня существует для перевода речи.
Так вот. SONAR сейчас понимает текст на 200 языках (те же самые, что NLLB), но энкодеры речи пока есть только для 57 языков.
Зачем эти энкодеры вообще нужны? В голову приходит несколько примеров применений:
1) Классификация и перевод устных предложений напрямую, минуя этап автоматической транскрипции. Для классификации можно использовать модели поверх эмбеддингов предложений (типа того же MuTox), а для перевода - имеющийся текстовый декодер.
2) Автоматический матчинг устных предложений с их переводами или транскрипцией - то, как мы собирали SeamlessAlign и несколько подобных датасетов.
Ну и поскольку польза от этого вроде как есть, то сообщество просит дать им рецепт обучения энкодера речи для ещё одного языка. А раз просит - я попробовал сделать. С минимальными данными (используя только CommonVoice) и вычислительными ресурсами (два дня обучения на Colab Pro). На примере грузинского языка, потому что для него ещё нет энкодера речи, но есть, на каких данных оценить его качество и с чем сравнить.
Рецепт - в этом блокноте. Качество мне не очень нравится, так что я его ещё буду дорабатывать. Но фидбек хочется получить уже сейчас, так что если вам есть, что сказать по поводу этого блокнота - не стесняйтесь писать в комменты)
Те самые, для которых есть текстовый энкодер (предложение=>вектор) и декодер (вектор=>предложение) для 200 языков, и ещё несколько десятков энкодеров речи, переводящих устные предложения в то же семантическое пространство, что и письменные.
На основе которых работает моделька BLASER 2.0, неплохо коррелирующая с человеческими оценками (XSTS) качества перевода текста и речи.
На основе которых мои коллеги недавно запилили самый мультиязычный классификатор токсичности, MuTox.
Ну и, конечно, на основе которых мои коллеги собрали датасет SeamlessAlign: собранные по интернетам и заматченные по смыслу пары предложений речь-текст (100К часов) и речь-речь (9К часов) на разных языках. Этот датасет использовался для обучения моделей Seamless, примерно лучших из того, что сегодня существует для перевода речи.
Так вот. SONAR сейчас понимает текст на 200 языках (те же самые, что NLLB), но энкодеры речи пока есть только для 57 языков.
Зачем эти энкодеры вообще нужны? В голову приходит несколько примеров применений:
1) Классификация и перевод устных предложений напрямую, минуя этап автоматической транскрипции. Для классификации можно использовать модели поверх эмбеддингов предложений (типа того же MuTox), а для перевода - имеющийся текстовый декодер.
2) Автоматический матчинг устных предложений с их переводами или транскрипцией - то, как мы собирали SeamlessAlign и несколько подобных датасетов.
Ну и поскольку польза от этого вроде как есть, то сообщество просит дать им рецепт обучения энкодера речи для ещё одного языка. А раз просит - я попробовал сделать. С минимальными данными (используя только CommonVoice) и вычислительными ресурсами (два дня обучения на Colab Pro). На примере грузинского языка, потому что для него ещё нет энкодера речи, но есть, на каких данных оценить его качество и с чем сравнить.
Рецепт - в этом блокноте. Качество мне не очень нравится, так что я его ещё буду дорабатывать. Но фидбек хочется получить уже сейчас, так что если вам есть, что сказать по поводу этого блокнота - не стесняйтесь писать в комменты)
Сравнение различных схем квантования для LLM
https://habr.com/ru/articles/797443/
https://habr.com/ru/articles/797443/
Хабр
Сравнение различных схем квантования для LLM
Что такое квантование? Квантование — это метод сжатия модели, который преобразует веса и активации в LLM путем уменьшения битности вычислений, т. е. из типа данных, который может содержать больше...
Forwarded from Ирина Кикина
🔥СТАРТ КУРСА🔥
MLOps и production в DS исследованиях 3.0
18 марта 2024г при поддержке Open Data Science стартует запуск, открытого онлайн курса MLOps и production в DS исследованиях 3.0!
Мы учли ваши пожелания и предложения, внесли доработки, дополнили контент, разнообразили домашние задания, а так же, пригласили новых спикеров!
В рамках курса вы:
🤓Познакомитесь с концепцией воспроизводимых исследований;
🤓Научитесь автоматизировать процесс проведения стандартизированных исследований;
🤓Узнаете о методах организации командной работы над ML-проектами;
🤓Получите практические рекомендации по работе с кодом в DS исследованиях;
🤓Изучите полезные инструменты для автоматизации и обеспечения воспроизводимости исследований.
Совсем скоро откроется регистрация, а пока, предлагаем ознакомиться с программой курса!
Следить за новостями, а так же, задавать любые вопросы, связанные с курсом, можно в нашем telegram чате для участников курса!
MLOps и production в DS исследованиях 3.0
18 марта 2024г при поддержке Open Data Science стартует запуск, открытого онлайн курса MLOps и production в DS исследованиях 3.0!
Мы учли ваши пожелания и предложения, внесли доработки, дополнили контент, разнообразили домашние задания, а так же, пригласили новых спикеров!
В рамках курса вы:
🤓Познакомитесь с концепцией воспроизводимых исследований;
🤓Научитесь автоматизировать процесс проведения стандартизированных исследований;
🤓Узнаете о методах организации командной работы над ML-проектами;
🤓Получите практические рекомендации по работе с кодом в DS исследованиях;
🤓Изучите полезные инструменты для автоматизации и обеспечения воспроизводимости исследований.
Совсем скоро откроется регистрация, а пока, предлагаем ознакомиться с программой курса!
Следить за новостями, а так же, задавать любые вопросы, связанные с курсом, можно в нашем telegram чате для участников курса!
Telegram
MLOps курс 3.0
3 поток курса MLOps и production в DS исследованиях 3.0
Данная группа предназначена для обсуждения вопросов и новостей по MLOps курсу 3.0
По вопросам размещения рекламы, новостей, вакансий-обращаться к @Irinka_Bekker
Данная группа предназначена для обсуждения вопросов и новостей по MLOps курсу 3.0
По вопросам размещения рекламы, новостей, вакансий-обращаться к @Irinka_Bekker
Forwarded from Dealer.AI
"Квантизируй меня полностью" или мануал по квантизации от Yandex.
Тут ML-разработчик Яндекса выкатил подробнейшую статью на Хабре о том, что такое квантизация и как она работает.
Отличный гайд, который достоин закрепа во вкладках.
В статье представленны различные методы для уменьшения точности после зпт, как на инференсе, так и для обучения. Затронуты вопросы выбросов в тензорах, а также послойный/весовой/блочный и др. подходы. Во времена LLM не обошли и вопросы связанные с особенностями их квантизации.
Еще отмечу, везде, где возможно указаны ссылки на референс статьи и код методов. Тем самым, обзор позволяет потрогать указанные методы руками и выбрать подходящий именно под свои задачи. В общем, читаем, пробуем, учимся.
Тут ML-разработчик Яндекса выкатил подробнейшую статью на Хабре о том, что такое квантизация и как она работает.
Отличный гайд, который достоин закрепа во вкладках.
В статье представленны различные методы для уменьшения точности после зпт, как на инференсе, так и для обучения. Затронуты вопросы выбросов в тензорах, а также послойный/весовой/блочный и др. подходы. Во времена LLM не обошли и вопросы связанные с особенностями их квантизации.
Еще отмечу, везде, где возможно указаны ссылки на референс статьи и код методов. Тем самым, обзор позволяет потрогать указанные методы руками и выбрать подходящий именно под свои задачи. В общем, читаем, пробуем, учимся.
Хабр
Quantization Deep Dive, или Введение в современную квантизацию
Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая...
Forwarded from Сиолошная
Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat
Можно загрузить видео или целую папку с файлами для анализа
Го тестировать
Можно загрузить видео или целую папку с файлами для анализа
Го тестировать
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Про проект Panlex.org, собравший перевод слов для тысяч языков, я узнал почти два года назад.
Но воспользоваться этими данными для машинного обучения никак не доходили руки, просто потому, что лень было скачивать и расковыривать дамп их базы данных.
Сейчас я таки расковырял его, разрезал на отдельные языки, и выложил на HF: https://huggingface.co/datasets/cointegrated/panlex-meanings.
Если вам внезапно понадобились словари для кучи малоресурсных языков в единообразном формате, может быть полезно.
Помимо этого ресурса, порекомендую ещё, пользуясь случаем, недавний датасет Gatitos с похожей мотивацией; там 4000 слов/фраз/коротких предложений, переведенные на 173 языка.
Но воспользоваться этими данными для машинного обучения никак не доходили руки, просто потому, что лень было скачивать и расковыривать дамп их базы данных.
Сейчас я таки расковырял его, разрезал на отдельные языки, и выложил на HF: https://huggingface.co/datasets/cointegrated/panlex-meanings.
Если вам внезапно понадобились словари для кучи малоресурсных языков в единообразном формате, может быть полезно.
Помимо этого ресурса, порекомендую ещё, пользуясь случаем, недавний датасет Gatitos с похожей мотивацией; там 4000 слов/фраз/коротких предложений, переведенные на 173 языка.
👍1
Forwarded from Pavel Zloi
Всем привет! Рад поделиться с вами свежей публикацией "Как подготовить Linux к запуску и обучению нейросетей? (+ Docker)", которая только что появилась в моём блоге на Дзен!
В этой публикации мы окунёмся в увлекательный мир настройки серверов под управлением операционных систем на базе ядра Linux для работы с нейросетями, в частности разберём как установить драйверы Nvidia, как установить CUDA, как настроить Docker и как использовать карточки в Docker-контейнерах.
Желаю приятного прочтения!
#zen #linux #nvidia #docker #ai #python
В этой публикации мы окунёмся в увлекательный мир настройки серверов под управлением операционных систем на базе ядра Linux для работы с нейросетями, в частности разберём как установить драйверы Nvidia, как установить CUDA, как настроить Docker и как использовать карточки в Docker-контейнерах.
Желаю приятного прочтения!
#zen #linux #nvidia #docker #ai #python
Дзен | Статьи
Как подготовить Linux к запуску и обучению нейросетей? (+ Docker)
Статья автора «Pavel Zloi» в Дзене ✍: Приветствую всех ценителей мира нейросетей!
Лучшие бесплатные курсы и ресурсы для изучения машинного обучения
https://habr.com/ru/articles/804251/
https://habr.com/ru/articles/804251/
Как устроено пространство, в котором думают языковые модели?
https://habr.com/ru/companies/airi/articles/804515/
https://habr.com/ru/companies/airi/articles/804515/
Хабр
Как устроено пространство, в котором думают языковые модели?
Изображение сгенерировано Dalle-3 Хабр, привет! Меня зовут Антон Разжигаев, я аспирант Сколтеха и участник научной группы Fusion Brain в институте AIRI. С момента выхода первой статьи «Attention is...
Lightning Thunder
Make PyTorch models up to 40% faster!
https://github.com/Lightning-AI/lightning-thunder
Make PyTorch models up to 40% faster!
https://github.com/Lightning-AI/lightning-thunder
GitHub
GitHub - Lightning-AI/lightning-thunder: PyTorch compiler that accelerates training and inference. Get built-in optimizations for…
PyTorch compiler that accelerates training and inference. Get built-in optimizations for performance, memory, parallelism, and easily write your own. - Lightning-AI/lightning-thunder
В Стэнфорде новый запуск курса по трансформерам в зуме
https://twitter.com/stevenyfeng/status/1775972154938659184
https://twitter.com/stevenyfeng/status/1775972154938659184
OmniFusion 1.1: мультимодальность теперь и на русском
https://habr.com/ru/companies/airi/articles/806277/
https://habr.com/ru/companies/airi/articles/806277/
Хабр
OmniFusion 1.1: мультимодальность теперь и на русском
В прошлом году на конференции AIJ 2023 мы представили первую версию OmniFusion — мультимодальной языковой модели (LLM), способной поддерживать визуальный диалог и отвечать на вопросы по картинкам....
Forwarded from Старший Авгур
https://huggingface.co/IlyaGusev/saiga_llama3_8b
Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.