Forwarded from Machinelearning
🖌 Edit Everything: A Text-Guided Generative System for Images Editing
A text-guided generative system without any finetuning (zero-shot).
Edit Everything позволяет пользователям редактировать изображения с помощью простых текстовых инструкций.
🖥 Github: https://github.com/defengxie/edit_everything
⏩ Paper: https://arxiv.org/abs/2304.14006v1
🚀 Dataset: https://paperswithcode.com/dataset/wukong
ai_machinelearning_big_data
A text-guided generative system without any finetuning (zero-shot).
Edit Everything позволяет пользователям редактировать изображения с помощью простых текстовых инструкций.
🚀 Dataset: https://paperswithcode.com/dataset/wukong
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥2
Forwarded from Сиолошная
Промпты, промпты, промптики...
Промпты для современных GPT-моделек это вообще всё. Они позволяют переключить модель в некоторое "состояние", из которого вероятность генерации правильных/удовлетворяющих вас/клевых ответов выше. Вот наткнулся на офигенный промпт, и хочу поделиться с вами.
Сегодня у нас в гостях Mr. Ranedeer — AI Tutor на основе GPT-4. Он обеспечивает персонализированный опыт обучения для пользователей с различными потребностями и интересами. Имеет 6 разных настроек, включая глубину обучения, тип и тон повествования.
Согласно промпту, сначала производится настройка, затем составляется план обучения, а дальше идет двусторонний диалог учителя и ученика (вас).
Пока учитель ограничен лишь своими знаниями, но ясно, что с подключением плагина на веб-поиск это станет бомбой.
Репозиторий - тут
Детальная документация по промпту (лол, дожили!) - здесь
Сам промпт - вот, прям выделяете всё, копируете и вставляете в ChatGPT сразу (не превышает заданную длину контекста для модели, всё ок)
Киллер-фича: можно написать
Те, у кого оплачена подписка ChatGPT Plus - обязательно попробуйте, и поделитесь впечатлениями и скринами в комментариях. Предложу такие темы, как:
— conditions in English language
— asteroid mining and space exporation
— how can we integrate using analog devices
— how to start business with generative AI
— LLM prompting intro
Гспд вы только представьте как изменится образование для наших детей...(никак, хехе, спасибо бюрократии🤬 )
Промпты для современных GPT-моделек это вообще всё. Они позволяют переключить модель в некоторое "состояние", из которого вероятность генерации правильных/удовлетворяющих вас/клевых ответов выше. Вот наткнулся на офигенный промпт, и хочу поделиться с вами.
Сегодня у нас в гостях Mr. Ranedeer — AI Tutor на основе GPT-4. Он обеспечивает персонализированный опыт обучения для пользователей с различными потребностями и интересами. Имеет 6 разных настроек, включая глубину обучения, тип и тон повествования.
Согласно промпту, сначала производится настройка, затем составляется план обучения, а дальше идет двусторонний диалог учителя и ученика (вас).
Пока учитель ограничен лишь своими знаниями, но ясно, что с подключением плагина на веб-поиск это станет бомбой.
Репозиторий - тут
Детальная документация по промпту (лол, дожили!) - здесь
Сам промпт - вот, прям выделяете всё, копируете и вставляете в ChatGPT сразу (не превышает заданную длину контекста для модели, всё ок)
Киллер-фича: можно написать
/test, чтобы попросить модель потестировать ваши знания по уже пройденному материалуТе, у кого оплачена подписка ChatGPT Plus - обязательно попробуйте, и поделитесь впечатлениями и скринами в комментариях. Предложу такие темы, как:
— conditions in English language
— asteroid mining and space exporation
— how can we integrate using analog devices
— how to start business with generative AI
— LLM prompting intro
Гспд вы только представьте как изменится образование для наших детей...(никак, хехе, спасибо бюрократии
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Forwarded from gonzo-обзоры ML статей
И ещё из новостей:
In this repo, we release a permissively licensed open source reproduction of Meta AI's LLaMA large language model. In this release, we're releasing a public preview of the 7B OpenLLaMA model that has been trained with 200 billion tokens. We provide PyTorch and Jax weights of pre-trained OpenLLaMA models, as well as evaluation results and comparison against the original LLaMA models. Stay tuned for our updates.
https://github.com/openlm-research/open_llama
In this repo, we release a permissively licensed open source reproduction of Meta AI's LLaMA large language model. In this release, we're releasing a public preview of the 7B OpenLLaMA model that has been trained with 200 billion tokens. We provide PyTorch and Jax weights of pre-trained OpenLLaMA models, as well as evaluation results and comparison against the original LLaMA models. Stay tuned for our updates.
https://github.com/openlm-research/open_llama
GitHub
GitHub - openlm-research/open_llama: OpenLLaMA, a permissively licensed open source reproduction of Meta AI’s LLaMA 7B trained…
OpenLLaMA, a permissively licensed open source reproduction of Meta AI’s LLaMA 7B trained on the RedPajama dataset - openlm-research/open_llama
Forwarded from Data Science by ODS.ai 🦜
Phoenix: Democratizing ChatGPT across Languages
Introducing "Phoenix," a revolutionary multilingual ChatGPT that's breaking barriers in AI language models! By excelling in languages with limited resources and demonstrating competitive performance in English and Chinese models, Phoenix is set to transform accessibility for people around the world.
The methodology behind Phoenix combines instructions and conversations data to create a more well-rounded language model, leveraging the multi-lingual nature of the data to understand and interact with diverse languages.
Paper link: https://arxiv.org/abs/2304.10453
Code link: https://github.com/FreedomIntelligence/LLMZoo
A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-phoenix-llm
#deeplearning #nlp #Phoenix #ChatGPT #multilingual #languagemodel
Introducing "Phoenix," a revolutionary multilingual ChatGPT that's breaking barriers in AI language models! By excelling in languages with limited resources and demonstrating competitive performance in English and Chinese models, Phoenix is set to transform accessibility for people around the world.
The methodology behind Phoenix combines instructions and conversations data to create a more well-rounded language model, leveraging the multi-lingual nature of the data to understand and interact with diverse languages.
Paper link: https://arxiv.org/abs/2304.10453
Code link: https://github.com/FreedomIntelligence/LLMZoo
A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-phoenix-llm
#deeplearning #nlp #Phoenix #ChatGPT #multilingual #languagemodel
Forwarded from Machinelearning
Awesome list for ChatGPT — an artificial intelligence chatbot
Awesome список для ChatGPT.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
Introducing MPT-7B, the latest entry in our MosaicML Foundation Series. MPT-7B is a transformer trained from scratch on 1T tokens of text and code. It is open source, available for commercial use, and matches the quality of LLaMA-7B. MPT-7B was trained on the MosaicML platform in 9.5 days with zero human intervention at a cost of ~$200k. Starting today, you can train, finetune, and deploy your own private MPT models, either starting from one of our checkpoints or training from scratch. For inspiration, we are also releasing three finetuned models in addition to the base MPT-7B: MPT-7B-Instruct, MPT-7B-Chat, and MPT-7B-StoryWriter-65k+, the last of which uses a context length of 65k tokens!
https://www.mosaicml.com/blog/mpt-7b
Introducing MPT-7B, the latest entry in our MosaicML Foundation Series. MPT-7B is a transformer trained from scratch on 1T tokens of text and code. It is open source, available for commercial use, and matches the quality of LLaMA-7B. MPT-7B was trained on the MosaicML platform in 9.5 days with zero human intervention at a cost of ~$200k. Starting today, you can train, finetune, and deploy your own private MPT models, either starting from one of our checkpoints or training from scratch. For inspiration, we are also releasing three finetuned models in addition to the base MPT-7B: MPT-7B-Instruct, MPT-7B-Chat, and MPT-7B-StoryWriter-65k+, the last of which uses a context length of 65k tokens!
https://www.mosaicml.com/blog/mpt-7b
👍4❤2
Forwarded from gonzo-обзоры ML статей
Looks interesting!
Introducing ImageBind by Meta AI: the first AI model capable of binding information from six different modalities at once.
Humans absorb information from the world by combining data from different senses, like sight and sound. ImageBind brings machines one step closer to this ability with a model that’s capable of learning a single embedding for text, image/video, audio, depth, thermal and IMU inputs. We hope this work opens the floodgates for researchers as they work to develop new, holistic systems across a wide array of real-world applications.
The model and a new paper are now available publicly for the research community.
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
Introducing ImageBind by Meta AI: the first AI model capable of binding information from six different modalities at once.
Humans absorb information from the world by combining data from different senses, like sight and sound. ImageBind brings machines one step closer to this ability with a model that’s capable of learning a single embedding for text, image/video, audio, depth, thermal and IMU inputs. We hope this work opens the floodgates for researchers as they work to develop new, holistic systems across a wide array of real-world applications.
The model and a new paper are now available publicly for the research community.
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
Meta
ImageBind: Holistic AI learning across six modalities
ImageBind is the first AI model capable of binding information from six modalities.
🔥3
Forwarded from Spark in me (Alexander)
Found another PyTorch-based library with basic image functions, losses and transformations
Looks like it is a combination toolkit of augs, skimage and classic cv2 functions, but written in PyTorch.
What is Kornia? Kornia is a differentiable library that allows classical computer vision to be integrated into deep learning models.
Examples:
- https://kornia.readthedocs.io/en/latest/get-started/highlights.html
- and especially this https://kornia.readthedocs.io/en/latest/losses.html
Looks like it is a combination toolkit of augs, skimage and classic cv2 functions, but written in PyTorch.
What is Kornia? Kornia is a differentiable library that allows classical computer vision to be integrated into deep learning models.
Examples:
- https://kornia.readthedocs.io/en/latest/get-started/highlights.html
- and especially this https://kornia.readthedocs.io/en/latest/losses.html
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ImageBind: One Embedding Space To Bind Them All
ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data.
ImageBind, новый подход от Meta к обучению совместному встраиванию шести различных модальностей - текста,изображений, аудио, глубины, тепловых данных и данных IMU.
🖥 Github: https://github.com/facebookresearch/imagebind
Ⓜ️ Meta blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
⏩ Paper: https://arxiv.org/pdf/2305.05665v1.pdf
⭐️ Demo: https://imagebind.metademolab.com/
📌 Dataset: https://paperswithcode.com/dataset/msr-vtt
ai_machinelearning_big_data
ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data.
ImageBind, новый подход от Meta к обучению совместному встраиванию шести различных модальностей - текста,изображений, аудио, глубины, тепловых данных и данных IMU.
Ⓜ️ Meta blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
📌 Dataset: https://paperswithcode.com/dataset/msr-vtt
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Forwarded from Denis Sexy IT 🤖
Так, ну было хоть и местами скучно, мне понравилось:
🪙 Gmail получит встроенную LLM для автоматического написания черновика. Например, отменили рейс и прислали вам письмо, вы можете сразу написать заявку на рефанд с помощью одной кнопки. В целом, ничего нового, делаю такое же с ChatGPT через плагин.
🪙 Google Maps получит обновление летом, а точнее его функция Immersive view - строите маршрут и он показывает его как в SimCity в 3D на основе реальных данных (скан реального мира), с машинками виртуальными и тп. Тут видео.
🪙 Google показал свой новый ответ GPT от OpenAI – Palm 2, это серия моделей от самой маленькой которая может работать оффлайн на телефоне и до самой большой которая работает в облаке. Bard, ChatGPT от Google, тоже перевели на Palm 2 уже сегодня. Еще в Bard добавят плагины, такие же как в ChatGPT. И с сегодня доступ открыли для всех:
https://bard.google.com
Google также показал интеграцию Bard в Google Docs, Slides, Tables и тп, тут как бы тоже все что вы уже видели от Microsoft.
🪙 Google поиск чуть изменит результаты выдачи, и первый остров станет пытаться отвечать на вопрос в стиле ChatGPT.
Если честно, очень логичный шаг, очень утомляет ходить в ChatGPT или Bing Chat когда ищешь ответ на вопрос, не всегда же приходишь пообщаться, иногда просто нужен быстрый ответ (но опция початиться тоже останется). "Остров ответа нейронкой" занимает немного места, так что сможете использовать Google как обычно, промотав ответ языковой модели. Видео тут.
Лица SEO-экспертов имаджинировали?
🪙 Теперь большой бизнес может купить тренировку своей большой языковой модели в Google Cloud через Vertex AI. Это, условно, если вы хотите в организации рабочего бота обученного на данных компании, и вам не хочется нанимать свой R&D отдел, вы можете заплатить им и они сделают все что нужно, на самых лучших моделях. Золотая жила и классный продукт.
Доступен тут, обещают ранний доступ:
https://cloud.google.com/vertex-ai
🪙 Тут в целом можно посмотреть про AI штуки что показали, и запросить доступы:
https://labs.withgoogle.com/
В общем, как и ожидалось, Google долго запрягает, потому что они большие, но им есть куда встраивать AI-штуки, и главное они знают как их сделать удобными, молодцы (но мне все еще нравится подшучивать над ними когда у них что-то не получается☺️ )
https://bard.google.com
Google также показал интеграцию Bard в Google Docs, Slides, Tables и тп, тут как бы тоже все что вы уже видели от Microsoft.
Если честно, очень логичный шаг, очень утомляет ходить в ChatGPT или Bing Chat когда ищешь ответ на вопрос, не всегда же приходишь пообщаться, иногда просто нужен быстрый ответ (но опция початиться тоже останется). "Остров ответа нейронкой" занимает немного места, так что сможете использовать Google как обычно, промотав ответ языковой модели. Видео тут.
Лица SEO-экспертов имаджинировали?
Доступен тут, обещают ранний доступ:
https://cloud.google.com/vertex-ai
https://labs.withgoogle.com/
В общем, как и ожидалось, Google долго запрягает, потому что они большие, но им есть куда встраивать AI-штуки, и главное они знают как их сделать удобными, молодцы (но мне все еще нравится подшучивать над ними когда у них что-то не получается
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Machinelearning
VideoChat: Chat-Centric Video Understanding
Currently, Ask-Anything is a simple yet interesting tool for chatting with video.
Набор данных, ориентированный на видео, состоящий из тысяч видеороликов, сопровождаемых подробными описаниями и субтитрами.
🖥 Github: https://github.com/OpenGVLab/Ask-Anything
⭐️ Demo: https://huggingface.co/spaces/ynhe/AskAnything
⏩ Paper: https://arxiv.org/pdf/2305.06355v1.pdf
📌 Dataset: https://paperswithcode.com/dataset/webvid
ai_machinelearning_big_data
Currently, Ask-Anything is a simple yet interesting tool for chatting with video.
Набор данных, ориентированный на видео, состоящий из тысяч видеороликов, сопровождаемых подробными описаниями и субтитрами.
📌 Dataset: https://paperswithcode.com/dataset/webvid
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
Forwarded from gonzo-обзоры ML статей
Sounds good
MMS: Massively Multilingual Speech.
- Can do speech2text and text2speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.
Code+Models: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Paper:
https://scontent-lga3-2.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX9NNLzC&_nc_ht=scontent-lga3-2.xx&oh=00_AfDZGkLV3haLgAXkFFhYmxMG8D9J2WV1hKDqYAQNPW4-4g&oe=6471ACCF
Blog: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
MMS: Massively Multilingual Speech.
- Can do speech2text and text2speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.
Code+Models: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Paper:
https://scontent-lga3-2.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX9NNLzC&_nc_ht=scontent-lga3-2.xx&oh=00_AfDZGkLV3haLgAXkFFhYmxMG8D9J2WV1hKDqYAQNPW4-4g&oe=6471ACCF
Blog: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
GitHub
fairseq/examples/mms at main · facebookresearch/fairseq
Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - facebookresearch/fairseq
Forwarded from эйай ньюз
Sophia: новый оптимизатор, который 2x быстрее, чем Adam для тренировки LLM
До сих пор все тренируем со старым добрым Адамом. А ему уже 7 лет!
Не так давно я писал о многообещающем оптимизаторе LION. Ну, а теперь появился еще один интересный кандидат.
Sophia — это оптимизатор, который использует быструю оценку Гессиана (матрица вторых производных) для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь, где именно Адам довольно медленно продвигается. Вторые производные тут как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.
Вычислять Гессиан в общем случае довольно медленно, поэтому методы второго порядка так и не получии распространения в DL.
На картинке есть псевдокод, из которого видно, что оценить диагональные элементы Гессиана можно довольно быстро.
Sophia ускоряет обучение LLM в 2 раза (!). Протестировали на GPT-2 моделях масштаба от 125M до 770M параметров. Тренд на дальнейшее масштабирование выглядит хорошо.
❱❱ Arxiv | Code
@ai_newz
До сих пор все тренируем со старым добрым Адамом. А ему уже 7 лет!
Не так давно я писал о многообещающем оптимизаторе LION. Ну, а теперь появился еще один интересный кандидат.
Sophia — это оптимизатор, который использует быструю оценку Гессиана (матрица вторых производных) для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь, где именно Адам довольно медленно продвигается. Вторые производные тут как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.
Вычислять Гессиан в общем случае довольно медленно, поэтому методы второго порядка так и не получии распространения в DL.
На картинке есть псевдокод, из которого видно, что оценить диагональные элементы Гессиана можно довольно быстро.
Sophia ускоряет обучение LLM в 2 раза (!). Протестировали на GPT-2 моделях масштаба от 125M до 770M параметров. Тренд на дальнейшее масштабирование выглядит хорошо.
❱❱ Arxiv | Code
@ai_newz
🔥3🤬1
Forwarded from Славины мысли
Мы тут собрались с командой получившей серебро на Kaggle Stable Diffusion (@slavabarkov @icecreamflavors), чтобы подвести итоги и обсудить решения. Приятного просмотра https://youtu.be/FuaxUbm3ypI
В комментариях можете задавать вопросы по соревнованию
В комментариях можете задавать вопросы по соревнованию
YouTube
Разбор Kaggle Stable Diffusion. Финальное обсуждения с командой, получившей серебро
Вот и закончилось соревнование Kaggle Stable Diffusion - Image to Prompts. Я с командой, занявшие серебро, обсудим задачу и методы ее решения. Познакомимся с ребятами и обсудим топовые решения
Первая часть https://youtu.be/GIttFpRVg8w
Вторая часть https:…
Первая часть https://youtu.be/GIttFpRVg8w
Вторая часть https:…
🔥2👎1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🔊SoundStorm: Efficient Parallel Audio Generation
Свежачок от Google! Кто-то еще сомневается, что AI через год не сможет позвонить по телефону и забронировать для вас столик в ресторане?
А в этой работе все даже круче. Нейронка умеет синтезировать даже диалоги с разными голосами. То есть сможет прочитать любой блогпост либо интервью для вас, как будто бы слушаете подкаст.
Что синтезировать можно задать текстом, а сам голос можно задать примером из нескольких секунд реальной записи.
✔️Архитектура не авторегрессионная (как в AudioLM), а генерит сразу кусками по 30 секунд, что более эффективно.
✔️Сеть тренировали на датасете из 100,000 часов диалогов.
✔️По скорости инференса уже довольно бодро, 30 секунд диалога генерируется за 2 сек на TPU-v4. И я уверен, что скоро будет еще быстрее.
Статья
Примеры
Неофициальный код от lucidrains
@ai_newz #audio
Свежачок от Google! Кто-то еще сомневается, что AI через год не сможет позвонить по телефону и забронировать для вас столик в ресторане?
А в этой работе все даже круче. Нейронка умеет синтезировать даже диалоги с разными голосами. То есть сможет прочитать любой блогпост либо интервью для вас, как будто бы слушаете подкаст.
Что синтезировать можно задать текстом, а сам голос можно задать примером из нескольких секунд реальной записи.
✔️Архитектура не авторегрессионная (как в AudioLM), а генерит сразу кусками по 30 секунд, что более эффективно.
✔️Сеть тренировали на датасете из 100,000 часов диалогов.
✔️По скорости инференса уже довольно бодро, 30 секунд диалога генерируется за 2 сек на TPU-v4. И я уверен, что скоро будет еще быстрее.
Статья
Примеры
Неофициальный код от lucidrains
@ai_newz #audio
🤮1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Introducing BERTopic Integration with the Hugging Face Hub
BERTopic provides a powerful tool for users to uncover significant topics within text collections, thereby gaining valuable insights.
BERTopic - это современная библиотека Python, которая упрощает процесс моделирования тем, используя различные трансформеры и c-TF-IDF для создания кластеров на основе плотности, позволяющих легко интерпретировать темы, сохраняя при этом важные слова в описаниях тем.
pip install bertopic
🤗 Hugging face: https://huggingface.co/blog/bertopic
🖥 Github: https://github.com/MaartenGr/BERTopic
⏩ Colab: https://colab.research.google.com/#fileId=https://huggingface.co/spaces/davanstrien/blog_notebooks/blob/main/BERTopic_hub_starter.ipynb
📌 Docs: https://maartengr.github.io/BERTopic/getting_started/quickstart/quickstart.html
ai_machinelearning_big_data
BERTopic provides a powerful tool for users to uncover significant topics within text collections, thereby gaining valuable insights.
BERTopic - это современная библиотека Python, которая упрощает процесс моделирования тем, используя различные трансформеры и c-TF-IDF для создания кластеров на основе плотности, позволяющих легко интерпретировать темы, сохраняя при этом важные слова в описаниях тем.
pip install bertopic
🤗 Hugging face: https://huggingface.co/blog/bertopic
📌 Docs: https://maartengr.github.io/BERTopic/getting_started/quickstart/quickstart.html
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего особенного. Просто LLaMa.cpp на 7 млрд параметров работает со скоростью 40 токенов/сек на MacBook с чипом M2 Max.
Это стало возможным после недавного обновления репозитория от Греганова, где он полностью реализовал инференс моделей на Metal GPU (это специальный ускоритель на новых чипах Apple). Мы видим 0% CPU утилизации, и загрузку всех 38 Metal ядер. Поистине искусный инженер от народа!
От себя добавлю, что очень хочу увидеть будущее, где у каждого локально бегает своя персонализированная LLM-ка, помогающая в рутинных делах. Это называется модуляризацией. Огромную модель тренируют централизовано, а далее каждый пользователь легко и быстро (мы к этому стремися) ее дошлифовывает на своих персональных данных и крутит только локально.
@ai_newz
Это стало возможным после недавного обновления репозитория от Греганова, где он полностью реализовал инференс моделей на Metal GPU (это специальный ускоритель на новых чипах Apple). Мы видим 0% CPU утилизации, и загрузку всех 38 Metal ядер. Поистине искусный инженер от народа!
От себя добавлю, что очень хочу увидеть будущее, где у каждого локально бегает своя персонализированная LLM-ка, помогающая в рутинных делах. Это называется модуляризацией. Огромную модель тренируют централизовано, а далее каждый пользователь легко и быстро (мы к этому стремися) ее дошлифовывает на своих персональных данных и крутит только локально.
@ai_newz
🔥7👍1👎1👏1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
MusicGen - SOTA для генерации музыки по тексту
Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.
Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.
Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.
Музыканты, битмейкеры и диджеи - налетайте!
Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться
@ai_newz
Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.
Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.
Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.
Музыканты, битмейкеры и диджеи - налетайте!
Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться
@ai_newz
👍2🤮2
Forwarded from Machinelearning
🔥 Awesome-Multimodal-Large-Language-Models
Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.
Огромный, упорядоченный список новейших статей, датасетов и кода по мультимодальным большим языковым моделям.
🖥 Github: https://github.com/bradyfu/awesome-multimodal-large-language-models
📕 Paper: https://arxiv.org/abs/2306.13394v1
🔗 Dataset: https://paperswithcode.com/dataset/coco
ai_machinelearning_big_data
Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.
Огромный, упорядоченный список новейших статей, датасетов и кода по мультимодальным большим языковым моделям.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥1🥰1