Как оптимизировать обучение ML-моделей с помощью Kubeflow Pipelines
Инженер по машинному обучению в ML-команде проектов для бизнесов и покупателей ВКонтакте рассказывает, чем Kubeflow Pipelines может быть полезен ML-специалисту и как в нём без потери существующей кодовой базы можно запускать готовые пайплайны.
В статье описывается, как с помощью библиотеки kfp и нескольких функций интегрировать существующий код для запуска ML-пайплайнов в инструмент Kubeflow Pipelines с удобным интерфейсом.
🔗 Хабр: https://habr.com/ru/companies/vk/articles/745874/
ai_machinelearning_big_data
Инженер по машинному обучению в ML-команде проектов для бизнесов и покупателей ВКонтакте рассказывает, чем Kubeflow Pipelines может быть полезен ML-специалисту и как в нём без потери существующей кодовой базы можно запускать готовые пайплайны.
В статье описывается, как с помощью библиотеки kfp и нескольких функций интегрировать существующий код для запуска ML-пайплайнов в инструмент Kubeflow Pipelines с удобным интерфейсом.
🔗 Хабр: https://habr.com/ru/companies/vk/articles/745874/
ai_machinelearning_big_data
Хабр
Как мы с помощью Kubeflow Pipelines оптимизировали обучение ML-моделей
Когда кто-то занимается машинным обучением, его задачи часто представляют так: обработать данные, провести несколько десятков экспериментов с разными архитектурами моделей и выбрать ту, которая даёт...
❤8👍4🔥2🥰1
Конвейер генерации данных для нейронного информационного поиска.
pip install inpars🚀 Dataset: https://paperswithcode.com/dataset/beir
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥2❤1
Forwarded from Yandex for Developers
Пока вы наслаждаетесь тёплым летом, мы готовим для вас большую конференцию по прикладному Machine Learning — чтобы обсудить все изменения, которые постоянно происходят в ML-отрасли, и то, как их можно внедрить в свои проекты.
7 сентября вас ждут 500 экспертов, 8 профильных направлений и опытные ML-инженеры, которые меняют сферу уже сейчас. Поговорим о ключевых вопросах индустрии: генеративных моделях, Research, NLP, Hardware, CV, RecSys, MLOps и Ecomm.
Если вы хотите прочитать доклад о прикладном ML, то заполняйте форму до 17 июля. А если нет — save the date и ждите новые подробности: скоро мы начнём рассказывать о программе Practical ML Conf 2023.
До встречи 7 сентября на Practical ML Conf в Москве или онлайн!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥5🤬5❤2
🔥 Generative Pretraining in Multimodality
Model can take in any single-modality or multimodal data input indiscriminately through a one-model-for-all autoregressive training process.
Emu - мультимодальная на основе трансформеров, которая может легко генерировать изображения и тексты в мультимодальном контексте.
🖥 Github: https://github.com/baaivision/emu
📕 Paper: https://arxiv.org/abs/2307.05222v1
🚀 Dataset: https://paperswithcode.com/dataset/mmc4
ai_machinelearning_big_data
Model can take in any single-modality or multimodal data input indiscriminately through a one-model-for-all autoregressive training process.
Emu - мультимодальная на основе трансформеров, которая может легко генерировать изображения и тексты в мультимодальном контексте.
🚀 Dataset: https://paperswithcode.com/dataset/mmc4
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
AnimateDiff
Effective framework to animate most of existing personalized text-to-image models once for all, saving the efforts in model-specific tuning.
Новый фреймворк для генерации видео из текста. Высокое качество анимаций, различные возможности для пролета камеры, множество стилей.
🖥 Github: https://github.com/guoyww/animatediff/
🖥 Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
📕 Paper: https://arxiv.org/abs/2307.04725
🚀 Project: https://animatediff.github.io/
ai_machinelearning_big_data
Effective framework to animate most of existing personalized text-to-image models once for all, saving the efforts in model-specific tuning.
Новый фреймворк для генерации видео из текста. Высокое качество анимаций, различные возможности для пролета камеры, множество стилей.
🚀 Project: https://animatediff.github.io/
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤5🔥5
🧭 OpenCompass
OpenCompass is an LLM evaluation platform, supporting a wide range of models (LLaMA, ChatGLM2, ChatGPT, Claude, etc) over 50+ datasets.
OpenCompass - это платформа для оценки LLM моделей, поддерживающая широкий спектр моделей (LLaMA, ChatGLM2, ChatGPT, Claude и др.) на 50+ наборах данных.
Благодаря мощным алгоритмам и интуитивно понятному интерфейсу OpenCompass позволяет легко оценить качество и эффективность ваших моделей НЛП моделей.
🖥 Github: https://github.com/InternLM/opencompass
🖥 Documentation: https://opencompass.readthedocs.io/en/latest/
📕 Paper: https://arxiv.org/abs/2307.06281v1
🚀 Dataset: https://paperswithcode.com/dataset/mmbench
ai_machinelearning_big_data
OpenCompass is an LLM evaluation platform, supporting a wide range of models (LLaMA, ChatGLM2, ChatGPT, Claude, etc) over 50+ datasets.
OpenCompass - это платформа для оценки LLM моделей, поддерживающая широкий спектр моделей (LLaMA, ChatGLM2, ChatGPT, Claude и др.) на 50+ наборах данных.
Благодаря мощным алгоритмам и интуитивно понятному интерфейсу OpenCompass позволяет легко оценить качество и эффективность ваших моделей НЛП моделей.
🚀 Dataset: https://paperswithcode.com/dataset/mmbench
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥4❤1
🌄 Kandinsky 2.2 попал в Diffusers
Kandinsky 2.2 - это генеративная модель от Сбера, создающая изображения по текстовому описанию. Обновление привело к увеличению количества доступного функционала (ControlNet, Outpainting х2 и др.)
Diffusers — это известный и крупнейший фреймворк генеративных моделей. Его используют такие инструменты и библиотеки, как DreamFusion, Segment Anything, ML Stable Diffusion (by Apple) и другие.
Kandinsky 2.2 попал в основной репозиторий Diffusers на GitHub.
🖥 Github: https://github.com/huggingface/diffusers
ai_machinelearning_big_data
Kandinsky 2.2 - это генеративная модель от Сбера, создающая изображения по текстовому описанию. Обновление привело к увеличению количества доступного функционала (ControlNet, Outpainting х2 и др.)
Diffusers — это известный и крупнейший фреймворк генеративных моделей. Его используют такие инструменты и библиотеки, как DreamFusion, Segment Anything, ML Stable Diffusion (by Apple) и другие.
Kandinsky 2.2 попал в основной репозиторий Diffusers на GitHub.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - huggingface/diffusers: 🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.
🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch. - huggingface/diffusers
❤28🔥15👍11🥴3🖕3
Unsupervised Rhythm Modeling for Voice Conversion.
Проект для изменения исходного голоса на другие, позволяющая моделировать ритм речи.
🚀 Dataset: https://paperswithcode.com/dataset/vctk
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥3
✔ Fine-tuning Stable Diffusion Models on Intel CPUs
This post will show you how to fine-tune a Stable Diffusion model on an Intel Sapphire Rapids CPU cluster.
В этом посте показано, как провести тонкую настройку модели Stable Diffusion на кластере процессоров Intel Sapphire Rapids. Настройка с помощью текстовой инверсии - техники, которая требует лишь небольшого количества изображений-примеров.
https://huggingface.co/blog/stable-diffusion-finetuning-intel
📌 Post: https://huggingface.co/blog/stable-diffusion-finetuning-intel
⭐️ Diffusers documentation: https://huggingface.co/docs/diffusers
📌 Optimum Intel documentation: https://huggingface.co/docs/optimum/main/en/intel/inference
🖥 Intel IPEX on GitHub: https://github.com/intel/intel-extension-for-pytorch
ai_machinelearning_big_data
This post will show you how to fine-tune a Stable Diffusion model on an Intel Sapphire Rapids CPU cluster.
В этом посте показано, как провести тонкую настройку модели Stable Diffusion на кластере процессоров Intel Sapphire Rapids. Настройка с помощью текстовой инверсии - техники, которая требует лишь небольшого количества изображений-примеров.
https://huggingface.co/blog/stable-diffusion-finetuning-intel
📌 Post: https://huggingface.co/blog/stable-diffusion-finetuning-intel
⭐️ Diffusers documentation: https://huggingface.co/docs/diffusers
📌 Optimum Intel documentation: https://huggingface.co/docs/optimum/main/en/intel/inference
🖥 Intel IPEX on GitHub: https://github.com/intel/intel-extension-for-pytorch
ai_machinelearning_big_data
👍16🥴3❤1🔥1😁1
🔥 Artificial Intelligence for Science (AIRS)
AIRS - это коллекция инструментов с открытым исходным кодом, датасетов ии для науки и работы с квантовыми системами.
•OpenQM: AI for Quantum Mechanics
•OpenDFT: AI for Density Functional Theory
•OpenMol: AI for Small Molecules
•OpenProt: AI for Protein Science
•OpenMat: AI for Materials Science
•OpenMI: AI for Molecular Interactions
•OpenPDE: AI for Partial Differential Equations
🖥 Github: https://github.com/divelab/AIRS
📕 Paper: https://arxiv.org/abs/2307.08423
⭐️ Website: https://www.air4.science/
📌 Dataset: https://paperswithcode.com/dataset/atom3d
ai_machinelearning_big_data
AIRS - это коллекция инструментов с открытым исходным кодом, датасетов ии для науки и работы с квантовыми системами.
•OpenQM: AI for Quantum Mechanics
•OpenDFT: AI for Density Functional Theory
•OpenMol: AI for Small Molecules
•OpenProt: AI for Protein Science
•OpenMat: AI for Materials Science
•OpenMI: AI for Molecular Interactions
•OpenPDE: AI for Partial Differential Equations
📌 Dataset: https://paperswithcode.com/dataset/atom3d
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥7❤4
Как бороться с утечкой данных в машинном обучении
Команда VK Cloud перевела статью о том, как информация из тестового датасета ошибочно попадает в обучающий, какие у этого могут быть последствия.
В статье описываются примеры реальных датасетов со способами предотвращения утечки данных: проверки вручную, пайплайнами, перекрёстным контролем и др.
🔗 Хабр: https://habr.com/ru/companies/vk/articles/746360/
ai_machinelearning_big_data
Команда VK Cloud перевела статью о том, как информация из тестового датасета ошибочно попадает в обучающий, какие у этого могут быть последствия.
В статье описываются примеры реальных датасетов со способами предотвращения утечки данных: проверки вручную, пайплайнами, перекрёстным контролем и др.
🔗 Хабр: https://habr.com/ru/companies/vk/articles/746360/
ai_machinelearning_big_data
❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
💬 Text2Cinemagraph: Synthesizing Artistic Cinemagraphs from Text
Полностью автоматизированный метод Text2Cinemagraph для создания синемаграфов из текстового описания с учетом различных художественных стилей.
🖥 Github: https://github.com/text2cinemagraph/text2cinemagraph
🖥 Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
📕 Paper: https://arxiv.org/pdf/2307.03190.pdf
🚀 Project: https://text2cinemagraph.github.io/website/
ai_machinelearning_big_data
Полностью автоматизированный метод Text2Cinemagraph для создания синемаграфов из текстового описания с учетом различных художественных стилей.
🚀 Project: https://text2cinemagraph.github.io/website/
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6❤4
Llama 2 collection of pretrained and fine-tuned large language models (LLMs).
Новая Llama 2 в открытом доступе. Доступны предварительно обученные и настроенные модели с параметрами от 7B до 70B.
Llama 2 превосходит модели с открытым исходным кодом в большинстве протестированных бенчмарков и, судя по оценке полезности и безопасности, может стать достойной заменой моделям с закрытым исходным кодом.
🤗Hugging face: https://huggingface.co/meta-llama/Llama-2-70b
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍10❤4
This media is not supported in your browser
VIEW IN TELEGRAM
The first framework to conduct instruction optimization for black-box LLM like ChatGPT, where Black-box API LLM can only provide textual output.
Модель отбора, автоматически определяющая и удаляющая низкокачественные данные с помощью LLM.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20❤6👍3
🆓 Free Courses and Guides for Learning Generative AI
Бесплатные курсы и руководства по изучению генеративного ИИ
1. Building AI Products with OpenAI — Бесплатный курс от CoRise и OpenAI.
2. Подробное руководство по Prompt Engineering by DAIR.AI
3. LLM Bootcamp - Серия бесплатных лекций от The full Stack по созданию и развертыванию приложений LLM.
4. Что такое модели трансформеров и как они работают: Учебное пособие от Cohere AI.
5. Бесплатный курс от Activeloop на LangChain & Vector Databases in Production.
6. Pinecone learning center — Множество полезных гайдов.
7. Build AI Apps with ChatGPT, Dall-E and GPT-4 — бесплатный курс по Scrimba.
8. Gartner Experts Answer the Top Generative AI Questions for Your Enterprise — отчет компании Gartner.
9. GPT best practices: Руководство ****OpenAI, в котором рассказывается о стратегии и тактике получения лучших результатов от GPT.
10. OpenAI cookbook by OpenAI — Примеры и руководства по использованию API OpenAI.
11. Prompt injection explained,
12. Generative AI short courses by DeepLearning.AI — Пять коротких курсов по генеративному ИИ, включая LangChain для разработки LLM-приложений, "Как работают диффузионные модели" и др.
13. Generative AI learning path by Google Cloud - серия из 10 курсов по продуктам и технологиям генеративного ИИ: от основ больших языковых моделей до создания и развертывания генеративного ИИ в Google Cloud.
ai_machinelearning_big_data
Бесплатные курсы и руководства по изучению генеративного ИИ
1. Building AI Products with OpenAI — Бесплатный курс от CoRise и OpenAI.
2. Подробное руководство по Prompt Engineering by DAIR.AI
3. LLM Bootcamp - Серия бесплатных лекций от The full Stack по созданию и развертыванию приложений LLM.
4. Что такое модели трансформеров и как они работают: Учебное пособие от Cohere AI.
5. Бесплатный курс от Activeloop на LangChain & Vector Databases in Production.
6. Pinecone learning center — Множество полезных гайдов.
7. Build AI Apps with ChatGPT, Dall-E and GPT-4 — бесплатный курс по Scrimba.
8. Gartner Experts Answer the Top Generative AI Questions for Your Enterprise — отчет компании Gartner.
9. GPT best practices: Руководство ****OpenAI, в котором рассказывается о стратегии и тактике получения лучших результатов от GPT.
10. OpenAI cookbook by OpenAI — Примеры и руководства по использованию API OpenAI.
11. Prompt injection explained,
12. Generative AI short courses by DeepLearning.AI — Пять коротких курсов по генеративному ИИ, включая LangChain для разработки LLM-приложений, "Как работают диффузионные модели" и др.
13. Generative AI learning path by Google Cloud - серия из 10 курсов по продуктам и технологиям генеративного ИИ: от основ больших языковых моделей до создания и развертывания генеративного ИИ в Google Cloud.
ai_machinelearning_big_data
👍18❤12🔥6
🐋 FreeWilly, Large And Mighty Instruction Fine-Tuned Models
.
FreeWilly1 and FreeWilly2 set a new standard in the field of open access Large Language Models.
В freeWilly1 используется оригинальная базовая модель LLaMA 65B, которая была обучена на новом синтетически сгенерированном наборе данных с использованием технологии Supervised Fine-Tune (SFT) в стандартном формате Alpaca.
FreeWilly2 использует базовую модель LLaMA 2 70B и достигает качества, сравнимого с GPT-3.5.
⭐️ Post: https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models
📌 FreeWilly1: https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor
📌 FreeWilly2: https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor
ai_machinelearning_big_data
.
FreeWilly1 and FreeWilly2 set a new standard in the field of open access Large Language Models.
В freeWilly1 используется оригинальная базовая модель LLaMA 65B, которая была обучена на новом синтетически сгенерированном наборе данных с использованием технологии Supervised Fine-Tune (SFT) в стандартном формате Alpaca.
FreeWilly2 использует базовую модель LLaMA 2 70B и достигает качества, сравнимого с GPT-3.5.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4❤1