Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍4🎉2🍾1
#ml #prod
🔺 ML System Design
Материалы по внешней стороне машинного обучения (за внутреннюю считаем research / исследования) — проектирование того, как это все будет работать, поддерживаться и обновляться (system design).
Тема важная и начать в нее погружаться можно из актуального курса Стэнфорда cs 329s (содержание курса). Все это похоже на системное программирование, только в контексте ML. Сами лекции в виде текста, есть слайды и пара ноутбуков. Лекции прикольные, можно читать как книжку. Сам курс не очень длинный, так что будут шансы пройти до конца 😁.
👉 Лекции и TLDR;
1️⃣ Отличия ML для продакшена. tldr; Данные — сырые и меняются во времени. Приоритеты — быстрый инференс, важна интерпретируемость. Много заказчиков и требований от них.
2️⃣ Основы проектирования. tldr; Понимаем проблему (нужен ли тут вообще ML?). Источники и формат данных. ETL (процессинг и хранение данных).
3️⃣ Тренировочные данные. tldr; Тут довольно понятная тема — что делать с сырыми данными, как собрать из них хороший датасет, нехватка разметки, active learning и т.д.
4️⃣ Feature Engineering. tldr; Данные есть, как будем подавать их в модель? Аугментации (делаем данные разнообразней), придумываем новые признаки. И внезапно про позиционные эмбеддинги.
5️⃣ Model Development. tldr; Six tips for model selection. Важная мысль — не надо сразу брать SOTA, топовый результат на статическом датасете не обязательно будет лучше для вас, начните с простого. kaggle хаки/подходы — bagging, boosting, stacking.
6️⃣ Распределенное обучение и оценка модели. tldr; Про обучение на кластере и виды параллелизма. Сделай бейзлайн (рандомный, эвристики, человеческий, готовые решения). Советы по оценке моделей.
7️⃣ Деплой модели. tldr; Онлайн / оффлайн предсказания. Оптимизация модели — дистилляция, прунинг, квантизация. ML в облаке.
8️⃣ Мониторинг и дрифт данных. tldr; Хьюстон, у нас дрифт данных. Про feedback loop. Различные виды дрифта (covariate, label, concept drifts). Observability — собирай метрики, чтобы понять, что пошло не так.
🔺 ML System Design
Материалы по внешней стороне машинного обучения (за внутреннюю считаем research / исследования) — проектирование того, как это все будет работать, поддерживаться и обновляться (system design).
Тема важная и начать в нее погружаться можно из актуального курса Стэнфорда cs 329s (содержание курса). Все это похоже на системное программирование, только в контексте ML. Сами лекции в виде текста, есть слайды и пара ноутбуков. Лекции прикольные, можно читать как книжку. Сам курс не очень длинный, так что будут шансы пройти до конца 😁.
👉 Лекции и TLDR;
1️⃣ Отличия ML для продакшена. tldr; Данные — сырые и меняются во времени. Приоритеты — быстрый инференс, важна интерпретируемость. Много заказчиков и требований от них.
2️⃣ Основы проектирования. tldr; Понимаем проблему (нужен ли тут вообще ML?). Источники и формат данных. ETL (процессинг и хранение данных).
3️⃣ Тренировочные данные. tldr; Тут довольно понятная тема — что делать с сырыми данными, как собрать из них хороший датасет, нехватка разметки, active learning и т.д.
4️⃣ Feature Engineering. tldr; Данные есть, как будем подавать их в модель? Аугментации (делаем данные разнообразней), придумываем новые признаки. И внезапно про позиционные эмбеддинги.
5️⃣ Model Development. tldr; Six tips for model selection. Важная мысль — не надо сразу брать SOTA, топовый результат на статическом датасете не обязательно будет лучше для вас, начните с простого. kaggle хаки/подходы — bagging, boosting, stacking.
6️⃣ Распределенное обучение и оценка модели. tldr; Про обучение на кластере и виды параллелизма. Сделай бейзлайн (рандомный, эвристики, человеческий, готовые решения). Советы по оценке моделей.
7️⃣ Деплой модели. tldr; Онлайн / оффлайн предсказания. Оптимизация модели — дистилляция, прунинг, квантизация. ML в облаке.
8️⃣ Мониторинг и дрифт данных. tldr; Хьюстон, у нас дрифт данных. Про feedback loop. Различные виды дрифта (covariate, label, concept drifts). Observability — собирай метрики, чтобы понять, что пошло не так.
🔥13👍9👏2⚡1
Сходил за компанию на выставку Banksy. Понравилась одна вещь — работа "Destroy capitalism".
Ну и решил сгенерировать пару картинок в Stable Diffusion. Чтобы картинки были похожи, зафиксировал удачный seed. Можете тоже порисовать тут или скачать веса с 🤗 huggingface.
Ну и решил сгенерировать пару картинок в Stable Diffusion. Чтобы картинки были похожи, зафиксировал удачный seed. Можете тоже порисовать тут или скачать веса с 🤗 huggingface.
👍7⚡3🔥3👏1
#nlp #event
⚡️ Интересное NLP событие сегодня. Валентин Малых расскажет про машинный перевод на семинаре AIRI.
В этом году вышло две статьи — NLLB от Meta (перевод на 200 языков + выложили модели) и Towards the Next 1000 от Google (перевод на 1000 языков — пока только показывают). Вот про них и поговорим.
⏰ сегодня в 17:00 в zoom
⚡️ Интересное NLP событие сегодня. Валентин Малых расскажет про машинный перевод на семинаре AIRI.
В этом году вышло две статьи — NLLB от Meta (перевод на 200 языков + выложили модели) и Towards the Next 1000 от Google (перевод на 1000 языков — пока только показывают). Вот про них и поговорим.
⏰ сегодня в 17:00 в zoom
👍6❤2🔥2
#nlp #meetup
📅 Сходил на ML тренировку (трансляция тут) послушать доклад про RuCoLa.
〰️ Что это?
Это первый датасет для проверки адекватности генеративных языковых моделей (для русского), аналог CoLa. Состоит из ~13k предложений, размеченных как приемлемое/неприемлемое.
По степени приемлемости делить не стали, сказали, что сложно. Зато над датасетом поработали в том числе и лингвисты, так что включены разные категории (грамматическая, смысловая и т.д.). Вещь полезная, многим пригодится.
👉 GitHub | Проект
〰️ Что это?
Это первый датасет для проверки адекватности генеративных языковых моделей (для русского), аналог CoLa. Состоит из ~13k предложений, размеченных как приемлемое/неприемлемое.
По степени приемлемости делить не стали, сказали, что сложно. Зато над датасетом поработали в том числе и лингвисты, так что включены разные категории (грамматическая, смысловая и т.д.). Вещь полезная, многим пригодится.
👉 GitHub | Проект
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3⚡2
🔺 Woland-10
Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.
〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁
Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.
Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.
@doomgrad
Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.
〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁
Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.
Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.
🇷🇺 Вино какой страны предпочитаете в это время дня?👉 GitHub
🇧🇾 Вiно з якое краiны вы любiце ў гэтую пару дня?
🇺🇦 Вино якої країни вам більше до вподоби цієї пори дня?
🇬🇧 What country's wine do you prefer at this time of day?'
🇩🇪 Den Wein welches Landes bevorzugen Sie zu dieser Tageszeit?"
🇫🇷 Du vin de quel pays préférez-vous, à cette heure de la journée ?
🇮🇹 Il vino di quale paese preferisce a quest'ora del giorno?
🇪🇸 ¿De qué país lo prefiere a esta hora del día?
🇭🇺 Milyen bort szeret a legjobban ilyenkor déltájban?
🇨🇳 平常在这个时间您喜欢喝哪国产的葡萄酒?
@doomgrad
🔥28👍11❤5
#nlp #lecture
🚀 Третья лекция Карпати
Андрей выпустил следующее занятие о языковом моделировании и о сетках в целом. Как он сам говорит "Если вы не поймете моих объяснений, то я съем ботинок" 👞.
На пути к построению GPT-подобной модели мы уже рассмотрели статистические подходы, познакомились с pytorch и идеей backpropagation.
В этой лекции идем дальше и погружаемся в deep learning. Слушается легко, как и предыдущие лекции. Сейчас еще добавлю расшифровки лекций whisper'ом 👄.
👉 Материалы лекций | Видео | makemore
🚀 Третья лекция Карпати
Андрей выпустил следующее занятие о языковом моделировании и о сетках в целом. Как он сам говорит "Если вы не поймете моих объяснений, то я съем ботинок" 👞.
На пути к построению GPT-подобной модели мы уже рассмотрели статистические подходы, познакомились с pytorch и идеей backpropagation.
В этой лекции идем дальше и погружаемся в deep learning. Слушается легко, как и предыдущие лекции. Сейчас еще добавлю расшифровки лекций whisper'ом 👄.
👉 Материалы лекций | Видео | makemore
🔥6👍5❤1⚡1
Forwarded from Шрёдингер Кота (Dani El-Ayyass)
Друзья, всем привет) 👋
Вчера наткнулся на статью, опубликованную в одном из самых престижных журналов Nature, которая меня очень сильно удивила и впечатлила 🚀
С помощью обучения с подкреплением DeepMind открыли новый, более быстрый способ умножения матриц, одной из фундаментальных задач алгебры 🔥
Проблема нахождения более быстрого алгоритма была открытой 50 лет 🤯
Не хочу делать громких заявлений, но лично я считаю это огромным шагом (бОльшим даже для искусственного интеллекта, нежели для самой алгебры) и чуть ли не началом новой эры, так как появляется инструментарий для исследования других фундаментальных задач на предмет нахождения более эффективных алгоритмов 🛠
Интересно, стали ли мы ближе к решению вопроса о равенстве классов P и NP 🤔
Blog | Paper | GitHub
Вчера наткнулся на статью, опубликованную в одном из самых престижных журналов Nature, которая меня очень сильно удивила и впечатлила 🚀
С помощью обучения с подкреплением DeepMind открыли новый, более быстрый способ умножения матриц, одной из фундаментальных задач алгебры 🔥
Проблема нахождения более быстрого алгоритма была открытой 50 лет 🤯
Не хочу делать громких заявлений, но лично я считаю это огромным шагом (бОльшим даже для искусственного интеллекта, нежели для самой алгебры) и чуть ли не началом новой эры, так как появляется инструментарий для исследования других фундаментальных задач на предмет нахождения более эффективных алгоритмов 🛠
Интересно, стали ли мы ближе к решению вопроса о равенстве классов P и NP 🤔
Blog | Paper | GitHub
Nature
Discovering faster matrix multiplication algorithms with reinforcement learning
Nature - A reinforcement learning approach based on AlphaZero is used to discover efficient and provably correct algorithms for matrix multiplication, finding faster algorithms for a variety of...
🔥20👍8⚡3🤯1
🔺 Мультиязычное распознавание речи с Whisper
Наконец дошли руки до ASR модели whisper от OpenAI. Она, по заверениям авторов, умеет распознавать с 90+ языков (хотя только для 5-ти языков из всех данных было более 100 тыс. часов, русский в том числе).
〰️ Качество хорошее, хотя иногда может зацикливаться, так как модель авторегрессионная. Еще она умеет генерировать субтитры и определять язык, так что модель полезная.
Написал про это статью на хабр с примерами и нюансами использования. Транскрибировал несколько выпусков Своей игры и лекции Карпати для примера.
👉 Статья | whisper
Наконец дошли руки до ASR модели whisper от OpenAI. Она, по заверениям авторов, умеет распознавать с 90+ языков (хотя только для 5-ти языков из всех данных было более 100 тыс. часов, русский в том числе).
〰️ Качество хорошее, хотя иногда может зацикливаться, так как модель авторегрессионная. Еще она умеет генерировать субтитры и определять язык, так что модель полезная.
Написал про это статью на хабр с примерами и нюансами использования. Транскрибировал несколько выпусков Своей игры и лекции Карпати для примера.
👉 Статья | whisper
Хабр
Распознавание речи, генерация субтитров и изучение языков при помощи Whisper
Распознавание речи в действии ⚡ Градиент обреченный Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное...
🔥10👍7❤2⚡1🎉1
📸 Нейро-фотобудка
Попробовал натренировать Dreambooth на своих фотках в Colab'е (занимает минут 20).
〰️ Что это?
Это скрипт с дообучением Stable Diffusion модели на новых объектах. Можно обучить на изображениях любой вещи или человека. После этого сеть сможет генерировать похожие объекты в новом контексте ("вы как космический пират на Марсе").
〰️ Хочу так же
Если хотите повторить, то вот что нужно сделать:
1️⃣ Найти фото, можно взять 20-30 штук. Подготовить их, — объект должен быть по центру, примерно как фото на паспорт. Лучше, чтобы был разный фон и вид с разных углов. Потом привести их к размеру 512 на 512, это можно быстро сделать здесь.
2️⃣ Положить фото к себе на Google Drive в любую папку.
3️⃣ Открыть Colab. Там нужно последовательно запускать ячейки. В одной из них понадобится ввести токен с 🤗huggingface. Для этого нужно там зарегаться и взять токен. В графе Instance Dir нужно указать путь к вашим файликам на Google Drive.
4️⃣ После дообучения можно будет генерировать подобный арт. Чекпоинт с моделью можно сохранить на будущее.
Счастливого рисования!
Попробовал натренировать Dreambooth на своих фотках в Colab'е (занимает минут 20).
〰️ Что это?
Это скрипт с дообучением Stable Diffusion модели на новых объектах. Можно обучить на изображениях любой вещи или человека. После этого сеть сможет генерировать похожие объекты в новом контексте ("вы как космический пират на Марсе").
〰️ Хочу так же
Если хотите повторить, то вот что нужно сделать:
1️⃣ Найти фото, можно взять 20-30 штук. Подготовить их, — объект должен быть по центру, примерно как фото на паспорт. Лучше, чтобы был разный фон и вид с разных углов. Потом привести их к размеру 512 на 512, это можно быстро сделать здесь.
2️⃣ Положить фото к себе на Google Drive в любую папку.
3️⃣ Открыть Colab. Там нужно последовательно запускать ячейки. В одной из них понадобится ввести токен с 🤗huggingface. Для этого нужно там зарегаться и взять токен. В графе Instance Dir нужно указать путь к вашим файликам на Google Drive.
4️⃣ После дообучения можно будет генерировать подобный арт. Чекпоинт с моделью можно сохранить на будущее.
Счастливого рисования!
🔥37👍5😁3
This media is not supported in your browser
VIEW IN TELEGRAM
#nlp #open_source
🔺 UL2. Mixture of denoisers
Друзья, тот момент, когда Google выложил свои наработки в open-source. А именно языковую модель на 20B параметров, которая показывает себя отлично одновременно на двух типах постановки задач:
• Fine-tuning (дообучение под конкретную задачу)
• In context learning (few-shot — даем несколько целевых примеров в качестве затравки и chain of thought — подсказываем модели как надо рассуждать)
〰️ Обычно модели ведут себя значительно лучше в одном из указанных режимов, так как на это влияет задача (objective), которую модель учится решать во время тренировки.
В UL2 ребята применили подход Mixture of Denoisers, при котором есть несколько objective, которые выбираются случайно с учетом заданной человеком пропорции.
А свой лучший чекпоинт авторы выложили в открытый доступ.
👉 GitHub | Блог | Статья
🔺 UL2. Mixture of denoisers
Друзья, тот момент, когда Google выложил свои наработки в open-source. А именно языковую модель на 20B параметров, которая показывает себя отлично одновременно на двух типах постановки задач:
• Fine-tuning (дообучение под конкретную задачу)
• In context learning (few-shot — даем несколько целевых примеров в качестве затравки и chain of thought — подсказываем модели как надо рассуждать)
〰️ Обычно модели ведут себя значительно лучше в одном из указанных режимов, так как на это влияет задача (objective), которую модель учится решать во время тренировки.
В UL2 ребята применили подход Mixture of Denoisers, при котором есть несколько objective, которые выбираются случайно с учетом заданной человеком пропорции.
А свой лучший чекпоинт авторы выложили в открытый доступ.
👉 GitHub | Блог | Статья
🔥9👍5⚡2
#nlp #transformers
Про параллелизм
Красивый слайд из курса CS25. В последних двух колонках у нас sparse модели (MoE). Одним цветом обозначены одни и те же копии данных.
〰️ Зачем?
При масштабировании архитектуры и тренировочных данных можно упереться в ограничения по памяти/времени. Для параллельного обучения на нескольких устройствах и приходится что-то партиционировать — либо данные, либо модель, либо все вместе.
Про параллелизм
Красивый слайд из курса CS25. В последних двух колонках у нас sparse модели (MoE). Одним цветом обозначены одни и те же копии данных.
〰️ Зачем?
При масштабировании архитектуры и тренировочных данных можно упереться в ограничения по памяти/времени. Для параллельного обучения на нескольких устройствах и приходится что-то партиционировать — либо данные, либо модель, либо все вместе.
👍8🔥4❤3
Forwarded from Lingtrain
📚 Продолжаю делать книжку-трансформер
👉 Посмотреть можно здесь.
Идея в том, чтобы после выравнивания нескольких текстов (2 и более) Lingtrain'ом можно было бы собирать веб-книжку, которую можно разместить на github pages (просто скопировать файлики) и читать откуда угодно + пользоваться дополнительным функционалом — компоновать в одну/две колонки, менять подсветку, размер шрифтов, языки, и т.д. 🔮
Делаю на примере "Мастера и Маргариты".
〰️ Пока добавил:
• тексты на 10 языках
• содержание
• переключатели размера шрифта
• сохранение настроек при перезагрузке
• подсветку соответствующего предложения при наведении
• адаптивную разметку под мобильный
Любой фидбек и идеи приветствуются! 🚀
👉 Посмотреть можно здесь.
Идея в том, чтобы после выравнивания нескольких текстов (2 и более) Lingtrain'ом можно было бы собирать веб-книжку, которую можно разместить на github pages (просто скопировать файлики) и читать откуда угодно + пользоваться дополнительным функционалом — компоновать в одну/две колонки, менять подсветку, размер шрифтов, языки, и т.д. 🔮
Делаю на примере "Мастера и Маргариты".
〰️ Пока добавил:
• тексты на 10 языках
• содержание
• переключатели размера шрифта
• сохранение настроек при перезагрузке
• подсветку соответствующего предложения при наведении
• адаптивную разметку под мобильный
Любой фидбек и идеи приветствуются! 🚀
🔥19⚡4👍3💯1