Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT
https://habr.com/ru/articles/794566/
https://habr.com/ru/articles/794566/
Хабр
Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT
Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле...
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Помните, я рассказывал про эмбеддинги предложений SONAR?
Те самые, для которых есть текстовый энкодер (предложение=>вектор) и декодер (вектор=>предложение) для 200 языков, и ещё несколько десятков энкодеров речи, переводящих устные предложения в то же семантическое пространство, что и письменные.
На основе которых работает моделька BLASER 2.0, неплохо коррелирующая с человеческими оценками (XSTS) качества перевода текста и речи.
На основе которых мои коллеги недавно запилили самый мультиязычный классификатор токсичности, MuTox.
Ну и, конечно, на основе которых мои коллеги собрали датасет SeamlessAlign: собранные по интернетам и заматченные по смыслу пары предложений речь-текст (100К часов) и речь-речь (9К часов) на разных языках. Этот датасет использовался для обучения моделей Seamless, примерно лучших из того, что сегодня существует для перевода речи.
Так вот. SONAR сейчас понимает текст на 200 языках (те же самые, что NLLB), но энкодеры речи пока есть только для 57 языков.
Зачем эти энкодеры вообще нужны? В голову приходит несколько примеров применений:
1) Классификация и перевод устных предложений напрямую, минуя этап автоматической транскрипции. Для классификации можно использовать модели поверх эмбеддингов предложений (типа того же MuTox), а для перевода - имеющийся текстовый декодер.
2) Автоматический матчинг устных предложений с их переводами или транскрипцией - то, как мы собирали SeamlessAlign и несколько подобных датасетов.
Ну и поскольку польза от этого вроде как есть, то сообщество просит дать им рецепт обучения энкодера речи для ещё одного языка. А раз просит - я попробовал сделать. С минимальными данными (используя только CommonVoice) и вычислительными ресурсами (два дня обучения на Colab Pro). На примере грузинского языка, потому что для него ещё нет энкодера речи, но есть, на каких данных оценить его качество и с чем сравнить.
Рецепт - в этом блокноте. Качество мне не очень нравится, так что я его ещё буду дорабатывать. Но фидбек хочется получить уже сейчас, так что если вам есть, что сказать по поводу этого блокнота - не стесняйтесь писать в комменты)
Те самые, для которых есть текстовый энкодер (предложение=>вектор) и декодер (вектор=>предложение) для 200 языков, и ещё несколько десятков энкодеров речи, переводящих устные предложения в то же семантическое пространство, что и письменные.
На основе которых работает моделька BLASER 2.0, неплохо коррелирующая с человеческими оценками (XSTS) качества перевода текста и речи.
На основе которых мои коллеги недавно запилили самый мультиязычный классификатор токсичности, MuTox.
Ну и, конечно, на основе которых мои коллеги собрали датасет SeamlessAlign: собранные по интернетам и заматченные по смыслу пары предложений речь-текст (100К часов) и речь-речь (9К часов) на разных языках. Этот датасет использовался для обучения моделей Seamless, примерно лучших из того, что сегодня существует для перевода речи.
Так вот. SONAR сейчас понимает текст на 200 языках (те же самые, что NLLB), но энкодеры речи пока есть только для 57 языков.
Зачем эти энкодеры вообще нужны? В голову приходит несколько примеров применений:
1) Классификация и перевод устных предложений напрямую, минуя этап автоматической транскрипции. Для классификации можно использовать модели поверх эмбеддингов предложений (типа того же MuTox), а для перевода - имеющийся текстовый декодер.
2) Автоматический матчинг устных предложений с их переводами или транскрипцией - то, как мы собирали SeamlessAlign и несколько подобных датасетов.
Ну и поскольку польза от этого вроде как есть, то сообщество просит дать им рецепт обучения энкодера речи для ещё одного языка. А раз просит - я попробовал сделать. С минимальными данными (используя только CommonVoice) и вычислительными ресурсами (два дня обучения на Colab Pro). На примере грузинского языка, потому что для него ещё нет энкодера речи, но есть, на каких данных оценить его качество и с чем сравнить.
Рецепт - в этом блокноте. Качество мне не очень нравится, так что я его ещё буду дорабатывать. Но фидбек хочется получить уже сейчас, так что если вам есть, что сказать по поводу этого блокнота - не стесняйтесь писать в комменты)
Сравнение различных схем квантования для LLM
https://habr.com/ru/articles/797443/
https://habr.com/ru/articles/797443/
Хабр
Сравнение различных схем квантования для LLM
Что такое квантование? Квантование — это метод сжатия модели, который преобразует веса и активации в LLM путем уменьшения битности вычислений, т. е. из типа данных, который может содержать больше...
Forwarded from Ирина Кикина
🔥СТАРТ КУРСА🔥
MLOps и production в DS исследованиях 3.0
18 марта 2024г при поддержке Open Data Science стартует запуск, открытого онлайн курса MLOps и production в DS исследованиях 3.0!
Мы учли ваши пожелания и предложения, внесли доработки, дополнили контент, разнообразили домашние задания, а так же, пригласили новых спикеров!
В рамках курса вы:
🤓Познакомитесь с концепцией воспроизводимых исследований;
🤓Научитесь автоматизировать процесс проведения стандартизированных исследований;
🤓Узнаете о методах организации командной работы над ML-проектами;
🤓Получите практические рекомендации по работе с кодом в DS исследованиях;
🤓Изучите полезные инструменты для автоматизации и обеспечения воспроизводимости исследований.
Совсем скоро откроется регистрация, а пока, предлагаем ознакомиться с программой курса!
Следить за новостями, а так же, задавать любые вопросы, связанные с курсом, можно в нашем telegram чате для участников курса!
MLOps и production в DS исследованиях 3.0
18 марта 2024г при поддержке Open Data Science стартует запуск, открытого онлайн курса MLOps и production в DS исследованиях 3.0!
Мы учли ваши пожелания и предложения, внесли доработки, дополнили контент, разнообразили домашние задания, а так же, пригласили новых спикеров!
В рамках курса вы:
🤓Познакомитесь с концепцией воспроизводимых исследований;
🤓Научитесь автоматизировать процесс проведения стандартизированных исследований;
🤓Узнаете о методах организации командной работы над ML-проектами;
🤓Получите практические рекомендации по работе с кодом в DS исследованиях;
🤓Изучите полезные инструменты для автоматизации и обеспечения воспроизводимости исследований.
Совсем скоро откроется регистрация, а пока, предлагаем ознакомиться с программой курса!
Следить за новостями, а так же, задавать любые вопросы, связанные с курсом, можно в нашем telegram чате для участников курса!
Telegram
MLOps курс 3.0
3 поток курса MLOps и production в DS исследованиях 3.0
Данная группа предназначена для обсуждения вопросов и новостей по MLOps курсу 3.0
По вопросам размещения рекламы, новостей, вакансий-обращаться к @Irinka_Bekker
Данная группа предназначена для обсуждения вопросов и новостей по MLOps курсу 3.0
По вопросам размещения рекламы, новостей, вакансий-обращаться к @Irinka_Bekker
Forwarded from Dealer.AI
"Квантизируй меня полностью" или мануал по квантизации от Yandex.
Тут ML-разработчик Яндекса выкатил подробнейшую статью на Хабре о том, что такое квантизация и как она работает.
Отличный гайд, который достоин закрепа во вкладках.
В статье представленны различные методы для уменьшения точности после зпт, как на инференсе, так и для обучения. Затронуты вопросы выбросов в тензорах, а также послойный/весовой/блочный и др. подходы. Во времена LLM не обошли и вопросы связанные с особенностями их квантизации.
Еще отмечу, везде, где возможно указаны ссылки на референс статьи и код методов. Тем самым, обзор позволяет потрогать указанные методы руками и выбрать подходящий именно под свои задачи. В общем, читаем, пробуем, учимся.
Тут ML-разработчик Яндекса выкатил подробнейшую статью на Хабре о том, что такое квантизация и как она работает.
Отличный гайд, который достоин закрепа во вкладках.
В статье представленны различные методы для уменьшения точности после зпт, как на инференсе, так и для обучения. Затронуты вопросы выбросов в тензорах, а также послойный/весовой/блочный и др. подходы. Во времена LLM не обошли и вопросы связанные с особенностями их квантизации.
Еще отмечу, везде, где возможно указаны ссылки на референс статьи и код методов. Тем самым, обзор позволяет потрогать указанные методы руками и выбрать подходящий именно под свои задачи. В общем, читаем, пробуем, учимся.
Хабр
Quantization Deep Dive, или Введение в современную квантизацию
Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая...
Forwarded from Сиолошная
Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat
Можно загрузить видео или целую папку с файлами для анализа
Го тестировать
Можно загрузить видео или целую папку с файлами для анализа
Го тестировать
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Про проект Panlex.org, собравший перевод слов для тысяч языков, я узнал почти два года назад.
Но воспользоваться этими данными для машинного обучения никак не доходили руки, просто потому, что лень было скачивать и расковыривать дамп их базы данных.
Сейчас я таки расковырял его, разрезал на отдельные языки, и выложил на HF: https://huggingface.co/datasets/cointegrated/panlex-meanings.
Если вам внезапно понадобились словари для кучи малоресурсных языков в единообразном формате, может быть полезно.
Помимо этого ресурса, порекомендую ещё, пользуясь случаем, недавний датасет Gatitos с похожей мотивацией; там 4000 слов/фраз/коротких предложений, переведенные на 173 языка.
Но воспользоваться этими данными для машинного обучения никак не доходили руки, просто потому, что лень было скачивать и расковыривать дамп их базы данных.
Сейчас я таки расковырял его, разрезал на отдельные языки, и выложил на HF: https://huggingface.co/datasets/cointegrated/panlex-meanings.
Если вам внезапно понадобились словари для кучи малоресурсных языков в единообразном формате, может быть полезно.
Помимо этого ресурса, порекомендую ещё, пользуясь случаем, недавний датасет Gatitos с похожей мотивацией; там 4000 слов/фраз/коротких предложений, переведенные на 173 языка.
👍1
Forwarded from Pavel Zloi
Всем привет! Рад поделиться с вами свежей публикацией "Как подготовить Linux к запуску и обучению нейросетей? (+ Docker)", которая только что появилась в моём блоге на Дзен!
В этой публикации мы окунёмся в увлекательный мир настройки серверов под управлением операционных систем на базе ядра Linux для работы с нейросетями, в частности разберём как установить драйверы Nvidia, как установить CUDA, как настроить Docker и как использовать карточки в Docker-контейнерах.
Желаю приятного прочтения!
#zen #linux #nvidia #docker #ai #python
В этой публикации мы окунёмся в увлекательный мир настройки серверов под управлением операционных систем на базе ядра Linux для работы с нейросетями, в частности разберём как установить драйверы Nvidia, как установить CUDA, как настроить Docker и как использовать карточки в Docker-контейнерах.
Желаю приятного прочтения!
#zen #linux #nvidia #docker #ai #python
Дзен | Статьи
Как подготовить Linux к запуску и обучению нейросетей? (+ Docker)
Статья автора «Pavel Zloi» в Дзене ✍: Приветствую всех ценителей мира нейросетей!
Лучшие бесплатные курсы и ресурсы для изучения машинного обучения
https://habr.com/ru/articles/804251/
https://habr.com/ru/articles/804251/
Как устроено пространство, в котором думают языковые модели?
https://habr.com/ru/companies/airi/articles/804515/
https://habr.com/ru/companies/airi/articles/804515/
Хабр
Как устроено пространство, в котором думают языковые модели?
Изображение сгенерировано Dalle-3 Хабр, привет! Меня зовут Антон Разжигаев, я аспирант Сколтеха и участник научной группы Fusion Brain в институте AIRI. С момента выхода первой статьи «Attention is...
Lightning Thunder
Make PyTorch models up to 40% faster!
https://github.com/Lightning-AI/lightning-thunder
Make PyTorch models up to 40% faster!
https://github.com/Lightning-AI/lightning-thunder
GitHub
GitHub - Lightning-AI/lightning-thunder: PyTorch compiler that accelerates training and inference. Get built-in optimizations for…
PyTorch compiler that accelerates training and inference. Get built-in optimizations for performance, memory, parallelism, and easily write your own. - Lightning-AI/lightning-thunder
В Стэнфорде новый запуск курса по трансформерам в зуме
https://twitter.com/stevenyfeng/status/1775972154938659184
https://twitter.com/stevenyfeng/status/1775972154938659184
OmniFusion 1.1: мультимодальность теперь и на русском
https://habr.com/ru/companies/airi/articles/806277/
https://habr.com/ru/companies/airi/articles/806277/
Хабр
OmniFusion 1.1: мультимодальность теперь и на русском
В прошлом году на конференции AIJ 2023 мы представили первую версию OmniFusion — мультимодальной языковой модели (LLM), способной поддерживать визуальный диалог и отвечать на вопросы по картинкам....
Forwarded from Старший Авгур
https://huggingface.co/IlyaGusev/saiga_llama3_8b
Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
Forwarded from Esenia
🔘 15 мая ребята из Тинькофф проведут митап и расскажут, как создают свою платформу голосовых технологий
На встрече обсудят:
— Какие задачи решают спецы при разработке Tinkoff VoiceKit;
— какие алгоритмы лежат в основе text normalization — важного компонента NLP-пайплайна синтеза речи;
— почему обновление модели, обрабатывающей десятки тысяч часов речи в сутки, — это сложно;
— как при конвертации голоса добиться максимальной похожести на изначальный.
📍15 мая в 19:00. Москва, Tinkoff Space
Региструйтесь и зовите коллег с собой!
На встрече обсудят:
— Какие задачи решают спецы при разработке Tinkoff VoiceKit;
— какие алгоритмы лежат в основе text normalization — важного компонента NLP-пайплайна синтеза речи;
— почему обновление модели, обрабатывающей десятки тысяч часов речи в сутки, — это сложно;
— как при конвертации голоса добиться максимальной похожести на изначальный.
📍15 мая в 19:00. Москва, Tinkoff Space
Региструйтесь и зовите коллег с собой!
Forwarded from эйай ньюз
Курс по квантизации для тех, кто хочет быть в теме
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
@ai_newz
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
@ai_newz
DeepLearning.AI - Learning Platform
Quantization in Depth
Customize model compression with advanced quantization techniques. Try out different variants of Linear Quantization, including symmetric vs. asymmetric mode, and different granularities.
Forwarded from эйай ньюз
За 4 часа он с нуля пишет GPT-Nano, при этом объясняя каждый шаг. Пока что на Python и только про претрейн, но обещает сделать туториал о создании llm.c и сделать туториал про файнтюн.
Почему он учит GPT-2? Это первая LLM, с неё и началась современная эпоха. К тому же, между ламой и GPT-2 всего дюжина отличий, но GPT-2 Small можно полностью натренировать на одной GPU и сравнить свой трейнинг ран с результатами пейпера. С ламой такое не прокактит.
Туториал
Код
#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Let's reproduce GPT-2 (124M)
We reproduce the GPT-2 (124M) from scratch. This video covers the whole process: First we build the GPT-2 network, then we optimize its training to be really fast, then we set up the training run following the GPT-2 and GPT-3 paper and their hyperparameters…
❤1
Forwarded from Записки Ппилифа (Ppilif)
В Вышке понемногу заканчивается весенний семестр. Каждую неделю обязанностей всё меньше и я чувствую себя всё свободнее. Появилось время не только пить вино на фестах, но и посты писать.
Я рассказывал в прошлом посте, что вписался искать лекторов по ML для майнора в Вышке и выдал большую подборку из прошедших лекций. Курс практически подошёл к концу. Осталось только прочитать одну лекцию про АБ-тесты.
Поэтому хочу поделиться с вами второй подборкой лекций. В курс вписалось дофига классных лекторов. Если кто-то из вас это читает, большое спасибо каждому из вас. Вы офигенные 🤗
Первая часть была из сплошного DL, во второй его поменьше. Каждый лектор даёт введение в свой кусок ML-я, а дальше можно самому копать в него подробнее.
🥛 Кусочек про DL в графах от Эльдара Валитова:
9. Введение в глубинное обучение в анализе графовых данных
Если хочется больше, можно заглянуть в курс Эльдара с ПМИ или в Стэнфордский аналогичный курс, на котором, во многом, основан курс ПМИ. [видео]
Ещё мы два года назад собрали для ML на ФКН классный семинар с базовыми способами учить эмбеды для вершин в графах. [конспект] [тетрадка] [видео]
🥛 Кусочек про временные ряды от разработчиков библиотеки ETNA из Т-банка (Мартин Габдушев и Яков Малышев):
10-11. Временные ряды
Обычно основная проблема в лекциях про временные ряды в том, что люди рассказывают только про ARIMA ииии всё. У меня всегда с этого жутко подгорало. У ребят получилась большая обзорная лекция, где они прошлись по всему спектру задач и моделей, возникающих для временных рядов.
Если хочется копнуть глубже и поисследовать математику, которая стоит за всеми этими моделями, можно закопаться в курс с ФКН от Бори Демешева и Матвея Зехова, все лекции в открытом доступе. Возможно, записи прошлого года поудачнее, тк там нет упоротой вышкинской заставки, когда лектор молчит.
Update: Матвей говорит, что семинары от этого года удачнее, в них было много изменений по сравнению с прошлым :3
🥛 Кусочек про MLOps от Влада Гончаренко
12. Introduction to MLOps
13. Введение в современный MLOps
Полный курс Влада можно найти вот тут. Вроде неплохо выглядит курс от ODS по MLOps, но он проходил три года назад и часть штук могла устареть.
Ещё все очень позитивно отзываются о курсе Макса Рябинина Эффективные системы глубинного обучения. Я пока не смотрел, но планирую летом глянуть свежую шадовскую версию. В открытом доступе есть видео от 2022 года.
Также много инфраструктурных вещей есть в курсе ML для больших данных от Лёши Космачёва. [видосы]
🥛 Кусочек про рекомендательные системы от Сергея Малышева
14. Recsys Intro
15. Recsys Advanced
Если хочется закопаться чуть глубже, рекомендую глянуть лекции с основного курса по ML с ФКН (лекции 11-14), а дальше можно покопаться в репозитории с более продвинутым курсом. Видосов, к сожалению, не нашел 🙁
🥛 Экспериментальный кусочек про области где используют ML. Тут семест кончился, поэтому была только лекция от Димы Сергеева про HealthTech :3
16. Data Science in HealthTech
P.S. Все материалы на гите
Я рассказывал в прошлом посте, что вписался искать лекторов по ML для майнора в Вышке и выдал большую подборку из прошедших лекций. Курс практически подошёл к концу. Осталось только прочитать одну лекцию про АБ-тесты.
Поэтому хочу поделиться с вами второй подборкой лекций. В курс вписалось дофига классных лекторов. Если кто-то из вас это читает, большое спасибо каждому из вас. Вы офигенные 🤗
Первая часть была из сплошного DL, во второй его поменьше. Каждый лектор даёт введение в свой кусок ML-я, а дальше можно самому копать в него подробнее.
9. Введение в глубинное обучение в анализе графовых данных
Если хочется больше, можно заглянуть в курс Эльдара с ПМИ или в Стэнфордский аналогичный курс, на котором, во многом, основан курс ПМИ. [видео]
Ещё мы два года назад собрали для ML на ФКН классный семинар с базовыми способами учить эмбеды для вершин в графах. [конспект] [тетрадка] [видео]
10-11. Временные ряды
Обычно основная проблема в лекциях про временные ряды в том, что люди рассказывают только про ARIMA ииии всё. У меня всегда с этого жутко подгорало. У ребят получилась большая обзорная лекция, где они прошлись по всему спектру задач и моделей, возникающих для временных рядов.
Если хочется копнуть глубже и поисследовать математику, которая стоит за всеми этими моделями, можно закопаться в курс с ФКН от Бори Демешева и Матвея Зехова, все лекции в открытом доступе. Возможно, записи прошлого года поудачнее, тк там нет упоротой вышкинской заставки, когда лектор молчит.
Update: Матвей говорит, что семинары от этого года удачнее, в них было много изменений по сравнению с прошлым :3
12. Introduction to MLOps
13. Введение в современный MLOps
Полный курс Влада можно найти вот тут. Вроде неплохо выглядит курс от ODS по MLOps, но он проходил три года назад и часть штук могла устареть.
Ещё все очень позитивно отзываются о курсе Макса Рябинина Эффективные системы глубинного обучения. Я пока не смотрел, но планирую летом глянуть свежую шадовскую версию. В открытом доступе есть видео от 2022 года.
Также много инфраструктурных вещей есть в курсе ML для больших данных от Лёши Космачёва. [видосы]
14. Recsys Intro
15. Recsys Advanced
Если хочется закопаться чуть глубже, рекомендую глянуть лекции с основного курса по ML с ФКН (лекции 11-14), а дальше можно покопаться в репозитории с более продвинутым курсом. Видосов, к сожалению, не нашел 🙁
16. Data Science in HealthTech
P.S. Все материалы на гите
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller
Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.
Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.
В публичном доступе есть репа с содержанием курса, но самих лекций пока нету
Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)
#ликбез
@ai_newz
Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.
Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.
В публичном доступе есть репа с содержанием курса, но самих лекций пока нету
Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)
#ликбез
@ai_newz
❤5
Forwarded from AI.Insaf
Набросал книжки/курсы, которые помогут стать хорошим DS
База
1. Классическое машинное обучение (табличные данные)
• Изучить можно по книге "Python Machine Learning by Sebastian Raschka". Читать можно все, кроме 13-й главы, которая устарела
• Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса
• Внутри 6 курсов (база по ml первые три курса, очень хороший курс по статистике 4й, 5-6 практика можно пропускать)
• Открытые решения / соревнования на Kaggle. Учат метрикам и валидации, и конечно строить звездолеты
• Лекции с датафеста https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w и особенно ml training https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB (тк это база старые доклады могут быть даже полезнее)
Практика/документация
• Углубиться в бустинги (надо хорошо понимать как и когда их применять, тк это основа в табличных задачах)
• Документация: https://catboost.ai/ https://xgboost.readthedocs.io/en https://lightgbm.readthedocs.io/en
2. Introducing MLOps (издательство O'Reilly)
• 200 страниц о том, как управлять моделями машинного обучения, чтобы они хорошо работали ("DevOps" для моделей).
3. Хайповый system design книжка Designing Machine Learning Systems (O'Reilly)
• О правильном построении моделей с точки зрения выбора метрик, поддерживаемости и масштабируемости
4. Развитие аналитических навыков – последнее в базе, но первое по важности
• Книга «Девенпорт, аналитика как конкурентное преимущество»
• Книга Data science for business
• Разобраться с SQL и Pandas – для работы с данными
5. Курс по рекомендательным системам Recsys: https://m.youtube.com/watch?v=igwNb7dBlms (основное - 5 лекций, остальное - прикладные кейсы)
6. АБ-тестирование:
• https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f (гайд от VK)
• https://practicum.yandex.ru/statistics-basic/ (бесплатный курс от Яндекса)
• Книга Trustworthy Online Controlled Experiments
7. NLP – путь тут длинный. Нужно разобраться в tf-idf -> Word2vec и fasttext -> lstm -> трансформеры -> berts -> gpt -> LLM (+lora). Помогут один из следующих курсов
• Курс от ШАДа по NLP https://github.com/yandexdataschool/nlp_course
• Хорошо зарекомендовавший https://lena-voita.github.io/nlp_course.html
• База до трансформеров включительно от Abby, хоть и немного устаревший https://github.com/DanAnastasyev/DeepNLP-Course
• Здесь и далее очень круто погружают различные публикации с обзорными статьями. Наприме A Comprehensive Overview of Large Language Models https://arxiv.org/pdf/2307.06435
8. CV. Deep Learning with PyTorch база по DL. Практическая книга по компьютерному зрению (как построить первые модели для классификации, сегментации). А дальше уже самостоятельно изучать темы. Важные блоки:
• image classification
• segmentation
• GAN
• object detection
• instant segmentation
• pose estimation
• diffusion models
• multimodal models
• Vision Transformer
• +обзорные статьи
PS Если есть что добавить пишите в комментарии)
База
1. Классическое машинное обучение (табличные данные)
• Изучить можно по книге "Python Machine Learning by Sebastian Raschka". Читать можно все, кроме 13-й главы, которая устарела
• Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса
• Внутри 6 курсов (база по ml первые три курса, очень хороший курс по статистике 4й, 5-6 практика можно пропускать)
• Открытые решения / соревнования на Kaggle. Учат метрикам и валидации, и конечно строить звездолеты
• Лекции с датафеста https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w и особенно ml training https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB (тк это база старые доклады могут быть даже полезнее)
Практика/документация
• Углубиться в бустинги (надо хорошо понимать как и когда их применять, тк это основа в табличных задачах)
• Документация: https://catboost.ai/ https://xgboost.readthedocs.io/en https://lightgbm.readthedocs.io/en
2. Introducing MLOps (издательство O'Reilly)
• 200 страниц о том, как управлять моделями машинного обучения, чтобы они хорошо работали ("DevOps" для моделей).
3. Хайповый system design книжка Designing Machine Learning Systems (O'Reilly)
• О правильном построении моделей с точки зрения выбора метрик, поддерживаемости и масштабируемости
4. Развитие аналитических навыков – последнее в базе, но первое по важности
• Книга «Девенпорт, аналитика как конкурентное преимущество»
• Книга Data science for business
• Разобраться с SQL и Pandas – для работы с данными
5. Курс по рекомендательным системам Recsys: https://m.youtube.com/watch?v=igwNb7dBlms (основное - 5 лекций, остальное - прикладные кейсы)
6. АБ-тестирование:
• https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f (гайд от VK)
• https://practicum.yandex.ru/statistics-basic/ (бесплатный курс от Яндекса)
• Книга Trustworthy Online Controlled Experiments
7. NLP – путь тут длинный. Нужно разобраться в tf-idf -> Word2vec и fasttext -> lstm -> трансформеры -> berts -> gpt -> LLM (+lora). Помогут один из следующих курсов
• Курс от ШАДа по NLP https://github.com/yandexdataschool/nlp_course
• Хорошо зарекомендовавший https://lena-voita.github.io/nlp_course.html
• База до трансформеров включительно от Abby, хоть и немного устаревший https://github.com/DanAnastasyev/DeepNLP-Course
• Здесь и далее очень круто погружают различные публикации с обзорными статьями. Наприме A Comprehensive Overview of Large Language Models https://arxiv.org/pdf/2307.06435
8. CV. Deep Learning with PyTorch база по DL. Практическая книга по компьютерному зрению (как построить первые модели для классификации, сегментации). А дальше уже самостоятельно изучать темы. Важные блоки:
• image classification
• segmentation
• GAN
• object detection
• instant segmentation
• pose estimation
• diffusion models
• multimodal models
• Vision Transformer
• +обзорные статьи
PS Если есть что добавить пишите в комментарии)
👍4