Machine Learning Research – Telegram
Machine Learning Research
955 subscribers
61 photos
7 videos
2 files
1.05K links
Download Telegram
Forwarded from эйай ньюз
😮Карпатый выпустил туториал о тренировке LLM с нуля

За 4 часа он с нуля пишет GPT-Nano, при этом объясняя каждый шаг. Пока что на Python и только про претрейн, но обещает сделать туториал о создании llm.c и сделать туториал про файнтюн.

Почему он учит GPT-2? Это первая LLM, с неё и началась современная эпоха. К тому же, между ламой и GPT-2 всего дюжина отличий, но GPT-2 Small можно полностью натренировать на одной GPU и сравнить свой трейнинг ран с результатами пейпера. С ламой такое не прокактит.  

Туториал
Код

#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Записки Ппилифа (Ppilif)
В Вышке понемногу заканчивается весенний семестр. Каждую неделю обязанностей всё меньше и я чувствую себя всё свободнее. Появилось время не только пить вино на фестах, но и посты писать.

Я рассказывал в прошлом посте, что вписался искать лекторов по ML для майнора в Вышке и выдал большую подборку из прошедших лекций. Курс практически подошёл к концу. Осталось только прочитать одну лекцию про АБ-тесты.

Поэтому хочу поделиться с вами второй подборкой лекций. В курс вписалось дофига классных лекторов. Если кто-то из вас это читает, большое спасибо каждому из вас. Вы офигенные 🤗

Первая часть была из сплошного DL, во второй его поменьше. Каждый лектор даёт введение в свой кусок ML-я, а дальше можно самому копать в него подробнее.

🥛 Кусочек про DL в графах от Эльдара Валитова:

9. Введение в глубинное обучение в анализе графовых данных

Если хочется больше, можно заглянуть в курс Эльдара с ПМИ или в Стэнфордский аналогичный курс, на котором, во многом, основан курс ПМИ. [видео]

Ещё мы два года назад собрали для ML на ФКН классный семинар с базовыми способами учить эмбеды для вершин в графах. [конспект] [тетрадка] [видео]

🥛 Кусочек про временные ряды от разработчиков библиотеки ETNA из Т-банка (Мартин Габдушев и Яков Малышев):

10-11. Временные ряды

Обычно основная проблема в лекциях про временные ряды в том, что люди рассказывают только про ARIMA ииии всё. У меня всегда с этого жутко подгорало. У ребят получилась большая обзорная лекция, где они прошлись по всему спектру задач и моделей, возникающих для временных рядов.

Если хочется копнуть глубже и поисследовать математику, которая стоит за всеми этими моделями, можно закопаться в курс с ФКН от Бори Демешева и Матвея Зехова, все лекции в открытом доступе. Возможно, записи прошлого года поудачнее, тк там нет упоротой вышкинской заставки, когда лектор молчит.

Update: Матвей говорит, что семинары от этого года удачнее, в них было много изменений по сравнению с прошлым :3

🥛 Кусочек про MLOps от Влада Гончаренко

12. Introduction to MLOps
13. Введение в современный MLOps

Полный курс Влада можно найти вот тут. Вроде неплохо выглядит курс от ODS по MLOps, но он проходил три года назад и часть штук могла устареть.

Ещё все очень позитивно отзываются о курсе Макса Рябинина Эффективные системы глубинного обучения. Я пока не смотрел, но планирую летом глянуть свежую шадовскую версию. В открытом доступе есть видео от 2022 года.

Также много инфраструктурных вещей есть в курсе ML для больших данных от Лёши Космачёва. [видосы]

🥛 Кусочек про рекомендательные системы от Сергея Малышева

14. Recsys Intro
15. Recsys Advanced

Если хочется закопаться чуть глубже, рекомендую глянуть лекции с основного курса по ML с ФКН (лекции 11-14), а дальше можно покопаться в репозитории с более продвинутым курсом. Видосов, к сожалению, не нашел 🙁

🥛 Экспериментальный кусочек про области где используют ML. Тут семест кончился, поэтому была только лекция от Димы Сергеева про HealthTech :3

16. Data Science in HealthTech

P.S. Все материалы на гите
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller

Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.

Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.

В публичном доступе есть репа с содержанием курса, но самих лекций пока нету

Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)

#ликбез
@ai_newz
5
Forwarded from AI.Insaf
Набросал книжки/курсы, которые помогут стать хорошим DS

База
1. Классическое машинное обучение (табличные данные)
• Изучить можно по книге "Python Machine Learning by Sebastian Raschka". Читать можно все, кроме 13-й главы, которая устарела
• Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса
• Внутри 6 курсов (база по ml первые три курса, очень хороший курс по статистике 4й, 5-6 практика можно пропускать)
• Открытые решения / соревнования на Kaggle. Учат метрикам и валидации, и конечно строить звездолеты
• Лекции с датафеста https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w и особенно ml training https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB (тк это база старые доклады могут быть даже полезнее)

Практика/документация
• Углубиться в бустинги (надо хорошо понимать как и когда их применять, тк это основа в табличных задачах)
• Документация: https://catboost.ai/ https://xgboost.readthedocs.io/en https://lightgbm.readthedocs.io/en
2. Introducing MLOps (издательство O'Reilly)
• 200 страниц о том, как управлять моделями машинного обучения, чтобы они хорошо работали ("DevOps" для моделей).
3. Хайповый system design книжка Designing Machine Learning Systems (O'Reilly)
• О правильном построении моделей с точки зрения выбора метрик, поддерживаемости и масштабируемости
4. Развитие аналитических навыков – последнее в базе, но первое по важности
• Книга «Девенпорт, аналитика как конкурентное преимущество»
• Книга Data science for business
• Разобраться с SQL и Pandas – для работы с данными

5. Курс по рекомендательным системам Recsys: https://m.youtube.com/watch?v=igwNb7dBlms (основное - 5 лекций, остальное - прикладные кейсы)

6. АБ-тестирование:
https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f (гайд от VK)
https://practicum.yandex.ru/statistics-basic/ (бесплатный курс от Яндекса)
• Книга Trustworthy Online Controlled Experiments

7. NLP – путь тут длинный. Нужно разобраться в tf-idf -> Word2vec и fasttext -> lstm -> трансформеры -> berts -> gpt -> LLM (+lora). Помогут один из следующих курсов
• Курс от ШАДа по NLP https://github.com/yandexdataschool/nlp_course
• Хорошо зарекомендовавший https://lena-voita.github.io/nlp_course.html
• База до трансформеров включительно от Abby, хоть и немного устаревший https://github.com/DanAnastasyev/DeepNLP-Course
• Здесь и далее очень круто погружают различные публикации с обзорными статьями. Наприме A Comprehensive Overview of Large Language Models https://arxiv.org/pdf/2307.06435

8. CV. Deep Learning with PyTorch база по DL. Практическая книга по компьютерному зрению (как построить первые модели для классификации, сегментации). А дальше уже самостоятельно изучать темы. Важные блоки:
• image classification
• segmentation
• GAN
• object detection
• instant segmentation
• pose estimation
• diffusion models
• multimodal models
• Vision Transformer
• +обзорные статьи


PS Если есть что добавить пишите в комментарии)
👍4
Forwarded from Kantor.AI (Анастасия)
Какое название ML-школы мы выбрали?

Итак, пораскинув мозгами и почитав ваши идеи для названия нашего проекта, мы с командой всё-таки определились с названием школы. Называться она будет MLinside (хотя вариант "Кантора" никого из нас не оставил равнодушным 😂)

Почему именно так? Во первых, для меня, как для человека, который действительно живет с машинным обучением в сердце, здесь есть некий метафорический смысл. Я верю, что, занимаясь чем-то, намного проще это делать, когда ты это любишь. Поэтому главное, чего мы будем добиваться – делать так, чтобы вы, наши слушатели, влюблялись в ML, чтобы тема стала для вас чем-то большим, чем просто обучением📚 Я считаю, что сейчас самое время влюбляться в машинное обучение, ведь лет 7-10 назад я и представить не мог, что когда-нибудь смогу объяснить своей бабушке, чем я занимаюсь. А сейчас про машинное обучение, искусственный интеллект знают все.

Другая отсылка, конечно, к intel inside. К тому, какие чувства это во мне вызывало в детстве: внутри компьютера, машины, которая так многое может, есть процессор – в некотором смысле сердце вычислений. И здесь хочется, чтобы ML стал сердцем вашей карьеры и вашего будущего.

Также мы заводим новый телеграм-канал, который будет посвящен непосредственно школе MLinside. На него обязательно нужно подписаться, так как все ключевые новости про образование будут выходить именно здесь ⬇️

https://news.1rj.ru/str/ml_inside
👍2
Forwarded from grokaem себя (Milana)
какое-то чудо-чудное ОТ А до 1.58 bit по квантизации

Вайб диаграмм, как у illustrated transformers, а объяснения, как у A. Karpathy.

Покрываются быстро, четко и последовательно:
изначальные подходы:
- into от fp32 до int8 через bf16
- symmetric + asymmetric quantization
- калибрация

post-quantization:
- dynamic vs static
- GPTQ
- GGUF

Ну и на сладкое: quantization-aware training, к которому я вернусь отдельно.
🔥1
🌟 Линейная алгебра для Data Science — мощный учебник от Wanmo Kang и Kyunghyun Cho

Последние несколько лет два этих профессора обсуждали, как преподавать линейную алгебру в эпоху Data Science и искусственного интеллекта. В ходе этих обсуждений и родился этот учебник, который освещает самые важные и востребованные темы линейной алгебры.

Вот некоторые темы учебника для полного представления:
— Векторные пространства
— Ортогональность и проекции
— Сингулярное разложение
— SVD на практике
— Положительно определенные матрицы
— Собственные значения и собственные вектора
— Важные теоремы в линейной алгебре

🟡 Linear Algebra for Data Science, pdf

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from эйай ньюз
🔥Mastering LLMs: Открытый курс по LLM от практиков

Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.

Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.

Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.

Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.

> Ссылка на курс: https://parlance-labs.com/education/

Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.

#ликбез
@ai_newz
👍4
Forwarded from Вихревое общество (plotva research)
Новый Вихрь 5.4

Базовый Вихрь 5той версии (мистраль) обученный на переведенных инструкциях и ответах GPT-4 и улучшенный с помощью ORPO на нашем внутреннем датасете.
Модель имеет довольно высокое разннобразие ответов, поэтому рекомендуется использовать temperature в рендже [0.1, 0.4].


HF PyTorch
HF GGUF
Появилась LLM-арена для русско-язычных LLM
https://llmarena.ru/
Захожу после работы на ютуб, а там все сверкает, переливается, крутится, вертится... 😍 Что же это?! ..🤔
...ну конечно же, новое видео от 3blue1brown!

https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9j

Стала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера 🥳

✍️ В первой части видео автор показывает, по каким примерно принципам факты могут извлекаться из этих MLP (multi-layer perceptron) слоев. Сама идея о том, что MLP слои трансформера в большей степени отвечают за "вспоминание" фактов, чем его MHA (multi-head attention) слои, известна в ресерч-сообществе довольно давно и берет свое начало из ряда статей, самая известная из которых эта - https://arxiv.org/abs/2202.05262 . Однако, я в первый раз вижу, чтобы эту тему раскрывали в ролике популярного формата!
✍️ Вторая часть раскрывает главный феномен, стоящий за серией постов (и статей) от Anthropic про features superposition ( https://transformer-circuits.pub/2022/toy_model/index.html ). Суть его в том, что в пространство высокой размерности, оказывается, можно напихать неожиданно большое количество векторов, "почти" перпендикулярных друг другу - намного больше, чем количество векторов в ортонормированном базисе этого пространства. Далее вспоминаем, что в пространстве эмбеддинга языковой модели вектора можно интерпретировать как некоторые концепции, а значит, в эмбеддинг можно напихать намного больше "почти" (но не совсем) независимых концепций, чем размерность этого эмбеддинга, получая эдакий раздутый псведо-"базис", по которому можно раскладывать другие вектора и изучать их семантику в соответствии с таким разложением. Это и называется features superposition в статьях Антропик.

Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/
и еще много других интересных ссылок. ☕️

#учебные_материалы #объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from L M
Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды
💻Всем про LLM: наш курс про трансформеры теперь на Хабр

В августе мы представили на ACL наш курс по трансформерным моделям (писала про это тут). А теперь @Sayankotor написала про него потрясающий Хабр пост.

✏️Пост
📕Статья
👀Слайды
🤖Материалы курса
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3