Forwarded from эйай ньюз
Курс по квантизации для тех, кто хочет быть в теме
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
@ai_newz
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
@ai_newz
DeepLearning.AI - Learning Platform
Quantization in Depth
Customize model compression with advanced quantization techniques. Try out different variants of Linear Quantization, including symmetric vs. asymmetric mode, and different granularities.
Forwarded from эйай ньюз
За 4 часа он с нуля пишет GPT-Nano, при этом объясняя каждый шаг. Пока что на Python и только про претрейн, но обещает сделать туториал о создании llm.c и сделать туториал про файнтюн.
Почему он учит GPT-2? Это первая LLM, с неё и началась современная эпоха. К тому же, между ламой и GPT-2 всего дюжина отличий, но GPT-2 Small можно полностью натренировать на одной GPU и сравнить свой трейнинг ран с результатами пейпера. С ламой такое не прокактит.
Туториал
Код
#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Let's reproduce GPT-2 (124M)
We reproduce the GPT-2 (124M) from scratch. This video covers the whole process: First we build the GPT-2 network, then we optimize its training to be really fast, then we set up the training run following the GPT-2 and GPT-3 paper and their hyperparameters…
❤1
Forwarded from Записки Ппилифа (Ppilif)
В Вышке понемногу заканчивается весенний семестр. Каждую неделю обязанностей всё меньше и я чувствую себя всё свободнее. Появилось время не только пить вино на фестах, но и посты писать.
Я рассказывал в прошлом посте, что вписался искать лекторов по ML для майнора в Вышке и выдал большую подборку из прошедших лекций. Курс практически подошёл к концу. Осталось только прочитать одну лекцию про АБ-тесты.
Поэтому хочу поделиться с вами второй подборкой лекций. В курс вписалось дофига классных лекторов. Если кто-то из вас это читает, большое спасибо каждому из вас. Вы офигенные 🤗
Первая часть была из сплошного DL, во второй его поменьше. Каждый лектор даёт введение в свой кусок ML-я, а дальше можно самому копать в него подробнее.
🥛 Кусочек про DL в графах от Эльдара Валитова:
9. Введение в глубинное обучение в анализе графовых данных
Если хочется больше, можно заглянуть в курс Эльдара с ПМИ или в Стэнфордский аналогичный курс, на котором, во многом, основан курс ПМИ. [видео]
Ещё мы два года назад собрали для ML на ФКН классный семинар с базовыми способами учить эмбеды для вершин в графах. [конспект] [тетрадка] [видео]
🥛 Кусочек про временные ряды от разработчиков библиотеки ETNA из Т-банка (Мартин Габдушев и Яков Малышев):
10-11. Временные ряды
Обычно основная проблема в лекциях про временные ряды в том, что люди рассказывают только про ARIMA ииии всё. У меня всегда с этого жутко подгорало. У ребят получилась большая обзорная лекция, где они прошлись по всему спектру задач и моделей, возникающих для временных рядов.
Если хочется копнуть глубже и поисследовать математику, которая стоит за всеми этими моделями, можно закопаться в курс с ФКН от Бори Демешева и Матвея Зехова, все лекции в открытом доступе. Возможно, записи прошлого года поудачнее, тк там нет упоротой вышкинской заставки, когда лектор молчит.
Update: Матвей говорит, что семинары от этого года удачнее, в них было много изменений по сравнению с прошлым :3
🥛 Кусочек про MLOps от Влада Гончаренко
12. Introduction to MLOps
13. Введение в современный MLOps
Полный курс Влада можно найти вот тут. Вроде неплохо выглядит курс от ODS по MLOps, но он проходил три года назад и часть штук могла устареть.
Ещё все очень позитивно отзываются о курсе Макса Рябинина Эффективные системы глубинного обучения. Я пока не смотрел, но планирую летом глянуть свежую шадовскую версию. В открытом доступе есть видео от 2022 года.
Также много инфраструктурных вещей есть в курсе ML для больших данных от Лёши Космачёва. [видосы]
🥛 Кусочек про рекомендательные системы от Сергея Малышева
14. Recsys Intro
15. Recsys Advanced
Если хочется закопаться чуть глубже, рекомендую глянуть лекции с основного курса по ML с ФКН (лекции 11-14), а дальше можно покопаться в репозитории с более продвинутым курсом. Видосов, к сожалению, не нашел 🙁
🥛 Экспериментальный кусочек про области где используют ML. Тут семест кончился, поэтому была только лекция от Димы Сергеева про HealthTech :3
16. Data Science in HealthTech
P.S. Все материалы на гите
Я рассказывал в прошлом посте, что вписался искать лекторов по ML для майнора в Вышке и выдал большую подборку из прошедших лекций. Курс практически подошёл к концу. Осталось только прочитать одну лекцию про АБ-тесты.
Поэтому хочу поделиться с вами второй подборкой лекций. В курс вписалось дофига классных лекторов. Если кто-то из вас это читает, большое спасибо каждому из вас. Вы офигенные 🤗
Первая часть была из сплошного DL, во второй его поменьше. Каждый лектор даёт введение в свой кусок ML-я, а дальше можно самому копать в него подробнее.
9. Введение в глубинное обучение в анализе графовых данных
Если хочется больше, можно заглянуть в курс Эльдара с ПМИ или в Стэнфордский аналогичный курс, на котором, во многом, основан курс ПМИ. [видео]
Ещё мы два года назад собрали для ML на ФКН классный семинар с базовыми способами учить эмбеды для вершин в графах. [конспект] [тетрадка] [видео]
10-11. Временные ряды
Обычно основная проблема в лекциях про временные ряды в том, что люди рассказывают только про ARIMA ииии всё. У меня всегда с этого жутко подгорало. У ребят получилась большая обзорная лекция, где они прошлись по всему спектру задач и моделей, возникающих для временных рядов.
Если хочется копнуть глубже и поисследовать математику, которая стоит за всеми этими моделями, можно закопаться в курс с ФКН от Бори Демешева и Матвея Зехова, все лекции в открытом доступе. Возможно, записи прошлого года поудачнее, тк там нет упоротой вышкинской заставки, когда лектор молчит.
Update: Матвей говорит, что семинары от этого года удачнее, в них было много изменений по сравнению с прошлым :3
12. Introduction to MLOps
13. Введение в современный MLOps
Полный курс Влада можно найти вот тут. Вроде неплохо выглядит курс от ODS по MLOps, но он проходил три года назад и часть штук могла устареть.
Ещё все очень позитивно отзываются о курсе Макса Рябинина Эффективные системы глубинного обучения. Я пока не смотрел, но планирую летом глянуть свежую шадовскую версию. В открытом доступе есть видео от 2022 года.
Также много инфраструктурных вещей есть в курсе ML для больших данных от Лёши Космачёва. [видосы]
14. Recsys Intro
15. Recsys Advanced
Если хочется закопаться чуть глубже, рекомендую глянуть лекции с основного курса по ML с ФКН (лекции 11-14), а дальше можно покопаться в репозитории с более продвинутым курсом. Видосов, к сожалению, не нашел 🙁
16. Data Science in HealthTech
P.S. Все материалы на гите
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller
Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.
Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.
В публичном доступе есть репа с содержанием курса, но самих лекций пока нету
Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)
#ликбез
@ai_newz
Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.
Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.
В публичном доступе есть репа с содержанием курса, но самих лекций пока нету
Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)
#ликбез
@ai_newz
❤5
Forwarded from AI.Insaf
Набросал книжки/курсы, которые помогут стать хорошим DS
База
1. Классическое машинное обучение (табличные данные)
• Изучить можно по книге "Python Machine Learning by Sebastian Raschka". Читать можно все, кроме 13-й главы, которая устарела
• Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса
• Внутри 6 курсов (база по ml первые три курса, очень хороший курс по статистике 4й, 5-6 практика можно пропускать)
• Открытые решения / соревнования на Kaggle. Учат метрикам и валидации, и конечно строить звездолеты
• Лекции с датафеста https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w и особенно ml training https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB (тк это база старые доклады могут быть даже полезнее)
Практика/документация
• Углубиться в бустинги (надо хорошо понимать как и когда их применять, тк это основа в табличных задачах)
• Документация: https://catboost.ai/ https://xgboost.readthedocs.io/en https://lightgbm.readthedocs.io/en
2. Introducing MLOps (издательство O'Reilly)
• 200 страниц о том, как управлять моделями машинного обучения, чтобы они хорошо работали ("DevOps" для моделей).
3. Хайповый system design книжка Designing Machine Learning Systems (O'Reilly)
• О правильном построении моделей с точки зрения выбора метрик, поддерживаемости и масштабируемости
4. Развитие аналитических навыков – последнее в базе, но первое по важности
• Книга «Девенпорт, аналитика как конкурентное преимущество»
• Книга Data science for business
• Разобраться с SQL и Pandas – для работы с данными
5. Курс по рекомендательным системам Recsys: https://m.youtube.com/watch?v=igwNb7dBlms (основное - 5 лекций, остальное - прикладные кейсы)
6. АБ-тестирование:
• https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f (гайд от VK)
• https://practicum.yandex.ru/statistics-basic/ (бесплатный курс от Яндекса)
• Книга Trustworthy Online Controlled Experiments
7. NLP – путь тут длинный. Нужно разобраться в tf-idf -> Word2vec и fasttext -> lstm -> трансформеры -> berts -> gpt -> LLM (+lora). Помогут один из следующих курсов
• Курс от ШАДа по NLP https://github.com/yandexdataschool/nlp_course
• Хорошо зарекомендовавший https://lena-voita.github.io/nlp_course.html
• База до трансформеров включительно от Abby, хоть и немного устаревший https://github.com/DanAnastasyev/DeepNLP-Course
• Здесь и далее очень круто погружают различные публикации с обзорными статьями. Наприме A Comprehensive Overview of Large Language Models https://arxiv.org/pdf/2307.06435
8. CV. Deep Learning with PyTorch база по DL. Практическая книга по компьютерному зрению (как построить первые модели для классификации, сегментации). А дальше уже самостоятельно изучать темы. Важные блоки:
• image classification
• segmentation
• GAN
• object detection
• instant segmentation
• pose estimation
• diffusion models
• multimodal models
• Vision Transformer
• +обзорные статьи
PS Если есть что добавить пишите в комментарии)
База
1. Классическое машинное обучение (табличные данные)
• Изучить можно по книге "Python Machine Learning by Sebastian Raschka". Читать можно все, кроме 13-й главы, которая устарела
• Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса
• Внутри 6 курсов (база по ml первые три курса, очень хороший курс по статистике 4й, 5-6 практика можно пропускать)
• Открытые решения / соревнования на Kaggle. Учат метрикам и валидации, и конечно строить звездолеты
• Лекции с датафеста https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w и особенно ml training https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB (тк это база старые доклады могут быть даже полезнее)
Практика/документация
• Углубиться в бустинги (надо хорошо понимать как и когда их применять, тк это основа в табличных задачах)
• Документация: https://catboost.ai/ https://xgboost.readthedocs.io/en https://lightgbm.readthedocs.io/en
2. Introducing MLOps (издательство O'Reilly)
• 200 страниц о том, как управлять моделями машинного обучения, чтобы они хорошо работали ("DevOps" для моделей).
3. Хайповый system design книжка Designing Machine Learning Systems (O'Reilly)
• О правильном построении моделей с точки зрения выбора метрик, поддерживаемости и масштабируемости
4. Развитие аналитических навыков – последнее в базе, но первое по важности
• Книга «Девенпорт, аналитика как конкурентное преимущество»
• Книга Data science for business
• Разобраться с SQL и Pandas – для работы с данными
5. Курс по рекомендательным системам Recsys: https://m.youtube.com/watch?v=igwNb7dBlms (основное - 5 лекций, остальное - прикладные кейсы)
6. АБ-тестирование:
• https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f (гайд от VK)
• https://practicum.yandex.ru/statistics-basic/ (бесплатный курс от Яндекса)
• Книга Trustworthy Online Controlled Experiments
7. NLP – путь тут длинный. Нужно разобраться в tf-idf -> Word2vec и fasttext -> lstm -> трансформеры -> berts -> gpt -> LLM (+lora). Помогут один из следующих курсов
• Курс от ШАДа по NLP https://github.com/yandexdataschool/nlp_course
• Хорошо зарекомендовавший https://lena-voita.github.io/nlp_course.html
• База до трансформеров включительно от Abby, хоть и немного устаревший https://github.com/DanAnastasyev/DeepNLP-Course
• Здесь и далее очень круто погружают различные публикации с обзорными статьями. Наприме A Comprehensive Overview of Large Language Models https://arxiv.org/pdf/2307.06435
8. CV. Deep Learning with PyTorch база по DL. Практическая книга по компьютерному зрению (как построить первые модели для классификации, сегментации). А дальше уже самостоятельно изучать темы. Важные блоки:
• image classification
• segmentation
• GAN
• object detection
• instant segmentation
• pose estimation
• diffusion models
• multimodal models
• Vision Transformer
• +обзорные статьи
PS Если есть что добавить пишите в комментарии)
👍4
Forwarded from Kantor.AI (Анастасия)
Какое название ML-школы мы выбрали?
Итак, пораскинув мозгами и почитав ваши идеи для названия нашего проекта, мы с командой всё-таки определились с названием школы. Называться она будет MLinside (хотя вариант "Кантора" никого из нас не оставил равнодушным 😂)
Почему именно так? Во первых, для меня, как для человека, который действительно живет с машинным обучением в сердце, здесь есть некий метафорический смысл. Я верю, что, занимаясь чем-то, намного проще это делать, когда ты это любишь. Поэтому главное, чего мы будем добиваться – делать так, чтобы вы, наши слушатели, влюблялись в ML, чтобы тема стала для вас чем-то большим, чем просто обучением📚 Я считаю, что сейчас самое время влюбляться в машинное обучение, ведь лет 7-10 назад я и представить не мог, что когда-нибудь смогу объяснить своей бабушке, чем я занимаюсь. А сейчас про машинное обучение, искусственный интеллект знают все.
Другая отсылка, конечно, к intel inside. К тому, какие чувства это во мне вызывало в детстве: внутри компьютера, машины, которая так многое может, есть процессор – в некотором смысле сердце вычислений. И здесь хочется, чтобы ML стал сердцем вашей карьеры и вашего будущего.
Также мы заводим новый телеграм-канал, который будет посвящен непосредственно школе MLinside. На него обязательно нужно подписаться, так как все ключевые новости про образование будут выходить именно здесь ⬇️
https://news.1rj.ru/str/ml_inside
Итак, пораскинув мозгами и почитав ваши идеи для названия нашего проекта, мы с командой всё-таки определились с названием школы. Называться она будет MLinside (хотя вариант "Кантора" никого из нас не оставил равнодушным 😂)
Почему именно так? Во первых, для меня, как для человека, который действительно живет с машинным обучением в сердце, здесь есть некий метафорический смысл. Я верю, что, занимаясь чем-то, намного проще это делать, когда ты это любишь. Поэтому главное, чего мы будем добиваться – делать так, чтобы вы, наши слушатели, влюблялись в ML, чтобы тема стала для вас чем-то большим, чем просто обучением📚 Я считаю, что сейчас самое время влюбляться в машинное обучение, ведь лет 7-10 назад я и представить не мог, что когда-нибудь смогу объяснить своей бабушке, чем я занимаюсь. А сейчас про машинное обучение, искусственный интеллект знают все.
Другая отсылка, конечно, к intel inside. К тому, какие чувства это во мне вызывало в детстве: внутри компьютера, машины, которая так многое может, есть процессор – в некотором смысле сердце вычислений. И здесь хочется, чтобы ML стал сердцем вашей карьеры и вашего будущего.
Также мы заводим новый телеграм-канал, который будет посвящен непосредственно школе MLinside. На него обязательно нужно подписаться, так как все ключевые новости про образование будут выходить именно здесь ⬇️
https://news.1rj.ru/str/ml_inside
Telegram
MLinside - школа ML
Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
👍2
Forwarded from grokaem себя (Milana)
какое-то чудо-чудное ОТ А до 1.58 bit по квантизации
Вайб диаграмм, как у illustrated transformers, а объяснения, как у A. Karpathy.
Покрываются быстро, четко и последовательно:
изначальные подходы:
- into от fp32 до int8 через bf16
- symmetric + asymmetric quantization
- калибрация
post-quantization:
- dynamic vs static
- GPTQ
- GGUF
Ну и на сладкое: quantization-aware training, к которому я вернусь отдельно.
Вайб диаграмм, как у illustrated transformers, а объяснения, как у A. Karpathy.
Покрываются быстро, четко и последовательно:
изначальные подходы:
- into от fp32 до int8 через bf16
- symmetric + asymmetric quantization
- калибрация
post-quantization:
- dynamic vs static
- GPTQ
- GGUF
Ну и на сладкое: quantization-aware training, к которому я вернусь отдельно.
🔥1
XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением
https://habr.com/ru/companies/airi/articles/826224/
https://habr.com/ru/companies/airi/articles/826224/
Хабр
XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением
Хабр, привет! Меня зовут Александр Никулин, я аспирант МФТИ и один из исследователей научной группы «Адаптивные агенты» в Институте AIRI. Как можно понять из названия, наша группа заинтересована...
🔥2
Forwarded from Machine learning Interview
Последние несколько лет два этих профессора обсуждали, как преподавать линейную алгебру в эпоху Data Science и искусственного интеллекта. В ходе этих обсуждений и родился этот учебник, который освещает самые важные и востребованные темы линейной алгебры.
Вот некоторые темы учебника для полного представления:
— Векторные пространства
— Ортогональность и проекции
— Сингулярное разложение
— SVD на практике
— Положительно определенные матрицы
— Собственные значения и собственные вектора
— Важные теоремы в линейной алгебре
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from эйай ньюз
🔥Mastering LLMs: Открытый курс по LLM от практиков
Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.
Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.
Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.
Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.
> Ссылка на курс: https://parlance-labs.com/education/
Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.
#ликбез
@ai_newz
Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.
Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.
Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.
Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.
> Ссылка на курс: https://parlance-labs.com/education/
Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.
#ликбез
@ai_newz
👍4
Forwarded from Вихревое общество (plotva research)
Новый Вихрь 5.4
HF PyTorch
HF GGUF
Базовый Вихрь 5той версии (мистраль) обученный на переведенных инструкциях и ответах GPT-4 и улучшенный с помощью ORPO на нашем внутреннем датасете.
Модель имеет довольно высокое разннобразие ответов, поэтому рекомендуется использовать temperature в рендже [0.1, 0.4].
HF PyTorch
HF GGUF
Появилась LLM-арена для русско-язычных LLM
https://llmarena.ru/
https://llmarena.ru/
Дообучаем Llama 3.1 у себя дома
https://habr.com/ru/articles/832984/
https://habr.com/ru/articles/832984/
Хабр
Дообучаем Llama 3.1 у себя дома
Привет, чемпионы! С каждым днем появляется все больше и больше LLM, их показатели растут с таким же темпом. Но в определенных областях они до сих пор не слишком хороши, так как на этапе предобучения...
👍4
Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться
https://habr.com/ru/articles/832856/
https://habr.com/ru/articles/832856/
Хабр
Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться
Привет, чемпионы! Давайте сегодня рассмотрим 5 инструментов, которые стоит применять в своих проектах прямо сейчас и становиться круче. Посмотрим, как улучшить ваш код, чтобы он был без запаха, как...
Forwarded from Техножрица 👩💻👩🏫👩🔧
Захожу после работы на ютуб, а там все сверкает, переливается, крутится, вертится... 😍 Что же это?! ..🤔
...ну конечно же, новое видео от 3blue1brown!
https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9j
Стала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера🥳
✍️ В первой части видео автор показывает, по каким примерно принципам факты могут извлекаться из этих MLP (multi-layer perceptron) слоев. Сама идея о том, что MLP слои трансформера в большей степени отвечают за "вспоминание" фактов, чем его MHA (multi-head attention) слои, известна в ресерч-сообществе довольно давно и берет свое начало из ряда статей, самая известная из которых эта - https://arxiv.org/abs/2202.05262 . Однако, я в первый раз вижу, чтобы эту тему раскрывали в ролике популярного формата!
✍️ Вторая часть раскрывает главный феномен, стоящий за серией постов (и статей) от Anthropic про features superposition ( https://transformer-circuits.pub/2022/toy_model/index.html ). Суть его в том, что в пространство высокой размерности, оказывается, можно напихать неожиданно большое количество векторов, "почти" перпендикулярных друг другу - намного больше, чем количество векторов в ортонормированном базисе этого пространства. Далее вспоминаем, что в пространстве эмбеддинга языковой модели вектора можно интерпретировать как некоторые концепции, а значит, в эмбеддинг можно напихать намного больше "почти" (но не совсем) независимых концепций, чем размерность этого эмбеддинга, получая эдакий раздутый псведо-"базис", по которому можно раскладывать другие вектора и изучать их семантику в соответствии с таким разложением. Это и называется features superposition в статьях Антропик.
Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/
и еще много других интересных ссылок.☕️
#учебные_материалы #объяснения_статей
...ну конечно же, новое видео от 3blue1brown!
https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9j
Стала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера
Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/
и еще много других интересных ссылок.
#учебные_материалы #объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
How might LLMs store facts | Deep Learning Chapter 7
Unpacking the multilayer perceptrons in a transformer, and how they may store facts
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
An equally valuable form of support is to share the videos.
AI Alignment…
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
An equally valuable form of support is to share the videos.
AI Alignment…
❤1
Transformer Explainer: Interactive Learning of Text-Generative Models
https://github.com/poloclub/transformer-explainer
https://github.com/poloclub/transformer-explainer
GitHub
GitHub - poloclub/transformer-explainer: Transformer Explained Visually: Learn How LLM Transformer Models Work with Interactive…
Transformer Explained Visually: Learn How LLM Transformer Models Work with Interactive Visualization - poloclub/transformer-explainer
Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?
https://habr.com/ru/companies/ods/articles/839694/
https://habr.com/ru/companies/ods/articles/839694/
Хабр
Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?
ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем...
Forwarded from L M
Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды