NEW BOT Телеграм, страница - 530785112

Machine Learning Research

955 subscribers

61 photos

7 videos

2 files

1.05K links

Download Telegram

About

Blog

Apps

Platform

Machine Learning Research

955 subscribers

Machine Learning Research

Forwarded from эйай ньюз

🔥Mastering LLMs: Открытый курс по LLM от практиков

Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.

Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.

Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.

Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.

> Ссылка на курс: https://parlance-labs.com/education/

Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.

#ликбез
@ai_newz

👍4

698 viewsНиколай, 07:18

Machine Learning Research

Forwarded from Вихревое общество (plotva research)

Новый Вихрь 5.4

Базовый Вихрь 5той версии (мистраль) обученный на переведенных инструкциях и ответах GPT-4 и улучшенный с помощью ORPO на нашем внутреннем датасете.
Модель имеет довольно высокое разннобразие ответов, поэтому рекомендуется использовать temperature в рендже [0.1, 0.4].

HF PyTorch
HF GGUF

624 viewsНиколай, 09:41

Machine Learning Research

Появилась LLM-арена для русско-язычных LLM
https://llmarena.ru/

619 viewsНиколай, 13:33

Machine Learning Research

Дообучаем Llama 3.1 у себя дома
https://habr.com/ru/articles/832984/

Дообучаем Llama 3.1 у себя дома

Привет, чемпионы! С каждым днем появляется все больше и больше LLM, их показатели растут с таким же темпом. Но в определенных областях они до сих пор не слишком хороши, так как на этапе предобучения...

👍4

581 viewsНиколай, 10:57

Machine Learning Research

Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться
https://habr.com/ru/articles/832856/

Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться

Привет, чемпионы! Давайте сегодня рассмотрим 5 инструментов, которые стоит применять в своих проектах прямо сейчас и становиться круче. Посмотрим, как улучшить ваш код, чтобы он был без запаха, как...

520 viewsНиколай, 08:05

Machine Learning Research

Шлепа — Большой Русский Бенчмарк
https://habr.com/ru/articles/840176/

Шлепа — Большой Русский Бенчмарк

Здарова, хабровчане! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа — большой русский бенчмарк. Как оценить генеративные ллм Давайте кратко разберемся как...

455 viewsНиколай, 07:23

Machine Learning Research

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Захожу после работы на ютуб, а там все сверкает, переливается, крутится, вертится... 😍 Что же это?! ..🤔
...ну конечно же, новое видео от 3blue1brown!

https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9j

Стала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера 🥳

✍️ В первой части видео автор показывает, по каким примерно принципам факты могут извлекаться из этих MLP (multi-layer perceptron) слоев. Сама идея о том, что MLP слои трансформера в большей степени отвечают за "вспоминание" фактов, чем его MHA (multi-head attention) слои, известна в ресерч-сообществе довольно давно и берет свое начало из ряда статей, самая известная из которых эта - https://arxiv.org/abs/2202.05262 . Однако, я в первый раз вижу, чтобы эту тему раскрывали в ролике популярного формата!
✍️ Вторая часть раскрывает главный феномен, стоящий за серией постов (и статей) от Anthropic про features superposition ( https://transformer-circuits.pub/2022/toy_model/index.html ). Суть его в том, что в пространство высокой размерности, оказывается, можно напихать неожиданно большое количество векторов, "почти" перпендикулярных друг другу - намного больше, чем количество векторов в ортонормированном базисе этого пространства. Далее вспоминаем, что в пространстве эмбеддинга языковой модели вектора можно интерпретировать как некоторые концепции, а значит, в эмбеддинг можно напихать намного больше "почти" (но не совсем) независимых концепций, чем размерность этого эмбеддинга, получая эдакий раздутый псведо-"базис", по которому можно раскладывать другие вектора и изучать их семантику в соответствии с таким разложением. Это и называется features superposition в статьях Антропик.

Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/
и еще много других интересных ссылок. ☕️

#учебные_материалы #объяснения_статей

Please open Telegram to view this post

VIEW IN TELEGRAM

How might LLMs store facts | Deep Learning Chapter 7

Unpacking the multilayer perceptrons in a transformer, and how they may store facts
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
An equally valuable form of support is to share the videos.

AI Alignment…

❤1

521 viewsНиколай, 05:06

Machine Learning Research

Transformer Explainer: Interactive Learning of Text-Generative Models
https://github.com/poloclub/transformer-explainer

GitHub - poloclub/transformer-explainer: Transformer Explained Visually: Learn How LLM Transformer Models Work with Interactive…

Transformer Explained Visually: Learn How LLM Transformer Models Work with Interactive Visualization - poloclub/transformer-explainer

653 viewsНиколай, 07:00

Machine Learning Research

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?
https://habr.com/ru/companies/ods/articles/839694/

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем...

681 viewsНиколай, 07:47

Machine Learning Research

Распределённый инференс llama.cpp через RPC

https://habr.com/ru/articles/843372/

Распределённый инференс llama.cpp через RPC

Приветствую, хабровчане! Идея создания данной публикации крутилась в моей голове уже давно, дело в том, что одно из моих хобби связанно с распределёнными вычислениями, а другое хобби связанно с...

833 viewsНиколай, 17:33

Machine Learning Research

Forwarded from L M

Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды

947 viewsНиколай, 10:05

Machine Learning Research

Forwarded from Mashkka про Data Science

💻

Всем про LLM: наш курс про трансформеры теперь на Хабр

В августе мы представили на ACL наш курс по трансформерным моделям (писала про это тут). А теперь @Sayankotor написала про него потрясающий Хабр пост.

✏️Пост
📕Статья
👀Слайды
🤖Материалы курса

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3

930 viewsНиколай, 07:43

Machine Learning Research

Forwarded from gonzo-обзоры ML статей

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

newsletter.languagemodels.co

The Illustrated DeepSeek-R1

A recipe for reasoning LLMs

🔥2

350 viewsНиколай, 09:00

Machine Learning Research

Forwarded from Sinекура

Вышел следующий пост в блоге Synthesis AI. Пока все обсуждают DeepSeek R1, я написал пост о статье, вышедшей буквально 31 декабря 2024 года — новом механизме памяти Titans, который исследователи из Google добавили в трансформер.

https://synthesis.ai/2025/01/28/attack-of-the-titans-transformers-2-0/

Очень интересная идея, которая с одной стороны вроде как продолжает линейку Mamba и вообще "линейного внимания", но с другой стороны выглядит (и есть!) гораздо проще. По сути авторы нашли способ реализовать простую логичную идею: ввести память как ещё одну небольшую сеть, которая обучается прямо на входе, в процессе его чтения. А Mamba-like модели, которые активно развивались весь прошлый год, как раз дали подходящий метод для того, как это всё реализовать достаточно эффективно, чтобы можно было отмасштабировать.

Это всё больше похоже на то, как (я представляю, будто бы) работает наша человеческая память. Даже пост начал с Александра Лурии в этот раз, хотя, конечно, с него можно было бы почти любой такой пост начинать. Результаты впечатляющие, хотя, конечно, пока это всё маленькие академические эксперименты, ждём, пока в полноценный Gemini встроят; но главное — очень простая идея, наверняка очень скоро будут и продолжения.

Про DeepSeek тоже напишу, конечно, но позже; надо бы написать про o1 replications и о том, где именно там RL и зачем.

❤1👍1

362 viewsНиколай, 12:11

Machine Learning Research

Forwarded from Kantor.AI

Первый бесплатный курс MLinside

Мы опубликовали на Stepik наш первый бесплатный курс (он же демо платного) - https://stepik.org/users/984760246/

Первым (коммерческим) курсом в MLinside был базовый курс ML. Не то чтобы мало на свете введений в ML. Для меня, например, после 15 лет преподавания, гораздо более интересный курс это ML в бизнесе, который мы тоже уже стартовали в MLinside, и где рассматриваем стандартные задачи, решаемые в компаниях. Но сработал тот же принцип несрезания конверсии, о котором я рассказывал в прошлом посте: вот придет кто-то на ML в бизнесе, поймет, что пока рано, и много чего из базы непонятно, а без базового курса и идти некуда 🙂

Первый поток мы набрали очень быстро, и с головой погрузились в проведение курса. Но в какой-то момент стало понятно, что поток закончится через 6 месяцев, отзывы от самых быстрых студентов пойдут через 3-4 месяца, и все это время не публиковать никакой информации о «Базе ML» будет как-то опрометчиво.

Решением стала публикация отдельных лекций в открытом доступе. Подписчики нас попросили выложить примеры лекций всех преподавателей курса, чтобы можно было оценить подачу материала. Я выбрал несколько видео от каждого, и оказалось, что в целом, даже только по выбранным фрагментам уже можно чему-то научиться.

В самом деле, в итоговый список попали:
- часть лекций по математике
- пара видео про питон
- семинары про линейную регрессию и SGD
- семинар, где собирается простая нейросеть на коленке не в PyTorch, а прям с нуля ручками с объяснением, как это работает
- лекции и семинары по метрикам качества и особенностям их оптимизации и валидации моделей

Посмотрев на все это, мы выложили материалы на Stepik в виде демо курса «База ML». Так что теперь у нас есть небольшой бесплатный курс, где можно познакомиться с основными концепциями: какая математика и какой питон нужны в ML, как работают внутри ML модели на примере линейных моделей и нейросеток (в частности, как и там и там применяется оптимизация с помощью SGD), как валидировать ML модели на примере задачи регрессии. Ко всему этому еще есть тесты и задания, так что проверить себя тоже можно :)

Что будет дальше? По мере расширения нашей линейки курсов, будет больше материалов в открытом доступе. Кроме того, у нас уже сформировался длинный список дополнительных видео для существующих курсов, что-то из них тоже будет опубликовано. Так что ждите новых анонсов! Также пишите, каких видеолекций/курсов вам не хватает в открытом доступе. Подумаем, что можем сделать 🙂

👍1

312 viewsНиколай, 15:17

Machine Learning Research

Forwarded from Machinelearning

⚡ LitGPT

20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.

Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs

Установка:



pip install 'litgpt[all]'

Пример:


from litgpt import LLM

llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.

▪Github
▪Docs
▪Video

@ai_machinelearning_big_data

#LitGPT #tutorial #llm #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

341 viewsНиколай, 13:28

Machine Learning Research

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

👍2

356 viewsНиколай, 11:58

Machine Learning Research

Forwarded from Love. Death. Transformers.

Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research

Open-source DeepResearch – Freeing our search agents

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍1

351 viewsНиколай, 08:50

Machine Learning Research

Новый пост от Карпатого. Введение в LLM
https://www.youtube.com/watch?v=7xTGNNLPyMI

Deep Dive into LLMs like ChatGPT

This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…

❤1👍1

384 viewsНиколай, 15:44

Machine Learning Research

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .

🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

❤2

283 viewsНиколай, 16:02