Machine Learning Research – Telegram
Machine Learning Research
955 subscribers
61 photos
7 videos
2 files
1.05K links
Download Telegram
Forwarded from L M
Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды
💻Всем про LLM: наш курс про трансформеры теперь на Хабр

В августе мы представили на ACL наш курс по трансформерным моделям (писала про это тут). А теперь @Sayankotor написала про него потрясающий Хабр пост.

✏️Пост
📕Статья
👀Слайды
🤖Материалы курса
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
🔥2
Forwarded from Sinекура
Вышел следующий пост в блоге Synthesis AI. Пока все обсуждают DeepSeek R1, я написал пост о статье, вышедшей буквально 31 декабря 2024 года — новом механизме памяти Titans, который исследователи из Google добавили в трансформер.

https://synthesis.ai/2025/01/28/attack-of-the-titans-transformers-2-0/

Очень интересная идея, которая с одной стороны вроде как продолжает линейку Mamba и вообще "линейного внимания", но с другой стороны выглядит (и есть!) гораздо проще. По сути авторы нашли способ реализовать простую логичную идею: ввести память как ещё одну небольшую сеть, которая обучается прямо на входе, в процессе его чтения. А Mamba-like модели, которые активно развивались весь прошлый год, как раз дали подходящий метод для того, как это всё реализовать достаточно эффективно, чтобы можно было отмасштабировать.

Это всё больше похоже на то, как (я представляю, будто бы) работает наша человеческая память. Даже пост начал с Александра Лурии в этот раз, хотя, конечно, с него можно было бы почти любой такой пост начинать. Результаты впечатляющие, хотя, конечно, пока это всё маленькие академические эксперименты, ждём, пока в полноценный Gemini встроят; но главное — очень простая идея, наверняка очень скоро будут и продолжения.

Про DeepSeek тоже напишу, конечно, но позже; надо бы написать про o1 replications и о том, где именно там RL и зачем.
1👍1
Forwarded from Kantor.AI
Первый бесплатный курс MLinside

Мы опубликовали на Stepik наш первый бесплатный курс (он же демо платного) - https://stepik.org/users/984760246/

Первым (коммерческим) курсом в MLinside был базовый курс ML. Не то чтобы мало на свете введений в ML. Для меня, например, после 15 лет преподавания, гораздо более интересный курс это ML в бизнесе, который мы тоже уже стартовали в MLinside, и где рассматриваем стандартные задачи, решаемые в компаниях. Но сработал тот же принцип несрезания конверсии, о котором я рассказывал в прошлом посте: вот придет кто-то на ML в бизнесе, поймет, что пока рано, и много чего из базы непонятно, а без базового курса и идти некуда 🙂

Первый поток мы набрали очень быстро, и с головой погрузились в проведение курса. Но в какой-то момент стало понятно, что поток закончится через 6 месяцев, отзывы от самых быстрых студентов пойдут через 3-4 месяца, и все это время не публиковать никакой информации о «Базе ML» будет как-то опрометчиво.

Решением стала публикация отдельных лекций в открытом доступе. Подписчики нас попросили выложить примеры лекций всех преподавателей курса, чтобы можно было оценить подачу материала. Я выбрал несколько видео от каждого, и оказалось, что в целом, даже только по выбранным фрагментам уже можно чему-то научиться.

В самом деле, в итоговый список попали:
- часть лекций по математике
- пара видео про питон
- семинары про линейную регрессию и SGD
- семинар, где собирается простая нейросеть на коленке не в PyTorch, а прям с нуля ручками с объяснением, как это работает
- лекции и семинары по метрикам качества и особенностям их оптимизации и валидации моделей

Посмотрев на все это, мы выложили материалы на Stepik в виде демо курса «База ML». Так что теперь у нас есть небольшой бесплатный курс, где можно познакомиться с основными концепциями: какая математика и какой питон нужны в ML, как работают внутри ML модели на примере линейных моделей и нейросеток (в частности, как и там и там применяется оптимизация с помощью SGD), как валидировать ML модели на примере задачи регрессии. Ко всему этому еще есть тесты и задания, так что проверить себя тоже можно :)

Что будет дальше? По мере расширения нашей линейки курсов, будет больше материалов в открытом доступе. Кроме того, у нас уже сформировался длинный список дополнительных видео для существующих курсов, что-то из них тоже будет опубликовано. Так что ждите новых анонсов! Также пишите, каких видеолекций/курсов вам не хватает в открытом доступе. Подумаем, что можем сделать 🙂
👍1
Forwarded from Machinelearning
LitGPT

20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.

Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs

Установка:


pip install 'litgpt[all]'

Пример:

from litgpt import LLM

llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.


Github
Docs
Video

@ai_machinelearning_big_data



#LitGPT #tutorial #llm #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer
👍2
Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research
👍1
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
2
Forwarded from Душный NLP
Технический отчёт DeepSeek-R1

DeepSeek-R1 — опенсорсная модель, которая на равных конкурирует с o1 от OpenAI. Сегодня разберём технический отчёт её разработчиков.

Компания DeepSeek сделала ставку на RL. В качестве инита взяли DeepSeek-V3-Base и применили метод Group Relative Policy Optimization (GRPO). Система наград включала в себя две составляющие: accuracy reward и format reward. В задачах, связанных с математикой и программированием, получившаяся модель DeepSeek-R1-Zero выдаёт ответы, по качеству на бенчмарках сопоставимые с ответами OpenAI-01-0912.

Однако из-за accuracy reward модель стала тратить больше времени на раздумья. Кроме того, у DeepSeek-R1-Zero возникли способности к рефлексии (reflection) и саморазвитию (self-evolution). Это значит, что модель учится переосмыслять свои генерации и самостоятельно обнаруживать в них ошибки. Разработчики отмечают, что сами не ожидали такого.

Проблема DeepSeek-R1-Zero заключалась в том, что её ответы были трудночитаемыми — модель могла перескакивать с языка на язык в рамках одной генерации. К тому же, они могли быть очень большими — до 10 тысяч токенов. Плюс из отчёта не очень понятно, как модель показывает себя в задачах, не связанных с математикой и кодом.

Весь пайплайн создания финальной версии DeepSeek-R1 разделили на четыре этапа. Первый — Cold Start. В его рамках делали SFT, чтобы повысить читаемость (readability) генераций. В SFT-датасет входили в том числе ответы R1-Zero, исправленные людьми — как отметили в DeepSeek, это дало прирост качества по сравнению с R1-Zero.

Второй этап был аналогичен тому, как обучали R1-Zero, однако здесь к accuracy reward и format reward добавили language consistency reward, чтобы генерации были на одном языке. Качество ответов немного снизилось, однако они больше нравились людям-оценщикам.

Третий этап — Rejection Fine-Tuning. Авторы генерировали ответы на тщательно отобранный набор инструкций и отбирали лучшие, пользуясь, помимо прочего, генеративными наградами на основе DeepSeek-V3. Отсеивались ответы на нескольких языках, слишком длинные генерации и генерации, содержащие код. В итоге получилось 600 тысяч reasoning-примеров. SFT-датасет DeepSeek-V3 использовали как основу для не-reasoning данных, а для ответов на некоторые инструкции генерировали CoT и добавляли его перед ответом. Всего получилось 200 тысяч non-reasoning-примеров.

Последний этап — RLHF. Для reasoning-данных применялся тот же алгоритм, что и в R1-Zero. А для общих данных — стандартные reward-модели, которые оценивали полезность по краткому решению задачи и финальному ответу. А для оценки безвредности рассматривали весь ответ, включая процесс рассуждения.

Получившаяся версия DeepSeek-R1 выигрывает у o1-1217 в пяти из бенчмарках из 11 — в том числе, во всех математических (первая таблица).

В DeepSeek также взяли SFT с V3, сгенерировали ответы с помощью R1 и дистиллировали полученные данные в открытые модели. RL на них не производился. В результате, например, Qwen-7B стала сопоставима по качеству с GPT-4o-0513 (вторая таблица). Однако стоит учесть, что авторы статьи сообщают только о показателях в математических бенчмарках и бенчмарках, проверяющих способность к генерации кода.

В целом, исследование показало, что дистилляция даёт лучшие результаты, чем RL (третья таблица). Но и тут есть оговорка, потому что сравнивали дистилляцию из R1, а RL осуществляли методом, как у R1-Zero.

Авторам статьи не удалось извлечь пользу из метода Process Reward Model (PRM) на этапе обучения. Это было связано со сложностью определения шагов рассуждения их корректности, а также с проблемой «взлома наград».

Также в DeepSeek безуспешно пробовали использовать в обучении Monte Carlo Tree Search (MCTS), как в AlphaGo и AlphaZero. Здесь препятствием стало огромное пространство поиска, которое несравнимо больше, чем в случае с шахматами. Ограничение по top-k при этом приводит к локальному оптимуму. Кроме того, возникают сложности с обучением Value-модели. Тем не менее MCTS способен повысить качество на инференсе.

Разбор подготовил Дмитрий Мокеев

Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатный Deep Research от Perplexity

Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.

Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.

perplexity.ai

@ai_newz
👍1
Forwarded from Sinекура
С тех самых пор, как мой курс искусственного интеллекта более или менее оформился, я мечтал написать книгу, учебник, который бы начинался от азов и понемногу строил здание машинного обучения Больших форм я никогда не боялся, так что начал книгу с энтузиазмом, но, как это всегда бывает, оказалось, что работы во много раз больше, чем представляется поначалу. Активно писал я её несколько лет, с большими перерывами и депрессивными эпизодами, потом ещё несколько месяцев доделывал вёрстку, вносил замечания редактора и всё такое.

И вот — готово. Книга "Машинное обучение: основы" подписана в печать, доступна для предзаказа, должна физически появиться во второй половине марта. 600 страниц (25 из них, правда, список литературы), шесть больших глав. Полное оглавление на сайте издательства тоже выложено.

https://www.piter.com/collection/all/product/mashinnoe-obuchenie-osnovy

Эта книга — существенно расширенный первый семестр моего курса. Кроме основ байесовского вывода, линейной и логистической регрессии и тому подобного, о чём я неизбежно рассказываю каждый год, в книге есть ещё много разных сюжетов — объясняющих, развивающих и иллюстрирующих. И продвинуто-математических, и более "общечеловеческих": история AI, эффект "горячей руки", кризис воспроизводимости в науке, разоблачение закона Ципфа, робастные виды регрессии, оценка Джеймса-Штейна, проспективные и ретроспективные исследования... Эпиграфы и котики тоже прилагаются. Главное для меня, наверное, в том, что я старался писать книгу, которую было бы интересно читать, даже (а может, особенно) если не пытаться проследить за всеми выводами и формулами.

Здесь наверняка будет ещё много постов об этой книге, уж точно сфотографирую, когда получу реальные экземпляры. И это как раз тот случай, когда очень прошу всех расшаривать, давать ссылки на канал и на книжку. Очень надеюсь, что успею написать что-нибудь ещё, пока писать книги ещё не вовсе бессмысленно; эту, кажется, успел.
1
Forwarded from Kantor.AI
Подкаст с Юрой Кашницким

📰 Продолжаю звать на YouTube-канал своей школы MLinside интересных гостей. В этот раз был Юра Кашницкий @new_yorko_times :)

👨‍🏫Большинство людей знает Юру как автора курса mlcourse.ai от ODS, но в беседе было много всего интересного помимо образования :) Про курсы мы конечно тоже не сдержались поговорить, кто досмотрит до этого момента - делитесь в комментариях своими мыслями про идеальный прикладной курс.

🔥🔥🔥О трудоустройстве в Гугл, переезде в Нидерланды, танцах на шесте и machine learning в Европе - смотрите в интервью: https://www.youtube.com/watch?v=dnIDhGeJCpI
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Kali Novskaya
🌸Опенсорс от HuggingFace: рекап за год🌸
#nlp #про_nlp  #nlp_papers

HuggingFace подвели итоги всех открытых проектов, которые научная команда стартапа нициировала за прошедший год. Давайте вместе посмотрим, как много на самом деле значит сила открытого сообщества и организованного труда!

Январь 2025
🐳Open-R1  – открытая инициатива по воспроизведению результатов DeepSeek R1, включа методы пост-тренинга и датасеты. Результаты воспроизводятся! Apache 2.0
🛠️SmolAgents  – фреймворк с полезным абстракциями для построения LLM-агентов, с типичной логикой и классами. Из коробки предлагается использовать поиск DuckDuckGo
и открытые LLM. Apache 2.0

Декабрь 2024
📈Scaling Test Time Compute – подробный разбор стратегий test-time compute методов на примере моделей Llama
📐FineMath – подкорпус на 54 млрд токенов из FineWeb, содержащий математический контент, в том числе пошаговые решения. Есть еще его корпус-побратим FineWeb-edu с образовательными текстами. Лицензия ODC-by

Ноябрь 2024
🤓SmolVLM  – visual-версия SmolLM, принимает на вход картинки и текст. Apache 2.0
Октябрь 2024
🔎LLM Evaluation Guidebook  – подробный материал с лучшими практиками по оценке языковых моделей, включая составление тестов, инструкции аннотаторам, использование LLM-as-a-judge
🗺️FineTasks – бечнмарк для оценки качества претрейна LLM на множестве языков. Лицензия ODC-by

Сентябрь 2024
🎥FineVideo  – датасет на 43 тысячи видео для обучения SORA-like моделей видео-генерации, своя лицензия License CC-By

Лето 2024
📣Speech-to-Speech, Speech-to-Speech Multilingual  – попытка создания модульной GPT4-o. Модули вклают в себя открытые LLM, а также модели STT и TTS, и даже voice activity detection от Silero
🥇Win AIMO – AI Mathemathical Olympiad соревнование выиграно на основе открытых моделей
🤗SmolLM – семейство открытых моделей мини-размера:  135M, 360M, and 1.7B параметров. Пригодно для on-device и real-time задач, при этом сами модели получены не путем дистиллирования, а просто обучены на очень качественных данных: курируемых датасетах с кодом, образовательным контентом и фактологией.  Apache 2.0
🤖LeRobot,LeRobot Tutorial  – курируемый набор моделей, фреймворков, датасетов и туториалов для робототехнического прототипирования. Apache 2.0

Весна 2024
🍷FineWeb – огромный очищенный интернет-корпус для предобучения больших языковых моделей на 15 триллионов токенов. Есть мультиязычная версия, я теперь еще и бенчмарк, доказывающий, что корпус лучше остальных для сходимости моделей. Лицензия ODC-by
🏆Zephyr Mixtral , Zephyr Gemma  – быстрые повторения моделей Gemma и Mixtral на основе синтетических датасетов, обе под своими собственными лицензиями.
Lighteval Release – открытый фреймворк для эффективной и полной оценки LLM (теперь еще и многоязычный). MIT License
⭐️The Stack v2 – очищенный (и лицензионно чистый) датасет для обучения кодовых LLM. Своя собственная лицензия
⭐️StarCoder2 – улучшенная версия модели для генерации кода StarCoder. OpenRAIL license
🌌Cosmopedia – синтетически сгенерированный корпус с фактологически верной информацией, основанной на лицензионно чистых источниках. Apache 2.0

В целом, исключительно постоянная организационная работа  с сообществом и позволяет нагнать закрытые модели, потому что постоянно создаются строящиеся кирпичики, на которых создается дальнейшая воспроизводимость – инфраструктура, модели, датасеты, подходы. 

🟣Блог-пост с проектами
https://huggingface.co/science
Please open Telegram to view this post
VIEW IN TELEGRAM
1