NEW BOT Телеграм, страница

Transformer Explainer: Interactive Learning of Text-Generative Models
https://github.com/poloclub/transformer-explainer

GitHub - poloclub/transformer-explainer: Transformer Explained Visually: Learn How LLM Transformer Models Work with Interactive…

Transformer Explained Visually: Learn How LLM Transformer Models Work with Interactive Visualization - poloclub/transformer-explainer

653 viewsНиколай, 07:00

Machine Learning Research

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?
https://habr.com/ru/companies/ods/articles/839694/

Хабр

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем...

681 viewsНиколай, 07:47

Machine Learning Research

Распределённый инференс llama.cpp через RPC

https://habr.com/ru/articles/843372/

Хабр

Распределённый инференс llama.cpp через RPC

Приветствую, хабровчане! Идея создания данной публикации крутилась в моей голове уже давно, дело в том, что одно из моих хобби связанно с распределёнными вычислениями, а другое хобби связанно с...

833 viewsНиколай, 17:33

Machine Learning Research

Forwarded from L M

Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды

947 viewsНиколай, 10:05

Machine Learning Research

Forwarded from Mashkka про Data Science

💻

Всем про LLM: наш курс про трансформеры теперь на Хабр

В августе мы представили на ACL наш курс по трансформерным моделям (писала про это тут). А теперь @Sayankotor написала про него потрясающий Хабр пост.

✏️Пост
📕Статья
👀Слайды
🤖Материалы курса

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3

930 viewsНиколай, 07:43

Machine Learning Research

Forwarded from gonzo-обзоры ML статей

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

newsletter.languagemodels.co

The Illustrated DeepSeek-R1

A recipe for reasoning LLMs

🔥2

350 viewsНиколай, 09:00

Machine Learning Research

Forwarded from Sinекура

Вышел следующий пост в блоге Synthesis AI. Пока все обсуждают DeepSeek R1, я написал пост о статье, вышедшей буквально 31 декабря 2024 года — новом механизме памяти Titans, который исследователи из Google добавили в трансформер.

https://synthesis.ai/2025/01/28/attack-of-the-titans-transformers-2-0/

Очень интересная идея, которая с одной стороны вроде как продолжает линейку Mamba и вообще "линейного внимания", но с другой стороны выглядит (и есть!) гораздо проще. По сути авторы нашли способ реализовать простую логичную идею: ввести память как ещё одну небольшую сеть, которая обучается прямо на входе, в процессе его чтения. А Mamba-like модели, которые активно развивались весь прошлый год, как раз дали подходящий метод для того, как это всё реализовать достаточно эффективно, чтобы можно было отмасштабировать.

Это всё больше похоже на то, как (я представляю, будто бы) работает наша человеческая память. Даже пост начал с Александра Лурии в этот раз, хотя, конечно, с него можно было бы почти любой такой пост начинать. Результаты впечатляющие, хотя, конечно, пока это всё маленькие академические эксперименты, ждём, пока в полноценный Gemini встроят; но главное — очень простая идея, наверняка очень скоро будут и продолжения.

Про DeepSeek тоже напишу, конечно, но позже; надо бы написать про o1 replications и о том, где именно там RL и зачем.

❤1👍1

362 viewsНиколай, 12:11

Machine Learning Research

Forwarded from Kantor.AI

Первый бесплатный курс MLinside

Мы опубликовали на Stepik наш первый бесплатный курс (он же демо платного) - https://stepik.org/users/984760246/

Первым (коммерческим) курсом в MLinside был базовый курс ML. Не то чтобы мало на свете введений в ML. Для меня, например, после 15 лет преподавания, гораздо более интересный курс это ML в бизнесе, который мы тоже уже стартовали в MLinside, и где рассматриваем стандартные задачи, решаемые в компаниях. Но сработал тот же принцип несрезания конверсии, о котором я рассказывал в прошлом посте: вот придет кто-то на ML в бизнесе, поймет, что пока рано, и много чего из базы непонятно, а без базового курса и идти некуда 🙂

Первый поток мы набрали очень быстро, и с головой погрузились в проведение курса. Но в какой-то момент стало понятно, что поток закончится через 6 месяцев, отзывы от самых быстрых студентов пойдут через 3-4 месяца, и все это время не публиковать никакой информации о «Базе ML» будет как-то опрометчиво.

Решением стала публикация отдельных лекций в открытом доступе. Подписчики нас попросили выложить примеры лекций всех преподавателей курса, чтобы можно было оценить подачу материала. Я выбрал несколько видео от каждого, и оказалось, что в целом, даже только по выбранным фрагментам уже можно чему-то научиться.

В самом деле, в итоговый список попали:
- часть лекций по математике
- пара видео про питон
- семинары про линейную регрессию и SGD
- семинар, где собирается простая нейросеть на коленке не в PyTorch, а прям с нуля ручками с объяснением, как это работает
- лекции и семинары по метрикам качества и особенностям их оптимизации и валидации моделей

Посмотрев на все это, мы выложили материалы на Stepik в виде демо курса «База ML». Так что теперь у нас есть небольшой бесплатный курс, где можно познакомиться с основными концепциями: какая математика и какой питон нужны в ML, как работают внутри ML модели на примере линейных моделей и нейросеток (в частности, как и там и там применяется оптимизация с помощью SGD), как валидировать ML модели на примере задачи регрессии. Ко всему этому еще есть тесты и задания, так что проверить себя тоже можно :)

Что будет дальше? По мере расширения нашей линейки курсов, будет больше материалов в открытом доступе. Кроме того, у нас уже сформировался длинный список дополнительных видео для существующих курсов, что-то из них тоже будет опубликовано. Так что ждите новых анонсов! Также пишите, каких видеолекций/курсов вам не хватает в открытом доступе. Подумаем, что можем сделать 🙂

👍1

312 viewsНиколай, 15:17

Machine Learning Research

Forwarded from Machinelearning

⚡ LitGPT

20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.

Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs

Установка:



pip install 'litgpt[all]'

Пример:


from litgpt import LLM

llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.

▪Github
▪Docs
▪Video

@ai_machinelearning_big_data

#LitGPT #tutorial #llm #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

341 viewsНиколай, 13:28

Machine Learning Research

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

👍2

356 viewsНиколай, 11:58

Machine Learning Research

Forwarded from Love. Death. Transformers.

Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research

huggingface.co

Open-source DeepResearch – Freeing our search agents

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍1

351 viewsНиколай, 08:50

Machine Learning Research

Новый пост от Карпатого. Введение в LLM
https://www.youtube.com/watch?v=7xTGNNLPyMI

YouTube

Deep Dive into LLMs like ChatGPT

This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…

❤1👍1

384 viewsНиколай, 15:44

Machine Learning Research

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .

🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

❤2

283 viewsНиколай, 16:02

Machine Learning Research

Forwarded from Душный NLP

Технический отчёт DeepSeek-R1

DeepSeek-R1 — опенсорсная модель, которая на равных конкурирует с o1 от OpenAI. Сегодня разберём технический отчёт её разработчиков.

Компания DeepSeek сделала ставку на RL. В качестве инита взяли DeepSeek-V3-Base и применили метод Group Relative Policy Optimization (GRPO). Система наград включала в себя две составляющие: accuracy reward и format reward. В задачах, связанных с математикой и программированием, получившаяся модель DeepSeek-R1-Zero выдаёт ответы, по качеству на бенчмарках сопоставимые с ответами OpenAI-01-0912.

Однако из-за accuracy reward модель стала тратить больше времени на раздумья. Кроме того, у DeepSeek-R1-Zero возникли способности к рефлексии (reflection) и саморазвитию (self-evolution). Это значит, что модель учится переосмыслять свои генерации и самостоятельно обнаруживать в них ошибки. Разработчики отмечают, что сами не ожидали такого.

Проблема DeepSeek-R1-Zero заключалась в том, что её ответы были трудночитаемыми — модель могла перескакивать с языка на язык в рамках одной генерации. К тому же, они могли быть очень большими — до 10 тысяч токенов. Плюс из отчёта не очень понятно, как модель показывает себя в задачах, не связанных с математикой и кодом.

Весь пайплайн создания финальной версии DeepSeek-R1 разделили на четыре этапа. Первый — Cold Start. В его рамках делали SFT, чтобы повысить читаемость (readability) генераций. В SFT-датасет входили в том числе ответы R1-Zero, исправленные людьми — как отметили в DeepSeek, это дало прирост качества по сравнению с R1-Zero.

Второй этап был аналогичен тому, как обучали R1-Zero, однако здесь к accuracy reward и format reward добавили language consistency reward, чтобы генерации были на одном языке. Качество ответов немного снизилось, однако они больше нравились людям-оценщикам.

Третий этап — Rejection Fine-Tuning. Авторы генерировали ответы на тщательно отобранный набор инструкций и отбирали лучшие, пользуясь, помимо прочего, генеративными наградами на основе DeepSeek-V3. Отсеивались ответы на нескольких языках, слишком длинные генерации и генерации, содержащие код. В итоге получилось 600 тысяч reasoning-примеров. SFT-датасет DeepSeek-V3 использовали как основу для не-reasoning данных, а для ответов на некоторые инструкции генерировали CoT и добавляли его перед ответом. Всего получилось 200 тысяч non-reasoning-примеров.

Последний этап — RLHF. Для reasoning-данных применялся тот же алгоритм, что и в R1-Zero. А для общих данных — стандартные reward-модели, которые оценивали полезность по краткому решению задачи и финальному ответу. А для оценки безвредности рассматривали весь ответ, включая процесс рассуждения.

Получившаяся версия DeepSeek-R1 выигрывает у o1-1217 в пяти из бенчмарках из 11 — в том числе, во всех математических (первая таблица).

В DeepSeek также взяли SFT с V3, сгенерировали ответы с помощью R1 и дистиллировали полученные данные в открытые модели. RL на них не производился. В результате, например, Qwen-7B стала сопоставима по качеству с GPT-4o-0513 (вторая таблица). Однако стоит учесть, что авторы статьи сообщают только о показателях в математических бенчмарках и бенчмарках, проверяющих способность к генерации кода.

В целом, исследование показало, что дистилляция даёт лучшие результаты, чем RL (третья таблица). Но и тут есть оговорка, потому что сравнивали дистилляцию из R1, а RL осуществляли методом, как у R1-Zero.

Авторам статьи не удалось извлечь пользу из метода Process Reward Model (PRM) на этапе обучения. Это было связано со сложностью определения шагов рассуждения их корректности, а также с проблемой «взлома наград».

Также в DeepSeek безуспешно пробовали использовать в обучении Monte Carlo Tree Search (MCTS), как в AlphaGo и AlphaZero. Здесь препятствием стало огромное пространство поиска, которое несравнимо больше, чем в случае с шахматами. Ограничение по top-k при этом приводит к локальному оптимуму. Кроме того, возникают сложности с обучением Value-модели. Тем не менее MCTS способен повысить качество на инференсе.

Разбор подготовил ❣ Дмитрий Мокеев

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

378 viewsНиколай, 14:31

Machine Learning Research

Forwarded from эйай ньюз

0:54

This media is not supported in your browser

VIEW IN TELEGRAM

Бесплатный Deep Research от Perplexity

Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.

Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.

perplexity.ai

@ai_newz

👍1

255 viewsНиколай, 22:25

Machine Learning Research

Forwarded from Sinекура

С тех самых пор, как мой курс искусственного интеллекта более или менее оформился, я мечтал написать книгу, учебник, который бы начинался от азов и понемногу строил здание машинного обучения Больших форм я никогда не боялся, так что начал книгу с энтузиазмом, но, как это всегда бывает, оказалось, что работы во много раз больше, чем представляется поначалу. Активно писал я её несколько лет, с большими перерывами и депрессивными эпизодами, потом ещё несколько месяцев доделывал вёрстку, вносил замечания редактора и всё такое.

И вот — готово. Книга "Машинное обучение: основы" подписана в печать, доступна для предзаказа, должна физически появиться во второй половине марта. 600 страниц (25 из них, правда, список литературы), шесть больших глав. Полное оглавление на сайте издательства тоже выложено.

https://www.piter.com/collection/all/product/mashinnoe-obuchenie-osnovy

Эта книга — существенно расширенный первый семестр моего курса. Кроме основ байесовского вывода, линейной и логистической регрессии и тому подобного, о чём я неизбежно рассказываю каждый год, в книге есть ещё много разных сюжетов — объясняющих, развивающих и иллюстрирующих. И продвинуто-математических, и более "общечеловеческих": история AI, эффект "горячей руки", кризис воспроизводимости в науке, разоблачение закона Ципфа, робастные виды регрессии, оценка Джеймса-Штейна, проспективные и ретроспективные исследования... Эпиграфы и котики тоже прилагаются. Главное для меня, наверное, в том, что я старался писать книгу, которую было бы интересно читать, даже (а может, особенно) если не пытаться проследить за всеми выводами и формулами.

Здесь наверняка будет ещё много постов об этой книге, уж точно сфотографирую, когда получу реальные экземпляры. И это как раз тот случай, когда очень прошу всех расшаривать, давать ссылки на канал и на книжку. Очень надеюсь, что успею написать что-нибудь ещё, пока писать книги ещё не вовсе бессмысленно; эту, кажется, успел.

www.piter.com

Машинное обучение: основы

Вы узнаете, как методы машинного обучения получаются из основных принципов теории вероятностей, пройдёте путь от теоремы Байеса до обобщённых линейных моделей и узнаете в лицо тех китов, на которых стоит весь современный искусственный интеллект.

❤1

287 viewsНиколай, 12:27

Machine Learning Research

Forwarded from Kantor.AI

Подкаст с Юрой Кашницким

📰 Продолжаю звать на YouTube-канал своей школы MLinside интересных гостей. В этот раз был Юра Кашницкий @new_yorko_times :)

👨‍🏫Большинство людей знает Юру как автора курса mlcourse.ai от ODS, но в беседе было много всего интересного помимо образования :) Про курсы мы конечно тоже не сдержались поговорить, кто досмотрит до этого момента - делитесь в комментариях своими мыслями про идеальный прикладной курс.

🔥🔥🔥О трудоустройстве в Гугл, переезде в Нидерланды, танцах на шесте и machine learning в Европе - смотрите в интервью: https://www.youtube.com/watch?v=dnIDhGeJCpI

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

16 отказов не помешали попасть в Google! | Юрий Кашницкий

Предзапись на 3 поток курса "База ML": https://forms.yandex.ru/u/6822f81984227c4ce223e507/
Демо-курс "База ML": https://clck.ru/3GPYLW
Курс "ML в бизнесе": https://clck.ru/3GPYNG
Подписывайтесь на MLinside в Телеграм: https://news.1rj.ru/str/+xPCRRLylQh5lMmI6
http…

❤1

267 viewsНиколай, 15:30

Machine Learning Research

Forwarded from Kali Novskaya

🌸Опенсорс от HuggingFace: рекап за год🌸
#nlp #про_nlp #nlp_papers

HuggingFace подвели итоги всех открытых проектов, которые научная команда стартапа нициировала за прошедший год. Давайте вместе посмотрим, как много на самом деле значит сила открытого сообщества и организованного труда!

Январь 2025
🐳Open-R1 – открытая инициатива по воспроизведению результатов DeepSeek R1, включа методы пост-тренинга и датасеты. Результаты воспроизводятся! Apache 2.0
🛠️SmolAgents – фреймворк с полезным абстракциями для построения LLM-агентов, с типичной логикой и классами. Из коробки предлагается использовать поиск DuckDuckGo
и открытые LLM. Apache 2.0

Декабрь 2024
📈Scaling Test Time Compute – подробный разбор стратегий test-time compute методов на примере моделей Llama
📐FineMath – подкорпус на 54 млрд токенов из FineWeb, содержащий математический контент, в том числе пошаговые решения. Есть еще его корпус-побратим FineWeb-edu с образовательными текстами. Лицензия ODC-by

Ноябрь 2024
🤓SmolVLM – visual-версия SmolLM, принимает на вход картинки и текст. Apache 2.0
Октябрь 2024
🔎LLM Evaluation Guidebook – подробный материал с лучшими практиками по оценке языковых моделей, включая составление тестов, инструкции аннотаторам, использование LLM-as-a-judge
🗺️FineTasks – бечнмарк для оценки качества претрейна LLM на множестве языков. Лицензия ODC-by

Сентябрь 2024
🎥FineVideo – датасет на 43 тысячи видео для обучения SORA-like моделей видео-генерации, своя лицензия License CC-By

Лето 2024
📣Speech-to-Speech, Speech-to-Speech Multilingual – попытка создания модульной GPT4-o. Модули вклают в себя открытые LLM, а также модели STT и TTS, и даже voice activity detection от Silero
🥇Win AIMO – AI Mathemathical Olympiad соревнование выиграно на основе открытых моделей
🤗SmolLM – семейство открытых моделей мини-размера: 135M, 360M, and 1.7B параметров. Пригодно для on-device и real-time задач, при этом сами модели получены не путем дистиллирования, а просто обучены на очень качественных данных: курируемых датасетах с кодом, образовательным контентом и фактологией. Apache 2.0
🤖LeRobot,LeRobot Tutorial – курируемый набор моделей, фреймворков, датасетов и туториалов для робототехнического прототипирования. Apache 2.0

Весна 2024
🍷FineWeb – огромный очищенный интернет-корпус для предобучения больших языковых моделей на 15 триллионов токенов. Есть мультиязычная версия, я теперь еще и бенчмарк, доказывающий, что корпус лучше остальных для сходимости моделей. Лицензия ODC-by
🏆Zephyr Mixtral , Zephyr Gemma – быстрые повторения моделей Gemma и Mixtral на основе синтетических датасетов, обе под своими собственными лицензиями.
⛅Lighteval Release – открытый фреймворк для эффективной и полной оценки LLM (теперь еще и многоязычный). MIT License
⭐️The Stack v2 – очищенный (и лицензионно чистый) датасет для обучения кодовых LLM. Своя собственная лицензия
⭐️StarCoder2 – улучшенная версия модели для генерации кода StarCoder. OpenRAIL license
🌌Cosmopedia – синтетически сгенерированный корпус с фактологически верной информацией, основанной на лицензионно чистых источниках. Apache 2.0

В целом, исключительно постоянная организационная работа с сообществом и позволяет нагнать закрытые модели, потому что постоянно создаются строящиеся кирпичики, на которых создается дальнейшая воспроизводимость – инфраструктура, модели, датасеты, подходы.

🟣

Блог-пост с проектами
https://huggingface.co/science

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

science (Hugging Face Science)

Org profile for Hugging Face Science on Hugging Face, the AI community building the future.

❤1

281 viewsНиколай, 10:03

About

Blog

Apps

Platform