Machine Learning Research – Telegram
Machine Learning Research
955 subscribers
61 photos
7 videos
2 files
1.05K links
Download Telegram
Forwarded from Роман с данными
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
2👍1
Forwarded from Data Secrets
Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube
🔥5
Forwarded from Tips AI | IT & AI
Media is too big
VIEW IN TELEGRAM
YouLearn — персональный ИИ-репетитор.

Это неплохой конкурент Notebooklm, но с акцентом на обучении.

Сервис превращает любой материал в учебный: делает саммари, отвечает на вопросы по содержанию, генерирует викторины для проверки знаний и флешкарты для закрепления материала.

Также есть голосовой режим и поддержка русского языка.

Можно закинуть файл, аудио, видео, ссылку на сайт, текст или Youtube-видео.

В бесплатном тарифе за всё отвечает Gemini 2.0 Flash, но есть и Claude 3.5 Sonnet, GPT-4o и DeepSeek V3, но за них уже придется заплатить $20/мес.

Работает довольно шустро даже в бесплатном тарифе, и вроде даже без лимитов. С часовым видео справился за пару минут.

• Ссылка [тут].

@tips_ai #tools
4
Forwarded from Pavel Zloi
🇷🇺 FRIDA теперь в GGUF и Ollama

Модель FRIDA от SberDevices - это мощный эмбеддер на базе T5, обученный для универсального представления текста в задачах вроде парафразирования, классификации и поиска.

Однако, из-за того что её токенизатор - Roberta, а веса - T5Encoder её было затруднительно конвертировать в GGUF, но мне таки удалось это сделать.

Поэтому теперь FRIDA доступна:
- на Hugging Face в формате GGUF
- в Ollama для локального инференса

Подробнее о самой модели можно почитать в публикации "Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка" на Хабр и в посте на Телеграм-канале Александра Абрамова (@dealerAI).

Качаем так:
ollama pull evilfreelancer/FRIDA


Пример запроса к Ollama:
curl http://localhost:11434/api/embed -d '{
"model": "evilfreelancer/FRIDA",
"input": "search_query: Где находится НИИ ЧАВО?"
}'


Обратите внимание: на данный момент в Ollama (v0.7.0) возможны баги при обработке некоторых строк (например, длинные русские тексты с query/document), но с llama-embedding модель работает стабильно.

PS. Подробную инструкцию о том как выполнять конвертацию выложу отдельно.
5
Forwarded from эйай ньюз
Стенфордский курс по внутреннему устройству LLM

CS336, Language Modeling from Scratch, показывает, как сделать полноценную LLM с нуля: от сбора и очистки датасета до тренировки, профайлинга и развёртывания модели. Все конспекты, ноутбуки и код сразу публикуют в открытой репе, так что можно повторять эксперименты дома хоть на одной-двух карточках или в колабе.

Курс сделан с большим упором на практику — в качестве пяти домашних заданий предлагают имплементировать сначала чистый Transformer с нуля, затем кастомный FlashAttention 2 на Triton, распределённую тренировку, разобраться со scaling laws, фильтрацей датасета и применением RL в LLM. Требования — уверенный Python и PyTorch.

Лекции на ютубе
Материалы к лекциям
Сайт курса

@ai_newz
1👍1
Forwarded from Vikhr models
Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer
👍1
Какую модель применять в NLP.pdf
110.8 KB
Какую модель применять в NLP?

Написал гайд по выбору модели, который сильно упростит вам жизнь. Не только про LLM, но и про другие модели нейронных сетей.

Пользуйтесь, делитесь с друзьями, задавайте вопросы в комментариях.
Все вопросы разберем.
🔥2
Forwarded from Data Secrets
Новая лекция от Андрея Карпаты: «Разработка в эпоху ИИ»

На этой неделе в Сан-Франциско прошло крупное мероприятие AI Startup School от очень известного венчурного фонда Y Combinator.

На нем со своей свежей лекцией выступил легендарный Андрей Карпаты. Запись уже можно найти здесь. Внутри:

Куда движется software разработка, и к чему мы придем через пару лет

Как выглядит вайб-кодинг здорового человека сегодня и что такое partial autonomy apps

Как будут работать операционные системы на основе LLM

В чем основные проблемы современных LLM и почему они на самом деле возникают

Чему обязательно нужно учиться современному программисту


В общем, советуем посмотреть. Лекции Карпаты, как всегда, на высоте
Please open Telegram to view this post
VIEW IN TELEGRAM
1
🤖Курс по Трансформерам и LLM - NEW EDITION

Обновили материалы курса по Трансформерам и LLM. Повились новые материалы про диалоговые и мультимодальные модели, а также самые последние LLM, включая DeepSeek.

@mashkka_ds

#llm #трансформеры #полезныематериалы
1👍1
Нашел потрясный курс по RAG.

Здесь 22 урока по имплементации различных RAG-техник: от самого базового на эмбеддингах, до RAG-а на графе и добучения с помощью Reinforcement Learning.

Что самое приятное: все пишется с нуля на Python.

Обычно все клепают RAG-и так: берем готовый фреймворк (LangChain и тд), смотрим туториал "how implement rag", берем готовые модули оттуда. Для быстрых прототипов это ок вариант, но так нормально не разобраться, как что работает.

Только разобравшись, как это все пишется с нуля, сможете потом делать надежные LLM-системы. И на любом фреймворке.

Вы как знаете, а я пошел повторять.
🔥5
Обновление модели RuadaptQwen3-32B-Instruct! (v2)
Текущая версия более стабильная, в частности с точки зрения циклов, некорректных символов и работы с длинными контекстами, а также подросли метрики относительно v1.

Были добавлены метрики для сравнения с исходной версией Qwen3 и видно, что адаптация прошла успешно, где-то есть небольшие просадки, но в целом все на уровне.

Очень жду от вас отзывов и проблемных промптов для дальнейшей прокачки моделей, ну а пока приступим к адаптации меньших версий 🚀

Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Please open Telegram to view this post
VIEW IN TELEGRAM
Число постов в канале упало не просто так (о, великий султан, на то была тысяча причин).

И основная — нам с ребятами очень хотелось систематизировать наработки по мультиагентным системам (мы строим их уже полтора года) и поделиться этими знаниями с миром.

Мы запустили курс по ИИ-агентам, не супер большой, но, надеюсь, достаточно емкий.

Я расскажу (и покажу) базу — токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.

Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет -- он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее. // Дима юзает qwen-agent

Надеюсь, мы смогли поймать баланс между обзорным курсом на 5 живых вебинаров, базой, практикой и способностью студента на выходе не просто собрать очередной прототип, а выстроить систему, которая в каждой точке оценивается и понятно как ее развивать, масштабировать, делать точнее.

Если вдруг кто захочет поучиться — есть промокод, datarascals
👍3
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Вау: Google выпустили опенсорсного агента Gemini CLI для использования ИИ прямо из терминала

Из командной строки можно будет пользоваться всеми возможностями Gemini 2.5 Pro: поиск в Интернете, обработка любых файлов, автоматизация рабочих процессов (типа отправки PR), написание кода и прочее и прочее. Контекст – 1 миллион токенов, так что вместится большинство даже самых больших проектов.

При желании можно прикрутить любой MCP. Например, генерировать прямо из терминала картинки или видео, привязать Notion/Jira или что-то еще.

Ну и самое главное – это лимиты. Абсолютно бесплатно доступно 60 запросов в минуту и 1000 в день. Приятно 🍯

github.com/google-gemini/gemini-cli
4
в сообществе ODS начинается новый проект - Дата-капитаны, его делают Валентин Малых и Дмитрий Колодезев; в рамках этого проекта запланировано обсуждение свежих новостей про ИИ в режиме подкаста под условным названием "Капитанский мостик"

первый подкаст будет выпущен в воскресенье, до пятницы можно присылать новости и статьи для обсуждения в канал data_captain в Mattermost (если еще не заходили, авторизуйтесь через ODS)
👍1😁1
Forwarded from ODS Events
Всем привет!
Представляем вашему внимаю первый выпуск подкаста "Капитанский мостик", он посвящен важным новостям прошедшей недели; ведущие - Валентин Малых и Дмитрий Колодезев; видео тут:
VK Video
YouTube

Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизируйтесь через ODS.ai)
👍4
Forwarded from Data Secrets
О, новый релиз от Андрея Карпаты

Это один из самых безумных репозиториев, которые я когда-либо писал


Сразу ссылка: github.com/karpathy/nanochat

nanochat – это что-то типа продолжения легендарного nanoGPT. Но если nanoGPT – это, по сути, только предобучение, то здесь у нас полностью готовый конвейер для обучения и инференса целого мини-клона ChatGPT.

В лучших традициях кода Карпаты – совсем немного строк (всего 8к) и минимальное количество зависимостей. Вы просто открываете проект на любом облачном GPU-сервере, запускаете один скрипт, и уже через 4 часа можете общаться с LLM-кой в собственном ChatGPT.

В пересчете на аренду GPU это будет стоить примерно 100 долларов. Если готовы потратить больше, то можно масштабировать и получать лучшие результаты.

Моя цель – собрать весь «сильный базовый» стек в один связный, минималистичный, читаемый и максимально форкаемый репозиторий. nanochat станет итоговым проектом LLM101n <мы об этом курсе писали тут>. Думаю, у него также есть потенциал стать исследовательским инструментом или бенчмарком, подобным ранее существовавшему nanoGPT.


Технические детали о том, что просходит внутри проекта, можно почитать здесь.

Огонь же?
🔥31
Forwarded from Data Secrets
HuggingFace релизнули замечательную свежую книгу про обучение LLM

200+ страниц, 7 больших глав. Содержание примерно следующее:

– Архитектуры, их особенности и оптимизация гиперпараметров
– Работа с данными
– Предобучение и какие в нем есть подводные камни
– Пост-трейнинг: все современные подходы и как их применять
– Инфраструктура, как ее правильно строить и оптимизировать

По сути, это готовое хардовое пособие по тому, как с нуля обучить и захостить LLM.

Написано все на довольно простом английском и читается легко + есть куча схем и примеров. В общем, выглядит годно.

huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
👍6
Forwarded from КПД
На этой неделе ребята из команды YandexGPT совместно c ШАДом (Школа анализа данных) провели интенсив по работе с LLM, где были затронуты вопросы обучения, инференса, и коммуникаций.

Материал довольно подробный и интересный, но требует определенной базы для вхождения.

В общем, рекомендую к просмотру всем интересующимся и желающим освежить знания.

Лекция 1: https://youtube.com/live/JMUWSdSD1Uk
Лекция 2: https://youtube.com/live/IAeAKcdMtsw
Лекция 3: https://youtube.com/live/BYiFv5PoMBw
Лекция 3.1: https://youtube.com/live/-52RgKQENl0
Лекция 4: https://youtube.com/live/VXI41kyQTPs
Лекция 5: https://youtube.com/live/AHMJICS2JQ0
Лекция 5.1: https://www.youtube.com/live/3v43mnx31OQ
🔥6
Forwarded from Институт AIRI
Институт AIRI презентовал Maestro на AIJ 🔖

Maestro — фреймворк для создания интеллектуальных ИИ-агентов, которые мыслят и работают как настоящие эксперты. Он строит цепочки рассуждений на основе реальных кейсов и разбивает сложные задачи на мини-агентов, каждый из которых отвечает за свой навык.

Платформа обеспечивает полный технологический стандарт: от авторизации и хранения контекста до оркестрации агентов и модерации контента с защитой от jailbreak-атак. Maestro подходит для критически важных сфер, где важна точность и безопасность. Качество подтверждено тестами и реальным внедрением в СберЗдоровье, СберМедИИ и ЦРТ Сбера.

Страница фреймворка | Forbes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1👎1