⚡️ Датасет **UltraData-Math** сейчас в топе трендов на HuggingFace. Его идея - сделать упор не на объём, а на качество данных для обучения математическому мышлению.
После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.
Что в нём особенного
- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы
Вывод простой
Для сильной модели важен не только размер, но и чистота и полезность данных.
Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.
https://huggingface.co/datasets/openbmb/UltraData-Math
После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.
Что в нём особенного
- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы
Вывод простой
Для сильной модели важен не только размер, но и чистота и полезность данных.
Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.
https://huggingface.co/datasets/openbmb/UltraData-Math
❤9
Forwarded from Machinelearning
Создатели Claude проанализировали миллионы взаимодействий в Claude Code и через публичный API с помощью их инструмента Clio, чтобы понять, сколько автономии люди реально дают агентам, в каких доменах те работают и насколько рискованны их действия.
За 3 месяца медианная длина самых долгих сессий в Claude Code почти удвоилась - с 25 до более чем 45 минут непрерывной работы. Причем рост плавный и не коррелирует с релизами новых моделей.
Это значит, что дело не только в возможностях модели, а в том, как пользователи выстраивают взаимодействие с агентом.
Среди тех, кто только начинает пользоваться Claude Code, около 20% сессий запускают с полным авто-апрувом, это когда агент выполняет все действия без подтверждений.
У опытных пользователей эта доля больше 40%. Плюс они чаще прерывают агента вручную.
Аnthropic предполагает, что это не потому, что теряется доверие, а потому что они берутся за более сложные задачи и лучше понимают, когда нужно вмешаться.
На самых сложных задачах Claude Code останавливается и задает уточняющий вопрос вдвое чаще, чем по принудительному прерыванию человеком.
Почти половина всей агентной активности через API - за разработкой ПО.
Есть прирост использования в медицине, финансах и кибербезопасности, но пока в небольших объемах.
По итогу исследования, Аnthropic пришла к выводу, что эффективный надзор за агентами требует не только технических ограничений, но и новой инфраструктуры пост-деплойного мониторинга и новых паттернов взаимодействия - где и человек, и агент совместно управляют автономией и рисками.
Текущие модели, по данным компании, технически способны на большую самостоятельность, чем им позволяют на практике.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1
Курсы повышения квалификации при МГУ "Машинное обучение. Искусственные нейронные сети и генетические алгоритмы"
Заканчивается прием заявок на прохождение курсов повышения квалификации "Машинное обучение. Искусственные нейронные сети и генетические алгоритмы", проводимых НИИ ядерной физики имени Д.В.Скобельцына Московского Государственного Университета имени М.В.Ломоносова.
Окончившим курсы МГУ выдаёт удостоверение установленного образца о повышении квалификации на бланке строгого учёта с подписью проректора и гербовой печатью МГУ, в твёрдом переплёте.
Внимание! Занятия будут проходить в двойном формате - очно на территории МГУ на Воробьевых горах с возможностью подключения через zoom, что позволяет обучаться лицам из любого региона РФ.
Занятия будут проходить два раза в неделю в вечернее время.
Регистрация открыта до 5 марта 2026г (включительно).
Получить более подробную информацию о программе обучения и подать заявку для прохождение курсов Вы можете по этому адресу.
Заканчивается прием заявок на прохождение курсов повышения квалификации "Машинное обучение. Искусственные нейронные сети и генетические алгоритмы", проводимых НИИ ядерной физики имени Д.В.Скобельцына Московского Государственного Университета имени М.В.Ломоносова.
Окончившим курсы МГУ выдаёт удостоверение установленного образца о повышении квалификации на бланке строгого учёта с подписью проректора и гербовой печатью МГУ, в твёрдом переплёте.
Внимание! Занятия будут проходить в двойном формате - очно на территории МГУ на Воробьевых горах с возможностью подключения через zoom, что позволяет обучаться лицам из любого региона РФ.
Занятия будут проходить два раза в неделю в вечернее время.
Регистрация открыта до 5 марта 2026г (включительно).
Получить более подробную информацию о программе обучения и подать заявку для прохождение курсов Вы можете по этому адресу.
ml-ann-ga.ru
Курсы повышения квалификации при МГУ по машинному обучению
❤4👀2🔥1🥴1
Forwarded from Анализ данных (Data analysis)
⚡️ Карпаты поделился наблюдением, которое хорошо описывает то, что сейчас происходит с разработкой.
За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.
По сути, они получили главное качество инженера - упорство.
Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.
И это меняет сам подход к разработке.
Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.
Новый рабочий процесс:
* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление
Ключевая компетенция смещается вверх по уровням абстракции:
* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества
Это ещё не магия. Агентам всё ещё нужны:
* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус
Лучше всего они работают там, где результат можно проверить автоматически.
Но главное изменение уже произошло.
Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.
И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.
Если раньше ценился coding,
то теперь растёт ценность agent-engineering.
https://x.com/karpathy/status/2026731645169185220
За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.
По сути, они получили главное качество инженера - упорство.
Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.
И это меняет сам подход к разработке.
Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.
Новый рабочий процесс:
* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление
Ключевая компетенция смещается вверх по уровням абстракции:
* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества
Это ещё не магия. Агентам всё ещё нужны:
* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус
Лучше всего они работают там, где результат можно проверить автоматически.
Но главное изменение уже произошло.
Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.
И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.
Если раньше ценился coding,
то теперь растёт ценность agent-engineering.
https://x.com/karpathy/status/2026731645169185220
❤16🔥6👎3👍1😢1
Forwarded from Machine learning Interview
This media is not supported in your browser
VIEW IN TELEGRAM
Идея в том, чтобы модели могли мгновенно адаптироваться к новым задачам или информации — без долгого fine-tuning, сложных пайплайнов и огромных промптов.
Сегодня у LLM есть проблема:
чтобы обучить модель под новую задачу или добавить знания, обычно требуется:
- дорогое и длительное дообучение
- context distillation
- или длинные, затратные по памяти промпты
Sakana AI предложили другой подход.
Они обучили гиперсеть (Hypernetwork), которая генерирует LoRA-адаптеры «на лету».
Теперь вместо сложного процесса оптимизации достаточно одного forward-pass, чтобы:
- адаптировать модель под новую задачу
- или «встроить» в неё новый документ
Что показывают эксперименты:
Text-to-LoRA
- модель специализируется под новую задачу
- достаточно текстового описания на естественном языке
Doc-to-LoRA
- модель может «внутренне запомнить» длинный документ
- показывает почти идеальную точность на задачах, где текст в 5 раз длиннее контекстного окна
- способна переносить визуальные знания из vision-language модели в текстовую LLM
При этом обе технологии работают с задержкой меньше секунды.
Главное значение работы — снижение порога кастомизации.
Вместо сложного ML-процесса пользователь сможет специализировать модель простым текстовым запросом.
Код и исследования уже открыты для сообщества:
Doc-to-LoRA
Paper: https://arxiv.org/abs/2602.15902
Code: https://github.com/SakanaAI/Doc-to-LoRA
Text-to-LoRA
Paper: https://arxiv.org/abs/2506.06105
Code: https://github.com/SakanaAI/Text-to-LoRA
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Forwarded from Анализ данных (Data analysis)
🔥 Легендарный математик - Дональд Кнут начал свою новую научную работу словами: “Shock! Shock!”
Почему?
Потому что Claude Opus 4.6 решил открытую задачу, над которой Кнут работал несколько недель.
Речь о гипотезе разложения графов из легендарной книги The Art of Computer Programming.
Кнут даже назвал статью в честь ИИ:
“Claude’s Cycles”
Что произошло:
- Claude провёл 31 исследование
- на это ушло примерно 1 час
- Кнут изучил результат
- оформил формальное математическое доказательство
И закончил работу фразой:
> *«Похоже, мне придётся пересмотреть своё мнение о генеративном ИИ.»*
Это сказал человек, который написал библию компьютерных наук.
И назвал научную работу в честь ИИ.
Почитать саму работу можно здесь:
https://cs.stanford.edu/~knuth/papers/claude-cycles.pdf
Почему?
Потому что Claude Opus 4.6 решил открытую задачу, над которой Кнут работал несколько недель.
Речь о гипотезе разложения графов из легендарной книги The Art of Computer Programming.
Кнут даже назвал статью в честь ИИ:
“Claude’s Cycles”
Что произошло:
- Claude провёл 31 исследование
- на это ушло примерно 1 час
- Кнут изучил результат
- оформил формальное математическое доказательство
И закончил работу фразой:
> *«Похоже, мне придётся пересмотреть своё мнение о генеративном ИИ.»*
Это сказал человек, который написал библию компьютерных наук.
И назвал научную работу в честь ИИ.
Почитать саму работу можно здесь:
https://cs.stanford.edu/~knuth/papers/claude-cycles.pdf
👍8🔥4❤3
Ты научишься делать те, которые работают в продакшене.
Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:
• не падают из-за мелких изменений на сайте
• собирают данные в разы быстрее
• обновляют всё автоматически по расписанию
• обходят ограничения и блокировки
• выглядят как полноценный сервис, а не как хаос из файлов
Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключаться.
В итоге ты сможешь:
• забирать данные для своих проектов
• автоматизировать чужую рутину
• создавать инструменты для аналитики
• брать коммерческие заказы на сбор данных
Это навык, который напрямую превращается в деньги.
Не «знаю Python», а «умею профессионально добывать данные из интернета».
🎁 Скидка 50% на Stepik действует 48 часов: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🤡1
⚡️ Бесплатный клон Perplexity сейчас активно хайпует - Perplexica.
Это опенсорс-поисковик с ИИ, который делает глубокий ресерч, проверяет факты и собирает ответы со ссылками на источники.
• Глубокий поиск и фактчекинг — аккуратно собирает информацию и добавляет источники
• Работает как с локальной Ollama, так и с облачными моделями Google, OpenAI и Anthropic
• Можно загружать файлы — документы, видео, аудио и изображения для уточнения запроса
• Есть набор инструментов и виджетов для проведения полноценного исследования
• Умные подсказки помогают лучше сформулировать запрос и получить точный результат
• Упор на приватность - сервис минимизирует утечки данных и контролирует их использование
https://github.com/ItzCrazyKns/Perplexica
Это опенсорс-поисковик с ИИ, который делает глубокий ресерч, проверяет факты и собирает ответы со ссылками на источники.
• Глубокий поиск и фактчекинг — аккуратно собирает информацию и добавляет источники
• Работает как с локальной Ollama, так и с облачными моделями Google, OpenAI и Anthropic
• Можно загружать файлы — документы, видео, аудио и изображения для уточнения запроса
• Есть набор инструментов и виджетов для проведения полноценного исследования
• Умные подсказки помогают лучше сформулировать запрос и получить точный результат
• Упор на приватность - сервис минимизирует утечки данных и контролирует их использование
https://github.com/ItzCrazyKns/Perplexica
👍7🔥5❤4
GPT-5.4 Pro только что показал 38% на FrontierMath Tier 4 - одном из самых сложных математических бенчмарков.
Эти 50 исследовательских задач по математике могут занимать у математиков недели на решение.
Еще год назад лучший результат был 2% (модель o3).
Лучший open-source результат сейчас - 4.2% (Kimi K2.5).
Очень впечатляющий скачок.
Эти 50 исследовательских задач по математике могут занимать у математиков недели на решение.
Еще год назад лучший результат был 2% (модель o3).
Лучший open-source результат сейчас - 4.2% (Kimi K2.5).
Очень впечатляющий скачок.
❤15🔥5👎1
Главная мысль: следующая революция ИИ произойдёт не в софте, а в физическом мире.
Мы больше десяти лет наблюдали, как «software eats the world».
Теперь начинается новая фаза - hardware eats the world.
Пока американские AI-лаборатории соревнуются в лидербордах LLM, Китай делает ставку на физический ИИ: роботы, сенсоры, промышленность и реальные устройства.
Несколько факторов дают Китаю серьёзное преимущество:
- около 70% мирового рынка лидар-сенсоров
- массовое производство harmonic reducers - ключевых механических редукторов для движения роботов
- огромная производственная база
За счёт масштаба Китай уже смог снизить цену домашних роботов-ассистентов примерно до $1400.
Главный вывод Шмидта:
Доминирование в софте не спасёт, если другая страна контролирует железо и цепочки поставок.
ИИ выходит из компьютеров и начинает управлять физическим миром - роботами, машинами, фабриками и инфраструктурой.
И именно здесь сейчас начинается настоящая геополитическая гонка.
Источник
time.com/7382151/china-dominates-the-physical-ai-race/
🎯Полезные Мл-ресурсы 🚀 Max
@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥1