Machinelearning – Telegram
383K subscribers
4.45K photos
858 videos
17 files
4.89K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Внедряйте ИИ в бизнес-процессы и добивайтесь большего 💪

Сегодня нейросети помогают сотрудникам быстрее решать ежедневные задачи. Завтра — ИИ внедряют во все процессы компании и она выходит на новый уровень эффективности.

Научитесь решать стратегические задачи бизнеса с помощью нейросетей на курсе Нетологии «Руководитель проектов в области ИИ». Программу разработали вместе с МФТИ.

Это курс для опытных специалистов, где за 3,5 месяца вы:
🔹 разберётесь в принципах работы машинного обучения;
🔹 научитесь внедрять ИИ-решения в корпоративные системы;
🔹 получите опыт в управлении ИИ-проектами;
🔹 узнаете, как эффективно взаимодействовать с разработчиками и аналитиками.

Записывайтесь на курс, если хотите вывести ИИ-навыки на новый уровень. Есть скидки на обучение группы от 5 человек. Подробнее о программе

🎄Новогоднее чудо в Нетологии: семь курсов вместо одного. За покупку обучения в декабре дарим 6 программ о здоровье, осознанности и продуктивности

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5yXAfe1
13🤣11👍5🔥3🙈2🤗1🦄1
📌Адвент-календарь по ML и DL.

Towardsdatascience запустил декабрьский Адвент-календарь "Machine and Deep Learning", котором предлагает разобраться, что под капотом у ML-процессов.

Фреймворки, например scikit-learn, сделали нас ленивыми. Вызов model.fit стал настолько обыденным, что в эпоху Gen AI кажется, будто обучение модели -это просто подбор параметров.

ML-инженеры жонглируют моделями со сложностью, которая растет в геометрической прогрессии, но при этом они не всегда способны вручную пересчитать и объяснить результаты даже самых простых алгоритмов: линейной регрессии или классификатора.

Модели превратились в "черные ящики", и это огромная проблема, ведь знание, что стоит за каждой функцией, критически важно для понимания процесса.


Фишка в том, что весь материал разбирается в Excel. Звучит диковато, но в этом и есть гений. В отличие от кода, где операции скрыты за функциями, в Excel каждая формула, каждое число, каждый расчет - всё на виду. Никаких "черных ящиков".

Уже вышло 7 статей:

🟢День 1 : k-NN Regressor

🟢День 2 : k-NN Classifier

🟢День 4 : GNB, LDA и QDA

🟢День 5 : GMM (Gaussian Mixture Model)

🟢День 6 : Decision Tree Regressor

🟢День 7 : Decision Tree Classifier

Цикл поможет ответить на вопросы, которые часто остаются за кадром: как грамотно обрабатывать категориальные признаки, когда масштабирование не является правильным решением, и как измерять важность признаков, интерпретируя их напрямую с моделью, минуя модель-агностические пакеты LIME и SHAP.

Серия будет полезна студентам для осмысления формул, и менеджерам для понимания какой ML-метод необходим для бизнеса. А для разработчиков это шанс наконец-то понять теорию.

В общем, это маст-рид для тех, кто хочет перестать быть оператором библиотек и по-настоящему понять, как работает ML-движок.

🔜 Мониторить выход новых статей можно тут, обещают публикацию до конца декабря в формате "один день - одна статья".



@ai_machinelearning_big_data

#AI #ML #DL #Tutorial #Excel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7225🔥14🥰5😁3🆒2🤗1🦄1
Media is too big
VIEW IN TELEGRAM
✔️ Релиз GLM-4.6V с нативной поддержкой вызова функций.

В линейку вошли флагманская GLM-4.6V на 106 млрд. параметров и облегченная GLM-4.6V-Flash (9B). Обе получили контекстное окно в 128k токенов и генерацию смешанного контента, где текст комбинируется с изображениями. Модель может передавать изображения и скриншоты во внешние инструменты без предварительной конвертации в текст, а также встраивать визуальные результаты обратно в цепочку рассуждений.

Обе модели уже на HuggingFace, доступны по API и в веб-версии.
z.ai

✔️ Стартап из шести человек обошел Google Gemini 3 в тесте на логику ARC-AGI.

Команда Poetiq заняла 1 место в полузакрытом бенчмарке ARC-AGI-2, набрав 54% правильных решений. Это позволило стартапу уверенно опередить гиганта индустрии: ранее Google отчитывалась о результате в 45% для Gemini 3 Deep Think.

ARC-AGI, разработанный исследователем Франсуа Шолле, считается одним из самых трудных испытаний для ИИ. Тест проверяет не просто знания, а способность к абстрактному мышлению и решению принципиально новых задач.

Успех Poetiq обеспечен не обучением новой модели, а эффективной оркестрацией уже существующих.
poetiq.ai

✔️ Соавтор архитектуры Transformer выпустил модель для кодинга Rnj-1.

Стартап Essential AI, основанный Ашишем Васвани, представил модель с открытыми весами Rnj-1. При размере всего в 8 млрд. параметров, она демонстрирует топовые результаты в SWE-bench Verified. Rnj-1 набрала 20,8 балла, тогда как аналогичная по размеру Qwen 3 (8B) достигла лишь отметки в 4,5.

В основе новинки лежит архитектура Gemma 3. Разработчики намеренно отказались от упора на пост-трейн и RL. Вместо этого, команда сфокусировалась на качественном предобучении с использованием оптимизатора Muon. Веса базовой и instrust-версии доступны на HF.
essential.ai

✔️ NVIDIA представила крупнейшее обновление CUDA с 2006 года.

Вместе с релизом CUDA 13.1 компания запускает виртуальный набор инструкций для "тайлового" параллельного программирования. Новая парадигма абстрагирует низкоуровневые детали железа, позволяя писать алгоритмы более высокого уровня. CUDA Tile дает возможность оперировать блоками данных, автоматически оптимизируя выполнение под конкретные тензорные ядра и архитектуру памяти.

Фундаментом технологии стал CUDA Tile IR - промежуточное представление, аналогичное PTX, но заточенное под матричные операции. Это обеспечивает кросс-платформенность: написанный код будет эффективно работать на разных поколениях GPU без глубокого рефакторинга.
developer.nvidia.com

✔️ Grok 4.20 обыграл топовые модели в биржевой торговле.

Завершилось соревнование Alpha Arena Season 1.5, где участникам давали по $10 тыс. для автоматической торговли акциями США в течение двух недель. Grok 4.20 не только вышел в плюс, заработав $4 844 (общая доходность 12%), но и существенно опередил конкурентов.

GPT 5.1, Gemini 3.0 Pro и Claude Sonnet 4.5 завершили тот же период с отрицательными результатами. В режиме "осведомленности" Grok показал доходность около 50%. Эксперты полагают, что решающим фактором стал прямой доступ модели к данным платформы X. Анализ постов в реальном времени позволил алгоритму точнее оценивать рыночные настроения и тренды.
nof1.ai

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5425🔥13❤‍🔥1🤗1🦄1
⚡️ «Норникель» выложил MetalGPT-1 - 32B LLM, обученную на миллионe закрытых технологических документов по металлургии и добыче.

Важно не только то, что это доменная модель. Важно каким типом данных её кормили.

Технологические протоколы, регламенты, НИОКР, строй- и проектная документация - это не тексты в привычном ML-смысле.

Это формализованные фрагменты производственного мира: язык процессов, цепочек, ограничений, рисков.
Обучая LLM на таком корпусе, компания фактически создаёт отдельный “data-reality layer”, который универсальные модели просто не видят. И в этом - главная новость.

Появляется новая парадигма: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира как первичного источника данных.

MetalGPT-1 - всего лишь первый пример. Дальше будут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли — собственный язык, собственный датасет, собственная реальность.
И это значит, что domain-first LLM перестают быть экспериментом. Они становятся инфраструктурой.

https://huggingface.co/nn-tech

#llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍195🔥5723😁15🤗5💯1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Boston Dynamics показала работа Atlas, работающего на ИИ-мозге класса “Large Behavior Model”.

Робот выполняет полноценные складские задачи - например, укладывает коробки. Один модуль управляет всем: ходьбой, приседанием, подъёмом, балансом. Навыки не программировали вручную- Atlas научился им по демонстрациям человека.

Это шаг от «заранее прописанных движений» к автономному поведению: единая модель, способная учиться и выполнять сложные моторные задачи.

@ai_machinelearning_big_data

#ai #robots #BostonDynamics
👍73🔥2815👏3🦄2🤔1
🌟 GeoVista: модель для визуальной геолокации.

Tencent в коллаборации с ведущими китайскими университетами выложила в открытый доступ модель GeoVista, которая предлагает интересный подход к решению проблемы "где сделано это фото" - она делает ставку на активный майнинг данных из внешних источников.

Система на архитектуре Qwen2.5-VL-7B-Instruct использует 2 инструмента: функцию зума и поисковый движок, подтягивающий до 10 релевантных ссылок с платформ Tripadvisor, Pinterest и Wikipedia и социальных сетей.

Модель самостоятельно решает, в какой момент задействовать тот или иной инструмент, что, по сути, имитирует ход мыслей человека-расследователя.

GeoVista обучалась сначала (SFT) на 2 тыс. примерах, а потом (RL) уже на 12 тыс. примерах. Для балансировки RL собрали кастомную систему вознаграждений, привязанную к географической точности: правильный ответ на уровне города ценится выше, чем попадание в провинцию или страну.

Готовую модель прогнали на собственном бенчмарке GeoBench. На нем GeoVista показала 92,6% точности при определении страны, 79,6% региона и 72,7% - конкретного города.

Легче всего модели даются панорамы (79,5% точности на уровне города) и стандартные фото (72,2%), а вот спутниковые снимки остаются ахиллесовой пятой, здесь показатель падает до 44,9%.

Если сравнивать с закрытыми моделями, то GeoVista дышит в спину Gemini 2.5 Flash (73,3% на уровне города) и заметно обходит GPT-5, который показал лишь 67,1%. Лидером пока остается Gemini 2.5 Pro с результатом 78,98%, а вот другие открытые модели (Mini-o3-7B), безнадежно отстают с показателем 11,3%.

В метриках физического расстояния разрыв с топами ощутим сильнее. 52,8% предсказаний GeoVista попали в радиус 3 километров от реальной точки, при этом медианное отклонение составило 2,35 километра.

Для сравнения, Gemini 2.5 Pro укладывается в 3-километровую зону в 64,45% случаев с медианным отклонением всего в 800 метров. Даже GPT-5, проигравший в общей точности, показал медиану в 1,86 км.

Помимо модели, команда опубликовала и сам датасет GeoBench: 1142 изображения из 66 стран и 108 городов. В выборку вошли 512 обычных фотографий, 512 панорам и 108 спутниковых снимков.

Главное отличие этого набора от аналогов вроде OpenStreetView-5M - жесткая фильтрация. Разработчики намеренно удалили "нелокализуемые" изображения: крупные планы еды или типичные пейзажи без примет и слишком очевидные достопримечательности, чтобы исключить легкие победы для алгоритмов.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Датасет
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #GeoVista #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
36👍12🥰7🔥3🦄2😭1
⚡️ Mistral AI выпустила Devstral 2.

Компания представила сразу 2 версии модели для кодинга: флагманскую Devstral 2 (123 млрд. параметров) и облегченную Devstral Small 2 (24 млрд).

Старшая модель выбила 72,2% в бенчмарке SWE-bench Verified, закрепив за собой статус одного из лучших инструментов с открытыми весами.

Благодаря контекстному окну в 256k токенов, алгоритм способен удерживать в памяти структуру больших проектов и корректно управлять зависимостями.

Для локального запуска на GPU или CPU подойдет версия Small 2, опубликованная под лицензией Apache 2.0.

Старшая версия требует серьезного железа (от 4-х H100), но обещает быть до 7 раз экономичнее проприетарных аналогов уровня Claude Sonnet.

Вместе с моделями разработчики анонсировали утилиту Mistral Vibe CLI, которая позволяет внедрять ИИ-агентов непосредственно в терминал для автоматизации рефакторинга и оркестрации изменений сразу в нескольких файлах.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7928🔥17🦄4
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI наблюдает взрывной рост корпоративного ИИ.

Компания опубликовала отчет «The state of enterprise AI», который указывает на масштабную трансформацию бизнес-процессов под влиянием ИИ. База корпоративных клиентов превысила 1 миллион организаций, а число Enterprise-мест за год выросло в 9 раз.

Главным трендом стало качественное изменение сценариев использования: потребление ризонинг-токенов подскочило на 320%. Это говорит о том, что бизнес перешел от простых чат-ботов к решению многоступенчатых инженерных и аналитических задач.

Статистика выявила четкую корреляцию между глубиной погружения в технологии и продуктивностью. Сотрудники, использующие GPT-5 Thinking и Deep Research, экономят более 10 часов в неделю, при этом потребляя в 8 раз больше ресурсов модели, чем обычные пользователи. Особенно заметен разрыв в разработке: там генерируют код через ИИ в 17 раз активнее.
openai.com

✔️ Anthropic передала управление протоколом MCP в некоммерческий фонд.

Model Context Protocol передан организации Agentic AI Foundation, действующей в структуре Linux Foundation. Это стратегический шаг: технология универсального стандарта для подключения ИИ-моделей к внешним базам данных и инструментам, теперь гарантированно останется нейтральной и открытой. Соучредителями нового фонда вместе с Anthropic выступили OpenAI и Block, а поддержку инициативе оказывают Google, Microsoft и AWS.

За год существования MCP добился массовости: протокол используют ChatGPT, Gemini, Claude и VS Code, а число загрузок SDK превысило 97 млн. Переход под эгиду Linux Foundation ставит MCP в один ряд с Kubernetes и PyTorch. Теперь развитие стандарта будет определяться сообществом, что важно для создания совместимой экосистемы ИИ-агентов.
anthropic.com

✔️ Китай ограничит использование чипов Nvidia H200 вопреки разрешению на экспорт от США.

Власти КНР планируют ввести строгие ограничения на доступ и эксплуатацию Nvidia H200. Это решение готовится на фоне одобрения экспорта данных чипов со стороны администрации США. Несмотря на неожиданный «зеленый свет» из Вашингтона, Пекин демонстрирует осторожность в вопросах использования зарубежного железа.

Конкретные детали и механизмы новых барьеров пока не обнародованы. МИД Китая в ответ на запросы ограничился стандартным заявлением о важности взаимовыгодного сотрудничества, не прояснив судьбу поставок.
ft.com

✔️ Google выпустит умные очки с ИИ в 2026 году.

Google официально подтвердила планы по запуску линейки смарт-очков с ИИ в 2026 году. Техногигант намерен потеснить Марка Цукерберга на этом рынке, объединив усилия с Samsung, Warby Parker и корейским фешн-брендом Gentle Monster.

В разработке находятся 2 типа устройств. Первый вариант - оправа с аудиосистемой для голосового взаимодействия с ИИ, второй - модель с встроенными дисплеями для навигации и перевода в реальном времени. Чтобы сохранить вес и габариты на уровне обычных очков, инженеры решили перенести основную вычислительную нагрузку на сопряженный смартфон.
cnbc.com

✔️ Инженеры EPFL превратили панцири лобстеров в детали для биогибридных роботов.

В EPFL предложили неожиданное решение для робототехники: использование пищевых отходов в качестве готовых экзоскелетов. В рамках концепции, которую авторы назвали «робототехникой мертвой материи», панцири лобстеров перерабатываются в функциональные механические узлы.

Процесс создания био-гибридов состоит из заполнения оболочки мягким эластомером, установку приводов и покрытия конструкции силиконом, а природная структура панциря обеспечивает идеальный баланс прочности и гибкости. Опытные образцы смогли поднимать вес до 500 граммов и выполнять захват помидора без повреждений.

Инновация решает сразу две задачи: снижает стоимость производства и уменьшает углеродный след, превращая отходы в ресурсы.
news.epfl.ch


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6618🥰6🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Такой дейлик точно не захочется пропускать 👀

ИИ-помощник ГигаЧат общается голосом вообще на любые темы. Его можно перебивать в процессе и что-то уточнять. В чате есть мужской и женский голоса на выбор, а ещё доступна текстовая расшифровка после разговора.

Это удобно, когда нужно быстро обсудить задачу или отрепетировать речь. Работает в веб-версии и приложении на Android.

Переходим и пользуемся! Ниже оставили несколько полезных запросов:
Хочу создать блог про отечественные стартапы. Помоги с идеями: на какие темы писать, как привлечь аудиторию, с чего начать?

Какие навыки будут востребованы в работе в ближайшие 5-10 лет? Что стоит изучать уже сейчас, чтобы оставаться актуальным специалистом?
😁229🤬9👍8🥱6🤣6🔥5👏4
Пентагону приказано готовиться к AGI

На этой неделе на голосование выходит оборонный бюджет на $900 млрд, и внутри есть исторический прецедент.

Впервые Конгресс формально обязал Минобороны США создать к апрелю 2026 года “Комитет по будущему ИИ”.

Его задача - изучать и готовиться к AGI: технологиям, которые могут сравняться или превзойти человека в любых задачах.

Это первый раз, когда военное ведомство США получает прямой мандат анализировать не просто ИИ, а потенциал сверхразумных систем.

Задачи комитета:
1) Изучать продвинутые технологии, которые могут привести к AGI: большие модели, агентные системы, нейроморфные вычисления.

2) Анализировать, как к AGI могут идти Китай, Россия, Иран и Северная Корея, где они могут догнать или опередить США.

3) Сформировать стратегию, где человек остаётся главным.
В законопроекте прямо прописано: Пентагон должен обеспечить механизмы, позволяющие человеку отменять решения ИИ - технически, политически и операционно.

Комитет возглавят заместитель министра обороны и зампред Объединённого комитета начальников штабов, совместно с руководителями видов войск и главным AI-офицером Пентагона.

Итоговый доклад в Конгресс - до января 2027 года.

AGI может прийти через пять лет или через пятьдесят, но США официально начали к нему подготовку.

https://www.perplexity.ai/page/pentagon-ordered-to-form-ai-st-3qDBlb0uS0SHVH5mHEjxJw

@ai_machinelearning_big_data

#ml #ai #agi
48🤣41👍16🔥13🥱4🗿4😁3🌚3🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 IR-SIM - открытый, легковесный Python-симулятор роботов для навигации, управления и обучения с подкреплением

IR-SIM даёт простой способ моделировать роботов, сенсоры и окружения без сложной инфраструктуры и дорогого железа. Подходит для учебных и исследовательских задач, быстрых экспериментов и прототипирования алгоритмов.

Что умеет:
• Симулировать роботов с разной кинематикой, сенсорами и поведением.
• Настраивать сцены через простые YAML-файлы без долгого программирования.
• Визуализировать результаты через встроенный визуализатор на matplotlib - удобно для отладки и понимания.
• Поддерживать столкновения и кастомные политики поведения объектов.
• Работать в мульти-агентных сценариях и проектах по Reinforcement Learning.

Подойдет, когда нужно быстро испытать алгоритм, обучить модель, протестировать динамику робота или создать учебный проект без тяжёлых фреймворков и симуляторов.

IR-SIM включает примеры использования, показывающие навигацию, взаимодействие объектов, визуализацию и сценарии RL - отличный старт для студентов, исследователей и разработчиков автономных систем.
👍4324🔥11🦄1
🚀 Вышло крупное обновление Qwen3-Omni-Flash (версия 2025-12-01)

Что изменилось:

🎙️ Модель намного лучше ведёт разговоры с голосом и видео - общение звучит естественно и непрерывно
Теперь можно задавать характер ИИ через system prompts, например, стиль общения или роль
🗣️ Улучшена поддержка языков: 119 письменных и 19 голосовых
😊 Голоса звучат почти как настоящие люди

Где попробовать:

🎙️ В Qwen Chat - нажмите VoiceChat или VideoChat (правый нижний угол): http://chat.qwen.ai
📝 Подробности в блоге: https://qwen.ai/blog?id=qwen3-omni-20251201
🎧 Онлайн-демо: http://hf.co/spaces/Qwen/Qwen3-Omni-Demo
🎧 Второе демо: http://modelscope.cn/studios/Qwen/Qwen3-Omni-Demo
Realtime API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash-realtime-2025-12-01
📥 Offline API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash-2025-12-01

@ai_machinelearning_big_data


#Qwen #llm #ml
👍2612🔥10💘1🦄1
Россия рискует проспать четвертую технологическую революцию, если частному IT-бизнесу не давать работать

Данные подтверждают тревогу: по свежему Global AI Vibrancy Tool 2025 от Stanford HAI, Россия на 28-м месте из 36 стран по силе AI-экосистемы. Мы отстаем от США (1-е), Китая (2-е) и даже Индии (3-е). В рейтинге IMF AI Preparedness Index, который оценивает, насколько страны готовы к массовому внедрению и безопасному использованию AI, ситуация еще жестче: 53-е место из 174.

При этом потенциал гигантский: по репорту Яков и Партнёры + Яндекс, AI может приносить экономике 8-13 трлн руб. в год, из них до 2,7 трлн только от генеративных моделей. Российский рынок AI уже сейчас растёт на, приблизительно, 30% в год, 74% компаний используют его в ключевых процессах. Если не мешать частному бизнесу, к 2030-му AI добавит к экономике около 11 трлн рублей (как ещё один бюджет Москвы).

В своем свежем посте предприниматель Олег Дерипаска экспертно разбирает, почему в гонке AI Китай потенциально может вытеснить и США, а по сути – весь мир. Китай производит вдвое больше энергии с тарифами на 4–8% ниже, давая скидки до своих техгигантов, что делает их дата-центры и заводы дешевле. В чипах США лидируют по качеству технологий, но Китай удваивает производство ежегодно, пока Запад растёт на треть. Дерипаска цитирует главу Nvidia: по frontier-моделям США впереди на полгода, но open-source (основной рынок) – китайская территория. И главное: китайцы внедряют AI без оглядки, а американцы с опаской. Соперничество не в дуэли GPT и DeepSeek, а в реальных факторах.

А что в России? Больше половины спецов по AI уехали, усиливаются регуляторные барьеры, развитие AI переориентировано на внутренние нужды, а не на экспорт. Решение в поддержке: больше грантов, меньше проверок. Частный бизнес – не угроза, а двигатель, который даже в таких условиях показывает результат: от Яндекса с их RATE (метрикой переводов, которая ловит в семь раз больше ошибок) до МТС с AI Agents Platform (платформа для создания, запуска и масштабирования AI-агентов).

Секрет успеха по Дерипаске, прост: долгосрочное планирование, гос.поддержка перспективных индустрий и помощь лидерам в постройке инфраструктуры. А если не дать работать частному бизнесу, не перестать его кошмарить, то "мы проспим уже четвертую технологическую революцию", и застрянем "в пещере изолированного интернета" с чат-ботом, который рассказывает анекдоты про медведей.
💯89🤣5921😭13👍7🤷‍♂6🥱5😁3🍾2🙊2🦄1
⭐️ Nous Research открыла исходный код Nomos 1.

При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире.

Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году.

Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой.

Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы.

Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть.

Система рассуждений устроена так:
— сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения;
— затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант.

HF: https://huggingface.co/NousResearch/nomos-1
Github: https://github.com/NousResearch/nomos

@ai_machinelearning_big_data

#llm #ml #ai
24👍8🥰3👏1😁1🤔1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Илон Маск:

Я бы притормозил развитие ИИ и робототехники, но не могу - они движутся вперёд слишком стремительно, нравится мне это или нет.

«У меня было много кошмаров про ИИ… много дней подряд».

И что я должен с этим делать?


@ai_machinelearning_big_data
😁83😨1712🥰6🤣5🔥3👏2🥱2