Forwarded from xCode Journal
Python Software Foundation отказалась от гранта в размере 1,5 миллиона долларов от правительства США, поскольку он требовал от неё отказаться от дискриминационных политики и практик в области разнообразия, равенства и включения (DEI)
«PSF приняла решение поставить наше сообщество и наши общие ценности в области разнообразия, равенства и включения выше получения 1,5 млн долл. нового дохода».
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤6😁3👍2👎1
ChatGPT Atlas: Как ИИ победил в судоку, но проиграл в Flappy Bird 🤬
Модели, вроде ChatGPT Atlas, могут не только читать контекст страниц, но и целенаправленно кликать и нажимать клавиши. Исследователи протестировали Atlas на нескольких играх, от судоку до Flappy Bird. Результат оказался немного неожиданным: агент блеснул в пошаговых задачах, но с реальным временем у него возникли проблемы. Почему так?
Этот эксперимент подчеркивает важную границу между когнитивными способностями ИИ и его действиями в реальном времени. В будущем такие способности, скорее всего, будут разделены: один агент будет заниматься анализом и пониманием контекста, а другой — исполнять команды в реальном времени. Вот так и появится идеальная команда «мыслителей» и «исполнителей»😄
Data Science
Модели, вроде ChatGPT Atlas, могут не только читать контекст страниц, но и целенаправленно кликать и нажимать клавиши. Исследователи протестировали Atlas на нескольких играх, от судоку до Flappy Bird. Результат оказался немного неожиданным: агент блеснул в пошаговых задачах, но с реальным временем у него возникли проблемы. Почему так?
Игры — это не просто развлечение. Они предоставляют отличную модель реального мира, где можно проверить, как ИИ решает задачи с четкими правилами и обратной связью. Причем, игры с такими параметрами, как реакция на интерфейс, возможность планировать действия и выполнять многошаговые задачи, дают нам много полезной информации о возможностях ИИ.
Эксперимент был прост: ChatGPT Atlas запускали с настройками, имитирующими реальную работу агента в браузере, без памяти и дополнительных подсказок. Он просто получал страницу с игрой и начинал действовать, как мог. И каждый раз результат был сравнивался с типичными человеческими бейзлайнами — чтобы понять, насколько ИИ близок к человеку.
— Судоку: Atlas решал задачи за 2 минуты 28 секунд с точностью 100%. Для сравнения, человек бы потратил около 10-12 минут на то же самое. Это прямо впечатляет!
— 2048: В этой игре агент стабильно набирал около 2242 очков, но до рекордов человека (3463 очка с первого раза) ему было далеко. Проблема? Он не выстраивал долгосрочные стратегии и часто застревал на одинаковых уровнях.
— T-Rex Runner: Когда мы говорим о реальном времени, тут начались проблемы. Атлас набрал всего 45,5 очка, по сравнению с 388,9 у человека. И 9 из 10 раз он не мог даже пройти первое препятствие.
— Flappy Bird: Здесь Atlas вообще не набрал ни одного очка. А люди в среднем делали около 3. Агент не мог быстро повторить нажатие одной клавиши — и результат нулевой.
— Stein.world: В этой игре, требующей долгосрочной стратегии и разнообразных действий, Atlas не мог пройти начальную комнату. Однако, после некоторых подсказок, он справился и выполнил задание.
Что можно сказать в итоге?
ChatGPT Atlas отлично справляется с задачами, которые требуют анализа и пошагового подхода, такими как решение судоку или понимание логики в играх вроде 2048. Но как только дело доходит до быстрого реагирования, например в Flappy Bird или T-Rex Runner, ему явно не хватает скорости. Это просто особенность архитектуры: модели вроде Atlas заточены на рассуждения, а не на мгновенную реакцию.
Этот эксперимент подчеркивает важную границу между когнитивными способностями ИИ и его действиями в реальном времени. В будущем такие способности, скорее всего, будут разделены: один агент будет заниматься анализом и пониманием контекста, а другой — исполнять команды в реальном времени. Вот так и появится идеальная команда «мыслителей» и «исполнителей»
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2
Cache-to-Cache: Как модели могут общаться без слов и токенов
Около года назад, Ьicrosoft научила модели общаться без токенов, но только внутри одной архитектуры. А что если бы мы могли заставить разные модели от разных компаний и с разной архитектурой общаться друг с другом? Оказывается, это возможно! Cтатья про парадигму Cache-to-Cache (C2C) заставила задуматься на эту тему🗒
Получается, что обмен кэшами помогает моделям понимать друг друга лучше, чем просто обмен словами. Мощно, мощно.
Data Science
Около года назад, Ьicrosoft научила модели общаться без токенов, но только внутри одной архитектуры. А что если бы мы могли заставить разные модели от разных компаний и с разной архитектурой общаться друг с другом? Оказывается, это возможно! Cтатья про парадигму Cache-to-Cache (C2C) заставила задуматься на эту тему
Давайте немного разберемся. Обычно, когда два агента взаимодействуют в мультимодельной системе, они обмениваются текстом. Звучит нормально, но это не самый эффективный способ. Каждая модель хранит так называемый Key-Value Cache (или KV-кэш) — своеобразное «внутреннее состояние», где содержится информация о том, что она «думает».
И вот если бы модели могли передавать не слова, а этот самый кэш, то все происходило бы гораздо быстрее и результат был бы точнее. Так и появился новый подход: Cache-to-Cache (C2C). В этой модели один агент передает свой кэш (Sharer), а другой (Receiver) через специальную нейросеть-проектор встраивает полученную информацию в свое собственное пространство. Звучит сложно, но на самом деле — это способ «передачи смысла» без использования токенов.
Как это работает на практике?
Для того, чтобы связать два разных кэша, понадобился специальный Projection module, который превращает два разных пространства в общий, понятный для обеих моделей эмбеддинг. Также в протокол добавили Weighting module, который решает, какую информацию стоит передавать.
Какие преимущества этого подхода?
— Скорость. Если сравнивать с классическим Text-to-Text, то обмен кэшами происходит в 2-3 раза быстрее. А это, согласитесь, огромный прирост!
— Точность. Когда модели обменяются кэшами, метрика точности может подняться на 5% по сравнению с тем, если бы они общались текстом. Это уже серьезный результат, особенно если учитывать, что кэш содержит гораздо более полную информацию о «мысли» модели.
Минус тут тоже есть — универсальности подхода не хватает
Каждую пару моделей нужно будет обучать по-своему. Придется настроить свой «мост» между ними, что добавляет определенные сложности. Да и если модели используют разные токенизаторы, то тут будет совсем непросто — нужно будет делать Token alignment.
Получается, что обмен кэшами помогает моделям понимать друг друга лучше, чем просто обмен словами. Мощно, мощно.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Первая видеокарта Nvidia в космосе 🤔
Помните Starcloud? Это тот самый стартап, который планирует перенести датацентры на орбиту, утверждая, что это будет не только круто, но и значительно удешевит вычисления. И вот, на днях, в рамках своих экспериментов, они успешно вывели на орбиту первую видеокарту Nvidia H100 — одну из самых мощных видеокарт в мире.
Представьте, если датацентры в космосе станут нормой. Это откроет новые горизонты для вычислений, сделает доступ к суперкомпьютерам более демократичным и дешёвым. А ещё, это даст уникальные возможности для исследований и тестирования новых технологий, о которых мы сейчас даже не мечтаем.
Data Science
Помните Starcloud? Это тот самый стартап, который планирует перенести датацентры на орбиту, утверждая, что это будет не только круто, но и значительно удешевит вычисления. И вот, на днях, в рамках своих экспериментов, они успешно вывели на орбиту первую видеокарту Nvidia H100 — одну из самых мощных видеокарт в мире.
Для сравнения: самый мощный космический компьютер до этого был Spaceborne Computer-2 от HPE на МКС, который работал со скоростью около 2 терафлопс, используя старенькую Nvidia T4. А вот H100 способна выдать целых 2000 терафлопс — представляете? Это как если бы вы использовали ноутбук из будущего, и при этом этот ноутбук работает прямо в космосе!
Размер спутника с этой видеокартой — как небольшой холодильник, что тоже звучит невероятно, учитывая все условия, в которых работает оборудование. На борту спутника планируют донастроить Gemma от Google — системы, которые смогут использовать все мощности H100.
Стартап Starcloud планирует к 2026 году запустить полноценный датацентр прямо на орбиту, а к 2030 году они хотят вывезти в космос около 100 тонн ускорителей.
Представьте, если датацентры в космосе станут нормой. Это откроет новые горизонты для вычислений, сделает доступ к суперкомпьютерам более демократичным и дешёвым. А ещё, это даст уникальные возможности для исследований и тестирования новых технологий, о которых мы сейчас даже не мечтаем.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🐳6❤3
Forwarded from xCode Journal
This media is not supported in your browser
VIEW IN TELEGRAM
Используйте Drawdata, чтобы нарисовать 2D-датасет прямо в Jupyter. С его помощью можно интерактивно выбирать данные через виджет и обновлять модель по мере того, как данные добавляются
Полностью интерактивно
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7⚡2❤1
Гений в действии: как ИИ помог доказать гипотезу Какея
Недавно в научных кругах случилось нечто действительно захватывающее. Теренс Тао — один из самых умных людей на планете, и Хавьер Гомес-Серрано — авторитетный математик, известный своими исследованиями в области задач Навье-Стокса, объединили усилия с DeepMind для того, чтобы попытаться доказать гипотезу Какея. Давайте разберемся💃
Когда ИИ помогает не только генерировать идеи, но и проверять их, а затем формализовывать доказательства, мы находимся на пороге новых научных открытий.
Data Science
Недавно в научных кругах случилось нечто действительно захватывающее. Теренс Тао — один из самых умных людей на планете, и Хавьер Гомес-Серрано — авторитетный математик, известный своими исследованиями в области задач Навье-Стокса, объединили усилия с DeepMind для того, чтобы попытаться доказать гипотезу Какея. Давайте разберемся
Гипотеза Какея — это задача из области геометрии, которая изучает минимальные размеры множеств, внутри которых можно провести отрезки в любых направлениях, не выходя за пределы множества. Вроде бы всё просто, но задача не решена до сих пор, и именно в этом её привлекательность для математиков. Задача заключается в том, чтобы найти такие множества, которые имеют минимальные размеры, но при этом позволяют создавать отрезки во всех возможных направлениях.
Теперь представьте, что у вас есть мощный ИИ, который может сгенерировать новые примеры таких множеств и помочь с доказательством. И вот тут на сцену выходят инструменты от DeepMind: Gemini Deep Thinking, AlphaEvolve и AlphaProof.
Для того чтобы подойти к решению гипотезы Какея, нужно не просто понять теорию, но и создать реальный пример множества. Тут-то и вмешались ИИ-системы.
• AlphaEvolve взял на себя роль генератора идей, создав новую конструкцию множества Какея в конечных полях
• Gemini Deep Thinking взял на себя проверку: он доказал корректность этой конструкции. То есть, можно было не только увидеть, что идея работала, но и подтвердить её правильность
• AlphaProof завершил работу, формализовав доказательство в системе Lean и полностью верифицировав его
Почему это важно?
Этот случай сильно отличается от того, как мы привыкли видеть «магические» заявления от ИИ, как это делает OpenAI, когда говорит, что GPT-5 открыла «новую математику». Всё-таки важно не просто заявить о каком-то открытии, а показать процесс. Здесь мы видим полноценный цикл: от гипотезы до формализованного доказательства.
Когда ИИ помогает не только генерировать идеи, но и проверять их, а затем формализовывать доказательства, мы находимся на пороге новых научных открытий.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥4🐳1
Kimi K2 Thinking: Новая open source-модель для сложных рассуждений и агентных задач 😋
Вышла новая модель Kimi K2 Thinking, и, если вы увлекаетесь ИИ, то это прямо то, что стоит отметить. Эта модель — очередной шаг к масштабированию вычислений и задач, связанных с логикой, кодом и агентами. Способность выполнять до 300 последовательных действий — это прямо рекорд. И, что важнее, она не просто выполняет задачи, но и задает новые стандарты в том, как мы можем использовать ИИ в решении сложных проблем.
Если вы работаете в ИТ-сфере, наверняка будете следить за этим релизом. Особенно интересно, как модель будет справляться с более сложными и динамичными задачами, выходящими за пределы лабораторных тестов.
Data Science
Вышла новая модель Kimi K2 Thinking, и, если вы увлекаетесь ИИ, то это прямо то, что стоит отметить. Эта модель — очередной шаг к масштабированию вычислений и задач, связанных с логикой, кодом и агентами. Способность выполнять до 300 последовательных действий — это прямо рекорд. И, что важнее, она не просто выполняет задачи, но и задает новые стандарты в том, как мы можем использовать ИИ в решении сложных проблем.
Во-первых, Kimi K2 Thinking может делать цепочки рассуждений, искать, писать код и вообще — выполнять задачи, которые раньше считались сложными для ИИ. За счет увеличения количества «токенов размышления» и улучшения числа шагов при вызове инструментов модель буквально может «думать» дольше и точнее, обеспечивая более глубокое понимание контекста.
На практике эта модель превзошла ожидания. Вот несколько крутых достижений:
— Humanity’s Last Exam (HLE): Бенчмарк, который оценивает логическое мышление на экспертном уровне по 100+ дисциплинам. K2 Thinking набрала 44,9% — отличный результат для задачи, где каждое слово на счету.
— SWE-Multilingual и SWE-Bench Verified: Рейтинг по задачам на кодинг и разработку ПО. Тут K2 Thinking показала 61,1% и 71,3% соответственно, что намекает на хорошие перспективы для работы с кодом на разных языках программирования.
— Terminal-Bench: И снова — 47,1% в задачах, связанных с командной строкой и терминалом. Модель находит решение и там.
— BrowseComp: Самый интересный момент! На бенчмарке по поиску и навигации в интернете K2 Thinking набрала 60,2%, что в два раза больше, чем средний человеческий результат (29,2%). Модель умеет эффективно искать, анализировать и работать с интернет-данными, что делает её уникальной для работы в динамичных, насыщенных информацией средах.
Основная фишка — Kimi K2 Thinking может создавать сложные интерактивные приложения с нуля. Например, она генерирует код для популярных библиотек визуализации, и результат просто впечатляющий. Конечно, для повседневной работы разработчиков такие примеры пока не идеально подходят, но качество и уровень проделанной работы на данный момент — на высоте.
Если вы работаете в ИТ-сфере, наверняка будете следить за этим релизом. Особенно интересно, как модель будет справляться с более сложными и динамичными задачами, выходящими за пределы лабораторных тестов.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
От пикселей к смыслам: как заставить ИИ «понимать» картинки 🤨
Представьте, что вы показываете картинку ИИ. Что он видит? Столько пикселей, что в голове начинается путаница. Все это неплохо работает для распознавания изображений, но вот для более глубокого анализа и работы с контекстом, так себе. И вот тут на сцену выходит SVG — код, который ИИ мог бы использовать, чтобы не просто «увидеть» изображение, а реально понять, что на нем изображено. Этот код более структурирован, компактен и, самое главное, его можно проверять, что важно при анализе данных. Но как же научить ИИ работать с этим кодом?
Переход от пикселей к SVG-коду — это шаг вперед для того, чтобы ИИ не просто «видел» картинку, а по-настоящему понимал её. Этот код можно проверять, модифицировать и использовать для более глубоких выводов.
Data Science
Представьте, что вы показываете картинку ИИ. Что он видит? Столько пикселей, что в голове начинается путаница. Все это неплохо работает для распознавания изображений, но вот для более глубокого анализа и работы с контекстом, так себе. И вот тут на сцену выходит SVG — код, который ИИ мог бы использовать, чтобы не просто «увидеть» изображение, а реально понять, что на нем изображено. Этот код более структурирован, компактен и, самое главное, его можно проверять, что важно при анализе данных. Но как же научить ИИ работать с этим кодом?
Чтобы решить эту задачу, ученые придумали бенчмарк под названием VCode. Это своего рода экзамен для ИИ, где задача не просто скопировать изображение в SVG, а именно перенести символьную структуру — объекты, их взаимосвязи и порядок, в котором они расположены. Структура становится важнее самих пикселей.
Кроме того, для оценки был предложен метод CodeVQA, где после генерации SVG-кода ИИ должен ответить на вопросы по изображению, проверяя, насколько хорошо он понял смысл картинки. И если ответ совпал с оригиналом, значит, задача выполнена.
Чтобы улучшить результат, ученые используют агента VCoder. Он комбинирует два подхода:
• Размышление с ревизией — модель генерирует SVG-код, затем сравнивает его с оригиналом и исправляет ошибки.
• Действие с визуальными инструментами — ИИ использует различные детекторы объектов, OCR и сегментаторы, чтобы точно понять, где что находится на картинке, и перевести это в символику.
Каждый из этих инструментов даёт свой вклад: детекторы объектов помогают точнее определить местоположение объектов, сегментаторы сохраняют геометрическую структуру, а OCR — текстовую информацию.
Так, как же получилось? Увы, пока что модели все ещё не идеально генерируют SVG-код, особенно в плане сохранения символики сцены. Прототипы, такие как GPT-5, пока показывают слабые результаты по сравнению с оригинальными изображениями. Но есть надежда. Использование агентов, таких как Claude-4-Opus, показало улучшения в разных областях, особенно в MM-Vet и CV-Bench.
Интересно, что длина SVG-кода тоже имеет значение. Чем он короче, тем менее он информативен, и ИИ теряет смысловые связи. В общем, если код короткий, значит, ИИ не переносит все объекты и их отношения должным образом.
Переход от пикселей к SVG-коду — это шаг вперед для того, чтобы ИИ не просто «видел» картинку, а по-настоящему понимал её. Этот код можно проверять, модифицировать и использовать для более глубоких выводов.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥2🐳1
Google представил Nested Learning: Новый взгляд на обучение моделей 🍿
Google снова зажгли искру в мире ИИ. После того, как они в 2017 году потрясли нас с Transformer, в этот раз они решили предложить нечто совсем необычное — новую парадигму обучения, называемую Nested Learning (NL). Давайте разберемся, что это такое и зачем нам это нужно.
Давайте подведем итог. Nested Learning — это попытка создать нейросети, которые смогут учиться и эволюционировать непрерывно, без потери старых знаний. Для тех, кто мечтает о AGI (искусственном общем интеллекте), это пожалуй интересный шаг.
Data Science
Google снова зажгли искру в мире ИИ. После того, как они в 2017 году потрясли нас с Transformer, в этот раз они решили предложить нечто совсем необычное — новую парадигму обучения, называемую Nested Learning (NL). Давайте разберемся, что это такое и зачем нам это нужно.
Идея Nested Learning проста в своей сути: вместо того чтобы воспринимать нейросеть как одну гигантскую оптимизационную задачу, Google предлагает разделить обучение на несколько вложенных задач, каждая из которых обновляется в своем темпе. Представьте себе нейросеть как многоуровневую конструкцию, где каждый уровень отвечает за свою область знаний и обновляется по-своему. Это как если бы мозг, вместо того чтобы решать всё сразу, выделял отдельные области для быстрого запоминания чего-то нового и более медленного для основополагающих знаний.
Зачем это всё? В первую очередь, это шаг к решению одной из самых больших проблем нейросетей — катастрофического забывания. Это когда модель, обучаясь на новых данных, забывает всё, что узнала ранее. Столкнулись с этим? Это большая беда для ИИ, который должен учиться и развиваться без постоянной необходимости в переобучении🗣
Разделение на оптимизационные задачи: Модель теперь представляется как набор задач, каждая из которых работает с собственным потоком информации и обновляется с разной частотой. Например, одни компоненты модели могут часто адаптироваться под новый контекст, а другие — сохранять базовые знания для более долгосрочной памяти.
Обучаемый оптимизатор: Чтобы модель не «заблудилась» в том, какие задачи нужно обновить, авторы предлагают сделать оптимизатор обучаемым. То есть тот алгоритм, который обычно отвечает за обновление весов, теперь сам становится нейросетью. Весь этот процесс называется Deep Optimizers — оптимизатор, который учится связывать правильные изменения весов с соответствующими градиентами.
Память как спектр: Чтобы обобщить идею, Google просто расширяет старую концепцию краткосрочной и долгосрочной памяти на спектр памяти с множеством уровней, каждый из которых отвечает за определённую задачу.
Что получилось в итоге?
Google использовали свой старый проект TITAN, в котором уже были элементы долгосрочной и краткосрочной памяти, и адаптировали его под новую парадигму. Результат — новая модель HOPE. В каком-то смысле она стала первой самосовершенствующейся нейросетью, которая может не только обучаться, но и модифицировать себя в процессе работы. По сравнению с традиционными трансформерами, HOPE показала лучшие результаты в задачах, требующих рассуждений и долгосрочной памяти, а также более низкую перплексию.
Давайте подведем итог. Nested Learning — это попытка создать нейросети, которые смогут учиться и эволюционировать непрерывно, без потери старых знаний. Для тех, кто мечтает о AGI (искусственном общем интеллекте), это пожалуй интересный шаг.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥5
Google случайно раскрыла новую нейросеть Nano Banana 2 🤩
Google случайно открыла доступ к своей новой модели генерации изображений, и, конечно, все не могли пройти мимо. Модель под названием Nano Banana 2 появилась на платформе Media AI. Правда, доступ был не на долго. Пока её не закрыли, пользователи успели сгенерировать несколько изображений, и, честно говоря, качество этих изображений удивило.
Возможно, в следующем релизе нас ждёт нечто, что сможет не только генерировать изображения, но и разгадывать их контекст. Мы, конечно, пока не знаем точных деталей, но если качество уже на таком уровне, то ждать действительно есть что.
Data Science
Google случайно открыла доступ к своей новой модели генерации изображений, и, конечно, все не могли пройти мимо. Модель под названием Nano Banana 2 появилась на платформе Media AI. Правда, доступ был не на долго. Пока её не закрыли, пользователи успели сгенерировать несколько изображений, и, честно говоря, качество этих изображений удивило.
Согласитесь, мы все привыкли к тому, что нейросети порой выдают странные и немного неадекватные результаты. То пальцы на руках не те, то текст на картинках выглядит как «приглашение в онлайн-казино». Но с Nano Banana 2 — полный порядок.
Вы когда-нибудь видели, чтобы ИИ правильно указал разработчика на изображении? Обычно такие системы начинают «творить» что-то нелепое, например, называют компанию, которая вообще не имеет отношения к изображению. Но Nano Banana 2 показала себя на удивление точно. Стрелки часов и стакан, который не «заливается» до края? Простой, но важный момент, в котором другие нейросети часто ошибаются.
Windows 11 с открытым браузером и включенным каналом Mr.Beast на YouTube — на первый взгляд, обычная сцена. Однако такие примеры демонстрируют, как искусственный интеллект умеет улавливать контекст.
Если верить утечкам, Nano Banana 2 основана на Gemini 3.0 Pro — будущем проекте от Google. А вот её предшественница, Nano Banana, работала на Gemini 2.5 Flash. Интересно, что сами слухи о появлении новой версии совпадают с графиком выпусков Google, по которому обычно проходят 3 месяца между релизами — и похоже, что так и будет с Nano Banana 2💃
Возможно, в следующем релизе нас ждёт нечто, что сможет не только генерировать изображения, но и разгадывать их контекст. Мы, конечно, пока не знаем точных деталей, но если качество уже на таком уровне, то ждать действительно есть что.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👀5❤3🐳2
ИИ и логика: как большие языковые модели могут быстрее и дешевле обучаться рассуждению
Исследователи из T-Bank AI Research совместно с Центральным университетом разработали новый метод обучения LLM. С его помощью модели смогут развивать способность к логическим рассуждениям с меньшими финансовыми затратами.
Вместо полного переписывания “мозга” модели исследователи добавили компактные векторы-настройки, которые усиливают правильные логические шаги. Это похоже на регулятор громкости — модель уже умеет рассуждать, а новые векторы делают “громче” верные решения.
Метод проверили на шести мировых бенчмарках по математическому рассуждению, и он подтвердил свою результативность: он сохраняет 100% качество полного дообучения, изменяя лишь 0.0016% параметров модели. Так, исследователи впервые показали, что сложные умения LLM можно развить с изменением небольшого количества обучаемых параметров.
Время обучения на одном из этапов уменьшается с десятков минут до секунд, а объем памяти сокращается с гигабайтов до сотен килобайт. Таким образом, даже университетские лаборатории и небольшие компании смогут создавать собственные reasoning-модели.
Исследование может помочь сделать языковые модели более объяснимыми – ученые по всему миру уже трудятся над этой задачей. Метод был представлен на одной из ведущих международных конференций в области ИИ по эмпирическим методам обработки естественного языка (EMNLP 2025) уровня А*, которая проходит с 4 по 9 ноября в Китае.
Data Science
Исследователи из T-Bank AI Research совместно с Центральным университетом разработали новый метод обучения LLM. С его помощью модели смогут развивать способность к логическим рассуждениям с меньшими финансовыми затратами.
Вместо полного переписывания “мозга” модели исследователи добавили компактные векторы-настройки, которые усиливают правильные логические шаги. Это похоже на регулятор громкости — модель уже умеет рассуждать, а новые векторы делают “громче” верные решения.
Метод проверили на шести мировых бенчмарках по математическому рассуждению, и он подтвердил свою результативность: он сохраняет 100% качество полного дообучения, изменяя лишь 0.0016% параметров модели. Так, исследователи впервые показали, что сложные умения LLM можно развить с изменением небольшого количества обучаемых параметров.
Время обучения на одном из этапов уменьшается с десятков минут до секунд, а объем памяти сокращается с гигабайтов до сотен килобайт. Таким образом, даже университетские лаборатории и небольшие компании смогут создавать собственные reasoning-модели.
Исследование может помочь сделать языковые модели более объяснимыми – ученые по всему миру уже трудятся над этой задачей. Метод был представлен на одной из ведущих международных конференций в области ИИ по эмпирическим методам обработки естественного языка (EMNLP 2025) уровня А*, которая проходит с 4 по 9 ноября в Китае.
Data Science
❤9🔥3
Forwarded from xCode Journal
В Японии расшифровали сигналы мозга и восстановили, о чем человек думает в виде описаний, а не отдельных слов. Для этого ИИ обучили на 2000+ видео, чтобы он мог распознавать связи между сценами в видео, сюжетом и тем, как на образы реагирует человеческий мозг.
Чтение мысли всё ближе и ближе
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👀2❤1👎1
Google анонсировала DS-STAR: ИИ-агент для автоматизации дата-анализа 😎
Google снова удивляет мир технологий — на этот раз они представили DS-STAR, экспериментального ИИ-агента, который может выполнить полный цикл анализа данных, начиная от чтения файлов и заканчивая написанием кода. В тестах этот агент продемонстрировал отличные результаты, превзойдя своих «собратьев» в мире ИИ. Но что за зверь такой — этот DS-STAR?
В экосистеме Google уже есть схожие разработки — например, Data Science Agent в Colab. Кто знает, может, скоро мы увидим элементы DS-STAR в инструментах для аналитиков и инженеров, а затем и в других продуктах компании.
Data Science
Google снова удивляет мир технологий — на этот раз они представили DS-STAR, экспериментального ИИ-агента, который может выполнить полный цикл анализа данных, начиная от чтения файлов и заканчивая написанием кода. В тестах этот агент продемонстрировал отличные результаты, превзойдя своих «собратьев» в мире ИИ. Но что за зверь такой — этот DS-STAR?
Вместо того чтобы просто генерировать код, как это делают традиционные ИИ-системы, DS-STAR идет дальше и берет на себя ответственность за весь процесс. Агент анализирует данные (будь то таблицы, JSON-файлы или текст), строит план действий, пишет Python-код, запускает его, а потом проверяет, насколько полученный результат соответствует поставленной задаче. Интересно, что после проверки встроенный «судья» на базе LLM заставляет систему пересматривать свои шаги, пока результат не будет точным и полным.
Результаты: не просто код, а качественная аналитика🐹
Согласно исследованиям Google, DS-STAR значительно улучшил показатели на различных тестах. Например, точность на DABStep увеличилась с 41% до 45,2%, на KramaBench — с 39,8% до 44,7%, а на DA-Code — с 37% до 38,5%. Это уже не просто генерация кода, а возможность делать более качественные и содержательные выводы, что, согласитесь, впечатляет.
В экосистеме Google уже есть схожие разработки — например, Data Science Agent в Colab. Кто знает, может, скоро мы увидим элементы DS-STAR в инструментах для аналитиков и инженеров, а затем и в других продуктах компании.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
RL и «разумные» модели: что не так с гипотезой улучшения через обучение с подкреплением?
Каждый раз, когда появляется новая работа, утверждающая, что RL даёт нашим моделям настоящие «разумные» способности, мы все вздыхаем и ждем чудо. Но не так давно вышла китайская статья с провокационным заголовком «Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?», которая поставила под сомнение, что обучение с подкреплением действительно улучшает способность моделей к рассуждению😺
Можно ли ожидать, что обучение с подкреплением откроет для нас новые горизонты в решении сложных задач, например, в математике или программировании? Ответ скорее «нет». Это не означает, что RL не полезен, но не стоит возлагать на него чрезмерные надежды. В конечном счёте всё упирается в предобученные модели и качество данных.
Data Science
Каждый раз, когда появляется новая работа, утверждающая, что RL даёт нашим моделям настоящие «разумные» способности, мы все вздыхаем и ждем чудо. Но не так давно вышла китайская статья с провокационным заголовком «Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?», которая поставила под сомнение, что обучение с подкреплением действительно улучшает способность моделей к рассуждению
Никто не спорит, что RL — это мощный инструмент для улучшения моделей, но авторы этой работы уверены, что на самом деле он не добавляет ничего «сверхъестественного». Вместо того чтобы раскрывать новые горизонты, RL, по сути, просто делает то же самое, что и базовые модели, но быстрее. Это как если бы вы уже знали все ответы на вопросы, но просто начали искать их более эффективно, уменьшая количество попыток.
Как это проверяли?
Основной метрикой в исследовании было pass@k — задача считается решённой, если среди k попыток хотя бы одна приводит к правильному ответу. На первых шагах RL-модели действительно показывают более высокий результат, чем базовые. Но вот что интересно: чем больше попыток (или «шансов»), тем быстрее базовые модели догоняют RL и даже начинают превосходить их на разных задачах.
Это выводит на интересный момент. Хотя RL помогает увеличить вероятность того, что модель выберет правильный путь, он не расширяет возможности модели решать задачи. В сущности, он просто улучшает шанс попасть в нужное решение с первого раза, но не делает модель действительно «умнее».
Можно ли ожидать, что обучение с подкреплением откроет для нас новые горизонты в решении сложных задач, например, в математике или программировании? Ответ скорее «нет». Это не означает, что RL не полезен, но не стоит возлагать на него чрезмерные надежды. В конечном счёте всё упирается в предобученные модели и качество данных.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1🐳1
«Крестный отец ИИ» Янн ЛеКун уходит из Meta* и готовится запустить свой стартап 🚶♂️
Financial Times сообщает, что знаменитый ученый и главный ИИ-эксперт Meta* готовит свой собственный стартап. Официально Meta* и сам ЛеКун пока ничего не подтверждают, но слухи об этом уже активно гуляют. Давайте разберемся, что тут к чему.
Очень интересно, что же именно он придумает — возможно, именно он откроет новые горизонты для искусственного интеллекта, от которых мы все будем в восторге.
*признана экстремистской организацией на территории России.
Data Science
Financial Times сообщает, что знаменитый ученый и главный ИИ-эксперт Meta* готовит свой собственный стартап. Официально Meta* и сам ЛеКун пока ничего не подтверждают, но слухи об этом уже активно гуляют. Давайте разберемся, что тут к чему.
В последнее время внутри Meta* всё не так уж спокойно. Компания переживает довольно болезненную реорганизацию, и ИИ-подразделение (FAIR) не в лучшем состоянии. Более 600 человек были переведены или уволены, а приоритет компании смещается в сторону других проектов, таких как Superintelligence Labs и TBD Lab. Эти новые команды фокусируются на интеграции ИИ в реальные продукты, а не на чисто исследовательской работе, как это было раньше.
Сам же ЛеКун, несмотря на свою роль в создании языковых моделей, никогда не скрывал своего скепсиса к идее использования исключительно больших языковых моделей как основного пути к AGI. Он всегда ставил на более глубокое понимание мира — так называемые модели мира, которые учат ИИ искать причинно-следственные связи, а не просто жонглировать фактами. Это стало основой его работы, включая разработки типа JEPA и V-JEPA, которые, возможно, будут ключевыми в его новом стартапе.
Релиз нового продукта Llama 4/Behemoth неоднократно переносился, а результаты оказались не такими впечатляющими, как ожидалось. Это не могло не повлиять на атмосферу в компании. Как вы понимаете, когда у компании есть такие проблемы, а старожилы уходят или начинают выражать недовольство, это не лучший знак для того, кто занимает одну из самых высоких позиций.
Очень интересно, что же именно он придумает — возможно, именно он откроет новые горизонты для искусственного интеллекта, от которых мы все будем в восторге.
*признана экстремистской организацией на территории России.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤3😁2👀1
ИИ-помощник для востоковедов: как Яндекс помогает гуманитарной науке
В Институте востоковедения РАН запустили систему на базе Yandex AI Studio, которая анализирует научные тексты на восточных языках и формирует аналитические выжимки — фактически, это ИИ-ассистент для исследователей.
🔹 В основе решения — генеративные модели Yandex Cloud, обученные совместно специалистами платформы и студентами Школы анализа данных.
🔹 Архитектура построена на Yandex AI Studio — платформе для разработки и внедрения ИИ-агентов.
🔹 Уже обработано более 1,5 млн документов на четырех вариантах китайского языка: континентальном, тайваньском, гонконгском и сингапурском.
Система умеет выделять ключевые факты, создавать краткие аналитические отчёты и даже генерировать русскоязычные дайджесты по публикациям из китайских СМИ. В перспективе — поддержка японского, арабского, турецкого и персидского языков.
В итоге — скорость анализа выросла с нескольких часов до 10–15 минут на исследовательскую задачу, что открывает новые возможности для гуманитарных исследований. Проект — наглядный пример того, как облачные технологии и LLM из Yandex Cloud применяются в академической среде для решения специализированных задач.
В Институте востоковедения РАН запустили систему на базе Yandex AI Studio, которая анализирует научные тексты на восточных языках и формирует аналитические выжимки — фактически, это ИИ-ассистент для исследователей.
🔹 В основе решения — генеративные модели Yandex Cloud, обученные совместно специалистами платформы и студентами Школы анализа данных.
🔹 Архитектура построена на Yandex AI Studio — платформе для разработки и внедрения ИИ-агентов.
🔹 Уже обработано более 1,5 млн документов на четырех вариантах китайского языка: континентальном, тайваньском, гонконгском и сингапурском.
Система умеет выделять ключевые факты, создавать краткие аналитические отчёты и даже генерировать русскоязычные дайджесты по публикациям из китайских СМИ. В перспективе — поддержка японского, арабского, турецкого и персидского языков.
В итоге — скорость анализа выросла с нескольких часов до 10–15 минут на исследовательскую задачу, что открывает новые возможности для гуманитарных исследований. Проект — наглядный пример того, как облачные технологии и LLM из Yandex Cloud применяются в академической среде для решения специализированных задач.
❤7🔥3👎1
xAI и Anthropic-Amazon: дата-центры на 1 ГВт 🤔
Кажется что темпы, с которыми строятся крупнейшие дата-центры, становятся все больше. Аналитическая группа Epoch AI прогнозирует, что xAI и Anthropic-Amazon станут первыми, кто выйдет на 1 ГВт мощности, а их дата-центры будут запущены уже в 2026 году. Это огромные масштабы.
Компания Epoch AI анализирует скорость и мощность строительства, используя спутниковые снимки, разрешительную документацию и отчеты других компаний. Люди готовы на многое, чтобы заглянуть в будущее🐰
Data Science
Кажется что темпы, с которыми строятся крупнейшие дата-центры, становятся все больше. Аналитическая группа Epoch AI прогнозирует, что xAI и Anthropic-Amazon станут первыми, кто выйдет на 1 ГВт мощности, а их дата-центры будут запущены уже в 2026 году. Это огромные масштабы.
Для начала немного фактов. xAI с его Colossus 2 и Anthropic-Amazon с New Carlisle — два крупных проекта, которые на данный момент находятся на финальной стадии строительства. И, что интересно, xAI обгоняет всех по скорости: в феврале 2025 года уже началось строительство, а уже в феврале 2026-го дата-центр выйдет на рекордные 1 ГВт. Для сравнения, Anthropic-Amazon стартанули в феврале 2024 года, и их дата-центр на 1 ГВт будет готов в начале января 2026-го.
А что дальше? В 2026 году планируют выйти на ту же мощность и другие крупные игроки — Microsoft, Meta и OpenAI. Напоминаю, что Meta признана экстремистской организацией на территории России.
Эти дата-центры открывают новый стандарт мощности, который в 3-4 раза превышает все существующие ИИ-кластеры. Строительство таких объектов теперь стало своего рода конвейером — от начала стройки до выхода на 1 ГВт мощности проходят всего 12-24 месяца. Это намного быстрее, чем можно было себе представить, когда речь идет о таких масштабах.
Компания Epoch AI анализирует скорость и мощность строительства, используя спутниковые снимки, разрешительную документацию и отчеты других компаний. Люди готовы на многое, чтобы заглянуть в будущее
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
Как нейросетей учат ставить диагнозы в виртуальной клинике 💻
Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.
Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.
Data Science
Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.
Давайте разберемся, как это работает. В медицине задача диагностики — это не просто моментальное суждение, а пошаговое принятие решений. Нужно собрать информацию, сделать тесты и сделать выводы. И вот тут традиционные модели ИИ могут забуксовать, потому что они часто не умеют планировать, какие шаги важны на каждом этапе. К счастью, теперь есть решения, которые могут не только диагностировать, но и эффективно управлять процессом тестирования. Одним из таких проектов стал DiagGym, где ИИ не только диагностирует, но и решает, что и когда тестировать.
Виртуальная клиника — модель для диагностики
DiagGym — это, по сути, имитация клиники. В ней виртуальные агенты выбирают, какие тесты провести, и получают награду не только за правильный диагноз, но и за оптимизацию процесса тестирования. Это настоящий симулятор, где агент учится не просто диагностировать, но и выбирать правильные шаги, чтобы не тратить время и ресурсы на лишние тесты. Такой подход делает ИИ гораздо более умным и гибким в своей работе.
Для этого используется метод обучения с подкреплением (RL), где агент учится на каждом шаге, выбирая, какие тесты делать, и когда завершить процесс. Чем быстрее он ставит диагноз с меньшими затратами, тем выше его награда. ИИ не просто учит нейросети правильным ответам, он учит её стратегическому планированию, как настоящий врач!
Внутри этой виртуальной клиники обучается агент, который на каждом шаге решает, какой тест заказать. И что интересно — этот агент показывает хорошие результаты. Например, в задаче с аппендицитом агент правильно выбирает тесты, такие как общий анализ крови и КТ, чтобы подтвердить диагноз. Это важно, потому что в реальной жизни важны не только точные ответы, но и способность выбрать правильный путь для диагностики.
Однако не всё так идеально. В одном из случаев агент диагностирует внематочную беременность, но не предпринимает нужных шагов для неотложного лечения. Это показывает, что несмотря на точность диагностики, ИИ ещё не может полностью заменить врача.
Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥2