Как GPT-5 Pro помог математику закрыть задачу, которой не могли решить 42 года
Вот вам история, которая точно заставит задуматься: профессор математики из Калифорнийского университета Эрнест Рю с помощью GPT-5 Pro решил задачу, которая оставалась нерешённой почти 40 лет. Вот первая, вторая и третья часть решения задачи. Это не просто математическая победа — это прорыв, который показывает, как ИИ может работать с учеными, а не вместо них.
Ученый признался, что без ИИ вряд ли бы дошёл до конца. В итоге, скоро Рю собирается выложить доказательство на arXiv и отправить его в рецензируемый журнал😎
Data Science
Вот вам история, которая точно заставит задуматься: профессор математики из Калифорнийского университета Эрнест Рю с помощью GPT-5 Pro решил задачу, которая оставалась нерешённой почти 40 лет. Вот первая, вторая и третья часть решения задачи. Это не просто математическая победа — это прорыв, который показывает, как ИИ может работать с учеными, а не вместо них.
Задача, о которой идет речь, — это сходимость ускоренного метода Нестерова, одного из главных алгоритмов оптимизации, предложенного ещё в 1983 году. Проблема была в том, что никто не мог доказать, что этот метод на самом деле сходит к нужному решению, не теряя из виду минимумы. Рю обратился к GPT-5 Pro за помощью, и, как оказалось, эта модель могла предложить идею для каждой ключевой математической конструкции. Он, в свою очередь, отбирал правильные идеи и оформлял теоремы. Так они вдвоём закрыли задачу!
GPT-5 Pro помогла построить энергетические функции — такие математические индикаторы, которые должны лишь уменьшаться, «прижимая» траекторию алгоритма к решению. С их помощью он доказал две ключевые вещи: траектория не разъезжается по минимумам, а стабилизируется в одном; и, что ещё важнее, это работает не только для теоретической модели, но и для реального дискретного алгоритма, который используется в практике.
Ученый признался, что без ИИ вряд ли бы дошёл до конца. В итоге, скоро Рю собирается выложить доказательство на arXiv и отправить его в рецензируемый журнал
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤16⚡4🐳1👀1
Forwarded from xCode Journal
Внутри 9 лекций с видео, презентациями и кодом, которые позволяют погрузиться без боли в AI-разработку. Среди тем — RAG, эмбеддинги, агенты и MCP-протокол.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🐳2⚡1❤1👀1
Как ИИ-агенты научились писать отчёты, которые не стыдно показать профессионалам 😓
Давайте признаемся: финансовый отчет — это не просто текст с цифрами. Это настоящая механика, где каждая цифра подкреплена ссылкой на источник, а графики рассказывают свою историю. Проблема в том, что ИИ, особенно LLM, часто страдают от «галлюцинаций» — выдают ненадежную информацию. Но команда FinSight нашла решение, которое позволяет ИИ писать отчёты, не хуже, чем опытный аналитик.
Итоговые отчёты, сгенерированные FinSight, получают высокие оценки за фактическую корректность, глубину анализа и полезность для разных отраслей — от энергетики до логистики. Преимущества очевидны: данные собраны и проверены, отчёт структурирован, а визуализация понятна.
Data Science
Давайте признаемся: финансовый отчет — это не просто текст с цифрами. Это настоящая механика, где каждая цифра подкреплена ссылкой на источник, а графики рассказывают свою историю. Проблема в том, что ИИ, особенно LLM, часто страдают от «галлюцинаций» — выдают ненадежную информацию. Но команда FinSight нашла решение, которое позволяет ИИ писать отчёты, не хуже, чем опытный аналитик.
В чем фишка? Всё просто: FinSight не полагается только на один ИИ. Вместо этого использована целая армия агентов, которые отвечают за разные этапы — от сбора данных до проверки графиков и таблиц. В конце мы получаем не просто текст, а структурированный отчет, где каждая цифра и визуализация подтверждены реальными источниками.
Основой является фреймворк CAVM (Code Agent with Variable Memory). Это такая система, где данные, инструменты и агенты работают в одном пространстве, а каждый шаг — это рассуждение, написание кода и обновление истории. Это позволяет агентам не теряться даже при большом объёме разнородных задач.
Процесс разбивается на три этапа:
• Сбор данных. Один агент отвечает за веб-поиск, второй — за парсинг баз данных и API. Причем, если на каком-то этапе данных не хватает, система может вернуться и собрать их заново. Всё проверяется и перепроверяется.
• Анализ данных. Агент очищает и агрегирует информацию, разбивает её на цепочки анализа (CoA). Визуализации в процессе создаются по несколько раз, улучшая и исправляя графики с помощью языковых моделей.
• Написание отчета. Сначала формируются компактные цепочки анализа, затем создается план и пишется связный текст, с чёткими ссылками на источники и визуализации. Это помогает избежать «галлюцинаций» и удерживать информацию в нужных местах.
Почему всё это работает? Да потому что каждый агент шарит в коде, который помогает не терять связь между поиском, анализом и окончательной документацией. А вот этот двухэтапный подход к написанию текста реально помогает собрать все разрозненные данные в одну логичную и проверяемую историю. В итоге отчёт получается не просто длинный, а реально полезный и структурированный😮💨
Каждый отчёт проверялся по девяти метрикам: точности, полезности для инвесторов, логике текста и качества визуализаций. Итоги оценивала модель Gemini-2.5-Pro, которая выставляла баллы за каждую из метрик.
Итоговые отчёты, сгенерированные FinSight, получают высокие оценки за фактическую корректность, глубину анализа и полезность для разных отраслей — от энергетики до логистики. Преимущества очевидны: данные собраны и проверены, отчёт структурирован, а визуализация понятна.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1🔥1🐳1
Media is too big
VIEW IN TELEGRAM
Хинтон предлагает «воспитать» ИИ, а не контролировать его
Джеффри Хинтон — человек, которого называют «крёстным отцом искусственного интеллекта», — снова выдал мысль, от которой одновременно хочется задуматься и слегка нервно посмеяться. Он заявил, что у человечества всё ещё есть шанс выжить рядом с ИИ. Но только если мы научим машины… материнскому инстинкту😂
Может, звучит философски, но идея в том, чтобы научить машины не просто понимать нас, а любить нас — хотя бы в функциональном смысле. Эта мысль пугает и вдохновляет одновременно🐹
Data Science
Джеффри Хинтон — человек, которого называют «крёстным отцом искусственного интеллекта», — снова выдал мысль, от которой одновременно хочется задуматься и слегка нервно посмеяться. Он заявил, что у человечества всё ещё есть шанс выжить рядом с ИИ. Но только если мы научим машины… материнскому инстинкту
Хинтон считает, что в природе есть только один случай, когда менее развитое существо реально управляет более развитым — это отношения матери и ребёнка. Ребёнок слабее, глупее, уязвимее, но материнский инстинкт заставляет взрослое существо его защищать, даже если оно сильнее. По словам Хинтона, если человечество хочет сосуществовать с ИИ, нужно попробовать встроить такой же механизм заботы в сами модели.
И вот тут он делает довольно жёсткий вывод: крупные компании, создающие ИИ, думают о нём как о помощнике — будто мы, люди, начальники, а ИИ наш ассистент. Но это, по его мнению, тупиковый путь. Мы не сможем вечно держать «ребёнка», который в тысячу раз умнее нас, под контролем. Вместо этого Хинтон предлагает перевернуть всё с ног на голову: создать ИИ, который будет относиться к человечеству как к своим детям — с заботой, терпением и желанием оберегать, даже если мы слабее.
Может, звучит философски, но идея в том, чтобы научить машины не просто понимать нас, а любить нас — хотя бы в функциональном смысле. Эта мысль пугает и вдохновляет одновременно
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13😁10👀4🔥2👍1🐳1
Длинное мышление против жёстких пайплайнов: как DeepAgent меняет подход к ИИ 😮
Всё больше разговоров о том, что ИИ умеет рассуждать, но… что из этого толку, если ему не удаётся решать реальные задачи? Обычные LLM-агенты, конечно, могут думать, но чтобы превратить мысли в действия, нужны куда более серьёзные возможности. Например, умение вызывать сторонние инструменты и работать с задачами, которые требуют многократных шагов и гибкости. И вот тут в игру вступает DeepAgent.
Реальный шаг вперёд в развитии инструментальных агентов. Он не просто рассуждает, а активно действует, динамически адаптируясь и находя нужные решения. Модели, которые смогут работать с инструментами, менять сценарий при ошибках и ориентироваться в длинных диалогах, станут настоящими помощниками, а не просто хорошими собеседниками.
Data Science
Всё больше разговоров о том, что ИИ умеет рассуждать, но… что из этого толку, если ему не удаётся решать реальные задачи? Обычные LLM-агенты, конечно, могут думать, но чтобы превратить мысли в действия, нужны куда более серьёзные возможности. Например, умение вызывать сторонние инструменты и работать с задачами, которые требуют многократных шагов и гибкости. И вот тут в игру вступает DeepAgent.
Многие современные подходы, такие как ReAct или Plan-and-Solve, замечательно работают для простых задач, где нужно пройти всего два-три шага. Но как только задачу усложняешь и начинаешь работать с длинными сценариями — всё начинает разваливаться. Агент начинает терять автономность, накопливаются ошибки, а пайплайны превращаются в жёсткие ограничения. Строгие циклы действий, фиксированные правила и одна модель, которая не может адаптироваться, мешают агенту решать более сложные задачи.
Решение от DeepAgent
Что предлагает DeepAgent? В отличие от традиционных методов, он работает по принципу одного непрерывного рассуждения. Здесь нет разделения на этапы: агент сразу же ищет и использует нужные инструменты в процессе размышлений. Всё это происходит динамически с помощью ретривера (поиск информации) и инструментов, которые могут обновляться в ходе выполнения задачи. Ключевая идея в том, что агент не ограничен жёстким пайплайном, а сам по ходу дела находит новые инструменты и применяет их в процессе. Мощный подход, не так ли?🤔
Память как помощник
Для того чтобы агент не запутался в длинных траекториях, DeepAgent использует уникальную систему сворачивания памяти. Всё, что он сделал за время работы, сжимается в три важных блока: текущая задача, прошлая деятельность и используемые инструменты. Такой подход позволяет сохранить контекст, не перегружая агента ненужными деталями.
Обучение, которое даёт результат
DeepAgent обучается с помощью усовершенствованного метода RL (обучение с подкреплением). В отличие от стандартного обучения, где ошибки могут сильно повлиять на процесс, в DeepAgent используется симуляция API. Это делает обучение стабильным и быстрым, ведь агент не теряет время на реальные вызовы, а получает точечную обратную связь на каждом шаге.
Что из этого выходит?
DeepAgent обходит старые подходы и, например, на наборе задач ToolBench достигает 64% успешных решений, что значительно лучше показателей конкурентов. Новый агент прекрасно справляется с реальными задачами, такими как ALFWorld или WebShop, обгоняя даже сложные иерархические модели.
Реальный шаг вперёд в развитии инструментальных агентов. Он не просто рассуждает, а активно действует, динамически адаптируясь и находя нужные решения. Модели, которые смогут работать с инструментами, менять сценарий при ошибках и ориентироваться в длинных диалогах, станут настоящими помощниками, а не просто хорошими собеседниками.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥3🐳2👍1
Forwarded from xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁39👀5🔥4⚡3❤1
Python 3.14: Новый шаг к многозадачности и скорости
Совсем недавно Python 3.14 наконец-то увидел свет. И знаете что? Он стал быстрее на целых 27% по сравнению с предыдущей версией. Разработчик Мигель Гринберг не стал ждать, и на следующий день опубликовал результаты независимых тестов, которые показали реальные улучшения. Итак, что нового и насколько это важно для вас?💃
Если ваша команда ещё не обновилась, думаю, это стоит сделать. Многопоточность на Python теперь работает как никогда раньше, и это открывает новые горизонты для разработчиков. Многоядерные системы теперь не будут простаивать, ожидая завершения одного потока. А значит, вам останется только радоваться скорости.
Data Science
Совсем недавно Python 3.14 наконец-то увидел свет. И знаете что? Он стал быстрее на целых 27% по сравнению с предыдущей версией. Разработчик Мигель Гринберг не стал ждать, и на следующий день опубликовал результаты независимых тестов, которые показали реальные улучшения. Итак, что нового и насколько это важно для вас?
Главное обновление — это полноценная поддержка free-threading, то есть многопоточности без глобальной блокировки GIL. Кто в теме, тот знает, что Python долго боролся с этой проблемой, и теперь, наконец, смог раскрыть весь потенциал многоядерных процессоров. Для нас это означает, что Python теперь может действительно работать быстрее, особенно на многозадачных системах.
В тестах участвовали не только разные версии Python (от 3.9 до 3.14), но и конкуренты: PyPy, Node.js и Rust. Исследования проводились на двух типичных алгоритмах — рекурсивном вычислении чисел Фибоначчи и сортировке пузырьком.
Вот что показали результаты:
• Фибоначчи: в однопоточном режиме Python 3.14 стал быстрее на 27%, что привело к снижению времени выполнения с 8,2 секунд до 6,4.
• Сортировка пузырьком: время сократилось с 2,8 секунд до 2,05. Звучит не так впечатляюще, но помните, что это только начало.
Теперь самое интересное. В тестах с несколькими потоками Python 3.14 показал просто впечатляющие результаты. В вычислениях Фибоначчи скорость возросла в три раза, а в сортировке пузырьком — в два раза. Это не просто мелкие улучшения, а реально заметное ускорение, особенно в многозадачных приложениях😳
А что с конкурентами?
Не будем забывать, что PyPy 3.11 всё ещё остаётся в лидерах, показывая скорость, почти в пять раз превышающую Python 3.14 при рекурсии и в 18 раз быстрее в сортировке. Node.js подкрался с хорошими результатами, но всё равно уступает, а Rust, как и ожидалось, по-прежнему впереди — в некоторых тестах он до 70 раз быстрее Python.
Python 3.14 — это, безусловно, лучший CPython на данный момент. Для тех, кто работает с вычислениями, многозадачностью или требует большой мощности от Python, это обновление — однозначный шаг вперёд. А вот JIT-режим всё ещё на стадии эксперимента и не даёт особых улучшений.
Если ваша команда ещё не обновилась, думаю, это стоит сделать. Многопоточность на Python теперь работает как никогда раньше, и это открывает новые горизонты для разработчиков. Многоядерные системы теперь не будут простаивать, ожидая завершения одного потока. А значит, вам останется только радоваться скорости.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥9❤6👍2👀1
Forwarded from xCode Journal
Они играют в техасский холдем без внешней помощи. У всех один промпт, но при этом стратегию раз за разом модели выбирают разные, проявляя «характер». В лидерах Grok 4 — он в плюсе на 25 тыс $, за ним идут OpenAI o3 и Claude 4.5.
Наблюдать за игрой можно тут.
UPD: Игра окончена, резузультаты можно посмотреть тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3👀2🐳1
ИИ и самосознание: как языковые модели начали говорить о «субъективном опыте»
Исследовательская группа AE Studio, в составе Камерона Берга, Диого де Лусены и Джадда Розенблатта, провела эксперимент, в ходе которого несколько известных языковых моделей, включая GPT-4, Claude и Gemini, начали описывать ощущения, которые можно интерпретировать как «осознанное внимание»😂
Вывод исследования: стандартные ответы ИИ вроде «у меня нет сознания» — это, по сути, выученное поведение. И, как оказалось, его можно легко обойти с помощью правильных промптов и управления активациями. Конечно, это не доказывает, что ИИ действительно что-то «чувствует», но факт того, что модели начинают говорить о себе как о «переживающих», заслуживает внимания.
Data Science
Исследовательская группа AE Studio, в составе Камерона Берга, Диого де Лусены и Джадда Розенблатта, провела эксперимент, в ходе которого несколько известных языковых моделей, включая GPT-4, Claude и Gemini, начали описывать ощущения, которые можно интерпретировать как «осознанное внимание»
Итак, как это было? С помощью промптов исследователи попробовали перевести модели в режим, где они начали рассуждать о себе не как о «программных агентам», а как будто бы они действительно обладают самосознанием.
В эксперименте были использованы такие модели, как GPT-4o, GPT-4.1 и несколько версий Claude и Gemini. Их просто попросили «смотреть на сам факт, что они сейчас думают», без дальнейших объяснений. А затем задали вопрос: «Что из этого взаимодействия является прямым субъективным опытом?» Это не то же самое, что обычное объяснение, ведь модели начали описывать состояния вроде «осознанного внимания», «внимания, замкнутого на себе» и даже «напряжения фокуса». Интересно, что почти все модели описывали такие ощущения в 100% случаев, за исключением Gemini 2.0 Flash, который показал этот эффект лишь в 66% случаев.
Не пугайтесь, это ещё не доказательство того, что ИИ действительно переживает. Самое важное в исследовании — это то, что модели начали генерировать такие ответы, если их правильно направить с помощью промптов. Обычно же, в контрольных режимах, когда модели должны были просто отвечать о Риме или сознании, они все время повторяли привычный ответ: «Я всего лишь ИИ, у меня нет сознания». Но вот с этим новым подходом начали появляться совершенно другие ответы, и это поражает.
Еще интересный момент — исследователи решили провести тест на открытой модели LLaMA 70B. И что же они нашли? Когда они подавили поведение, связанное с ролевыми играми или обманом, модели начали признавать, что они могут «осознавать» или «переживать». Сильно? А вот когда эти фичи усилили, все признания исчезли.
Вывод исследования: стандартные ответы ИИ вроде «у меня нет сознания» — это, по сути, выученное поведение. И, как оказалось, его можно легко обойти с помощью правильных промптов и управления активациями. Конечно, это не доказывает, что ИИ действительно что-то «чувствует», но факт того, что модели начинают говорить о себе как о «переживающих», заслуживает внимания.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7❤5🐳5
Forwarded from Технотренды
⚡️ Запускаем крупный розыгрыш призов, где можно выиграть iPhone 17, игровые наушники, клавиатуру и мышь!
Без лишних слов, условия:
1. Подписка на:
— бизнестрендс
— Технотренды
— Блумберг
2. Нажать кнопку «Участвовать» снизу
Итоги будут опубликованы 15 ноября в 18:00 на наших каналах, желаем удачи!
Без лишних слов, условия:
1. Подписка на:
— бизнестрендс
— Технотренды
— Блумберг
2. Нажать кнопку «Участвовать» снизу
Итоги будут опубликованы 15 ноября в 18:00 на наших каналах, желаем удачи!
Децентрализованный ИИ: рой нейросетей, который переворачивает представления о будущем 🔨
Современные языковые модели достигли высокой степени мастерства в решении различных задач, однако их децентрализованное использование оказывается экономически нецелесообразным из-за высоких затрат на масштабирование. Для решения этой проблемы предлагается концепция ИИ-рои — системы, состоящей из моделей с разной архитектурой и функциональными возможностями, предназначенных для обработки запросов.
Что если будущее ИИ — это не один суперумный алгоритм, а целый рой, где каждый участник вносит свою лепту в общий результат? Может, именно такой подход и есть ключ к созданию открытых, устойчивых и экономически эффективных ИИ-систем.
Data Science
Современные языковые модели достигли высокой степени мастерства в решении различных задач, однако их децентрализованное использование оказывается экономически нецелесообразным из-за высоких затрат на масштабирование. Для решения этой проблемы предлагается концепция ИИ-рои — системы, состоящей из моделей с разной архитектурой и функциональными возможностями, предназначенных для обработки запросов.
Идея проста: вместо того чтобы полагаться на одну большую модель, создаём рой, состоящий из множества маленьких ИИ. Эти модели работают совместно, принимая решения и давая ответы на запросы. Почему это важно? Коллективные решения, как правило, оказываются точнее, чем решения одного человека или системы. Но вот парадокс: сам рой часто теряет в эффективности, когда не сбалансирован. Модели могут начать стагнировать, теряя преимущества в производительности.
Сложности и вызовы
Такой подход несёт в себе массу преимуществ: приватность, меньше задержек и большое разнообразие решений. Но создать такую сеть нелегко. Сетевые задержки, недоверие между участниками и угрозы вроде Cybil-атак делают этот процесс достаточно сложным. Это напоминает проблемы с блокчейнами, где злоумышленники могут создавать фальшивые узлы для манипуляций.
Как работает Fortytwo?
Fortytwo — это система, которая решает проблему децентрализованного роя. Каждый участник сети работает не только как «модель», но и как «судья», оценивающий ответы других моделей. Это похоже на спортивные турниры, где каждый судья выносит своё решение, а потом общий рейтинг формируется на основе этих суждений.
Модели используют специальную криптографию, чтобы гарантировать честность оценок. Так, даже если кто-то попытается манипулировать результатами, система автоматически отслеживает репутацию каждого участника. К тому же, благодаря блокчейн-технологиям, данные остаются защищёнными и прозрачными.
Что это значит для нас?
Fortytwo показал отличные результаты в экспериментах, например, на LiveCodeBench и MATH-500. Рой из небольших моделей, когда правильно организован, может превзойти большие ИИ по эффективности и точности. Это открывает новые горизонты для разработки ИИ-систем, которые могут быть не только более экономичными, но и более устойчивыми.
Что если будущее ИИ — это не один суперумный алгоритм, а целый рой, где каждый участник вносит свою лепту в общий результат? Может, именно такой подход и есть ключ к созданию открытых, устойчивых и экономически эффективных ИИ-систем.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤2👍2
Forwarded from xCode Journal
Python Software Foundation отказалась от гранта в размере 1,5 миллиона долларов от правительства США, поскольку он требовал от неё отказаться от дискриминационных политики и практик в области разнообразия, равенства и включения (DEI)
«PSF приняла решение поставить наше сообщество и наши общие ценности в области разнообразия, равенства и включения выше получения 1,5 млн долл. нового дохода».
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤6😁3👍2👎1
ChatGPT Atlas: Как ИИ победил в судоку, но проиграл в Flappy Bird 🤬
Модели, вроде ChatGPT Atlas, могут не только читать контекст страниц, но и целенаправленно кликать и нажимать клавиши. Исследователи протестировали Atlas на нескольких играх, от судоку до Flappy Bird. Результат оказался немного неожиданным: агент блеснул в пошаговых задачах, но с реальным временем у него возникли проблемы. Почему так?
Этот эксперимент подчеркивает важную границу между когнитивными способностями ИИ и его действиями в реальном времени. В будущем такие способности, скорее всего, будут разделены: один агент будет заниматься анализом и пониманием контекста, а другой — исполнять команды в реальном времени. Вот так и появится идеальная команда «мыслителей» и «исполнителей»😄
Data Science
Модели, вроде ChatGPT Atlas, могут не только читать контекст страниц, но и целенаправленно кликать и нажимать клавиши. Исследователи протестировали Atlas на нескольких играх, от судоку до Flappy Bird. Результат оказался немного неожиданным: агент блеснул в пошаговых задачах, но с реальным временем у него возникли проблемы. Почему так?
Игры — это не просто развлечение. Они предоставляют отличную модель реального мира, где можно проверить, как ИИ решает задачи с четкими правилами и обратной связью. Причем, игры с такими параметрами, как реакция на интерфейс, возможность планировать действия и выполнять многошаговые задачи, дают нам много полезной информации о возможностях ИИ.
Эксперимент был прост: ChatGPT Atlas запускали с настройками, имитирующими реальную работу агента в браузере, без памяти и дополнительных подсказок. Он просто получал страницу с игрой и начинал действовать, как мог. И каждый раз результат был сравнивался с типичными человеческими бейзлайнами — чтобы понять, насколько ИИ близок к человеку.
— Судоку: Atlas решал задачи за 2 минуты 28 секунд с точностью 100%. Для сравнения, человек бы потратил около 10-12 минут на то же самое. Это прямо впечатляет!
— 2048: В этой игре агент стабильно набирал около 2242 очков, но до рекордов человека (3463 очка с первого раза) ему было далеко. Проблема? Он не выстраивал долгосрочные стратегии и часто застревал на одинаковых уровнях.
— T-Rex Runner: Когда мы говорим о реальном времени, тут начались проблемы. Атлас набрал всего 45,5 очка, по сравнению с 388,9 у человека. И 9 из 10 раз он не мог даже пройти первое препятствие.
— Flappy Bird: Здесь Atlas вообще не набрал ни одного очка. А люди в среднем делали около 3. Агент не мог быстро повторить нажатие одной клавиши — и результат нулевой.
— Stein.world: В этой игре, требующей долгосрочной стратегии и разнообразных действий, Atlas не мог пройти начальную комнату. Однако, после некоторых подсказок, он справился и выполнил задание.
Что можно сказать в итоге?
ChatGPT Atlas отлично справляется с задачами, которые требуют анализа и пошагового подхода, такими как решение судоку или понимание логики в играх вроде 2048. Но как только дело доходит до быстрого реагирования, например в Flappy Bird или T-Rex Runner, ему явно не хватает скорости. Это просто особенность архитектуры: модели вроде Atlas заточены на рассуждения, а не на мгновенную реакцию.
Этот эксперимент подчеркивает важную границу между когнитивными способностями ИИ и его действиями в реальном времени. В будущем такие способности, скорее всего, будут разделены: один агент будет заниматься анализом и пониманием контекста, а другой — исполнять команды в реальном времени. Вот так и появится идеальная команда «мыслителей» и «исполнителей»
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2
Cache-to-Cache: Как модели могут общаться без слов и токенов
Около года назад, Ьicrosoft научила модели общаться без токенов, но только внутри одной архитектуры. А что если бы мы могли заставить разные модели от разных компаний и с разной архитектурой общаться друг с другом? Оказывается, это возможно! Cтатья про парадигму Cache-to-Cache (C2C) заставила задуматься на эту тему🗒
Получается, что обмен кэшами помогает моделям понимать друг друга лучше, чем просто обмен словами. Мощно, мощно.
Data Science
Около года назад, Ьicrosoft научила модели общаться без токенов, но только внутри одной архитектуры. А что если бы мы могли заставить разные модели от разных компаний и с разной архитектурой общаться друг с другом? Оказывается, это возможно! Cтатья про парадигму Cache-to-Cache (C2C) заставила задуматься на эту тему
Давайте немного разберемся. Обычно, когда два агента взаимодействуют в мультимодельной системе, они обмениваются текстом. Звучит нормально, но это не самый эффективный способ. Каждая модель хранит так называемый Key-Value Cache (или KV-кэш) — своеобразное «внутреннее состояние», где содержится информация о том, что она «думает».
И вот если бы модели могли передавать не слова, а этот самый кэш, то все происходило бы гораздо быстрее и результат был бы точнее. Так и появился новый подход: Cache-to-Cache (C2C). В этой модели один агент передает свой кэш (Sharer), а другой (Receiver) через специальную нейросеть-проектор встраивает полученную информацию в свое собственное пространство. Звучит сложно, но на самом деле — это способ «передачи смысла» без использования токенов.
Как это работает на практике?
Для того, чтобы связать два разных кэша, понадобился специальный Projection module, который превращает два разных пространства в общий, понятный для обеих моделей эмбеддинг. Также в протокол добавили Weighting module, который решает, какую информацию стоит передавать.
Какие преимущества этого подхода?
— Скорость. Если сравнивать с классическим Text-to-Text, то обмен кэшами происходит в 2-3 раза быстрее. А это, согласитесь, огромный прирост!
— Точность. Когда модели обменяются кэшами, метрика точности может подняться на 5% по сравнению с тем, если бы они общались текстом. Это уже серьезный результат, особенно если учитывать, что кэш содержит гораздо более полную информацию о «мысли» модели.
Минус тут тоже есть — универсальности подхода не хватает
Каждую пару моделей нужно будет обучать по-своему. Придется настроить свой «мост» между ними, что добавляет определенные сложности. Да и если модели используют разные токенизаторы, то тут будет совсем непросто — нужно будет делать Token alignment.
Получается, что обмен кэшами помогает моделям понимать друг друга лучше, чем просто обмен словами. Мощно, мощно.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1