На arXiv сильно ужесточили правила публикации статей по Computer Science
В последнее время поток низкокачественных работ по ИИ и в целом по CS на архиве просто ошеломляющий. Большинство из них – тупое Ctrl+C Ctrl+V из ChatGPT. Модераторы не справляются с такими объемами, поэтому arXiv, видимо, решили действовать.
Судя по всему, в основном проблема касается тех статей, для которых не нужно проводить какие-то эксперименты, показывать практические результаты или демонстрировать научную новизну. Это категории: (а)обзорных статей, в которых проводится анализ и обобщение существующей литературы; (б) позиционных статей, в которых авторы формулируют мнение по какому-то спорному вопросу.
Оно и понятно. Вообще, хорошая статья такого вида требует огромной экспертизы и кучи времени. Но, с другой стороны, именно такие работы легче всего скопипастить с LLMки за пол часа🧠
Вот, собственно, для этих двух категорий и вводят новые правила. Кратко: при подаче статьи теперь требуется предоставить подтверждение успешного прохождения рецензирования в журнале или конференции. Еще раз: это не коснется работ, которые содержат новые результаты, эксперименты, теоретические разработки и выводы. Их все так же можно загружать без внешнего рецензирования.
С одной стороны – правильно, конечно. Иначе так недолго и в помойку превратиться. С другой, архив предназначен именно для быстрой научной коммуникации, а задержка публикации действительно хороших обзоров может сделать их банально устаревшими к моменту появления на сайте. Возможно, стоило рассмотреть что-то вроде возможности временной публикации с последующим подтверждением рецензирования.
В последнее время поток низкокачественных работ по ИИ и в целом по CS на архиве просто ошеломляющий. Большинство из них – тупое Ctrl+C Ctrl+V из ChatGPT. Модераторы не справляются с такими объемами, поэтому arXiv, видимо, решили действовать.
Судя по всему, в основном проблема касается тех статей, для которых не нужно проводить какие-то эксперименты, показывать практические результаты или демонстрировать научную новизну. Это категории: (а)обзорных статей, в которых проводится анализ и обобщение существующей литературы; (б) позиционных статей, в которых авторы формулируют мнение по какому-то спорному вопросу.
Оно и понятно. Вообще, хорошая статья такого вида требует огромной экспертизы и кучи времени. Но, с другой стороны, именно такие работы легче всего скопипастить с LLMки за пол часа
Вот, собственно, для этих двух категорий и вводят новые правила. Кратко: при подаче статьи теперь требуется предоставить подтверждение успешного прохождения рецензирования в журнале или конференции. Еще раз: это не коснется работ, которые содержат новые результаты, эксперименты, теоретические разработки и выводы. Их все так же можно загружать без внешнего рецензирования.
С одной стороны – правильно, конечно. Иначе так недолго и в помойку превратиться. С другой, архив предназначен именно для быстрой научной коммуникации, а задержка публикации действительно хороших обзоров может сделать их банально устаревшими к моменту появления на сайте. Возможно, стоило рассмотреть что-то вроде возможности временной публикации с последующим подтверждением рецензирования.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤111👍49🔥12🤔7😁2🕊1🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
В llama.cpp завезли WebUI в стиле ChatGPT
На всякий случай напомним, что llama.cpp – это опенсорс движок для локального запуска LLM. Он реализован на C/C++ и оптимизирован для работы на обычных потребительских CPU. Запускается тоже довольно легко, но использовать до этого приходилось в основном в терминале, а это не все любят.
Теперь же свои локальные модельки можно крутить вот на таком прекрасном (тоже локальном) интерфейсе. Просто запускаете сервер в своем браузере и готово: вы получаете собственный ChatGPT с поддержкой более 150к открытых моделей.
Можно загружать картинки, файлы и документы. Также есть поддержка параллельных чатов и еще несколько маленьких, но очень приятных фич, типа возможности шеринга сервера, настройки structured outputs или экспорта/импорта чатов.
На телефоне тоже запускается буквально за минуту.
Детальная инструкция по использованию здесь (все абсолютно бесплатно)
На всякий случай напомним, что llama.cpp – это опенсорс движок для локального запуска LLM. Он реализован на C/C++ и оптимизирован для работы на обычных потребительских CPU. Запускается тоже довольно легко, но использовать до этого приходилось в основном в терминале, а это не все любят.
Теперь же свои локальные модельки можно крутить вот на таком прекрасном (тоже локальном) интерфейсе. Просто запускаете сервер в своем браузере и готово: вы получаете собственный ChatGPT с поддержкой более 150к открытых моделей.
Можно загружать картинки, файлы и документы. Также есть поддержка параллельных чатов и еще несколько маленьких, но очень приятных фич, типа возможности шеринга сервера, настройки structured outputs или экспорта/импорта чатов.
На телефоне тоже запускается буквально за минуту.
Детальная инструкция по использованию здесь (все абсолютно бесплатно)
50👍146🔥57❤26😁5🤩3⚡2🤔2🤯2🤨1💘1
Один из крупнейших стримеров в мире PewDiePie внезапно построил себе суперкомпьютер за 20 тысяч долларов для запуска локальных LLM
Во-первых, зацените перевоплощение: парень больше 10 лет снимал летсплеи, прохождения и всякую развлекаловку, был самым подписываемым и в какой-то момент самым крупным и популярным блогером на платформе, а теперь вдруг...
ополчился на ИИ-корпорации и активно призывает всех перестать использовать ИИ и юзать вместо этого локальные модели.
Он придерживается позиции, что ваши данные должны быть под вашим контролем и особенно горит на OpenAI за то, что стартап продолжает некоторое время хранить все ваши чаты, даже удаленные или временные.
Позиция по поводу ИИ у него настолько конкретная, что он потратил 20к долларов на домашнюю супермощную железку для запуска локальных LLM (которой он собственно и хвастается в видео). Все, чтобы не приходилось делиться с кем-то данными.
В компьютере оказалось 10 видюх: 8 модифицированных RTX 4090 с 48 GB памяти (те самые китайские) и 2 RTX 4000 Ada. Сетап легко тянет что-то вроде Llama 70B, gpt-oss-120B и Qwen 245B, а на максималках хостить до 64 мелких моделей одновременно.
Блогер даже сделал собственный интерфейс и организовал совет из нескольких моделек, которые обсуждают его вопросы вместе. Вот такие дела. Код можете найти тут.
Приятного просмотра
Во-первых, зацените перевоплощение: парень больше 10 лет снимал летсплеи, прохождения и всякую развлекаловку, был самым подписываемым и в какой-то момент самым крупным и популярным блогером на платформе, а теперь вдруг...
ополчился на ИИ-корпорации и активно призывает всех перестать использовать ИИ и юзать вместо этого локальные модели.
Он придерживается позиции, что ваши данные должны быть под вашим контролем и особенно горит на OpenAI за то, что стартап продолжает некоторое время хранить все ваши чаты, даже удаленные или временные.
Позиция по поводу ИИ у него настолько конкретная, что он потратил 20к долларов на домашнюю супермощную железку для запуска локальных LLM (которой он собственно и хвастается в видео). Все, чтобы не приходилось делиться с кем-то данными.
В компьютере оказалось 10 видюх: 8 модифицированных RTX 4090 с 48 GB памяти (те самые китайские) и 2 RTX 4000 Ada. Сетап легко тянет что-то вроде Llama 70B, gpt-oss-120B и Qwen 245B, а на максималках хостить до 64 мелких моделей одновременно.
Блогер даже сделал собственный интерфейс и организовал совет из нескольких моделек, которые обсуждают его вопросы вместе. Вот такие дела. Код можете найти тут.
Приятного просмотра
YouTube
STOP. Using AI Right now
🌎 Get an exclusive 15% discount on Saily data plans! Use code pewdiepie at checkout. Download Saily app or go to https://saily.com/pewdiepie ⛵
🌏 Get exclusive NordVPN deal here ➵ https://NordVPN.com/pewdiepie It’s risk free with Nord’s 30 day money-back guarantee!✌…
🌏 Get exclusive NordVPN deal here ➵ https://NordVPN.com/pewdiepie It’s risk free with Nord’s 30 day money-back guarantee!✌…
1🔥211❤58👍26😁18🗿7🐳6🤔4🦄4
This media is not supported in your browser
VIEW IN TELEGRAM
Маленькую, но очень приятную фичу выкатили OpenAI: теперь в ChatGPT можно исправлять запросы, не теряя прогресс
У многих из вас точно возникала ситуация, когда запустил, например, Deep Research, он уже что-то там насерчил, а ты вспоминаешь какую-то важную деталь, которую не добавил в промпт.
Довольно обидно в такие моменты сбрасывать процесс или потом запускать его заново.
Так вот теперь промпт можно менять уже после того, как модель начала над ним работать. Относится это не только к Deep Research, но и вообще к любым диалогам.
В случае простых промптов смысла в фиче немного, но вот в кейсах с агентами или долгим ризонингом она раскрывается полностью.
Для того чтобы исправить запрос, надо просто нажать «Update» в боковой панели.
Симпатично и свежо
У многих из вас точно возникала ситуация, когда запустил, например, Deep Research, он уже что-то там насерчил, а ты вспоминаешь какую-то важную деталь, которую не добавил в промпт.
Довольно обидно в такие моменты сбрасывать процесс или потом запускать его заново.
Так вот теперь промпт можно менять уже после того, как модель начала над ним работать. Относится это не только к Deep Research, но и вообще к любым диалогам.
В случае простых промптов смысла в фиче немного, но вот в кейсах с агентами или долгим ризонингом она раскрывается полностью.
Для того чтобы исправить запрос, надо просто нажать «Update» в боковой панели.
Симпатично и свежо
👍170🔥56❤31😁4🍾3🤯2
Майкл Бьюрри поставил 1.1 млрд долларов на крах ИИ-пузыря
Майкл Бьюрри – это тот самый инвестор, про которого сняли фильм «Игра на понижение». В 2008 году он был одним из первых, кто увидел надвигающийся кризис недвижимости США и купил CDS на ипотечные облигации. Тогда он и его фонд заработали на этом около миллиарда долларов.
Теперь же он приобрел пут-опционы на сумму около $1.1 млрд против акций Nvidia и Palantir (это ПО для анализа данных).
Пут-опцион – это такая штука, которая позволяет заработать на падении цены акций: если цена идет вниз, такой инвестор получает прибыль, поскольку может продать акции по более высокой цене, чем рыночная.
Майкл утверждает, что сектор ИИ избыточно перегрет, и это очень напоминает ситуацию перед пузырём доткомов.
Заявочка?☠️
Майкл Бьюрри – это тот самый инвестор, про которого сняли фильм «Игра на понижение». В 2008 году он был одним из первых, кто увидел надвигающийся кризис недвижимости США и купил CDS на ипотечные облигации. Тогда он и его фонд заработали на этом около миллиарда долларов.
Теперь же он приобрел пут-опционы на сумму около $1.1 млрд против акций Nvidia и Palantir (это ПО для анализа данных).
Пут-опцион – это такая штука, которая позволяет заработать на падении цены акций: если цена идет вниз, такой инвестор получает прибыль, поскольку может продать акции по более высокой цене, чем рыночная.
Майкл утверждает, что сектор ИИ избыточно перегрет, и это очень напоминает ситуацию перед пузырём доткомов.
Заявочка?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍238 97🤯40❤20😁14🤔12🔥10💯7🗿6🎄3🆒1
Стартап Edison Scientific выпустил ИИ-ученого Kosmos, который совершил уже 7 научных открытий. Разбираемся, как он устроен, и что на самом деле может.
Результаты заявляются очень громкие. Якобы за один запуск агент может проанализировать около 1500 научных статей и написать 42 тысячи строк кода, и за пол часа выполняет работу, которая у людей заняла бы пол года.
К этому вернемся позже, а пока – архитектура.
Система мультиагентная. Один из двух основных агентов фокусируется на анализе данных (код, визуализации, эксперименты в том числе), другой – на поиске и чтении литературы. Эти агенты взаимодействуют через «модель мира».
Эта модель мира является центральной частью Kosmos и представляет из себя обновляемую базу знаний, в которой фиксируются гипотезы, результаты, ссылки. Один цикл системы состоит из следующего: работает агент аналитик -> он выдвигает гипотезу -> другой агент ее проверяет на основе литературы -> модель мира обновляется. И так много-много циклов (запуск ограничен 12 часами, это в среднем 200 итераций).
Теперь вернемся к результатам.
1. Для оценки качества привлекались независимые эксперты. Они оценили, что 79.4% утверждений в отчётах – верные. Вроде неплохой результат, но что там делается в этих 20.6% и как с ними быть – большой вопрос.
2. Kosmos правда совершил 7 открытий, но есть нюансы. Во-первых, среди них три репликации (то есть система пришла к тем же выводам, что и люди раньше, по данным, которые были ей доступны). Четыре же действительно еще формально не описаны в литературе. Например, агент предложил ранее не испробованную оптимизацию термообработки в материаловедении. Все открытия также проверялись экспертами, но в то же время ни одно не верифицировали официально.
3. "За пол часа выполняет работу, на которую у людей ушло бы 6 месяцев" – это оценка самих авторов на коленке. Они посчитали по бенчмарку METR, сколько у людей занимает чтение статей, анализ и тд, все это сложили и – вуаля. Так что конкретно к этому утверждению стоит отнестись с некоторым скепсисом.
Несмотря на все эти оговорки, результаты действительно неплохие и довольно прозрачные (кроме последнего пункта). Одно только то, что агент может работать автономно 12 часов подряд и качество при этом растет с ростом количества циклов делает релиз крутым.
Попробовать Kosmos можете тут. Правда, один запуск стоит 200 долларов💸
Блогпост | Статья
Результаты заявляются очень громкие. Якобы за один запуск агент может проанализировать около 1500 научных статей и написать 42 тысячи строк кода, и за пол часа выполняет работу, которая у людей заняла бы пол года.
К этому вернемся позже, а пока – архитектура.
Система мультиагентная. Один из двух основных агентов фокусируется на анализе данных (код, визуализации, эксперименты в том числе), другой – на поиске и чтении литературы. Эти агенты взаимодействуют через «модель мира».
Эта модель мира является центральной частью Kosmos и представляет из себя обновляемую базу знаний, в которой фиксируются гипотезы, результаты, ссылки. Один цикл системы состоит из следующего: работает агент аналитик -> он выдвигает гипотезу -> другой агент ее проверяет на основе литературы -> модель мира обновляется. И так много-много циклов (запуск ограничен 12 часами, это в среднем 200 итераций).
Теперь вернемся к результатам.
1. Для оценки качества привлекались независимые эксперты. Они оценили, что 79.4% утверждений в отчётах – верные. Вроде неплохой результат, но что там делается в этих 20.6% и как с ними быть – большой вопрос.
2. Kosmos правда совершил 7 открытий, но есть нюансы. Во-первых, среди них три репликации (то есть система пришла к тем же выводам, что и люди раньше, по данным, которые были ей доступны). Четыре же действительно еще формально не описаны в литературе. Например, агент предложил ранее не испробованную оптимизацию термообработки в материаловедении. Все открытия также проверялись экспертами, но в то же время ни одно не верифицировали официально.
3. "За пол часа выполняет работу, на которую у людей ушло бы 6 месяцев" – это оценка самих авторов на коленке. Они посчитали по бенчмарку METR, сколько у людей занимает чтение статей, анализ и тд, все это сложили и – вуаля. Так что конкретно к этому утверждению стоит отнестись с некоторым скепсисом.
Несмотря на все эти оговорки, результаты действительно неплохие и довольно прозрачные (кроме последнего пункта). Одно только то, что агент может работать автономно 12 часов подряд и качество при этом растет с ростом количества циклов делает релиз крутым.
Попробовать Kosmos можете тут. Правда, один запуск стоит 200 долларов
Блогпост | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106🤯41❤21⚡12😁10👍8🤔3🗿3😎2
Продолжаем разбираться, как работают разные технические штуки в знакомых чат-ботах
В этот раз поговорим про tool calling на примере нейросети Алисы. Это не просто языковая модель, у нее есть еще и агентские способности.
Тут один из самых распространенных юзкейсов – пересказ видео, статей и документов. Вы просто вставляете ссылку на ресурс в чате с Алисой и просите: "перескажи", – а через минуту получаете емкий конспект.
А еще она может:
– Написать и запустить код, если для ответа это нужно
– Забронировать столик в ресторане или записать вас на какую-нибудь услугу
– Найти для вас нужный товар или информацию в Поиске
... и все это построено на tool calling. Сейчас разберемся, что это, и как научить этому модель.
Тул (функция) – это формально описанная операция, которую нейросеть может вызвать. Например: сделать запрос в Поиск, вызвать интерпретатор, получить информацию о доступных окошках на стрижку и тд. У каждой функции есть четкое API: входные аргументы и структура ответа.
Модель в определенных ситуациях должна научиться отвечать не просто текстом, а возвращать вызов функции. Рантайм парсит этот вызов, идет в соответствующий бэкенд, получает результат (например, результат содержание веб-страницы) – и этот результат снова подается модели, как следующее сообщение контекста.
Чтобы это заработало стабильно, модель специально дообучают на примерах таких диалогов («запрос → вызов функции → ответ функции → следующий вызов → финальный ответ»). Это учит ее не галлюцинировать параметры, аккуратно перекладывать реальные айдишники и поля из ответа одной функции во вход другой.
При этом если в бэкенде появляется новая функция, нам не нужно бежать и переобучать модель, потому что список доступных тулов она получает прямо в промпт. Над описанием каждой функции специально работают бекендеры: описывают ее работу, параметры, особенности. Короче говоря, под капотом там целая документация для LLM-ки.
То есть модель выступает еще и планировщиком. Благодаря этому же навыку скоро Алиса AI научится помнить дела пользователя, напоминать о важных событиях и выполнять какие-то конкретные поручения.
В этот раз поговорим про tool calling на примере нейросети Алисы. Это не просто языковая модель, у нее есть еще и агентские способности.
Тут один из самых распространенных юзкейсов – пересказ видео, статей и документов. Вы просто вставляете ссылку на ресурс в чате с Алисой и просите: "перескажи", – а через минуту получаете емкий конспект.
А еще она может:
– Написать и запустить код, если для ответа это нужно
– Забронировать столик в ресторане или записать вас на какую-нибудь услугу
– Найти для вас нужный товар или информацию в Поиске
... и все это построено на tool calling. Сейчас разберемся, что это, и как научить этому модель.
Тул (функция) – это формально описанная операция, которую нейросеть может вызвать. Например: сделать запрос в Поиск, вызвать интерпретатор, получить информацию о доступных окошках на стрижку и тд. У каждой функции есть четкое API: входные аргументы и структура ответа.
Модель в определенных ситуациях должна научиться отвечать не просто текстом, а возвращать вызов функции. Рантайм парсит этот вызов, идет в соответствующий бэкенд, получает результат (например, результат содержание веб-страницы) – и этот результат снова подается модели, как следующее сообщение контекста.
Чтобы это заработало стабильно, модель специально дообучают на примерах таких диалогов («запрос → вызов функции → ответ функции → следующий вызов → финальный ответ»). Это учит ее не галлюцинировать параметры, аккуратно перекладывать реальные айдишники и поля из ответа одной функции во вход другой.
При этом если в бэкенде появляется новая функция, нам не нужно бежать и переобучать модель, потому что список доступных тулов она получает прямо в промпт. Над описанием каждой функции специально работают бекендеры: описывают ее работу, параметры, особенности. Короче говоря, под капотом там целая документация для LLM-ки.
То есть модель выступает еще и планировщиком. Благодаря этому же навыку скоро Алиса AI научится помнить дела пользователя, напоминать о важных событиях и выполнять какие-то конкретные поручения.
🗿92❤35✍12👍8😁8🔥5👌4🤨3 3⚡1🤯1
Data Secrets
Google уверены, что с помощью ИИ вот-вот решат одну из главных математических загадок человечества Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных…
Теренс Тао и Хавьер Гомес-Серрано использовали Gemini Deep Thinking, AlphaEvolve и AlphaProof для попытки доказательства гипотезы Какея
Про сотрудничество DeepMind с Гомесом-Серрано мы писали и раньше. Они уже несколько лет работают над решением задачи Навье-Стокса – одной из семи проблем тысячелетия.
А вот сотрудничество с Теренсом Тао – это что-то новое и интересное (он официально признан одним из самых умных людей в мире).
Ну так вот. В этот раз они все вместе работали над геометрической задачей о множествах Какея. Это недоказанная гипотеза, которая изучает минимальные размеры множеств, внутри которых можно провести отрезки во всех направлениях, не выходя за пределы множества.
Ключевая и чрезвычайно сложная задача здесь – проектирование новых нетривиальных примеров множеств Какея. Именно это и сделал ИИ от DeepMind.
В статье подробно описано, что все три агента работали вместе: AlphaEvolve сгенерировал новую конструкцию множества Какея в конечных полях, Gemini Deep Think доказал корректность этой конструкции, а AlphaProof формализовал доказательство в системе Lean, полностью верифицировав результат.
Что отличает этот случай от маркетинга OpenAI в стиле «GPT-5 открыла новую математику» – так это как раз вот эта законченность научного цикла. От гипотезы до верифицируемого формального доказательства. Выглядит такое сразу сильно мощнее.
https://arxiv.org/abs/2511.02864
Про сотрудничество DeepMind с Гомесом-Серрано мы писали и раньше. Они уже несколько лет работают над решением задачи Навье-Стокса – одной из семи проблем тысячелетия.
А вот сотрудничество с Теренсом Тао – это что-то новое и интересное (он официально признан одним из самых умных людей в мире).
Ну так вот. В этот раз они все вместе работали над геометрической задачей о множествах Какея. Это недоказанная гипотеза, которая изучает минимальные размеры множеств, внутри которых можно провести отрезки во всех направлениях, не выходя за пределы множества.
Ключевая и чрезвычайно сложная задача здесь – проектирование новых нетривиальных примеров множеств Какея. Именно это и сделал ИИ от DeepMind.
В статье подробно описано, что все три агента работали вместе: AlphaEvolve сгенерировал новую конструкцию множества Какея в конечных полях, Gemini Deep Think доказал корректность этой конструкции, а AlphaProof формализовал доказательство в системе Lean, полностью верифицировав результат.
Что отличает этот случай от маркетинга OpenAI в стиле «GPT-5 открыла новую математику» – так это как раз вот эта законченность научного цикла. От гипотезы до верифицируемого формального доказательства. Выглядит такое сразу сильно мощнее.
https://arxiv.org/abs/2511.02864
🔥148❤38👍24😁2
Вышла открытая Kimi K2 Thinking: релиз уже окрестили «DeepSeek moment 2.0»
Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp: в основном за счет мега-прокаченного tool calling.
Она может делать до 200–300 последовательных вызовов инструментов (интернет, браузер, интерпретаторы кода и пр.), самостоятельно планируя и разбивая задачи на подзадачи. Это правда впечатляет и сильно выделяет модель.
В остальном: MoE, 1T параметров и 32В активных, контекст 128к токенов, лицензия MIT с небольшими ограничениями для крупных продуктов.
Попробовать можно здесь
Веса | Блогпост | API
Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp: в основном за счет мега-прокаченного tool calling.
Она может делать до 200–300 последовательных вызовов инструментов (интернет, браузер, интерпретаторы кода и пр.), самостоятельно планируя и разбивая задачи на подзадачи. Это правда впечатляет и сильно выделяет модель.
В остальном: MoE, 1T параметров и 32В активных, контекст 128к токенов, лицензия MIT с небольшими ограничениями для крупных продуктов.
Попробовать можно здесь
Веса | Блогпост | API
1👍113🔥48❤20 7😁5🤯5🤔3❤🔥1 1
This media is not supported in your browser
VIEW IN TELEGRAM
Интересный инцидент произошел в ходе записи нового интервью Альтмана
Активист из организации Stop AI (и их юрист по совместительству) внезапно выбежал на сцену, чтобы вызвать Сэма в суд.
Дело в том, что OpenAI подала иск на эту организацию за то, что они неоднократно совершали «насильственные действия» типа блокирования входной двери OpenAI и перекрытия дороги перед их офисом.
Сами активисты говорят, что это было «попыткой помешать OpenAI уничтожить всех и каждого живого существа на Земле».
Короче, теперь Альтман должен будет лично явиться на это судебное разбирательство. Запасаемся попкорном🍿
Активист из организации Stop AI (и их юрист по совместительству) внезапно выбежал на сцену, чтобы вызвать Сэма в суд.
Дело в том, что OpenAI подала иск на эту организацию за то, что они неоднократно совершали «насильственные действия» типа блокирования входной двери OpenAI и перекрытия дороги перед их офисом.
Сами активисты говорят, что это было «попыткой помешать OpenAI уничтожить всех и каждого живого существа на Земле».
Короче, теперь Альтман должен будет лично явиться на это судебное разбирательство. Запасаемся попкорном
Please open Telegram to view this post
VIEW IN TELEGRAM
😁222 48🔥12❤10🤯7👍6🗿3
Яндекс Маркет запустил ИИ-агента
В Маркете появился ИИ-агент, который работает на базе технологий Alice AI. Он помогает с выбором товаров, как настоящий консультант, и при этом может самостоятельно определить порядок действий – изучит статьи, отзывы или задаст уточняющие вопросы, чтобы подобрать наиболее подходящие вещи.
Ему можно отправлять фото и писать запросы текстом, а скоро добавят возможность задавать вопросы и голосом. Можно скинуть фото одежды – агент подскажет, с чем её лучше сочетать. Или рассказать про человека – и получить идеи подарков, которые ему точно понравятся. Чат с ИИ также запоминает историю поиска и может показывать в чате персональные подсказки.
ИИ-покупки – новый тренд в e-commerce, и Яндекс развивает такие сценарии в Маркете и на Поиске, чтобы улучшить пользовательский опыт и закрыть весь цикл от поиска идеи до оформления заказа. Пока что это единственный маркетплейс в России, у которого есть ИИ-агент c таким функционалом.
В Маркете появился ИИ-агент, который работает на базе технологий Alice AI. Он помогает с выбором товаров, как настоящий консультант, и при этом может самостоятельно определить порядок действий – изучит статьи, отзывы или задаст уточняющие вопросы, чтобы подобрать наиболее подходящие вещи.
Ему можно отправлять фото и писать запросы текстом, а скоро добавят возможность задавать вопросы и голосом. Можно скинуть фото одежды – агент подскажет, с чем её лучше сочетать. Или рассказать про человека – и получить идеи подарков, которые ему точно понравятся. Чат с ИИ также запоминает историю поиска и может показывать в чате персональные подсказки.
ИИ-покупки – новый тренд в e-commerce, и Яндекс развивает такие сценарии в Маркете и на Поиске, чтобы улучшить пользовательский опыт и закрыть весь цикл от поиска идеи до оформления заказа. Пока что это единственный маркетплейс в России, у которого есть ИИ-агент c таким функционалом.
🗿88🔥58👍22😁12🤨11❤5⚡3🤯2 2
Data Secrets
И еще один релиз от Google: новый чип TPUv7s Его разрабатывали под кодовым названием Ironwood. В нем 192 гигабайта видеопамяти, и по сравнению с текущим TPUv5 пиковая производительность примерно в 10 раз выше, а энергоэффективность в 2 раз лучше. При этом…
Google наконец официально запускает свой самый мощный ИИ-чип Ironwood
Его впервые презентовали в апреле. Он в 4 раза быстрее Trillium и в нем в 6 раз больше памяти.
Но самое интересное, что чипы способны объединяться в суперпод из 9216 единиц, который работает как единый суперкомпьютер. Между ними можно сделать all-reduce за счет специальной сети Inter-Chip Interconnect с огромной пропускной способностью. Это значит, что память чипов становится фактически общей и синхронизируется между всеми чипами кластера.
На практике это означает, что можно обучать действительно гигантские модели на тысячах чипов как на едином устройстве.
Уже похоже на что-то конкурентноспособное относительно Nvidia
Его впервые презентовали в апреле. Он в 4 раза быстрее Trillium и в нем в 6 раз больше памяти.
Но самое интересное, что чипы способны объединяться в суперпод из 9216 единиц, который работает как единый суперкомпьютер. Между ними можно сделать all-reduce за счет специальной сети Inter-Chip Interconnect с огромной пропускной способностью. Это значит, что память чипов становится фактически общей и синхронизируется между всеми чипами кластера.
На практике это означает, что можно обучать действительно гигантские модели на тысячах чипов как на едином устройстве.
Уже похоже на что-то конкурентноспособное относительно Nvidia
❤150🔥55👍24😁2🕊2
В Cursor обновили модель поиска: благодаря RAG многое теперь работает лучше
В Cursor уже давно используется retrieval-механика: агент ищет по кодовой базе и добавляет нужные куски в контекст LLM. Но раньше был реализован просто grep вариант – поиск по строковому совпадению. Это быстро, но не всегда в достаточной степени релевантно.
Теперь же ему на смену пришел более умный семантический поиск. По сути, RAG. То есть релевантность кусочков кода теперь оценивает специальная векторная модель, которая уже не просто ищет по ключевым словам, а сопоставляет смыслы.
Интересно, что для этого обновления Cursor обучили собственную embedding-модель, заточенную именно под код. Для этого использовались реальные траектории работы агента. Каждая сессия – это последовательность: запрос -> поиск релевантных кусочков кода -> результат. Отдельная LLM-ка по этим траекториям оценивала, какие из найденных кусочков в итоге пригодились, а какие оказались шумом.
А дальше берем нашу векторную модель и учим ее на триплетах (запрос, релевантные файлы, нерелевантные) так, чтобы в итоге ее ранжирование соответствовало ранжированию LLM, то есть более полезные кусочки были в векторном пространстве ближе к запросу.
Grep-поиск, кстати, все еще где-то остается: например, он незаменим, когда надо быстро поискать по названиям переменных или функций. Результаты grep-модуля и векторной модельки комбинируются.
Что в итоге с метриками:
1. На оффлайн-оценке на специально собранном бенчмарке «Cursor Context Bench» среднее повышение точности составило ~12,5%.
2. На A/B-тестах в среднем на ~0,3% вырос code retention. Это метрика, показывающая, сколько кода, сгенерированного агентом, в итоге осталось в проекте пользователя спустя время. На больших кодовых базах наблюдалось вообще +2,6%.
3. Также на ~2,2% понизилось количество dissatisfied follow-up requests – когда пользователь вынужден делать исправления или дополнительные запросы, если у агента что-то не вышло с первого раза.
Эффект не огромный, потому что далеко не каждый запрос вообще требует поиска, но он есть и особенно будет ощущаться в крупных кодовых базах.
https://cursor.com/blog/semsearch
В Cursor уже давно используется retrieval-механика: агент ищет по кодовой базе и добавляет нужные куски в контекст LLM. Но раньше был реализован просто grep вариант – поиск по строковому совпадению. Это быстро, но не всегда в достаточной степени релевантно.
Теперь же ему на смену пришел более умный семантический поиск. По сути, RAG. То есть релевантность кусочков кода теперь оценивает специальная векторная модель, которая уже не просто ищет по ключевым словам, а сопоставляет смыслы.
Интересно, что для этого обновления Cursor обучили собственную embedding-модель, заточенную именно под код. Для этого использовались реальные траектории работы агента. Каждая сессия – это последовательность: запрос -> поиск релевантных кусочков кода -> результат. Отдельная LLM-ка по этим траекториям оценивала, какие из найденных кусочков в итоге пригодились, а какие оказались шумом.
А дальше берем нашу векторную модель и учим ее на триплетах (запрос, релевантные файлы, нерелевантные) так, чтобы в итоге ее ранжирование соответствовало ранжированию LLM, то есть более полезные кусочки были в векторном пространстве ближе к запросу.
Grep-поиск, кстати, все еще где-то остается: например, он незаменим, когда надо быстро поискать по названиям переменных или функций. Результаты grep-модуля и векторной модельки комбинируются.
Что в итоге с метриками:
1. На оффлайн-оценке на специально собранном бенчмарке «Cursor Context Bench» среднее повышение точности составило ~12,5%.
2. На A/B-тестах в среднем на ~0,3% вырос code retention. Это метрика, показывающая, сколько кода, сгенерированного агентом, в итоге осталось в проекте пользователя спустя время. На больших кодовых базах наблюдалось вообще +2,6%.
3. Также на ~2,2% понизилось количество dissatisfied follow-up requests – когда пользователь вынужден делать исправления или дополнительные запросы, если у агента что-то не вышло с первого раза.
Эффект не огромный, потому что далеко не каждый запрос вообще требует поиска, но он есть и особенно будет ощущаться в крупных кодовых базах.
https://cursor.com/blog/semsearch
❤74👍47🔥11😁7☃3❤🔥2🤔2⚡1💯1
OpenAI подняли лимиты на Codex и выпустили GPT-5-Codex-Mini
Новая моделька всего на 3 п.п. отстает от GPT-5-Codex на SWE-bench Verified, но при этом в 4 раза выгоднее.
OpenAI советуют использовать ее для не самых сложных задач, чтобы тратить меньше доступных запросов к основной модели. Более того, когда вы прожжете 90% своих лимитов, Codex будет автоматически предлагать вам переключиться.
Еще из приятного: лимиты для ChatGPT Plus, Business и Edu увеличили на 50%. С щедростью Anthropic все еще не сравнится, но все равно неплохо.
Новая моделька всего на 3 п.п. отстает от GPT-5-Codex на SWE-bench Verified, но при этом в 4 раза выгоднее.
OpenAI советуют использовать ее для не самых сложных задач, чтобы тратить меньше доступных запросов к основной модели. Более того, когда вы прожжете 90% своих лимитов, Codex будет автоматически предлагать вам переключиться.
Еще из приятного: лимиты для ChatGPT Plus, Business и Edu увеличили на 50%. С щедростью Anthropic все еще не сравнится, но все равно неплохо.
4🔥93👍27❤14😁5🤔3
Google предложили новую ML-парадигму Nested Learning, с помощью которой модели смогут учиться непрерывно
Google все не оставляют попыток повторить свой успех 2017 года и снова изобрести в ИИ что-то новенькое и прорывное. Может, когда-нибудь одна из вот таких интересных работ и стрельнет.
В этот раз они предлагают переосмыслить нейросеть как таковую и начать рассматривать модель не просто как одну крупную оптимизационную задачу, а как набор вложенных (nested) оптимизационных задач, каждая из которых имеет свой контекстный поток и своё время обновления.
В первую очередь это попытка решить проблему катастрофического забывания. Память современных моделей, мягко говоря, сильно ограничена, и после предобучения или файнтюнинга их уже не так-то просто научить чему-то еще: при обучении на новых данных старые навыки начинают деградировать. Это гигантский глобальный недостаток, учитывая, что мы тут все вообще-то ждем AGI, который сможет непрерывно учиться и самосовершенствоваться.
А вот как работает Nested Learning:
Звучит немного замысловато, но об этом можно думать вот как: в последнее время очень модно делить память моделей на кратковременную и долгосрочную, а NL просто обобщает эту идеи и предлагает концепцию спектра памяти с множеством таких модулей.
И на практике это реализуется аналогично. В частности, Google просто взяли свою старую архитектуру TITAN (мы о ней вот тут писали), в которой как раз были модули долгой и короткой памяти, и расширили ее на неограниченное число уровней in-context обучения. Получившаяся HOPE в каком-то смысле стала первой в своем роде само-модифицирующейся моделью.
И, что самое интересное: эксперименты показали, что HOPE, по сравнению с базовыми трансформерами, имеет более низкую перплексию и более высокую точность в задачах common-sense reasoning и long-context memory.
Статья | Блогпост
Google все не оставляют попыток повторить свой успех 2017 года и снова изобрести в ИИ что-то новенькое и прорывное. Может, когда-нибудь одна из вот таких интересных работ и стрельнет.
В этот раз они предлагают переосмыслить нейросеть как таковую и начать рассматривать модель не просто как одну крупную оптимизационную задачу, а как набор вложенных (nested) оптимизационных задач, каждая из которых имеет свой контекстный поток и своё время обновления.
В первую очередь это попытка решить проблему катастрофического забывания. Память современных моделей, мягко говоря, сильно ограничена, и после предобучения или файнтюнинга их уже не так-то просто научить чему-то еще: при обучении на новых данных старые навыки начинают деградировать. Это гигантский глобальный недостаток, учитывая, что мы тут все вообще-то ждем AGI, который сможет непрерывно учиться и самосовершенствоваться.
А вот как работает Nested Learning:
1. Авторы формализуют модель как множество оптимизационных задач: у каждой есть свой поток информации, на которой она учится, и своя частота обновления. Например, компоненты с высокой частотой обновления отвечают за адаптацию к текущему контексту, с низкой частотой – за какие-то базовые знания, и тд.
2. Но просто так, по щучьему веленью, модель не поймет, что и когда обновлять. Поэтому авторы предлагают сделать обучаемым сам оптимизатор. То есть алгоритм, который отвечает за обновление весов, перестает быть просто формулой и превращается в такую же нейросеть. Это называется Deep Optimizers.
3. Формально оптимизатор рассматривается как ассоциативная память, которая учится связывать градиенты с правильными изменениями весов. В этом смысле привычные SGD или Adam – это простейшие частные случаи (об этом, если интересно, подробнее читайте в самой статье).
Звучит немного замысловато, но об этом можно думать вот как: в последнее время очень модно делить память моделей на кратковременную и долгосрочную, а NL просто обобщает эту идеи и предлагает концепцию спектра памяти с множеством таких модулей.
И на практике это реализуется аналогично. В частности, Google просто взяли свою старую архитектуру TITAN (мы о ней вот тут писали), в которой как раз были модули долгой и короткой памяти, и расширили ее на неограниченное число уровней in-context обучения. Получившаяся HOPE в каком-то смысле стала первой в своем роде само-модифицирующейся моделью.
И, что самое интересное: эксперименты показали, что HOPE, по сравнению с базовыми трансформерами, имеет более низкую перплексию и более высокую точность в задачах common-sense reasoning и long-context memory.
Статья | Блогпост
5❤141👍57⚡18🔥8 5😁3☃1🤔1🕊1
Data Secrets
Вышла открытая Kimi K2 Thinking: релиз уже окрестили «DeepSeek moment 2.0» Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp: в основном за счет мега-прокаченного tool calling. Она может делать до 200–300 последовательных вызовов инструментов…
Тем временем новая Kimi-K2-Thinking уже все выходные висит в самом топе трендовых моделей HiggingFace
Кстати, выяснилось, что ее обучение стоило MoonshotAI всего 4.6 миллионов долларов.
DeepSeek R2, ты ли это
Кстати, выяснилось, что ее обучение стоило MoonshotAI всего 4.6 миллионов долларов.
DeepSeek R2, ты ли это
👍176🔥55❤31😁8👀7🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
Сэм Альтман в интервью: «Думаю, все корпоративные приложения можно заменить на общую платформу на основе ИИ»
Маск отреагировал на новость простым лаконичным: «А я говорил, что они собираются напрямую конкурировать с Microsoft».
Напоминаем, что некоторое время назад миллиардер призывал Microsoft перестать работать с OpenAI, предупреждая компанию, что иначе стартап «съест ее заживо»☕️
«В Slack много всего хорошего, но иногда он создает кучу фейковой работы. Думаю, что вместо этого можно создать что-то новое: что-то вроде офисного пакета на основе ИИ, который заменит docs, slides, email, Slack и тд.
Это будет что-то на основе агентов, которые выполняют основную часть работу и эскалируют ее человеку, только когда это действительно необходимо»
Маск отреагировал на новость простым лаконичным: «А я говорил, что они собираются напрямую конкурировать с Microsoft».
Напоминаем, что некоторое время назад миллиардер призывал Microsoft перестать работать с OpenAI, предупреждая компанию, что иначе стартап «съест ее заживо»
Please open Telegram to view this post
VIEW IN TELEGRAM
😁232👍39🔥13❤7 7🤯4