https://aider.chat/docs/leaderboards/
DeepSeek R1 + claude-3-5-sonnet-20241022
DeepSeek R1 + claude-3-5-sonnet-20241022
aider --architect --model r1 --editor-model sonnet
Вот кто бы мог подумать, что будущее агентов будет в комбинировании их способностей. R1 как ризонер, а сонет как кодер рвет по бенчам пока всехaider
Aider LLM Leaderboards
Quantitative benchmarks of LLM code editing skill.
Понеслось. Инференс удешевляется. И это еще кустарный дипсик не все поставили себе
Forwarded from Малоизвестное интересное
Кто получит «Мандат Неба»?
Динамика «гонки вооружений» LLM одним слайдом.
«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем правее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).
Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!
PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.
Но вряд ли конкуренты согласятся 😊
#ИИгонка
Динамика «гонки вооружений» LLM одним слайдом.
«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем правее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).
На диаграмме видны две основные "границы эффективности" (pareto frontier):
• Синяя линия от OpenAI, показывающая их модели
• Оранжевая линия от Gemini 2, которая, судя по надписи, предлагает "лучше, дешевле, круче"
• Более дорогие и мощные модели в верхней левой части (например, различные версии GPT-4)
• Средний сегмент в центре (Claude 3.5, Gemini 1.5)
• Более доступные модели в правой части (Amazon Nova Lite, Gemini 1.5 Flash)
Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!
PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.
Но вряд ли конкуренты согласятся 😊
#ИИгонка
❤🔥1
3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена
Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
🤘
- 57% случаев - это усиление возможностей человека, а не замена
Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥1
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Anthropic представил индекс влияния ИИ на рынок труда и экономику - 1-е крупномасштабное исследование реального использования ИИ в экономике
Исследование Anthropic, основанное на анализе более 4 миллионов диалогов с ИИ-ассистентом Claude, впервые предоставляет эмпирические данные о том, как ИИ интегрируется в различные профессии.
По итогу анализа выявлен неожиданный паттерн: технологии активнее всего внедряются не в самых высокооплачиваемых профессиях, как предполагалось ранее.
Что самое интересное?
37.2% всех взаимодействий с ИИ приходится на разработку ПО и связанные с ней задачи.
На втором месте — создание контента и медиа (10.3%), что подтверждает растущую роль ИИ в креативных индустриях.
Неожиданным открытием стало то, что только 4% профессий демонстрируют глубокую интеграцию с ИИ, где технология используется для более чем 75% задач.
1. Выделяется ярко использование ИИ средним классом. Вопреки ожиданиям, ИИ максимально используется не топ-специалистами, а профессионалами среднего звена с зарплатами $75,000-$125,000. Это разрушает миф о том, что ИИ - инструмент элиты или наоборот, замена низкоквалифицированного труда.
2. Реальные данные против прогнозов:
- В здравоохранении использование ИИ оказалось значительно ниже прогнозируемого
- В научной сфере, наоборот, использование превысило ожидания
3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена
- Только 4% профессий глубоко интегрировали ИИ (используют для 75% задач)
- Это противоречит алармистским прогнозам о массовой замене людей ИИ
4. Неравномерность внедрения
- 36% профессий используют ИИ для четверти своих задач
- При этом внедрение сильно зависит от регуляторных ограничений, а не только от технических возможностей
- Это говорит о том, что барьеры внедрения часто административные, а не технологические
Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
Исследование Anthropic, основанное на анализе более 4 миллионов диалогов с ИИ-ассистентом Claude, впервые предоставляет эмпирические данные о том, как ИИ интегрируется в различные профессии.
По итогу анализа выявлен неожиданный паттерн: технологии активнее всего внедряются не в самых высокооплачиваемых профессиях, как предполагалось ранее.
Что самое интересное?
37.2% всех взаимодействий с ИИ приходится на разработку ПО и связанные с ней задачи.
На втором месте — создание контента и медиа (10.3%), что подтверждает растущую роль ИИ в креативных индустриях.
Неожиданным открытием стало то, что только 4% профессий демонстрируют глубокую интеграцию с ИИ, где технология используется для более чем 75% задач.
1. Выделяется ярко использование ИИ средним классом. Вопреки ожиданиям, ИИ максимально используется не топ-специалистами, а профессионалами среднего звена с зарплатами $75,000-$125,000. Это разрушает миф о том, что ИИ - инструмент элиты или наоборот, замена низкоквалифицированного труда.
2. Реальные данные против прогнозов:
- В здравоохранении использование ИИ оказалось значительно ниже прогнозируемого
- В научной сфере, наоборот, использование превысило ожидания
3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена
- Только 4% профессий глубоко интегрировали ИИ (используют для 75% задач)
- Это противоречит алармистским прогнозам о массовой замене людей ИИ
4. Неравномерность внедрения
- 36% профессий используют ИИ для четверти своих задач
- При этом внедрение сильно зависит от регуляторных ограничений, а не только от технических возможностей
- Это говорит о том, что барьеры внедрения часто административные, а не технологические
Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Anthropic представил индекс влияния ИИ на рынок труда и экономику - 1-е крупномасштабное исследование реального использования ИИ в экономике Исследование Anthropic, основанное на анализе более 4 миллионов диалогов с ИИ-ассистентом Claude, впервые предоставляет…
НО я хочу отметить, что это еще до-агентная эра) С появлением агентов и удешевлением инференса на больших сетках все будет иначе
https://github.blog/news-insights/product-news/github-copilot-the-agent-awakens/
Потестил я новый vscode с github agent mode. Для agent mode доступны sonnet, 4o и gemini 2 flash (уже нет). Работает нормально только sonnet. Из бонусов только то что они интегрировали отладчик в agent mode и сетка может иногда даже попробовать поотлаживать съедая токены (благо пока в preview все это бесплатно). А так то, прям гигантских отличий с aider я не нашел. Ну чуть более автономна, но не прям-прям. Но потенциал есть, НО очень все сильно зависит от возможностей самой модели.
А так из основных бонусов обновившийся chat режим, там есть бесплатно пока o1, o3-mini, gemini 2 flash, sonnet и 4o. НО количество бесплатных токенов в сутки ограничено.
Вердикт: еще сыровато, собирают люди баги и фидбек. Пользоваться можно.
Потестил я новый vscode с github agent mode. Для agent mode доступны sonnet, 4o и gemini 2 flash (уже нет). Работает нормально только sonnet. Из бонусов только то что они интегрировали отладчик в agent mode и сетка может иногда даже попробовать поотлаживать съедая токены (благо пока в preview все это бесплатно). А так то, прям гигантских отличий с aider я не нашел. Ну чуть более автономна, но не прям-прям. Но потенциал есть, НО очень все сильно зависит от возможностей самой модели.
А так из основных бонусов обновившийся chat режим, там есть бесплатно пока o1, o3-mini, gemini 2 flash, sonnet и 4o. НО количество бесплатных токенов в сутки ограничено.
Вердикт: еще сыровато, собирают люди баги и фидбек. Пользоваться можно.
The GitHub Blog
GitHub Copilot: The agent awakens
Introducing agent mode for GitHub Copilot in VS Code, announcing the general availability of Copilot Edits, and providing a first look at our SWE agent.
Начал тестировать xAI Grok 3. По ощущениям, то что говорит Маск близко к правде. Зарядил несколько рефакторингов на разных модулях на go и python. Инференс пыхтит минуты 3-4 и выдает хорошее решение. Там какой-то прям ризонинг есть. Будем посмотреть. Жду бенч от aider leaderboard.
В aider запускается по инструкции https://aider.chat/docs/llms/xai.html.
Да, надо ключик получить и проплатить.
В aider запускается по инструкции https://aider.chat/docs/llms/xai.html.
Да, надо ключик получить и проплатить.
aider
xAI
aider is AI pair programming in your terminal
👍3👀2
