AI Coder – Telegram
AI Coder
291 subscribers
82 photos
10 videos
2 files
186 links
AI will not replace you, people who use AI will.
Download Telegram
Channel created
Это канал про ИИ) им. Дмитрия Полищука
❤‍🔥3👀2👍1🙏1😎1
https://aider.chat/docs/leaderboards/

DeepSeek R1 + claude-3-5-sonnet-20241022

aider --architect --model r1 --editor-model sonnet

Вот кто бы мог подумать, что будущее агентов будет в комбинировании их
способностей. R1 как ризонер, а сонет как кодер рвет по бенчам пока всех
Понеслось. Инференс удешевляется. И это еще кустарный дипсик не все поставили себе
Кто получит «Мандат Неба»?
Динамика «гонки вооружений» LLM одним слайдом.

«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем правее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).

На диаграмме видны две основные "границы эффективности" (pareto frontier): 
• Синяя линия от OpenAI, показывающая их модели
• Оранжевая линия от Gemini 2, которая, судя по надписи, предлагает "лучше, дешевле, круче"
• Более дорогие и мощные модели в верхней левой части (например, различные версии GPT-4)
• Средний сегмент в центре (Claude 3.5, Gemini 1.5)
• Более доступные модели в правой части (Amazon Nova Lite, Gemini 1.5 Flash)


Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!

PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.

Но вряд ли конкуренты согласятся
😊

#ИИгонка
❤‍🔥1
Channel photo updated
3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена


Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.

🤘
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥1
Anthropic представил индекс влияния ИИ на рынок труда и экономику - 1-е крупномасштабное исследование реального использования ИИ в экономике

Исследование Anthropic, основанное на анализе более 4 миллионов диалогов с ИИ-ассистентом Claude, впервые предоставляет эмпирические данные о том, как ИИ интегрируется в различные профессии.

По итогу анализа выявлен неожиданный паттерн: технологии активнее всего внедряются не в самых высокооплачиваемых профессиях, как предполагалось ранее.

Что самое интересное?

37.2% всех взаимодействий с ИИ приходится на разработку ПО и связанные с ней задачи.

На втором месте — создание контента и медиа (10.3%), что подтверждает растущую роль ИИ в креативных индустриях.

Неожиданным открытием стало то, что только 4% профессий демонстрируют глубокую интеграцию с ИИ, где технология используется для более чем 75% задач.

1. Выделяется ярко использование ИИ средним классом. Вопреки ожиданиям, ИИ максимально используется не топ-специалистами, а профессионалами среднего звена с зарплатами $75,000-$125,000. Это разрушает миф о том, что ИИ - инструмент элиты или наоборот, замена низкоквалифицированного труда.

2. Реальные данные против прогнозов:

-
В здравоохранении использование ИИ оказалось значительно ниже прогнозируемого
- В научной сфере, наоборот, использование превысило ожидания

3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена
- Только 4% профессий глубоко интегрировали ИИ (используют для 75% задач)
- Это противоречит алармистским прогнозам о массовой замене людей ИИ

4. Неравномерность внедрения
- 36% профессий используют ИИ для четверти своих задач

- При этом внедрение сильно зависит от регуляторных ограничений, а не только от технических возможностей

- Это говорит о том, что барьеры внедрения часто административные, а не технологические

Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
https://github.blog/news-insights/product-news/github-copilot-the-agent-awakens/

Потестил я новый vscode с github agent mode. Для agent mode доступны sonnet, 4o и gemini 2 flash (уже нет). Работает нормально только sonnet. Из бонусов только то что они интегрировали отладчик в agent mode и сетка может иногда даже попробовать поотлаживать съедая токены (благо пока в preview все это бесплатно). А так то, прям гигантских отличий с aider я не нашел. Ну чуть более автономна, но не прям-прям. Но потенциал есть, НО очень все сильно зависит от возможностей самой модели.
А так из основных бонусов обновившийся chat режим, там есть бесплатно пока o1, o3-mini, gemini 2 flash, sonnet и 4o. НО количество бесплатных токенов в сутки ограничено.

Вердикт: еще сыровато, собирают люди баги и фидбек. Пользоваться можно.
В последней версии (1.98.0-insider) VS Code с GitHub Copilot Agent Mode подвезли все основные сетки, кроме deepseek r1. Пока халява. Можно кодить ночи напролет)
❤‍🔥1
Начал тестировать xAI Grok 3. По ощущениям, то что говорит Маск близко к правде. Зарядил несколько рефакторингов на разных модулях на go и python. Инференс пыхтит минуты 3-4 и выдает хорошее решение. Там какой-то прям ризонинг есть. Будем посмотреть. Жду бенч от aider leaderboard.
В aider запускается по инструкции https://aider.chat/docs/llms/xai.html.
Да, надо ключик получить и проплатить.
👍3👀2
Из минусов про xAI Grok 3 - Ризонинг ну оооочень долгий
Вот у ребят тоже интересный фидбек