Понеслось. Инференс удешевляется. И это еще кустарный дипсик не все поставили себе
Forwarded from Малоизвестное интересное
Кто получит «Мандат Неба»?
Динамика «гонки вооружений» LLM одним слайдом.
«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем правее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).
Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!
PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.
Но вряд ли конкуренты согласятся 😊
#ИИгонка
Динамика «гонки вооружений» LLM одним слайдом.
«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем правее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).
На диаграмме видны две основные "границы эффективности" (pareto frontier):
• Синяя линия от OpenAI, показывающая их модели
• Оранжевая линия от Gemini 2, которая, судя по надписи, предлагает "лучше, дешевле, круче"
• Более дорогие и мощные модели в верхней левой части (например, различные версии GPT-4)
• Средний сегмент в центре (Claude 3.5, Gemini 1.5)
• Более доступные модели в правой части (Amazon Nova Lite, Gemini 1.5 Flash)
Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!
PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.
Но вряд ли конкуренты согласятся 😊
#ИИгонка
❤🔥1
3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена
Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
🤘
- 57% случаев - это усиление возможностей человека, а не замена
Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥1
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Anthropic представил индекс влияния ИИ на рынок труда и экономику - 1-е крупномасштабное исследование реального использования ИИ в экономике
Исследование Anthropic, основанное на анализе более 4 миллионов диалогов с ИИ-ассистентом Claude, впервые предоставляет эмпирические данные о том, как ИИ интегрируется в различные профессии.
По итогу анализа выявлен неожиданный паттерн: технологии активнее всего внедряются не в самых высокооплачиваемых профессиях, как предполагалось ранее.
Что самое интересное?
37.2% всех взаимодействий с ИИ приходится на разработку ПО и связанные с ней задачи.
На втором месте — создание контента и медиа (10.3%), что подтверждает растущую роль ИИ в креативных индустриях.
Неожиданным открытием стало то, что только 4% профессий демонстрируют глубокую интеграцию с ИИ, где технология используется для более чем 75% задач.
1. Выделяется ярко использование ИИ средним классом. Вопреки ожиданиям, ИИ максимально используется не топ-специалистами, а профессионалами среднего звена с зарплатами $75,000-$125,000. Это разрушает миф о том, что ИИ - инструмент элиты или наоборот, замена низкоквалифицированного труда.
2. Реальные данные против прогнозов:
- В здравоохранении использование ИИ оказалось значительно ниже прогнозируемого
- В научной сфере, наоборот, использование превысило ожидания
3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена
- Только 4% профессий глубоко интегрировали ИИ (используют для 75% задач)
- Это противоречит алармистским прогнозам о массовой замене людей ИИ
4. Неравномерность внедрения
- 36% профессий используют ИИ для четверти своих задач
- При этом внедрение сильно зависит от регуляторных ограничений, а не только от технических возможностей
- Это говорит о том, что барьеры внедрения часто административные, а не технологические
Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
Исследование Anthropic, основанное на анализе более 4 миллионов диалогов с ИИ-ассистентом Claude, впервые предоставляет эмпирические данные о том, как ИИ интегрируется в различные профессии.
По итогу анализа выявлен неожиданный паттерн: технологии активнее всего внедряются не в самых высокооплачиваемых профессиях, как предполагалось ранее.
Что самое интересное?
37.2% всех взаимодействий с ИИ приходится на разработку ПО и связанные с ней задачи.
На втором месте — создание контента и медиа (10.3%), что подтверждает растущую роль ИИ в креативных индустриях.
Неожиданным открытием стало то, что только 4% профессий демонстрируют глубокую интеграцию с ИИ, где технология используется для более чем 75% задач.
1. Выделяется ярко использование ИИ средним классом. Вопреки ожиданиям, ИИ максимально используется не топ-специалистами, а профессионалами среднего звена с зарплатами $75,000-$125,000. Это разрушает миф о том, что ИИ - инструмент элиты или наоборот, замена низкоквалифицированного труда.
2. Реальные данные против прогнозов:
- В здравоохранении использование ИИ оказалось значительно ниже прогнозируемого
- В научной сфере, наоборот, использование превысило ожидания
3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена
- Только 4% профессий глубоко интегрировали ИИ (используют для 75% задач)
- Это противоречит алармистским прогнозам о массовой замене людей ИИ
4. Неравномерность внедрения
- 36% профессий используют ИИ для четверти своих задач
- При этом внедрение сильно зависит от регуляторных ограничений, а не только от технических возможностей
- Это говорит о том, что барьеры внедрения часто административные, а не технологические
Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Anthropic представил индекс влияния ИИ на рынок труда и экономику - 1-е крупномасштабное исследование реального использования ИИ в экономике Исследование Anthropic, основанное на анализе более 4 миллионов диалогов с ИИ-ассистентом Claude, впервые предоставляет…
НО я хочу отметить, что это еще до-агентная эра) С появлением агентов и удешевлением инференса на больших сетках все будет иначе
https://github.blog/news-insights/product-news/github-copilot-the-agent-awakens/
Потестил я новый vscode с github agent mode. Для agent mode доступны sonnet, 4o и gemini 2 flash (уже нет). Работает нормально только sonnet. Из бонусов только то что они интегрировали отладчик в agent mode и сетка может иногда даже попробовать поотлаживать съедая токены (благо пока в preview все это бесплатно). А так то, прям гигантских отличий с aider я не нашел. Ну чуть более автономна, но не прям-прям. Но потенциал есть, НО очень все сильно зависит от возможностей самой модели.
А так из основных бонусов обновившийся chat режим, там есть бесплатно пока o1, o3-mini, gemini 2 flash, sonnet и 4o. НО количество бесплатных токенов в сутки ограничено.
Вердикт: еще сыровато, собирают люди баги и фидбек. Пользоваться можно.
Потестил я новый vscode с github agent mode. Для agent mode доступны sonnet, 4o и gemini 2 flash (уже нет). Работает нормально только sonnet. Из бонусов только то что они интегрировали отладчик в agent mode и сетка может иногда даже попробовать поотлаживать съедая токены (благо пока в preview все это бесплатно). А так то, прям гигантских отличий с aider я не нашел. Ну чуть более автономна, но не прям-прям. Но потенциал есть, НО очень все сильно зависит от возможностей самой модели.
А так из основных бонусов обновившийся chat режим, там есть бесплатно пока o1, o3-mini, gemini 2 flash, sonnet и 4o. НО количество бесплатных токенов в сутки ограничено.
Вердикт: еще сыровато, собирают люди баги и фидбек. Пользоваться можно.
The GitHub Blog
GitHub Copilot: The agent awakens
Introducing agent mode for GitHub Copilot in VS Code, announcing the general availability of Copilot Edits, and providing a first look at our SWE agent.
Начал тестировать xAI Grok 3. По ощущениям, то что говорит Маск близко к правде. Зарядил несколько рефакторингов на разных модулях на go и python. Инференс пыхтит минуты 3-4 и выдает хорошее решение. Там какой-то прям ризонинг есть. Будем посмотреть. Жду бенч от aider leaderboard.
В aider запускается по инструкции https://aider.chat/docs/llms/xai.html.
Да, надо ключик получить и проплатить.
В aider запускается по инструкции https://aider.chat/docs/llms/xai.html.
Да, надо ключик получить и проплатить.
aider
xAI
aider is AI pair programming in your terminal
👍3👀2
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Слушайте, мы тестим Grok-3 и в восторге. Модель ищет информацию в интернете и соцсети X в реальном времени и дает актуальную обратную связь. База знаний обновляется постоянно, модель не ограничена фиксированным "срезом" данных, как некоторые другие модели.
Такого нет у OpenAI, Anthropic, где более строгие рамки по актуальности данных.
Но есть такое у Google - чемпиона по поиску.
У Grok акцент ещё на экосистему X, может анализировать посты, профили пользователей на X, а также ссылки, изображения, PDF-файлы и другие материалы.
Модель также может сгенерировать картинку, текст, скоро появится ещё голос.
Все это работает в экосистеме Х, которая запускает ещё и свои платежи. А с учетом того, как ИИ -агенты сейчас плотно внедряются в платежи и коммерцию, об этом читайте здесь, у Маска получается создать массивную вещь.
Такого нет у OpenAI, Anthropic, где более строгие рамки по актуальности данных.
Но есть такое у Google - чемпиона по поиску.
У Grok акцент ещё на экосистему X, может анализировать посты, профили пользователей на X, а также ссылки, изображения, PDF-файлы и другие материалы.
Модель также может сгенерировать картинку, текст, скоро появится ещё голос.
Все это работает в экосистеме Х, которая запускает ещё и свои платежи. А с учетом того, как ИИ -агенты сейчас плотно внедряются в платежи и коммерцию, об этом читайте здесь, у Маска получается создать массивную вещь.
🔥2
Компания Anthropic решила сделать ход конем и сделала свой Aider - называется Claude Code) Ну и представили Sonnet 3.5 за гуманные деньги $3 за 1 млн инпут токенов и $15 за 1 млн аутпут токенов. Представили бенч где sonnet 3.7 всех рвет. Посмотрим что там, отпишусь по результатам.
Ссылочка https://www.anthropic.com/news/claude-3-7-sonnet
Ссылочка https://www.anthropic.com/news/claude-3-7-sonnet
👍5🔥2
Вот прям ссылка для теста Claude Code )
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
Claude Code Docs
Claude Code overview - Claude Code Docs
Learn about Claude Code, Anthropic's agentic coding tool that lives in your terminal and helps you turn ideas into code faster than ever before.
👍1🔥1
Токенов жрет этот Claude Code нещадно. То есть в Aider я прям беру выделяю нужные мне файлы и с ними работаю, а тут оно идет и шерстит как claude code угодно и кушает денежку). НО зато это конечно значительно больше уже похоже на агентную систему
Вышел новый бенч у Aider по sonnet-3.7, ну и конечно же он обходит sonnet-3.5 + r1. По цене выходит пока дороже в два раза, но зато это самая быстрая модель с хорошим качеством в сравнение с sonnet-3.5 + r1, ризонинг у r1 медленнее
https://aider.chat/docs/leaderboards/
https://aider.chat/docs/leaderboards/
👍1
