AI Coder – Telegram
AI Coder
291 subscribers
82 photos
10 videos
2 files
186 links
AI will not replace you, people who use AI will.
Download Telegram
Кто получит «Мандат Неба»?
Динамика «гонки вооружений» LLM одним слайдом.

«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем правее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).

На диаграмме видны две основные "границы эффективности" (pareto frontier): 
• Синяя линия от OpenAI, показывающая их модели
• Оранжевая линия от Gemini 2, которая, судя по надписи, предлагает "лучше, дешевле, круче"
• Более дорогие и мощные модели в верхней левой части (например, различные версии GPT-4)
• Средний сегмент в центре (Claude 3.5, Gemini 1.5)
• Более доступные модели в правой части (Amazon Nova Lite, Gemini 1.5 Flash)


Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!

PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.

Но вряд ли конкуренты согласятся
😊

#ИИгонка
❤‍🔥1
Channel photo updated
3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена


Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.

🤘
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥1
Anthropic представил индекс влияния ИИ на рынок труда и экономику - 1-е крупномасштабное исследование реального использования ИИ в экономике

Исследование Anthropic, основанное на анализе более 4 миллионов диалогов с ИИ-ассистентом Claude, впервые предоставляет эмпирические данные о том, как ИИ интегрируется в различные профессии.

По итогу анализа выявлен неожиданный паттерн: технологии активнее всего внедряются не в самых высокооплачиваемых профессиях, как предполагалось ранее.

Что самое интересное?

37.2% всех взаимодействий с ИИ приходится на разработку ПО и связанные с ней задачи.

На втором месте — создание контента и медиа (10.3%), что подтверждает растущую роль ИИ в креативных индустриях.

Неожиданным открытием стало то, что только 4% профессий демонстрируют глубокую интеграцию с ИИ, где технология используется для более чем 75% задач.

1. Выделяется ярко использование ИИ средним классом. Вопреки ожиданиям, ИИ максимально используется не топ-специалистами, а профессионалами среднего звена с зарплатами $75,000-$125,000. Это разрушает миф о том, что ИИ - инструмент элиты или наоборот, замена низкоквалифицированного труда.

2. Реальные данные против прогнозов:

-
В здравоохранении использование ИИ оказалось значительно ниже прогнозируемого
- В научной сфере, наоборот, использование превысило ожидания

3. Характер использования
- 57% случаев - это усиление возможностей человека, а не замена
- Только 4% профессий глубоко интегрировали ИИ (используют для 75% задач)
- Это противоречит алармистским прогнозам о массовой замене людей ИИ

4. Неравномерность внедрения
- 36% профессий используют ИИ для четверти своих задач

- При этом внедрение сильно зависит от регуляторных ограничений, а не только от технических возможностей

- Это говорит о том, что барьеры внедрения часто административные, а не технологические

Ключевой посыл - ИИ не заменяет людей, а создает новый усиленный средний класс профессионалов, что может существенно повлиять на структуру рынка труда в будущем.
https://github.blog/news-insights/product-news/github-copilot-the-agent-awakens/

Потестил я новый vscode с github agent mode. Для agent mode доступны sonnet, 4o и gemini 2 flash (уже нет). Работает нормально только sonnet. Из бонусов только то что они интегрировали отладчик в agent mode и сетка может иногда даже попробовать поотлаживать съедая токены (благо пока в preview все это бесплатно). А так то, прям гигантских отличий с aider я не нашел. Ну чуть более автономна, но не прям-прям. Но потенциал есть, НО очень все сильно зависит от возможностей самой модели.
А так из основных бонусов обновившийся chat режим, там есть бесплатно пока o1, o3-mini, gemini 2 flash, sonnet и 4o. НО количество бесплатных токенов в сутки ограничено.

Вердикт: еще сыровато, собирают люди баги и фидбек. Пользоваться можно.
В последней версии (1.98.0-insider) VS Code с GitHub Copilot Agent Mode подвезли все основные сетки, кроме deepseek r1. Пока халява. Можно кодить ночи напролет)
❤‍🔥1
Начал тестировать xAI Grok 3. По ощущениям, то что говорит Маск близко к правде. Зарядил несколько рефакторингов на разных модулях на go и python. Инференс пыхтит минуты 3-4 и выдает хорошее решение. Там какой-то прям ризонинг есть. Будем посмотреть. Жду бенч от aider leaderboard.
В aider запускается по инструкции https://aider.chat/docs/llms/xai.html.
Да, надо ключик получить и проплатить.
👍3👀2
Из минусов про xAI Grok 3 - Ризонинг ну оооочень долгий
Вот у ребят тоже интересный фидбек
Слушайте, мы тестим Grok-3 и в восторге. Модель ищет информацию в интернете и соцсети X в реальном времени и дает актуальную обратную связь. База знаний обновляется постоянно, модель не ограничена фиксированным "срезом" данных, как некоторые другие модели.

Такого нет у OpenAI, Anthropic, где более строгие рамки по актуальности данных.

Но есть такое у Google - чемпиона по поиску.

У Grok акцент ещё на экосистему X, может анализировать посты, профили пользователей на X, а также ссылки, изображения, PDF-файлы и другие материалы.

Модель также может сгенерировать картинку, текст, скоро появится ещё голос.

Все это работает в экосистеме Х, которая запускает ещё и свои платежи. А с учетом того, как ИИ -агенты сейчас плотно внедряются в платежи и коммерцию, об этом читайте здесь, у Маска получается создать массивную вещь.
🔥2
У них в приложении сразу и think и deep research! И бесплатно. У OpenAI это 200 баксов в про версии
👍1
grok-beta это какой-то ранний вариант grok 3. Но скоро уже все будет и реально потестирую
Компания Anthropic решила сделать ход конем и сделала свой Aider - называется Claude Code) Ну и представили Sonnet 3.5 за гуманные деньги $3 за 1 млн инпут токенов и $15 за 1 млн аутпут токенов. Представили бенч где sonnet 3.7 всех рвет. Посмотрим что там, отпишусь по результатам.
Ссылочка https://www.anthropic.com/news/claude-3-7-sonnet
👍5🔥2
Токенов жрет этот Claude Code нещадно. То есть в Aider я прям беру выделяю нужные мне файлы и с ними работаю, а тут оно идет и шерстит как claude code угодно и кушает денежку). НО зато это конечно значительно больше уже похоже на агентную систему
Вышел новый бенч у Aider по sonnet-3.7, ну и конечно же он обходит sonnet-3.5 + r1. По цене выходит пока дороже в два раза, но зато это самая быстрая модель с хорошим качеством в сравнение с sonnet-3.5 + r1, ризонинг у r1 медленнее

https://aider.chat/docs/leaderboards/
👍1
Важная книга. Короткий пересказ
Книга Technological Republic: hard power, soft belief, future of the West. От Alex Karp, философ, юрист, CEO Palantir (с Тилем создал - 20 лет продают софт для слежки армии, разведке, корпам на $3 млрд/год). По совету Степы Гершуни:

Часть I. Век софта
- Даже Франклин и Джефферсон были инженеры.. А Долина так-то выросла из ВПК. А щас? Инженеры отошли от целей страны и работы с gov ради своих игрушек и индивидуализма..
- Но они же живут под зонтиком безопасности, не внося свой вклад (и не общаясь с армией). Так-то ядерную бомбу предложили Эйнштейн и Szilard. И Нобель когда-то отрицал военную роль динамита
- Вступаем в век коллаборации интеллекта людей и synthetic (AI). От века ядерного сдерживанияего плодов) идем в AI deterrence: рои дронов в Китае итп
- Бизнес и политика же стоят на рисках бунта. И в авторитарных странах власти ближе к фаундерам а-ля Долина, чем в США, и не будут тормозить с военным AI (а Минобороны США в 2024 на AI дали всего $1.8 млрд)
- Китай строит Левиафана, а не демократизируется по мере роста богатства. Китай оч. изучает прочие культуры, а не как мы. EU тратила 1.5% ВВП на оборону, US 3-5%

Ч. II. Идейное обнищание США
- Долина утонула в тривиальное и консьюмерское, засосав таланты и $ без целеполагания, США ушли от больших инноваций как атом и инет
- Это случайность, что Джобс был контркультурщиком, а не за свое общество. Мир он не поменял, хоть и много art + engineering. И вся Долина пошла за его тезисом: играть в игрушечки, инфантильно не видя страну и мир
- Техноутописты верят, что проблемы решатся сами. Нет, нужно вновь работать с властями, а не отрицать оборонку и госсектор
- Вокизм убил authentic intellectual risk-taking и общественную дискуссию. И фаундеры все самоустранились в "нейтралитет", отсюда и патакания сотрудникам Google “мы против работы с ВПК”. Кстати, антиколониализм - это ложь, просто девиация в медийном поле от леваков 1970ых, см реальные данные по ВВП итп

III. Инженерное мышление
- Оно против конформизма и за результат, т.е. не как в типичных корпорациях и в госсекторе
- Рои пчел распределенно ищут новые места для ульев, и стартапы также наиболее точно решают проблемы. А в бюрократиях идет оч энергозатратная война за присвоение побед и спихивание вины за факапы, где булшитеры шлют сигналы статуса и власти, и таланты умолкают в такой среде. Поэтому Долина и выстрелила по сравнению с оч традиционной корпоративной машиной США
- Asch и Milgram изучали конформизм и подстройку под членов группы и власти - это оч мощные черты людей, а в Долине осталась культура конструктивного неподчинения, и только так и можно создать что-то значимое
- За 30 лет в Конгрессе упала доля служивших в армии с 60% до 18%. Establishment и бюрократия мутировали чисто к своему самомасштабированию и выживанию
- Tetlock открыл (изучал 28 тыс прогнозов), что мало экспертов (т.н. лисы) готовы сталкиваться с реальностью (корректировать себя, использовать противоречивые источники и много идей) - но кто так делает - оч успешны. И чем неизвестнее эксперты, тем они точнее. Инженеры также вглядываются в реальный мир, и всем США пришла пора так делать

IV. Пересоздать республику
- Только 11% из 2000 миллиардеров в США пробовали себя в политике. В конгрессе ЗП $170к/год, глава ФРС $190к/год. Дискуссии повышать ли ЗП людям принимающим решения на триллионы $ шли аж с 1787г. В Долине опционы дают ownership/сопричастность всем сотрудникам, что оч важно
- Нужна смена нашей ригидной культуры: больше risk sharing, видеть что мир полон опасных игроков, открывать госсектор для внешних игроков и стартапов
- Нашей нации надо вспоминать свои коллективную идентичность и предназначение, наша культура чет слишком фрагментировалась
- В поисках новых моральных ориентиров для всей страны могут быть конфликты между сторонниками прошлого/чувство вины/итп и тем, что есть сейчас
- Культуры все же разные, это факт, хватит иллюзий. Западной цивилизации сейчас нужна и защита себя, и вообще дискуссия об этом

**

Водянисто, моего summary достаточно. Но см. America First. И еще мне советовали Government Gangsters
👀2🔥1