С начала 2025 года AI-лабы пашут как проклятые и практически каждую неделю что нибудь релизят. Но большинство людей по прежнему пользуется только ChatGPT.
Почему так?
Новые модели классные, но их названия — это пиздец, если честно. К тому же их еще и по бенчмаркам стало не отличить. Раньше можно было просто сказать: вот эта вот лучшая, все пользуйтесь ей. Сейчас это перестало работать.
Короче, на рынке много действительно крутых нейронок, но я в них запутался.
Го распутываться!
1. Моделей стало дофига, и называются они просто ужасно.
Дарио Амодей давно шутит, что мы быстрее создадим AGI, чем научимся понятно называть модели. Гугл тут по традиции впереди всех: пукупайте новую Google Gemini 2.0 Flash Thinking Experimental 01-21 (new)!
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21
Хотя их можно понять. У каждой "базовой" модели появилось куча улучшений. Разница между ними есть, но не такая, чтобы с хайпом объявлять каждое обновление новой версией. Отсюда и лезут эти префиксы.
Чтобы разобраться, я собрал табличку (в картинках ниже) с моделями разных типов у каждой топовой лабы. И вычистил все лишнее. В целом все не так сложно, если забить на дотошность.
Есть огромные и мощные базовые модели. Они медленные и экономически невыгодные при массовом использовании.
Поэтому придумали дистилляцию: берём базовую модель, обучаем на её ответах более компактную модель, и получаем примерно те же способности, только быстрее и дешевле.
Это особенно важно на рассуждающих моделях. В последние полгода лучшие результаты показывают модели делающие перед ответом большое количество шагов рассуждения. Они составляют план решения задачи, выполняют его и проверяют результат на адекватность. На такие цепочки можно потратить в разы больше ресурсов.
Есть ещё специализированные модели: под поиск, супер-дешёвые для самых простых задач, или модели для узких сфер вроде медицины и юриспруденции. Ну и отдельная группа для картинок, видео и звука. Я всё это не стал добавлять, чтобы не путаться.
Ладно, с названиями понятно: у каждой лабы есть похожие типы моделей для разных задач. Но как сравнить модели одного типа друг с другом?
Ну.. никак 😂😂.
Почему так?
Новые модели классные, но их названия — это пиздец, если честно. К тому же их еще и по бенчмаркам стало не отличить. Раньше можно было просто сказать: вот эта вот лучшая, все пользуйтесь ей. Сейчас это перестало работать.
Короче, на рынке много действительно крутых нейронок, но я в них запутался.
Го распутываться!
1. Моделей стало дофига, и называются они просто ужасно.
Дарио Амодей давно шутит, что мы быстрее создадим AGI, чем научимся понятно называть модели. Гугл тут по традиции впереди всех: пукупайте новую Google Gemini 2.0 Flash Thinking Experimental 01-21 (new)!
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21
Хотя их можно понять. У каждой "базовой" модели появилось куча улучшений. Разница между ними есть, но не такая, чтобы с хайпом объявлять каждое обновление новой версией. Отсюда и лезут эти префиксы.
Чтобы разобраться, я собрал табличку (в картинках ниже) с моделями разных типов у каждой топовой лабы. И вычистил все лишнее. В целом все не так сложно, если забить на дотошность.
Есть огромные и мощные базовые модели. Они медленные и экономически невыгодные при массовом использовании.
Поэтому придумали дистилляцию: берём базовую модель, обучаем на её ответах более компактную модель, и получаем примерно те же способности, только быстрее и дешевле.
Это особенно важно на рассуждающих моделях. В последние полгода лучшие результаты показывают модели делающие перед ответом большое количество шагов рассуждения. Они составляют план решения задачи, выполняют его и проверяют результат на адекватность. На такие цепочки можно потратить в разы больше ресурсов.
Есть ещё специализированные модели: под поиск, супер-дешёвые для самых простых задач, или модели для узких сфер вроде медицины и юриспруденции. Ну и отдельная группа для картинок, видео и звука. Я всё это не стал добавлять, чтобы не путаться.
Ладно, с названиями понятно: у каждой лабы есть похожие типы моделей для разных задач. Но как сравнить модели одного типа друг с другом?
Ну.. никак 😂😂.
👍7
2. Все модели стали примерно одинаково хороши.
Настолько одинаково, что сложно понять, какая лучше. Андрей Карпати написал, что у нас кризис оценки моделей: Уже непонятно, на какие метрики смотреть. MMLU устарел, SWE-Bench слишком узкий. Chatbot Arena настолько популярна, что лаборатории уже научились её "хакать".
https://x.com/karpathy/status/1896266683301659068
Про что он?
Сейчас есть несколько способов оценивать модели:
1 - Бенчмарки, которые измеряют что то одно конкретное и узконаправленное.
Например, умение писать код на питоне или уровень галлюцинаций в ответах. Но модели становятся умнее, осваивают всё больше задач, и одной метрикой их уровень уже не измеришь.
2 - Системные бенчмарки, которые пытаются кучей чиселок обсчитать модель с разных сторон.
Но когда начинаешь сравнивать кучу показателей, получается полный хаос. А бенчмарков десятки уже! Одна модель лучше в одном, другая — в другом, и не понятно как это интрепретировать.
3 - Арена, где люди вслепую сравнивают ответы моделей по своим субьективным критериям.
https://lmarena.ai/?leaderboard
И вместо непонятной кучи оценок, каждая модель получает ELO-рейтинг, как в шахматах. Чаще выигрываешь — выше эло. Но это было круто и удобно, пока модели не подобрались слишком близко друг к другу.
Разница в 35 ELO значит что у одной модели шанс дать ответ лучше 55%, а у другой 45%. Как и в шахматах, у игрока с меньшим ELO всегда есть шансы выиграть. Даже при разнице в 100 ELO треть ответов "худшей" модели будет лучше.
Ну то есть опять — одни задачи лучше решает одна модель, другие другая. Выбирай модель выше в списке и один из 10 твоих запросов будет получше. Какой и насколько лучше — хз.
Настолько одинаково, что сложно понять, какая лучше. Андрей Карпати написал, что у нас кризис оценки моделей: Уже непонятно, на какие метрики смотреть. MMLU устарел, SWE-Bench слишком узкий. Chatbot Arena настолько популярна, что лаборатории уже научились её "хакать".
https://x.com/karpathy/status/1896266683301659068
Про что он?
Сейчас есть несколько способов оценивать модели:
1 - Бенчмарки, которые измеряют что то одно конкретное и узконаправленное.
Например, умение писать код на питоне или уровень галлюцинаций в ответах. Но модели становятся умнее, осваивают всё больше задач, и одной метрикой их уровень уже не измеришь.
2 - Системные бенчмарки, которые пытаются кучей чиселок обсчитать модель с разных сторон.
Но когда начинаешь сравнивать кучу показателей, получается полный хаос. А бенчмарков десятки уже! Одна модель лучше в одном, другая — в другом, и не понятно как это интрепретировать.
3 - Арена, где люди вслепую сравнивают ответы моделей по своим субьективным критериям.
https://lmarena.ai/?leaderboard
И вместо непонятной кучи оценок, каждая модель получает ELO-рейтинг, как в шахматах. Чаще выигрываешь — выше эло. Но это было круто и удобно, пока модели не подобрались слишком близко друг к другу.
Разница в 35 ELO значит что у одной модели шанс дать ответ лучше 55%, а у другой 45%. Как и в шахматах, у игрока с меньшим ELO всегда есть шансы выиграть. Даже при разнице в 100 ELO треть ответов "худшей" модели будет лучше.
Ну то есть опять — одни задачи лучше решает одна модель, другие другая. Выбирай модель выше в списке и один из 10 твоих запросов будет получше. Какой и насколько лучше — хз.
👍5
(это серия из постов, начало тут)
3. А чё делать то?
Карпати предлагает за неимением лучшего полагаться на вайб-чек. Пробуешь на своих задачах и смотришь, норм или нет. Тут легко себя обмануть из-за предвзятости и всяких искажений. Но что поделать.
Мои советы такие:
* Открывать сразу несколько вкладок с разными моделями при каждой задаче и пробовать.
* Субьективно смотреть, за какой нейронкой нужно меньше переделывать.
* Не гоняться за цифрами. Намного важнее, чьи продуктовые фичи тебе реально нравятся и за какую подписку ты уже отдаешь 20 баксов.
* Если все таки хочется циферок, юзай LifeBench https://livebench.ai/#/. Авторы пишут, что он решает проблемы хакинга, устаревания, однобокости и субьективности.
* Если делаешь продукт на основе моделей, вот классный гайд от HuggingFace о том как собрать свой бенчмарк.
https://github.com/huggingface/evaluation-guidebook/
А пока, если вы ждали знак, чтобы попробовать что то кроме ChatGPT, то вот он:
https://claude.ai
https://gemini.google.com
https://grok.com
https://chat.deepseek.com
httрs://сhаt.openai.сom
Дальше будет еще несколько постов, где расскажу, что интересного у каждой модели и сделаю саммари вайб-чеков других людей.
3. А чё делать то?
Карпати предлагает за неимением лучшего полагаться на вайб-чек. Пробуешь на своих задачах и смотришь, норм или нет. Тут легко себя обмануть из-за предвзятости и всяких искажений. Но что поделать.
Мои советы такие:
* Открывать сразу несколько вкладок с разными моделями при каждой задаче и пробовать.
* Субьективно смотреть, за какой нейронкой нужно меньше переделывать.
* Не гоняться за цифрами. Намного важнее, чьи продуктовые фичи тебе реально нравятся и за какую подписку ты уже отдаешь 20 баксов.
* Если все таки хочется циферок, юзай LifeBench https://livebench.ai/#/. Авторы пишут, что он решает проблемы хакинга, устаревания, однобокости и субьективности.
* Если делаешь продукт на основе моделей, вот классный гайд от HuggingFace о том как собрать свой бенчмарк.
https://github.com/huggingface/evaluation-guidebook/
А пока, если вы ждали знак, чтобы попробовать что то кроме ChatGPT, то вот он:
https://claude.ai
https://gemini.google.com
https://grok.com
https://chat.deepseek.com
httрs://сhаt.openai.сom
Дальше будет еще несколько постов, где расскажу, что интересного у каждой модели и сделаю саммари вайб-чеков других людей.
Telegram
Трагедия общин 🤌
С начала 2025 года AI-лабы пашут как проклятые и практически каждую неделю что нибудь релизят. Но большинство людей по прежнему пользуется только ChatGPT.
Почему так?
Новые модели классные, но их названия — это пиздец, если честно. К тому же их еще и по…
Почему так?
Новые модели классные, но их названия — это пиздец, если честно. К тому же их еще и по…
🔥8👍2❤1
Про Grok 3, клоунаду от Илона Маска и то, почему всё таки модель заслуживает внимания.
В конце февраля Илон выкатил новую модель. Конечно же "лучшую в мире". Но по факту, в момент релиза объективных данных почти не было.
xAI у себя в блоге показали несколько бенчмарков где Grok 3 всех опережает. Сказали, что это бета-версия, что модель всё ещё тренируется. И поэтому доступа к API пока не будет. Это важно, потому что независимые бенчмарки делают свои замеры не вручную, а как раз через API.
То есть, Илон говорит, что Grok-3 "пугающе умён" и превосходит любые существующие модели. Но проверить это можно либо самим пообщавшись с моделью, либо на бенчмарках в посте.
А бенчмарки в посте читерские (см картинку внизу). Видите там справа область посветлее? Это прирост результата, когда модели дали сильно больше ресурсов (test-time compute), чтобы отловить более стабильные ответы. Это нечестное сравнение.
Думаю вы знаете, что современные нейронки выдают слегка разные ответы на один и тот же вопрос. Иногда лучше, иногда хуже. Так вот большинство бенчмарков это игнорируют и оценивают только pass@1, то есть первый ответ на каждый вопрос.
Это проще и больше похоже на то как все привыкли ими пользоваться—мы ожидаем хороший ответ с первого раза.
А все результаты Грока показаны с cons@64. То есть, на каждый вопрос он делал 64 попытки и выбирал ответ, который появлялся чаще всего. И xAI сравнивают результат Грока с приростом с результатами у конкурентов на pass@1.
Короче, с одной стороны заявление, что это некстген модель. А с другой дешёвенькие манипуляции. В целом, все лабы используют хитрости. Просто не так нагло. Например, выбирают только удобные для себя бенчмарки или просто не добавляют в сравнение модели с лучшими результатами.
А что говорят опытные юзеры после общения с моделю? Консенсус такой:
Модель огромная по размеру, но при этом прорывов она не принесла. Она все еще галлюцинирует и стремится выдавать излишне длинные ответы.
По способностям, Грок-3 где-то на уровне сильнейших моделей OpenAI и чуточку лучше DeepSeek и моделей от Google. Это на момент релиза—спустя два месяца уже вышла Gemini 2.5 и новые GPT.
Не впечатляет? А все таки мне дальше есть про что рассказать.
Модель интересная тем как Илон и xAI за поразительно короткое время ворвались на рынок и стали одним из основных игроков.
В конце февраля Илон выкатил новую модель. Конечно же "лучшую в мире". Но по факту, в момент релиза объективных данных почти не было.
xAI у себя в блоге показали несколько бенчмарков где Grok 3 всех опережает. Сказали, что это бета-версия, что модель всё ещё тренируется. И поэтому доступа к API пока не будет. Это важно, потому что независимые бенчмарки делают свои замеры не вручную, а как раз через API.
То есть, Илон говорит, что Grok-3 "пугающе умён" и превосходит любые существующие модели. Но проверить это можно либо самим пообщавшись с моделью, либо на бенчмарках в посте.
А бенчмарки в посте читерские (см картинку внизу). Видите там справа область посветлее? Это прирост результата, когда модели дали сильно больше ресурсов (test-time compute), чтобы отловить более стабильные ответы. Это нечестное сравнение.
Думаю вы знаете, что современные нейронки выдают слегка разные ответы на один и тот же вопрос. Иногда лучше, иногда хуже. Так вот большинство бенчмарков это игнорируют и оценивают только pass@1, то есть первый ответ на каждый вопрос.
Это проще и больше похоже на то как все привыкли ими пользоваться—мы ожидаем хороший ответ с первого раза.
А все результаты Грока показаны с cons@64. То есть, на каждый вопрос он делал 64 попытки и выбирал ответ, который появлялся чаще всего. И xAI сравнивают результат Грока с приростом с результатами у конкурентов на pass@1.
Короче, с одной стороны заявление, что это некстген модель. А с другой дешёвенькие манипуляции. В целом, все лабы используют хитрости. Просто не так нагло. Например, выбирают только удобные для себя бенчмарки или просто не добавляют в сравнение модели с лучшими результатами.
А что говорят опытные юзеры после общения с моделю? Консенсус такой:
Модель огромная по размеру, но при этом прорывов она не принесла. Она все еще галлюцинирует и стремится выдавать излишне длинные ответы.
По способностям, Грок-3 где-то на уровне сильнейших моделей OpenAI и чуточку лучше DeepSeek и моделей от Google. Это на момент релиза—спустя два месяца уже вышла Gemini 2.5 и новые GPT.
Не впечатляет? А все таки мне дальше есть про что рассказать.
Модель интересная тем как Илон и xAI за поразительно короткое время ворвались на рынок и стали одним из основных игроков.
🔥7
1 - Железо
Самое главное—в 2024 году они построили гигантский вычислительный кластер за рекордно быстрое время. За 4 месяца они запустили 100 тысяч видеокарт Nvidia H100. А потом ещё за 3 месяца удвоили до 200 тысяч карт. CEO Nvidia, Дженсен Хуанг говорил, что на такое обычно уходит 4 года.
Это сложнейшая инженерная задача. И самый крупный датацентр в мире, на этот раз уже без уловок. Никто ещё не смог обьединить столько карт в одном месте.
Как обычно строят такие штуки?
Дефолтный подход—берем несколько стандартных датацентров и обьединяем их в сеть с помощью очень дорогих проводов (Infiniband). Датацентрам нужно постоянно обмениваться тоннами данных. И если связь медленная—видеокарты простаивают.
Типичные датацентры—это 10-20 тысяч карт, которые жрут 20-30 мегаватт энергии. Например, у Microsoft есть сеть из таких датацентров в Аризоне на 100к карт. А у Меты на 128к. Кластер из датацентров уже потребляет энергии как небольшой город.
Многие регионы к такой нагрузке не готовы и там абсурдно забавная ситуация: не хватает пропускной способности у электросети. То есть, производить энергию выходит дешевле, чем доставлять её до места назначения.
Так вот, Илон пришел на этот рынок сильно отстающим. И... сделал "Elon thing".
Можно хейтить его твиты, но строить заводы он умеет как боженька.
Он купил старую фабрику Electrolux в Мемфисе и решил сделать из нее один огромный датацентр, а не сеть как все остальные. Ожидаемо начались проблемы с энергией.
От местной сети фабрике доставалось всего 7 МВт—этого хватит от силы на 4000 карт. Местная энергокомпания Tennessee Valley Authority пообещала еще 50 МВт, но к августу. А собственная подстанция xAI на 150 МВт еще строилась и должна была быть готова только к концу года.
Но сидеть и ждать не в стиле Маска.
Дилан Патель (чувак из Semianalysis) по спутниковым снимкам обнаружил, что Маск просто притащил 14 мобильных дизельных генераторов VoltaGrid. Подключил их к 4 мобильным подстанциям и запитал от них датацентр. Буквально привез электричество на огромных трейлерах.
Еще впечатляет, что охлаждение в датацентре водяное. Пока такое в больших масштабах делал только Google. Но это важно: следующие поколения чипов Nvidia Blackwell B200 будут иметь обязательное требование водного охлаждения. То есть всем остальным придётся пересобирать свои датацентры.
Можете глянуть первые пару минут видео, как это все выглядит внутри. Я поржал, с каким энтузиазмом чувак рассказывает про серые коробки, провода и стойки:
https://www.youtube.com/watch?v=Jf8EPSBZU7Y
Это крутая инженерная система.
Никто ранее не выполнял работы такого масштаба за столь короткий срок.
Самое главное—в 2024 году они построили гигантский вычислительный кластер за рекордно быстрое время. За 4 месяца они запустили 100 тысяч видеокарт Nvidia H100. А потом ещё за 3 месяца удвоили до 200 тысяч карт. CEO Nvidia, Дженсен Хуанг говорил, что на такое обычно уходит 4 года.
Это сложнейшая инженерная задача. И самый крупный датацентр в мире, на этот раз уже без уловок. Никто ещё не смог обьединить столько карт в одном месте.
Как обычно строят такие штуки?
Дефолтный подход—берем несколько стандартных датацентров и обьединяем их в сеть с помощью очень дорогих проводов (Infiniband). Датацентрам нужно постоянно обмениваться тоннами данных. И если связь медленная—видеокарты простаивают.
Типичные датацентры—это 10-20 тысяч карт, которые жрут 20-30 мегаватт энергии. Например, у Microsoft есть сеть из таких датацентров в Аризоне на 100к карт. А у Меты на 128к. Кластер из датацентров уже потребляет энергии как небольшой город.
Многие регионы к такой нагрузке не готовы и там абсурдно забавная ситуация: не хватает пропускной способности у электросети. То есть, производить энергию выходит дешевле, чем доставлять её до места назначения.
Так вот, Илон пришел на этот рынок сильно отстающим. И... сделал "Elon thing".
Можно хейтить его твиты, но строить заводы он умеет как боженька.
Он купил старую фабрику Electrolux в Мемфисе и решил сделать из нее один огромный датацентр, а не сеть как все остальные. Ожидаемо начались проблемы с энергией.
От местной сети фабрике доставалось всего 7 МВт—этого хватит от силы на 4000 карт. Местная энергокомпания Tennessee Valley Authority пообещала еще 50 МВт, но к августу. А собственная подстанция xAI на 150 МВт еще строилась и должна была быть готова только к концу года.
Но сидеть и ждать не в стиле Маска.
Дилан Патель (чувак из Semianalysis) по спутниковым снимкам обнаружил, что Маск просто притащил 14 мобильных дизельных генераторов VoltaGrid. Подключил их к 4 мобильным подстанциям и запитал от них датацентр. Буквально привез электричество на огромных трейлерах.
Еще впечатляет, что охлаждение в датацентре водяное. Пока такое в больших масштабах делал только Google. Но это важно: следующие поколения чипов Nvidia Blackwell B200 будут иметь обязательное требование водного охлаждения. То есть всем остальным придётся пересобирать свои датацентры.
Можете глянуть первые пару минут видео, как это все выглядит внутри. Я поржал, с каким энтузиазмом чувак рассказывает про серые коробки, провода и стойки:
https://www.youtube.com/watch?v=Jf8EPSBZU7Y
Это крутая инженерная система.
Никто ранее не выполнял работы такого масштаба за столь короткий срок.
YouTube
Inside the World's Largest AI Supercluster xAI Colossus
We FINALLY get to show the largest AI supercomputer in the world, xAI Colossus. This is the 100,000 (at the time we filmed this) GPU cluster in Memphis Tennessee that has been on the news a lot. This video has been five months in the making, and finally Elon…
👍10❤1
Сверху датецентр Илона. Дальше трейлеры с турбинами, датацентры Меты (там два рядом). И влияние электростанций на экологию.
👍8
2 - Еще больше железа!
Илон заявил, что к лету 2025 года у компании будет готов кластер из 300к новых Blackwell B200. Если учесть склонность Маска преувеичивать, то это скорее от 200-400к новых чипов к концу 2025.
Насколько B200 круче H100? Цифры плавают в зависимости от задачи, но для обучения моделей (оценка на ноябрь 2024), примерно в 2.2 раза мощнее. Чтобы запитать такое, нужно энергии уже как на среднего размера город. Примерно 1.2 ГВт к концу года. Думаю мобильными генераторами уже не отделаться.
И все крупные игроки уже делают что-то похожее:
Meta строит две газовые электростанции в Луизиане. OpenAI/Microsoft делают аналогичный проект в Техасе. Amazon и Google тоже строят гигаватные датацентры.
Почему не атомная энергия? Она идеально подходит по мощности, но строить АЭС—это долго. Ты не можешь построить станцию рядом с датацентром даже за год. Ветряные и солнечные электростанции + аккумуляторы перспективны, но тоже разворачиваются слишком медленно.
В итоге Microsoft и Meta уже пришлось забить на свои "зелёные" обещания по возобновляемой энергии. В основном оправдываясь тем, что мы подпортим экологию сейчас, но зато потом AGI порешает все наши проблемы.
Илон заявил, что к лету 2025 года у компании будет готов кластер из 300к новых Blackwell B200. Если учесть склонность Маска преувеичивать, то это скорее от 200-400к новых чипов к концу 2025.
Насколько B200 круче H100? Цифры плавают в зависимости от задачи, но для обучения моделей (оценка на ноябрь 2024), примерно в 2.2 раза мощнее. Чтобы запитать такое, нужно энергии уже как на среднего размера город. Примерно 1.2 ГВт к концу года. Думаю мобильными генераторами уже не отделаться.
И все крупные игроки уже делают что-то похожее:
Meta строит две газовые электростанции в Луизиане. OpenAI/Microsoft делают аналогичный проект в Техасе. Amazon и Google тоже строят гигаватные датацентры.
Почему не атомная энергия? Она идеально подходит по мощности, но строить АЭС—это долго. Ты не можешь построить станцию рядом с датацентром даже за год. Ветряные и солнечные электростанции + аккумуляторы перспективны, но тоже разворачиваются слишком медленно.
В итоге Microsoft и Meta уже пришлось забить на свои "зелёные" обещания по возобновляемой энергии. В основном оправдываясь тем, что мы подпортим экологию сейчас, но зато потом AGI порешает все наши проблемы.
❤4👍2
3 - Размеры модели
Илон построил огромную дорогущую коробку. И что?
Предположительно, для тренировки Grok 2 использовали 20к H100 и 100-200к для Grok 3. Для сравнения: GPT-4 тренировали на ~25к старых чипов A100. H100 примерно в 2.25 раза мощнее.
То есть, Grok 2 получил вдвое больше ресурсов, чем GPT-4, а Grok 3—ещё в пять раз. Gemini 2.0 от Google скорее всего тренировали на 100к их собственных TPUv6, это примерно столько же железа, но сама модель меньше.
Короче, общие затраты вычислений на Grok 3 на порядок (в 10 раз!) больше, чем у ближайшего преследователя. К сожалению, по GPT-4.5 и Gemini 2.5 данных нет.
И это главный облом. Угрохали кучу денег и ресурсов, построили гига-мега-кластер, а модель получилась просто "на уровне" существующих топов. Точно не сильно лучше.
Экспертиза в обучении LLMок у xAI пока отстает от OpenAI, Google или Anthropic. Они по сути успешно забрутфорсили себе статус одного из лидеров. Но чудес никаких не показали: "Если грубая сила не решает проблему, значит вы используете её недостаточно".
Epoch AI оценили, что за последние 10 лет алгоритмические улучшения внесли примерно треть вклада в рост способностей моделей. И только остальные две-трети внесли уже наращивание железа и размеров моделей.
То есть брутфорс сработал один раз, но дальше расходы будут расти экспоненциально, принося все меньше отдачи. Поэтому алгоритмическое отставание нужно нагнать. Благо xAI теперь будет проще нанимать крутых ребят в команду, потому что они наконец "двигают фронтир науки".
Илон построил огромную дорогущую коробку. И что?
Предположительно, для тренировки Grok 2 использовали 20к H100 и 100-200к для Grok 3. Для сравнения: GPT-4 тренировали на ~25к старых чипов A100. H100 примерно в 2.25 раза мощнее.
То есть, Grok 2 получил вдвое больше ресурсов, чем GPT-4, а Grok 3—ещё в пять раз. Gemini 2.0 от Google скорее всего тренировали на 100к их собственных TPUv6, это примерно столько же железа, но сама модель меньше.
Короче, общие затраты вычислений на Grok 3 на порядок (в 10 раз!) больше, чем у ближайшего преследователя. К сожалению, по GPT-4.5 и Gemini 2.5 данных нет.
И это главный облом. Угрохали кучу денег и ресурсов, построили гига-мега-кластер, а модель получилась просто "на уровне" существующих топов. Точно не сильно лучше.
Экспертиза в обучении LLMок у xAI пока отстает от OpenAI, Google или Anthropic. Они по сути успешно забрутфорсили себе статус одного из лидеров. Но чудес никаких не показали: "Если грубая сила не решает проблему, значит вы используете её недостаточно".
Epoch AI оценили, что за последние 10 лет алгоритмические улучшения внесли примерно треть вклада в рост способностей моделей. И только остальные две-трети внесли уже наращивание железа и размеров моделей.
То есть брутфорс сработал один раз, но дальше расходы будут расти экспоненциально, принося все меньше отдачи. Поэтому алгоритмическое отставание нужно нагнать. Благо xAI теперь будет проще нанимать крутых ребят в команду, потому что они наконец "двигают фронтир науки".
👍8
4 - Чем модель хороша?
1) Она пока полностью бесплатна (видимо до полного релиза). Без жестких лимитов как у Anthropic, без перебоев как у DeepSeek и без платных моделей у OpenAI.
Даже после кучи релизов за последние 2 месяца, Грок держится наверху бенчмарка Арены.
А еще они наконец завезли доступ к API, но режим рассуждения дали только mini модели. На независимых бенчмарках она себя показывает достойно. Но наверное базовая модель с рассуждениями работает все же лучше.
2) Режим рассуждений и Deep Research, который в феврале был в открытом доступе только у Perplexity и то с большими ограничениями. Сейчас уже Google и OpenAI тоже дали доступ. Возможно благодаря Гроку.
Если не знаете, Deep Research это такой автоматический поиск по сайтам. Он за несколько минут анализирует 30-100 ссылок (у Гугла больше) и дает раздутое самммари, которое остается только быстро фактчекнуть. Это намного проще чем ресерчить с нуля самому. Работает быстрее, чем у остальных, так что я стал пользоваться им для сложного поиска.
3) Интеграция с Твиттером. Как мне кажется—самая перспективная фича это семантический поиск. То есть ищет по смыслу, а не тупо по ключевым словам.
Можно просить делать саммари постов на какую-то тему, следить за трендами. Хотя пока работает так себе, если честно.
Твиттер хорош тем, что там информация практически в реальном времени. Но Грок пока не успевает за ней и подсовывает данные за последние пару дней, а не за сейчас.
Еще можно просить найти последние публикации в ленте конкретного юзера. Например, чтобы мониторить что в последнее время думают нужные чуваки или компании.
4) Ну и на закуску, режим 18+.
Грок отлично ломается без особых сложностей и через него можно делать все, что вы зачем то хотите. От секси голоса до рецепта варки мета.
Самый угар—это голосовой режим: https://x.com/goodside/status/1893932239718691167.
(там короткий видосик, где чувак просит модель покричать, а она его эмоционально матом обкладывает)
А еще иронично, что Грок не особо хорошего мнения о Маске и Трампе. И когда это всплыло, xAI попытались неуклюже это исправить. Просто захардкодили, что Гроку нельзя ругать Илона. А когда всплыло и это, xAI обвинили во всем бывшего сотрудника OpenAI, который "не впитал культуру компании". Кринж.
Проблема в том, что взгляды Grok—это слепок данных из интернета, а не чья-то злая воля. Менять их сложно, не сломав всю модель.
1) Она пока полностью бесплатна (видимо до полного релиза). Без жестких лимитов как у Anthropic, без перебоев как у DeepSeek и без платных моделей у OpenAI.
Даже после кучи релизов за последние 2 месяца, Грок держится наверху бенчмарка Арены.
А еще они наконец завезли доступ к API, но режим рассуждения дали только mini модели. На независимых бенчмарках она себя показывает достойно. Но наверное базовая модель с рассуждениями работает все же лучше.
2) Режим рассуждений и Deep Research, который в феврале был в открытом доступе только у Perplexity и то с большими ограничениями. Сейчас уже Google и OpenAI тоже дали доступ. Возможно благодаря Гроку.
Если не знаете, Deep Research это такой автоматический поиск по сайтам. Он за несколько минут анализирует 30-100 ссылок (у Гугла больше) и дает раздутое самммари, которое остается только быстро фактчекнуть. Это намного проще чем ресерчить с нуля самому. Работает быстрее, чем у остальных, так что я стал пользоваться им для сложного поиска.
3) Интеграция с Твиттером. Как мне кажется—самая перспективная фича это семантический поиск. То есть ищет по смыслу, а не тупо по ключевым словам.
Можно просить делать саммари постов на какую-то тему, следить за трендами. Хотя пока работает так себе, если честно.
Твиттер хорош тем, что там информация практически в реальном времени. Но Грок пока не успевает за ней и подсовывает данные за последние пару дней, а не за сейчас.
Еще можно просить найти последние публикации в ленте конкретного юзера. Например, чтобы мониторить что в последнее время думают нужные чуваки или компании.
4) Ну и на закуску, режим 18+.
Грок отлично ломается без особых сложностей и через него можно делать все, что вы зачем то хотите. От секси голоса до рецепта варки мета.
Самый угар—это голосовой режим: https://x.com/goodside/status/1893932239718691167.
(там короткий видосик, где чувак просит модель покричать, а она его эмоционально матом обкладывает)
А еще иронично, что Грок не особо хорошего мнения о Маске и Трампе. И когда это всплыло, xAI попытались неуклюже это исправить. Просто захардкодили, что Гроку нельзя ругать Илона. А когда всплыло и это, xAI обвинили во всем бывшего сотрудника OpenAI, который "не впитал культуру компании". Кринж.
Проблема в том, что взгляды Grok—это слепок данных из интернета, а не чья-то злая воля. Менять их сложно, не сломав всю модель.
X (formerly Twitter)
Riley Goodside (@goodside) on X
Grok 3 Voice Mode, following repeated, interrupting requests to yell louder, lets out an inhuman 30-second scream, insults me, and hangs up
😁8👍2