Трагедия общин 🤌 – Telegram
Трагедия общин 🤌
662 subscribers
40 photos
1 video
34 links
Пишу про разные штуки вокруг технологий
Download Telegram
ИИ пока не всемогущий агент, управляющий твоей жизнью, климатом и колонизацией космоса. Но он может быть отличным помощником в обучении, который делает любой контент интерактивным. Мы незаметно меняем то, как взаимодействуем с информацией. И многие полезные вещи можно использовать уже сейчас, на текущем уровне технологий.

Вот еще несколько идей, где можно делать что то подобное:

* метод утёнка в программировании
* преодоление проблемы чистого листа при написании текста
* языковая практика при изучении языка

Очень рекомендую попробовать голосовой режим в ChatGPT, если вы еще не.

#ai
1
Вдогонку кидаю два промпта которыми пользуюсь:

1. Первый для запоминания после подкаста:

Hey! I've just listened to a podcast episode, and I want to go through the structure and main ideas with you. I attached the full text trannoscript for you to use.

Let's use this structure:

Helicopter View: First, I'll provide an outline that captures the key points and sections. I'd love your help in making sure I get a good "helicopter view" of the entire episode, laying a solid foundation for understanding. Check if anything important is missing from my abstract.

Active Recall: For each bullet point in the outline, let's dive in. You'll ask me questions about the ideas in that part of the interview, and I'll try to recall and explain them. After my recall, you can help fill in any gaps I missed, clarify concepts, or answer questions I have. Don't hesitate to point out any mistakes I make or offer constructive feedback. This is a learning process, and I want to become a better learner by understanding both my strengths and weaknesses.

Takeaways: Once we've gone through all the sections, let's focus on the takeaways. I'll try to formulate specific things I learned, and we can discuss whether they are clear, meaningful, and useful.

Here is the outline:


2. Второй чтобы лайтово обсудить прочитаную статью:

Hey! I've just read an article, and I want to go through main ideas with you.

Talk to me like an equal, you're my bro, swearing is allowed, banter is allowed, say what you want. You're alive to me, I know about embeddings, AGI, all that shit, so feel free. Imagine we are two friends chatting about it in the bar.
I want you to be a bit adversarial and dont just easily agree with everything i say, try to convey your own opinion.
Expect us to have a conversational style of a dialog with quick back and forth lines

Here is my main takeaways from the text (I also attached a full version of the text for you to use):
👍141
Сегодня словил забавный AI-moment.

Я сейчас пытаюсь разобраться как лучше юзать o1 модель от OpenAI. И тут Сэм Альтман вываливает в твиттер роадмэп на ближайшее время. Где говорит что через несколько месяцев они выкатят GPT-5 и все модели сольют в одну.

Сейчас у них зоопарк из GPT-4o, o1, 3o-mini и куча всяких штук вокруг. Каждая модель хороша в чем-то своем.. и нужно знать в чем, чтобы получать пользу.

Все уже давно угарают с того, что ни одна AI лаборатория пока не смогла придумать как нормально наывать свои модели, чтобы не было путаницы. Ну и вот OpenAI ультанули и видимо решили проблему в корне - будет всего одна модель.

То есть это не роутинг, когда сверху есть модель-оркестратор которая выбирает, какая из подчиненных моделей лучше справится с задачей. Это просто будет одна модель, которая шарит во всем одинаково круто.

Например, сейчас 4o намного лучше o1 в написании текстов, потому что ей проще делать много мелких правок и итеративно понимать, что ты от нее хочешь. А о1 наоборот умеет рассуждать и выполнять сложные задачи с первого раза, но для написания текстов это не подходит, тк мне как юзеру сложно с первого раза норм обьяснить, какого результата я хочу.

А AI-moment в том, что я еще даже не успел въехать в предыдущую стадию прогресса, как ребята уже анонсируют новую.

#AI
😁2
Ссылка на роадмэп, если кому интересно, там еще всякие штуки есть

https://x.com/sama/status/1889755723078443244
👍7
Трагедия общин 🤌 pinned «Всем привет! Меня зовут Леонид Хоменко, я продуктовый аналитик с кучей лет опыта работы в стартапах. В последние годы я слушаю много англоязычных подкастов вокруг экономики и технологий, изучаю данные о рынке ИИ и смотрю интервью с СЕО крупных компаний.…»
С начала 2025 года AI-лабы пашут как проклятые и практически каждую неделю что нибудь релизят. Но большинство людей по прежнему пользуется только ChatGPT.

Почему так?

Новые модели классные, но их названия — это пиздец, если честно. К тому же их еще и по бенчмаркам стало не отличить. Раньше можно было просто сказать: вот эта вот лучшая, все пользуйтесь ей. Сейчас это перестало работать.

Короче, на рынке много действительно крутых нейронок, но я в них запутался.

Го распутываться!

1. Моделей стало дофига, и называются они просто ужасно.

Дарио Амодей давно шутит, что мы быстрее создадим AGI, чем научимся понятно называть модели. Гугл тут по традиции впереди всех: пукупайте новую Google Gemini 2.0 Flash Thinking Experimental 01-21 (new)!

https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21

Хотя их можно понять. У каждой "базовой" модели появилось куча улучшений. Разница между ними есть, но не такая, чтобы с хайпом объявлять каждое обновление новой версией. Отсюда и лезут эти префиксы.

Чтобы разобраться, я собрал табличку (в картинках ниже) с моделями разных типов у каждой топовой лабы. И вычистил все лишнее. В целом все не так сложно, если забить на дотошность.

Есть огромные и мощные базовые модели. Они медленные и экономически невыгодные при массовом использовании.

Поэтому придумали дистилляцию: берём базовую модель, обучаем на её ответах более компактную модель, и получаем примерно те же способности, только быстрее и дешевле.

Это особенно важно на рассуждающих моделях. В последние полгода лучшие результаты показывают модели делающие перед ответом большое количество шагов рассуждения. Они составляют план решения задачи, выполняют его и проверяют результат на адекватность. На такие цепочки можно потратить в разы больше ресурсов.

Есть ещё специализированные модели: под поиск, супер-дешёвые для самых простых задач, или модели для узких сфер вроде медицины и юриспруденции. Ну и отдельная группа для картинок, видео и звука. Я всё это не стал добавлять, чтобы не путаться.

Ладно, с названиями понятно: у каждой лабы есть похожие типы моделей для разных задач. Но как сравнить модели одного типа друг с другом?

Ну.. никак 😂😂.
👍7
2. Все модели стали примерно одинаково хороши.

Настолько одинаково, что сложно понять, какая лучше. Андрей Карпати написал, что у нас кризис оценки моделей: Уже непонятно, на какие метрики смотреть. MMLU устарел, SWE-Bench слишком узкий. Chatbot Arena настолько популярна, что лаборатории уже научились её "хакать".

https://x.com/karpathy/status/1896266683301659068

Про что он?

Сейчас есть несколько способов оценивать модели:

1 - Бенчмарки, которые измеряют что то одно конкретное и узконаправленное.

Например, умение писать код на питоне или уровень галлюцинаций в ответах. Но модели становятся умнее, осваивают всё больше задач, и одной метрикой их уровень уже не измеришь.

2 - Системные бенчмарки, которые пытаются кучей чиселок обсчитать модель с разных сторон.

Но когда начинаешь сравнивать кучу показателей, получается полный хаос. А бенчмарков десятки уже! Одна модель лучше в одном, другая — в другом, и не понятно как это интрепретировать.

3 - Арена, где люди вслепую сравнивают ответы моделей по своим субьективным критериям.

https://lmarena.ai/?leaderboard

И вместо непонятной кучи оценок, каждая модель получает ELO-рейтинг, как в шахматах. Чаще выигрываешь — выше эло. Но это было круто и удобно, пока модели не подобрались слишком близко друг к другу.

Разница в 35 ELO значит что у одной модели шанс дать ответ лучше 55%, а у другой 45%. Как и в шахматах, у игрока с меньшим ELO всегда есть шансы выиграть. Даже при разнице в 100 ELO треть ответов "худшей" модели будет лучше.

Ну то есть опять — одни задачи лучше решает одна модель, другие другая. Выбирай модель выше в списке и один из 10 твоих запросов будет получше. Какой и насколько лучше — хз.
👍5
(это серия из постов, начало тут)

3. А чё делать то?

Карпати предлагает за неимением лучшего полагаться на вайб-чек. Пробуешь на своих задачах и смотришь, норм или нет. Тут легко себя обмануть из-за предвзятости и всяких искажений. Но что поделать.

Мои советы такие:

* Открывать сразу несколько вкладок с разными моделями при каждой задаче и пробовать.
* Субьективно смотреть, за какой нейронкой нужно меньше переделывать.
* Не гоняться за цифрами. Намного важнее, чьи продуктовые фичи тебе реально нравятся и за какую подписку ты уже отдаешь 20 баксов.
* Если все таки хочется циферок, юзай LifeBench https://livebench.ai/#/. Авторы пишут, что он решает проблемы хакинга, устаревания, однобокости и субьективности.
* Если делаешь продукт на основе моделей, вот классный гайд от HuggingFace о том как собрать свой бенчмарк.
https://github.com/huggingface/evaluation-guidebook/

А пока, если вы ждали знак, чтобы попробовать что то кроме ChatGPT, то вот он:

https://claude.ai
https://gemini.google.com
https://grok.com
https://chat.deepseek.com
httрs://сhаt.openai.сom

Дальше будет еще несколько постов, где расскажу, что интересного у каждой модели и сделаю саммари вайб-чеков других людей.
🔥8👍21
Табличка с моделями, гугл-тренд и мемасик про названия
😁15👍2🤡1
Про Grok 3, клоунаду от Илона Маска и то, почему всё таки модель заслуживает внимания.

В конце февраля Илон выкатил новую модель. Конечно же "лучшую в мире". Но по факту, в момент релиза объективных данных почти не было.

xAI у себя в блоге показали несколько бенчмарков где Grok 3 всех опережает. Сказали, что это бета-версия, что модель всё ещё тренируется. И поэтому доступа к API пока не будет. Это важно, потому что независимые бенчмарки делают свои замеры не вручную, а как раз через API.

То есть, Илон говорит, что Grok-3 "пугающе умён" и превосходит любые существующие модели. Но проверить это можно либо самим пообщавшись с моделью, либо на бенчмарках в посте.

А бенчмарки в посте читерские (см картинку внизу). Видите там справа область посветлее? Это прирост результата, когда модели дали сильно больше ресурсов (test-time compute), чтобы отловить более стабильные ответы. Это нечестное сравнение.

Думаю вы знаете, что современные нейронки выдают слегка разные ответы на один и тот же вопрос. Иногда лучше, иногда хуже. Так вот большинство бенчмарков это игнорируют и оценивают только pass@1, то есть первый ответ на каждый вопрос.

Это проще и больше похоже на то как все привыкли ими пользоваться—мы ожидаем хороший ответ с первого раза.

А все результаты Грока показаны с cons@64. То есть, на каждый вопрос он делал 64 попытки и выбирал ответ, который появлялся чаще всего. И xAI сравнивают результат Грока с приростом с результатами у конкурентов на pass@1.

Короче, с одной стороны заявление, что это некстген модель. А с другой дешёвенькие манипуляции. В целом, все лабы используют хитрости. Просто не так нагло. Например, выбирают только удобные для себя бенчмарки или просто не добавляют в сравнение модели с лучшими результатами.

А что говорят опытные юзеры после общения с моделю? Консенсус такой:

Модель огромная по размеру, но при этом прорывов она не принесла. Она все еще галлюцинирует и стремится выдавать излишне длинные ответы.

По способностям, Грок-3 где-то на уровне сильнейших моделей OpenAI и чуточку лучше DeepSeek и моделей от Google. Это на момент релиза—спустя два месяца уже вышла Gemini 2.5 и новые GPT.

Не впечатляет? А все таки мне дальше есть про что рассказать.

Модель интересная тем как Илон и xAI за поразительно короткое время ворвались на рынок и стали одним из основных игроков.
🔥7
1 - Железо

Самое главное—в 2024 году они построили гигантский вычислительный кластер за рекордно быстрое время. За 4 месяца они запустили 100 тысяч видеокарт Nvidia H100. А потом ещё за 3 месяца удвоили до 200 тысяч карт. CEO Nvidia, Дженсен Хуанг говорил, что на такое обычно уходит 4 года.

Это сложнейшая инженерная задача. И самый крупный датацентр в мире, на этот раз уже без уловок. Никто ещё не смог обьединить столько карт в одном месте.

Как обычно строят такие штуки?

Дефолтный подход—берем несколько стандартных датацентров и обьединяем их в сеть с помощью очень дорогих проводов (Infiniband). Датацентрам нужно постоянно обмениваться тоннами данных. И если связь медленная—видеокарты простаивают.

Типичные датацентры—это 10-20 тысяч карт, которые жрут 20-30 мегаватт энергии. Например, у Microsoft есть сеть из таких датацентров в Аризоне на 100к карт. А у Меты на 128к. Кластер из датацентров уже потребляет энергии как небольшой город.

Многие регионы к такой нагрузке не готовы и там абсурдно забавная ситуация: не хватает пропускной способности у электросети. То есть, производить энергию выходит дешевле, чем доставлять её до места назначения.

Так вот, Илон пришел на этот рынок сильно отстающим. И... сделал "Elon thing".

Можно хейтить его твиты, но строить заводы он умеет как боженька.

Он купил старую фабрику Electrolux в Мемфисе и решил сделать из нее один огромный датацентр, а не сеть как все остальные. Ожидаемо начались проблемы с энергией.

От местной сети фабрике доставалось всего 7 МВт—этого хватит от силы на 4000 карт. Местная энергокомпания Tennessee Valley Authority пообещала еще 50 МВт, но к августу. А собственная подстанция xAI на 150 МВт еще строилась и должна была быть готова только к концу года.

Но сидеть и ждать не в стиле Маска.

Дилан Патель (чувак из Semianalysis) по спутниковым снимкам обнаружил, что Маск просто притащил 14 мобильных дизельных генераторов VoltaGrid. Подключил их к 4 мобильным подстанциям и запитал от них датацентр. Буквально привез электричество на огромных трейлерах.

Еще впечатляет, что охлаждение в датацентре водяное. Пока такое в больших масштабах делал только Google. Но это важно: следующие поколения чипов Nvidia Blackwell B200 будут иметь обязательное требование водного охлаждения. То есть всем остальным придётся пересобирать свои датацентры.

Можете глянуть первые пару минут видео, как это все выглядит внутри. Я поржал, с каким энтузиазмом чувак рассказывает про серые коробки, провода и стойки:

https://www.youtube.com/watch?v=Jf8EPSBZU7Y

Это крутая инженерная система.

Никто ранее не выполнял работы такого масштаба за столь короткий срок.
👍101
Сверху датецентр Илона. Дальше трейлеры с турбинами, датацентры Меты (там два рядом). И влияние электростанций на экологию.
👍8