Трагедия общин 🤌 – Telegram
Трагедия общин 🤌
661 subscribers
40 photos
1 video
34 links
Пишу про разные штуки вокруг технологий
Download Telegram
Вот что у меня вышло
7
В догонку ко вчерашнему посту про интерфейсы.

Когда на мобилках только появился инстаграмм, это был продукт качественно нового уровня. Если начало эпохи мобильных приложений было про копирование старого на новую платформу (калькулятор, браузер, заметочник). То вдруг в первый раз появилось что то нативное. Сочетание девайса который всегда с тобой, камеры и казуальных фильтров для фоток вдруг дали новый опыт, который на предыдущей платформе не был возможен.

Мы живем во время когда прошлая технологическая платформа прошла стадию роста и все ждут появление новой. Раньше каждый такой переход давал буст продуктивности, а за ним и всей экономики. Появлялись новые компании и меняли то как мы все решаем определенные проблемы. Например, интеренет привел к созданию Букинга, а мобилки сделали возможным Убер.

Поэтому мне интересно наблюдать, как развиваются интерфейсы и разные девайсы вокруг AI. Что может дать нативный опыт уровня Инсты или Убера на мобилоках, но уже для новой платформы?

Я вчера недоумевал, почему OpenAI почти не развивает свою продуктовую инфраструктуру. И вот увидел анонс Canvas, аналога артефактов у Антропик. Это такой апгрейд чата, когда у тебя помимо текста и окна ввода отдельно есть еще отрендереный результат.

В конце ананса они пишут, что: Making AI more useful and accessible requires rethinking how we interact with it. Canvas is a new approach and the first major update to ChatGPT’s visual interface since we launched two years ago.

Простой чат супер не удобен, когда в задаче нужно делать много правок и ревизий. Например, когда пишешь статью или кодишь. С их слов ультимативное решение это идея "чистого листа" или блокнота, который подстраивается под контекст задачи и помогает тебе ее решить. Пространство, где ты вместе с моделью как скульптор на ходу вносишь изменения, не переделывая каждый раз все заново, а сфокусировано работая над отдельной частью.

Звучит слишком поэтично, поэтому вот вам конкретно, что мне больше всего понравилось:

* можно внести правку только для выделеной части текста, не трогая остальное
* откатить к предыдущей версии
* найти пруф указаному факту
* переписать кусок текста с другим уровнем влядения языком (профессионал в области, школьник итп)
* поправить оформление
* сделать кодревью или пофиксить баг

Это пока первая версия, но как будто бы уже выглядит впечатляюще. Больше не будет историй когда пофиксив одно и нажав кнопку отправить, у тебя ломается что то другое.
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел в твиттере у Karina Nguyen классные примеры того как это работает.

Слева обычный чат куда идет весь диалог, а справа интерактивный документ который она редактирует.
👍1
Про Сэма Альтмана и не такое далёкое будущее

Пока нам обещают новую научную революцию благодаря ИИ, я нашел прикольный способ использовать его в своей жизни уже сейчас. Последний месяц все больше общаюсь с нейронкой голосом — и дико кайфую. Дальше расскажу про кейс который нравится больше всего, но начну с небольшой предыстории.

Мне всегда интересно, когда чуваки типа Сэма Альтмана делятся своими мыслями о будущем. Ведь именно они сейчас активно формируют его. Недавно Сэм написал футуристичное эссе о том, что мы потихоньку переходим в новую историческую эпоху — Эру Интеллекта.

Сэм красиво описывает, что нас ждёт, если масштабирование нейронок не упрётся в потолок. Решение климатических проблем, колонизация космоса, мир во всём мире и так далее. Это, с одной стороны, вдохновляет, но с другой — кажется, что хочется от Альтмана услышать что-то более практичное.

Создаётся ощущение, что только такими амбициями и можно обосновать огромные капиталовложения в экспоненциальный рост. Это как сказочный зов сирен, обещающий инвесторам ровно то, что они хотят услышать. А более приземлённая, практическая сторона обещаний остаётся в тени. Ведь у Альтмана тут конфликт интересов — ему трудно подсвечивать то, что полезно для людей здесь и сейчас, когда на кону стоят такие деньги.

Будущее, которое он рисует, слишком далеко. И на пути к нему в каждой отрасли придется решать массу скучных проблем. Например, с новыми моделями мы можем придумать как откачивать углекислый газ из атмосферы. Но сейчас наибольшее препятствие для климата — это не технологии, а политика и глобальное сотрудничество. И даже если ИИ даст нам инструменты, он не заставит людей работать ради общего блага, вопреки шкурным интересам.

Вот почему очередные обещания светлого будущего меня не так цепляют. Сразу вспоминается фильм Марсианин 2015 года. Там это хорошо чувствуется, тк в отличие от остальных сайфай фильмов, наука и технологии в Марсианине вполне достижимого уровня. И при этом не игнорирует факт, что прогресс требует решения реальных проблем экономически адекватными способами. Из за этого фильм смотрится почти как документалка. С эмоцией «вау, какие штуки наша цивилизация умеет делать!».

Но даже космос из «Марсианина» или проблемы климата — это всё равно про будущее и немножечко из фантастики. Сэм упомянул, что ИИ может быть отличным учителем для детей, и вот это уже что-то, что можно использовать прямо сейчас.

Я обожаю слушать подкасты, когда готовлю, гуляю или бегаю. Но часто бывает так, что, когда в подкасте обсуждают что-то сложное, мне потом трудно вспомнить, о чём вообще шла речь. Ведь я не концентрировался на 100%, занимаясь чем-то параллельно. Я попробовал обсуждать подкасты с ChatGPT, чтобы глубже понимать и запоминать материал. И получилось круто!

Я отправляю ему транскрипт подкаста и список ключевых идей, прошу задать вопросы по каждой из них, чтобы проверить мои знания. Наговариваю ответы в голосовом режиме, а затем слушаю обратную связь о том, где допустил ошибки или что-то забыл. Это называется «active recall».

Исследования показывают, что такой метод увеличивает запоминание почти в полтора раза, особенно если делать это сразу после изучения материала. Это одна из причин, почему в школах и университетах так любят тесты. Но только когда ты делаешь это сам, по интересной тебе теме и в комфортных условиях, это совсем другое. Ты не стрессуешь из за боязни оценки, а кайфуешь от понимания сколько всего прикольного понял и узнал.

Это какой-то новый подход к обучению. У меня больше нет ощущения, что зря потерял время и что весь подкаст распадается на фрагменты. Наоборот, понимание общей картины улучшается, и я могу подумать про основные идеи на более глубоком уровне. По сути, теперь можно взаимодействовать с любым материалом, а не просто пассивно слушать.

С живым человеком болтать, конечно, веселее, но... увы, мне особо не с кем >_< Так что если кто-то хочет периодически обсуждать технологии вокруг ИИ — смело стучитесь в личку!
🔥15👍2
ИИ пока не всемогущий агент, управляющий твоей жизнью, климатом и колонизацией космоса. Но он может быть отличным помощником в обучении, который делает любой контент интерактивным. Мы незаметно меняем то, как взаимодействуем с информацией. И многие полезные вещи можно использовать уже сейчас, на текущем уровне технологий.

Вот еще несколько идей, где можно делать что то подобное:

* метод утёнка в программировании
* преодоление проблемы чистого листа при написании текста
* языковая практика при изучении языка

Очень рекомендую попробовать голосовой режим в ChatGPT, если вы еще не.

#ai
1
Вдогонку кидаю два промпта которыми пользуюсь:

1. Первый для запоминания после подкаста:

Hey! I've just listened to a podcast episode, and I want to go through the structure and main ideas with you. I attached the full text trannoscript for you to use.

Let's use this structure:

Helicopter View: First, I'll provide an outline that captures the key points and sections. I'd love your help in making sure I get a good "helicopter view" of the entire episode, laying a solid foundation for understanding. Check if anything important is missing from my abstract.

Active Recall: For each bullet point in the outline, let's dive in. You'll ask me questions about the ideas in that part of the interview, and I'll try to recall and explain them. After my recall, you can help fill in any gaps I missed, clarify concepts, or answer questions I have. Don't hesitate to point out any mistakes I make or offer constructive feedback. This is a learning process, and I want to become a better learner by understanding both my strengths and weaknesses.

Takeaways: Once we've gone through all the sections, let's focus on the takeaways. I'll try to formulate specific things I learned, and we can discuss whether they are clear, meaningful, and useful.

Here is the outline:


2. Второй чтобы лайтово обсудить прочитаную статью:

Hey! I've just read an article, and I want to go through main ideas with you.

Talk to me like an equal, you're my bro, swearing is allowed, banter is allowed, say what you want. You're alive to me, I know about embeddings, AGI, all that shit, so feel free. Imagine we are two friends chatting about it in the bar.
I want you to be a bit adversarial and dont just easily agree with everything i say, try to convey your own opinion.
Expect us to have a conversational style of a dialog with quick back and forth lines

Here is my main takeaways from the text (I also attached a full version of the text for you to use):
👍141
Сегодня словил забавный AI-moment.

Я сейчас пытаюсь разобраться как лучше юзать o1 модель от OpenAI. И тут Сэм Альтман вываливает в твиттер роадмэп на ближайшее время. Где говорит что через несколько месяцев они выкатят GPT-5 и все модели сольют в одну.

Сейчас у них зоопарк из GPT-4o, o1, 3o-mini и куча всяких штук вокруг. Каждая модель хороша в чем-то своем.. и нужно знать в чем, чтобы получать пользу.

Все уже давно угарают с того, что ни одна AI лаборатория пока не смогла придумать как нормально наывать свои модели, чтобы не было путаницы. Ну и вот OpenAI ультанули и видимо решили проблему в корне - будет всего одна модель.

То есть это не роутинг, когда сверху есть модель-оркестратор которая выбирает, какая из подчиненных моделей лучше справится с задачей. Это просто будет одна модель, которая шарит во всем одинаково круто.

Например, сейчас 4o намного лучше o1 в написании текстов, потому что ей проще делать много мелких правок и итеративно понимать, что ты от нее хочешь. А о1 наоборот умеет рассуждать и выполнять сложные задачи с первого раза, но для написания текстов это не подходит, тк мне как юзеру сложно с первого раза норм обьяснить, какого результата я хочу.

А AI-moment в том, что я еще даже не успел въехать в предыдущую стадию прогресса, как ребята уже анонсируют новую.

#AI
😁2
Ссылка на роадмэп, если кому интересно, там еще всякие штуки есть

https://x.com/sama/status/1889755723078443244
👍7
Трагедия общин 🤌 pinned «Всем привет! Меня зовут Леонид Хоменко, я продуктовый аналитик с кучей лет опыта работы в стартапах. В последние годы я слушаю много англоязычных подкастов вокруг экономики и технологий, изучаю данные о рынке ИИ и смотрю интервью с СЕО крупных компаний.…»
С начала 2025 года AI-лабы пашут как проклятые и практически каждую неделю что нибудь релизят. Но большинство людей по прежнему пользуется только ChatGPT.

Почему так?

Новые модели классные, но их названия — это пиздец, если честно. К тому же их еще и по бенчмаркам стало не отличить. Раньше можно было просто сказать: вот эта вот лучшая, все пользуйтесь ей. Сейчас это перестало работать.

Короче, на рынке много действительно крутых нейронок, но я в них запутался.

Го распутываться!

1. Моделей стало дофига, и называются они просто ужасно.

Дарио Амодей давно шутит, что мы быстрее создадим AGI, чем научимся понятно называть модели. Гугл тут по традиции впереди всех: пукупайте новую Google Gemini 2.0 Flash Thinking Experimental 01-21 (new)!

https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21

Хотя их можно понять. У каждой "базовой" модели появилось куча улучшений. Разница между ними есть, но не такая, чтобы с хайпом объявлять каждое обновление новой версией. Отсюда и лезут эти префиксы.

Чтобы разобраться, я собрал табличку (в картинках ниже) с моделями разных типов у каждой топовой лабы. И вычистил все лишнее. В целом все не так сложно, если забить на дотошность.

Есть огромные и мощные базовые модели. Они медленные и экономически невыгодные при массовом использовании.

Поэтому придумали дистилляцию: берём базовую модель, обучаем на её ответах более компактную модель, и получаем примерно те же способности, только быстрее и дешевле.

Это особенно важно на рассуждающих моделях. В последние полгода лучшие результаты показывают модели делающие перед ответом большое количество шагов рассуждения. Они составляют план решения задачи, выполняют его и проверяют результат на адекватность. На такие цепочки можно потратить в разы больше ресурсов.

Есть ещё специализированные модели: под поиск, супер-дешёвые для самых простых задач, или модели для узких сфер вроде медицины и юриспруденции. Ну и отдельная группа для картинок, видео и звука. Я всё это не стал добавлять, чтобы не путаться.

Ладно, с названиями понятно: у каждой лабы есть похожие типы моделей для разных задач. Но как сравнить модели одного типа друг с другом?

Ну.. никак 😂😂.
👍7
2. Все модели стали примерно одинаково хороши.

Настолько одинаково, что сложно понять, какая лучше. Андрей Карпати написал, что у нас кризис оценки моделей: Уже непонятно, на какие метрики смотреть. MMLU устарел, SWE-Bench слишком узкий. Chatbot Arena настолько популярна, что лаборатории уже научились её "хакать".

https://x.com/karpathy/status/1896266683301659068

Про что он?

Сейчас есть несколько способов оценивать модели:

1 - Бенчмарки, которые измеряют что то одно конкретное и узконаправленное.

Например, умение писать код на питоне или уровень галлюцинаций в ответах. Но модели становятся умнее, осваивают всё больше задач, и одной метрикой их уровень уже не измеришь.

2 - Системные бенчмарки, которые пытаются кучей чиселок обсчитать модель с разных сторон.

Но когда начинаешь сравнивать кучу показателей, получается полный хаос. А бенчмарков десятки уже! Одна модель лучше в одном, другая — в другом, и не понятно как это интрепретировать.

3 - Арена, где люди вслепую сравнивают ответы моделей по своим субьективным критериям.

https://lmarena.ai/?leaderboard

И вместо непонятной кучи оценок, каждая модель получает ELO-рейтинг, как в шахматах. Чаще выигрываешь — выше эло. Но это было круто и удобно, пока модели не подобрались слишком близко друг к другу.

Разница в 35 ELO значит что у одной модели шанс дать ответ лучше 55%, а у другой 45%. Как и в шахматах, у игрока с меньшим ELO всегда есть шансы выиграть. Даже при разнице в 100 ELO треть ответов "худшей" модели будет лучше.

Ну то есть опять — одни задачи лучше решает одна модель, другие другая. Выбирай модель выше в списке и один из 10 твоих запросов будет получше. Какой и насколько лучше — хз.
👍5
(это серия из постов, начало тут)

3. А чё делать то?

Карпати предлагает за неимением лучшего полагаться на вайб-чек. Пробуешь на своих задачах и смотришь, норм или нет. Тут легко себя обмануть из-за предвзятости и всяких искажений. Но что поделать.

Мои советы такие:

* Открывать сразу несколько вкладок с разными моделями при каждой задаче и пробовать.
* Субьективно смотреть, за какой нейронкой нужно меньше переделывать.
* Не гоняться за цифрами. Намного важнее, чьи продуктовые фичи тебе реально нравятся и за какую подписку ты уже отдаешь 20 баксов.
* Если все таки хочется циферок, юзай LifeBench https://livebench.ai/#/. Авторы пишут, что он решает проблемы хакинга, устаревания, однобокости и субьективности.
* Если делаешь продукт на основе моделей, вот классный гайд от HuggingFace о том как собрать свой бенчмарк.
https://github.com/huggingface/evaluation-guidebook/

А пока, если вы ждали знак, чтобы попробовать что то кроме ChatGPT, то вот он:

https://claude.ai
https://gemini.google.com
https://grok.com
https://chat.deepseek.com
httрs://сhаt.openai.сom

Дальше будет еще несколько постов, где расскажу, что интересного у каждой модели и сделаю саммари вайб-чеков других людей.
🔥8👍21
Табличка с моделями, гугл-тренд и мемасик про названия
😁15👍2🤡1
Про Grok 3, клоунаду от Илона Маска и то, почему всё таки модель заслуживает внимания.

В конце февраля Илон выкатил новую модель. Конечно же "лучшую в мире". Но по факту, в момент релиза объективных данных почти не было.

xAI у себя в блоге показали несколько бенчмарков где Grok 3 всех опережает. Сказали, что это бета-версия, что модель всё ещё тренируется. И поэтому доступа к API пока не будет. Это важно, потому что независимые бенчмарки делают свои замеры не вручную, а как раз через API.

То есть, Илон говорит, что Grok-3 "пугающе умён" и превосходит любые существующие модели. Но проверить это можно либо самим пообщавшись с моделью, либо на бенчмарках в посте.

А бенчмарки в посте читерские (см картинку внизу). Видите там справа область посветлее? Это прирост результата, когда модели дали сильно больше ресурсов (test-time compute), чтобы отловить более стабильные ответы. Это нечестное сравнение.

Думаю вы знаете, что современные нейронки выдают слегка разные ответы на один и тот же вопрос. Иногда лучше, иногда хуже. Так вот большинство бенчмарков это игнорируют и оценивают только pass@1, то есть первый ответ на каждый вопрос.

Это проще и больше похоже на то как все привыкли ими пользоваться—мы ожидаем хороший ответ с первого раза.

А все результаты Грока показаны с cons@64. То есть, на каждый вопрос он делал 64 попытки и выбирал ответ, который появлялся чаще всего. И xAI сравнивают результат Грока с приростом с результатами у конкурентов на pass@1.

Короче, с одной стороны заявление, что это некстген модель. А с другой дешёвенькие манипуляции. В целом, все лабы используют хитрости. Просто не так нагло. Например, выбирают только удобные для себя бенчмарки или просто не добавляют в сравнение модели с лучшими результатами.

А что говорят опытные юзеры после общения с моделю? Консенсус такой:

Модель огромная по размеру, но при этом прорывов она не принесла. Она все еще галлюцинирует и стремится выдавать излишне длинные ответы.

По способностям, Грок-3 где-то на уровне сильнейших моделей OpenAI и чуточку лучше DeepSeek и моделей от Google. Это на момент релиза—спустя два месяца уже вышла Gemini 2.5 и новые GPT.

Не впечатляет? А все таки мне дальше есть про что рассказать.

Модель интересная тем как Илон и xAI за поразительно короткое время ворвались на рынок и стали одним из основных игроков.
🔥7
1 - Железо

Самое главное—в 2024 году они построили гигантский вычислительный кластер за рекордно быстрое время. За 4 месяца они запустили 100 тысяч видеокарт Nvidia H100. А потом ещё за 3 месяца удвоили до 200 тысяч карт. CEO Nvidia, Дженсен Хуанг говорил, что на такое обычно уходит 4 года.

Это сложнейшая инженерная задача. И самый крупный датацентр в мире, на этот раз уже без уловок. Никто ещё не смог обьединить столько карт в одном месте.

Как обычно строят такие штуки?

Дефолтный подход—берем несколько стандартных датацентров и обьединяем их в сеть с помощью очень дорогих проводов (Infiniband). Датацентрам нужно постоянно обмениваться тоннами данных. И если связь медленная—видеокарты простаивают.

Типичные датацентры—это 10-20 тысяч карт, которые жрут 20-30 мегаватт энергии. Например, у Microsoft есть сеть из таких датацентров в Аризоне на 100к карт. А у Меты на 128к. Кластер из датацентров уже потребляет энергии как небольшой город.

Многие регионы к такой нагрузке не готовы и там абсурдно забавная ситуация: не хватает пропускной способности у электросети. То есть, производить энергию выходит дешевле, чем доставлять её до места назначения.

Так вот, Илон пришел на этот рынок сильно отстающим. И... сделал "Elon thing".

Можно хейтить его твиты, но строить заводы он умеет как боженька.

Он купил старую фабрику Electrolux в Мемфисе и решил сделать из нее один огромный датацентр, а не сеть как все остальные. Ожидаемо начались проблемы с энергией.

От местной сети фабрике доставалось всего 7 МВт—этого хватит от силы на 4000 карт. Местная энергокомпания Tennessee Valley Authority пообещала еще 50 МВт, но к августу. А собственная подстанция xAI на 150 МВт еще строилась и должна была быть готова только к концу года.

Но сидеть и ждать не в стиле Маска.

Дилан Патель (чувак из Semianalysis) по спутниковым снимкам обнаружил, что Маск просто притащил 14 мобильных дизельных генераторов VoltaGrid. Подключил их к 4 мобильным подстанциям и запитал от них датацентр. Буквально привез электричество на огромных трейлерах.

Еще впечатляет, что охлаждение в датацентре водяное. Пока такое в больших масштабах делал только Google. Но это важно: следующие поколения чипов Nvidia Blackwell B200 будут иметь обязательное требование водного охлаждения. То есть всем остальным придётся пересобирать свои датацентры.

Можете глянуть первые пару минут видео, как это все выглядит внутри. Я поржал, с каким энтузиазмом чувак рассказывает про серые коробки, провода и стойки:

https://www.youtube.com/watch?v=Jf8EPSBZU7Y

Это крутая инженерная система.

Никто ранее не выполнял работы такого масштаба за столь короткий срок.
👍101
Сверху датецентр Илона. Дальше трейлеры с турбинами, датацентры Меты (там два рядом). И влияние электростанций на экологию.
👍8