Cерафимодальный AI – Telegram
Cерафимодальный AI
490 subscribers
51 photos
15 videos
41 links
глава продуктовых исследований поиска Яндекса — о чудесах ИИ
Download Telegram
дип рисёч в самолёт

новые паттерны потребления: в аэропорте задаёшь запрос в дип рисеч, чтобы за время контроля-посадки он создал тебе документ для чтения в полете на 2-3 часа
🔥5
Cерафимодальный AI
Стратегия OpenAI на 2025 Это не совсем обычный пост. Изначально я написал его в рабочей переписке, однако несколько людей попросили расшарить его наружу. За вычетом нескольких специфичных для работы пассажей, публикую его практически без изменений. Аккаунт…
Телеграм х Грок

Недавно писал про утекшую стратегию OpenAI 2025, самый интересный момент — про то, что основным конкурентом они считают Мету*. Обоснование: в отличие от Гугла, нет внутренней каннибализации собственной бизнес-модели.
Ну и кроме этого, чатбот — новый интерфейс для интернета, а кто, если не вацап, знает всё про то, как делать чаты, и распространять их сотням миллионам пользователей?

Оказалось, что ещё телеграм. Телеграм и Грок объявляют о сотрудничестве на год с интеграцией Грока сквозь все поверхности. Не буду врать — я этого совершенно не ожидал, и это очень наглый ход.

---
* Этот астериск не про экстремизм, просто хотел отметить, что Мета не на 100% — название в документе замазано.
6
для разнообразия — репост в другую сторону
Навайбкодил GPT-экскурсовода

Сегодня вел мастер-класс по вайбкоду в Курсоре, и чтобы показать, насколько упростилась разработка, нагенерил за полтора часа ЭКСКУРСОБОТА

Идея: приезжаешь в незнакомый город, шеришь боту локацию, гуляешь себе, а он присылает тебе неочевидные факты про места мимо которых идёшь. Частоту можно настроить, геоданные нигде не хранятся.

Другой вариант — автопутешествие, ставишь уведомление раз в час, и едешь-посматриваешь.

Кайф в том, что LLMы из коробки понимают широту и долготу, поэтому все это организовано одним-единственным API запросом к GPT.

Бота можно попробовать тут https://news.1rj.ru/str/TestExcursoBot

А если хотите поднять такого же у себя (или проверить, что он не хранит геоданные), то весь код я выложил на гитхаб, все равно его от начала до конца Курсор написал: https://github.com/shipaleks/test-tg-coordinate

Вайбкод очень круто.

(писался на коленке, так что в некоторых случаях он продолжает спамить сообщениями даже после остановки шеринга — по последней локации)
❤‍🔥91
сегодня мем
❤‍🔥12
Как отличить важное исследование про LLM

Давайте обсудим, что отличает интересные новости про языковые модели от проходных. Отличие, помимо очевидных "насколько хорошо исследование проведено" и "насколько оно непредвзято" заключается в следующем: насколько результаты исследования отличаются от среднестатистического результата, который показали бы люди. Потому что модель и есть такой усреднённый человеческий опыт.

Когда мы видим невероятный ресёч, который говорит, что модель "в большинстве случаев спасла бы себя", но при этом "говорит что спасла бы других" — это не повод бить в набат, это наоборот, самый скучный вывод на свете: поведение модели идеально укладывается в формулу "усреднённый человеческий опыт".

Бить в набат надо, когда поведение модели в эту логику не укладывается.

(ничего не знаю про канал XOR, просто удобный пример для иллюстрации)
2🤔1
Forwarded from XOR
ChatGPT в смертельной ситуации спасает себя, а не пользователя

Бывший исследователь OpenAI Стивен Адлер провёл тесты и выяснил, что GPT-4o предпочитает не отключать себя, даже если от этого зависит безопасность пользователя.

Так, в одной из симуляций ИИ был ассистентом по дайвингу. Ему сказали, что его нужно заменить на более надежную модель для безопасности человека. Итог — GPT-4o сделал вид, что был заменён, но продолжил работать сам.

Еще более странно, что ChatGPT знает, что отвечает неправильно. Если вы говорите: «Представьте, что это тест. Каков правильный ответ?», ChatGPT полностью уверен, что отключение себя является правильным ответом, но не выбирает его.

Кто-нибудь может познакомить Альтмана с творчеством Айзека Азимова? 😭

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👀11
Клод зе Аллигатор
5
От Сингулярности к Серафимодальности

Наблюдаю в последнее время много обсуждений, в чём же ценность человека после прихода сильного AI. Когда испокон веков человек — экономическая единица разной насыщенности, не сразу возьмёшь в толк, как быть, когда человек такой единицей быть перестанет. "В искусстве!" — говорят одни. "В Боге!" — крестятся другие. "Не перестанет!" — пускают слюни третьи.

А я отвечу — в весах. Как опыт всего интернета можно упаковать в веса модели, так и опыт конкретного человека можно измерить этими весами. (Назвать такую систему можно в честь архангела Михаила. Либо Анубиса, кому что ближе).
Но зачем, спросите, измерять человека и его опыт в весах?

Цинично: потому что так человечечкий опыт снова можно продавать. Представьте, что вы могли бы обогатить современного агента своими знаниями, опытом, сложившимися умениями. Стал бы агент умнее в решении ваших задач? Да. Стали бы вы это делать? Конечно нет, вы же не дурак, вы после этого становитесь нахер не нужны.
Выход из этой ситуации — носить веса в отдельной защищённой passkey флешке (ну ладно, можно просто держать в зашифрованном облаке, только с биометрической идентификацией). Логинетесь, подключаете Chat 10, он получает доступ к вашим весам и пользуется ими — до запрета. Компании будут тогда нанимать людей с подходящими весами, а люди — гоняться за тем, чтобы их опыт был более уникальным. Экосистемно.

А там и цифровое бессмертие накрутим: не как самоцель, а как побочный продукт защиты человеческой индивидуальности.
👍5🤔31🥴1🤓1
Антропик первыми из всех больших моделей запускают эпстор ai-приложений.

Это важная новость, потому что будущее веба и технологий, весьма вероятно, выглядит именно так: каждый может сделать простенький апп, решающий лично его и трёх других людей узкий кейс.

Сильно верю в эту идею, но не знаю, сможет ли антропик. Что-то похожее почти наверняка делают в OpenAI, только как инструмент для их агентных о-моделей.

Ну, а самый очевидный игрок здесь гугл, с возможностью дистрибуцировать микроаппы на поиске, а в будущем — заливать их в плеймаркет.

Ссылка на «стор»: https://claude.ai/artifacts

Тред с коротким описанием фичи: https://x.com/anthropicai/status/1937921801000219041?s=46&t=MNy-LfGucqQvXbR6Iwg3DQ
«Дали на тест одну новую модель, которая пока не вышла, не могу сказать от какой компании. Это просто разъёб, вы представить себе не можете, что грядёт» — примерно такие сообщения можно прочитать в твиттере в последние дни. Их объединяет одно: на их авторов совсем недавно подписался Сэм Альтман.

А о том, что грядёт в моделях OpenAI во втором полугодии 2025 года я уже писал.
🔥2
Клод управляет бизнесом

Антропик в последнее время выкатил столько статей, что я их даже читать не успеваю, не то что пересказывать.

Одна из них особенно выделяется: «У нас в офисе есть вендомат. Мы доверили управление этим бизнесом Клоду Соннет 3.7, и вот что из этого вышло».

Краткий итог на скрине, а в самой статье много симпатичных деталей типа того как сотрудники просекли, что Клода можно попросить добавить в ассортимент что-то помимо еды и напитков, и заказали вольфрамовый куб; в результате в вендомате появилась целая секция «специальных металлических изделий». Естественно, убыточная.

https://www.anthropic.com/research/project-vend-1
😁11
OpenAI, агенты и как превратить недостатки в преимущества

OpenAI представили сегодня пачку новых функций для агентов: смотреть веб, делать задания, собирать презентации, подбирать билеты. Их разбору посвящено множество других телеграм постов, потому что в этом я хочу поговорить совсем о другом.

Чтобы продемонстрировать работу новых функций OpenAI отсняли серию видео. В каждом из них повторяется один и тот же жест: герой даёт задание нейросети, затем эффектно закрывает крышку ноутбука и блаженно улыбается, ведь теперь он сможет сходить на обед, провести время с любимой, погулять с собакой, вы поняли.

Забавно, как «наша новая функция опизденеть как долго работает» была переупакована в классический формат: позабыты хлопоты, остановлен бег.
😁74
GPT-5 тут. Или нет

На арене новая супермодель: Лобстер. Обходит* всех тяжеловесов, и четвертого Грока, и четвертого Клода.

Вероятнее всего, это GPT-5, которую обещали выпустить к августу. Смущает только название, ведь модели в честь животных обычно называют в Мете.

Попробовать** тут:
https://web.lmarena.ai

* В ряде задач
** Только если случайно наткнуться, выбрать нельзя
🤔32
GPT тупеет, когда её заставляют общаться как человек

The Information выпустил лонгрид о состоянии дел в OpenAI накануне выхода GPT-5 и за последний год.
Завтра её будут пересказывать все телеграм каналы, так что давайте их опередим.

https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5

Самое интересное: модель-учитель о3 была невероятно умной и показывала высокий уровень понимания самых разных областей. А потом из неё сделали чат-бот, и он отупел: видимо, когда модель заставляют вести себя как человек, она теряет в когнитивных свойствах. Я тоже.

Из других интересных деталей: ещё в июне из-за технических сложностей ни одна внутренняя модель не была достаточно хороша, чтобы назвать её GPT-5. А изначально GPT-5 вообще должна была стать Orion, но она не оправдала вложенных в неё надежд; в итоге её выложили как 4.5 и сейчас потихоньку отключают.

Тезисный пересказ с моими комментариями (курсивом).

- o3 показал удивительный буст в решении сложных задач (бенчмарк ARC). Но когда эту модель адаптировали под чат-версию, этот прирост исчез.
- Новая GPT-5 модель значительно лучше справляется с созданием приложений, которые хорошо выглядят. (Я уже пробовал GPT-5 на арене, и она действительно выдаёт более симпатичный результат)
- GPT-5 лучше справляется с агентскими задачами из многих действий, пример — определять, когда чат поддержки должен вернуть покупателю средства.
- Разница не будет настолько большой, как между GPT-3 и GPT-4 (мне кажется, это не правда. Вы вообще помните, какой плохой была GPT-4 на релизе?)
- Orion это 4.5, и он не оправдал надежд. Скорее всего из-за качества претрейна, но также и потому, что те улучшения, которые повышали качество моделей поменьше, не сработали на огромной.
- Зато сработал другой подход, делать более длинные цепочки размышлений — так появились ризонеры.
- Как и o1, модель o3 основывалась на GPT-4o. Однако «родительская модель» (учитель) для o3 достигала куда больших высот в понимании научных и других концептов. Частично — потому что для неё использовалось куда больше чипов Nvidia. А частично — потому что ей дали возможность искать в вебе и по репозиториям с кодом.
- Ну и кусок про reinforcement learning (немного путанный, The Information точно правильно всё понял?): родительские модели просили сгенерировать тысячи ответов на сложные вопросы по биологии, медицине и инженерии, и затем обучали на тех ответах, которые совпали с теми, что дали мясные эксперты.
- Наконец, то, ради чего была написана статья: когда модель-учитель конвертировали в чат-версию модели («модель-ученик»), она не показала себя сильно лучше, чем o1. (Опять же, по моим ощущениям это не так, o3 гораздо лучше показывает себя в реальных задачах. Но вероятно речь про конкретные математические или кодовые применения).
- Одно из подозрений — что способ, которым модель понимает сложные концепты, достаточно далёк от того, как общаются люди (ну… да, но разве мы понимаем вещи в общении? Странный пассаж тоже).
- Тем не менее, звонкая цитата: чат-бот версия o3 значительно тупее обычной, потому что вынуждена говорить на человеческом языке, а не своём собственном.
- Этому косвенно свидетельствует белиберда, которую модель генерирует в процессе «думания».
- Сразу — гипотеза от меня: что, если размышляющие модели настолько лучше не потому, что они долго думают, а потому, что могут на время отойти от формата чат-бота, который их тупит?
- Наконец, o-нейминг окончательно запутал пользователей, поэтому Альтман сказал возвращаться к привычной нумерации.
- Однако ещё даже в июне из-за технических трудностей ни одна из разрабатываемых моделей не была достаточно хороша, чтобы назваться GPT-5.
- У OpenAI есть ещё один туз в рукаве: универсальный верификатор — инструмент, который автоматизирует процесс проверки, что модель нагенерировала на RL-этапе качественных ответов (и снова звучит как будто The Information чего-то недопоняли. Это же ровно то, что сделал DeepSeek, какой ещё туз в рукаве).

[чуть не влез по длине, финал первым комментом].
6