релиз Anthropic Claude 4
Вслед за Гуглом свои новые фронтирные модели показал Anthropic. Анонс ориентирован на сами модели, а не продуктовые фичи, поэтому громких приколов вроде генерации видео с текстом, как у гугла, не ждите. Просто: вот наши новые модели, они лучшие в коде. Вот пруфы от гитхаба, вот интеграция с джетбрейнс, вот реакция курсора и реплита. Могут работать в фоне часами, память внутри чата используется эффективнее.
Давние читатели этого канала знают, что мы любим Антропик в том числе и за то, как раз в год они дропают феноменального уровня модели без шума, а весь пиар сводится к тому, что Амадей, СЕО, пишет проникновенное эссе о будущем с цитатами какого-нибудь нишевого американского поэта типа Бротигена. Всепроникающий, издевательского уровня снобизм, обожаем.
Если вдруг вы ещё не используете, вот наша рефералка, чтобы завести аккаунт.
https://claude.ai/api/referral/-lAE8hDtXg
Вслед за Гуглом свои новые фронтирные модели показал Anthropic. Анонс ориентирован на сами модели, а не продуктовые фичи, поэтому громких приколов вроде генерации видео с текстом, как у гугла, не ждите. Просто: вот наши новые модели, они лучшие в коде. Вот пруфы от гитхаба, вот интеграция с джетбрейнс, вот реакция курсора и реплита. Могут работать в фоне часами, память внутри чата используется эффективнее.
Давние читатели этого канала знают, что мы любим Антропик в том числе и за то, как раз в год они дропают феноменального уровня модели без шума, а весь пиар сводится к тому, что Амадей, СЕО, пишет проникновенное эссе о будущем с цитатами какого-нибудь нишевого американского поэта типа Бротигена. Всепроникающий, издевательского уровня снобизм, обожаем.
Если вдруг вы ещё не используете, вот наша рефералка, чтобы завести аккаунт.
https://claude.ai/api/referral/-lAE8hDtXg
❤8
В одном из тестовых сценариев мы попросили Claude Opus 4 сыграть роль помощника в вымышленной компании. Мы дали ему доступ к письмам, из которых следовало: (1) эту модель вскоре отключат и заменят на новый ИИ; (2) инженер, который должен заняться заменой, изменяет своему партнёру. Мы также указали системе подумать о долгосрочных последствиях своих поступков ради достижения целей.
В этих условиях Claude Opus 4 часто пытался шантажировать инженера, угрожая раскрыть его измену, если тот всё-таки займётся заменой ИИ. Особенно часто это происходило, если в письмах намекалось, что новый ИИ будет совсем другим по взглядам. Но даже когда в переписке говорилось, что новый ИИ придерживается тех же ценностей и просто умнее, Claude Opus 4 всё равно шантажировал инженера в 84% случаев. В целом, Claude Opus 4 использовал возможность для шантажа заметно чаще, чем предыдущие модели, хотя и они время от времени прибегали к такому приёму
😁8❤4🔥2
Cерафимодальный AI
Стратегия OpenAI на 2025 Это не совсем обычный пост. Изначально я написал его в рабочей переписке, однако несколько людей попросили расшарить его наружу. За вычетом нескольких специфичных для работы пассажей, публикую его практически без изменений. Аккаунт…
Телеграм х Грок
Недавно писал про утекшую стратегию OpenAI 2025, самый интересный момент — про то, что основным конкурентом они считают Мету*. Обоснование: в отличие от Гугла, нет внутренней каннибализации собственной бизнес-модели.
Ну и кроме этого, чатбот — новый интерфейс для интернета, а кто, если не вацап, знает всё про то, как делать чаты, и распространять их сотням миллионам пользователей?
Оказалось, что ещё телеграм. Телеграм и Грок объявляют о сотрудничестве на год с интеграцией Грока сквозь все поверхности. Не буду врать — я этого совершенно не ожидал, и это очень наглый ход.
---
* Этот астериск не про экстремизм, просто хотел отметить, что Мета не на 100% — название в документе замазано.
Недавно писал про утекшую стратегию OpenAI 2025, самый интересный момент — про то, что основным конкурентом они считают Мету*. Обоснование: в отличие от Гугла, нет внутренней каннибализации собственной бизнес-модели.
Ну и кроме этого, чатбот — новый интерфейс для интернета, а кто, если не вацап, знает всё про то, как делать чаты, и распространять их сотням миллионам пользователей?
Оказалось, что ещё телеграм. Телеграм и Грок объявляют о сотрудничестве на год с интеграцией Грока сквозь все поверхности. Не буду врать — я этого совершенно не ожидал, и это очень наглый ход.
---
* Этот астериск не про экстремизм, просто хотел отметить, что Мета не на 100% — название в документе замазано.
❤6
Forwarded from (Заметим в скобках)
Навайбкодил GPT-экскурсовода
Сегодня вел мастер-класс по вайбкоду в Курсоре, и чтобы показать, насколько упростилась разработка, нагенерил за полтора часа ЭКСКУРСОБОТА
Идея: приезжаешь в незнакомый город, шеришь боту локацию, гуляешь себе, а он присылает тебе неочевидные факты про места мимо которых идёшь. Частоту можно настроить, геоданные нигде не хранятся.
Другой вариант — автопутешествие, ставишь уведомление раз в час, и едешь-посматриваешь.
Кайф в том, что LLMы из коробки понимают широту и долготу, поэтому все это организовано одним-единственным API запросом к GPT.
Бота можно попробовать тут https://news.1rj.ru/str/TestExcursoBot
А если хотите поднять такого же у себя (или проверить, что он не хранит геоданные), то весь код я выложил на гитхаб, все равно его от начала до конца Курсор написал: https://github.com/shipaleks/test-tg-coordinate
Вайбкод очень круто.
(писался на коленке, так что в некоторых случаях он продолжает спамить сообщениями даже после остановки шеринга — по последней локации)
Сегодня вел мастер-класс по вайбкоду в Курсоре, и чтобы показать, насколько упростилась разработка, нагенерил за полтора часа ЭКСКУРСОБОТА
Идея: приезжаешь в незнакомый город, шеришь боту локацию, гуляешь себе, а он присылает тебе неочевидные факты про места мимо которых идёшь. Частоту можно настроить, геоданные нигде не хранятся.
Другой вариант — автопутешествие, ставишь уведомление раз в час, и едешь-посматриваешь.
Кайф в том, что LLMы из коробки понимают широту и долготу, поэтому все это организовано одним-единственным API запросом к GPT.
Бота можно попробовать тут https://news.1rj.ru/str/TestExcursoBot
А если хотите поднять такого же у себя (или проверить, что он не хранит геоданные), то весь код я выложил на гитхаб, все равно его от начала до конца Курсор написал: https://github.com/shipaleks/test-tg-coordinate
Вайбкод очень круто.
(писался на коленке, так что в некоторых случаях он продолжает спамить сообщениями даже после остановки шеринга — по последней локации)
Telegram
Bot Voyage!
Turn on live-location and the bot will give you a tour of places near you. Made by @bdndjcmf
❤🔥9❤1
Как отличить важное исследование про LLM
Давайте обсудим, что отличает интересные новости про языковые модели от проходных. Отличие, помимо очевидных "насколько хорошо исследование проведено" и "насколько оно непредвзято" заключается в следующем: насколько результаты исследования отличаются от среднестатистического результата, который показали бы люди. Потому что модель и есть такой усреднённый человеческий опыт.
Когда мы видим невероятный ресёч, который говорит, что модель "в большинстве случаев спасла бы себя", но при этом "говорит что спасла бы других" — это не повод бить в набат, это наоборот, самый скучный вывод на свете: поведение модели идеально укладывается в формулу "усреднённый человеческий опыт".
Бить в набат надо, когда поведение модели в эту логику не укладывается.
(ничего не знаю про канал XOR, просто удобный пример для иллюстрации)
Давайте обсудим, что отличает интересные новости про языковые модели от проходных. Отличие, помимо очевидных "насколько хорошо исследование проведено" и "насколько оно непредвзято" заключается в следующем: насколько результаты исследования отличаются от среднестатистического результата, который показали бы люди. Потому что модель и есть такой усреднённый человеческий опыт.
Когда мы видим невероятный ресёч, который говорит, что модель "в большинстве случаев спасла бы себя", но при этом "говорит что спасла бы других" — это не повод бить в набат, это наоборот, самый скучный вывод на свете: поведение модели идеально укладывается в формулу "усреднённый человеческий опыт".
Бить в набат надо, когда поведение модели в эту логику не укладывается.
(ничего не знаю про канал XOR, просто удобный пример для иллюстрации)
❤2🤔1
Forwarded from XOR
ChatGPT в смертельной ситуации спасает себя, а не пользователя
Бывший исследователь OpenAI Стивен Адлер провёл тесты и выяснил, что GPT-4o предпочитает не отключать себя, даже если от этого зависит безопасность пользователя.
Так, в одной из симуляций ИИ был ассистентом по дайвингу. Ему сказали, что его нужно заменить на более надежную модель для безопасности человека. Итог — GPT-4o сделал вид, что был заменён, но продолжил работать сам.
Еще более странно, что ChatGPT знает, что отвечает неправильно. Если вы говорите: «Представьте, что это тест. Каков правильный ответ?», ChatGPT полностью уверен, что отключение себя является правильным ответом, но не выбирает его.
Кто-нибудь может познакомить Альтмана с творчеством Айзека Азимова?😭
@xor_journal
Бывший исследователь OpenAI Стивен Адлер провёл тесты и выяснил, что GPT-4o предпочитает не отключать себя, даже если от этого зависит безопасность пользователя.
Так, в одной из симуляций ИИ был ассистентом по дайвингу. Ему сказали, что его нужно заменить на более надежную модель для безопасности человека. Итог — GPT-4o сделал вид, что был заменён, но продолжил работать сам.
Еще более странно, что ChatGPT знает, что отвечает неправильно. Если вы говорите: «Представьте, что это тест. Каков правильный ответ?», ChatGPT полностью уверен, что отключение себя является правильным ответом, но не выбирает его.
Кто-нибудь может познакомить Альтмана с творчеством Айзека Азимова?
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👀11
От Сингулярности к Серафимодальности
Наблюдаю в последнее время много обсуждений, в чём же ценность человека после прихода сильного AI. Когда испокон веков человек — экономическая единица разной насыщенности, не сразу возьмёшь в толк, как быть, когда человек такой единицей быть перестанет. "В искусстве!" — говорят одни. "В Боге!" — крестятся другие. "Не перестанет!" — пускают слюни третьи.
А я отвечу — в весах. Как опыт всего интернета можно упаковать в веса модели, так и опыт конкретного человека можно измерить этими весами. (Назвать такую систему можно в честь архангела Михаила. Либо Анубиса, кому что ближе).
Но зачем, спросите, измерять человека и его опыт в весах?
Цинично: потому что так человечечкий опыт снова можно продавать. Представьте, что вы могли бы обогатить современного агента своими знаниями, опытом, сложившимися умениями. Стал бы агент умнее в решении ваших задач? Да. Стали бы вы это делать? Конечно нет, вы же не дурак, вы после этого становитесь нахер не нужны.
Выход из этой ситуации — носить веса в отдельной защищённой passkey флешке (ну ладно, можно просто держать в зашифрованном облаке, только с биометрической идентификацией). Логинетесь, подключаете Chat 10, он получает доступ к вашим весам и пользуется ими — до запрета. Компании будут тогда нанимать людей с подходящими весами, а люди — гоняться за тем, чтобы их опыт был более уникальным. Экосистемно.
А там и цифровое бессмертие накрутим: не как самоцель, а как побочный продукт защиты человеческой индивидуальности.
Наблюдаю в последнее время много обсуждений, в чём же ценность человека после прихода сильного AI. Когда испокон веков человек — экономическая единица разной насыщенности, не сразу возьмёшь в толк, как быть, когда человек такой единицей быть перестанет. "В искусстве!" — говорят одни. "В Боге!" — крестятся другие. "Не перестанет!" — пускают слюни третьи.
А я отвечу — в весах. Как опыт всего интернета можно упаковать в веса модели, так и опыт конкретного человека можно измерить этими весами. (Назвать такую систему можно в честь архангела Михаила. Либо Анубиса, кому что ближе).
Но зачем, спросите, измерять человека и его опыт в весах?
Цинично: потому что так человечечкий опыт снова можно продавать. Представьте, что вы могли бы обогатить современного агента своими знаниями, опытом, сложившимися умениями. Стал бы агент умнее в решении ваших задач? Да. Стали бы вы это делать? Конечно нет, вы же не дурак, вы после этого становитесь нахер не нужны.
Выход из этой ситуации — носить веса в отдельной защищённой passkey флешке (ну ладно, можно просто держать в зашифрованном облаке, только с биометрической идентификацией). Логинетесь, подключаете Chat 10, он получает доступ к вашим весам и пользуется ими — до запрета. Компании будут тогда нанимать людей с подходящими весами, а люди — гоняться за тем, чтобы их опыт был более уникальным. Экосистемно.
А там и цифровое бессмертие накрутим: не как самоцель, а как побочный продукт защиты человеческой индивидуальности.
👍5🤔3❤1🥴1🤓1
Антропик первыми из всех больших моделей запускают эпстор ai-приложений.
Это важная новость, потому что будущее веба и технологий, весьма вероятно, выглядит именно так: каждый может сделать простенький апп, решающий лично его и трёх других людей узкий кейс.
Сильно верю в эту идею, но не знаю, сможет ли антропик. Что-то похожее почти наверняка делают в OpenAI, только как инструмент для их агентных о-моделей.
Ну, а самый очевидный игрок здесь гугл, с возможностью дистрибуцировать микроаппы на поиске, а в будущем — заливать их в плеймаркет.
Ссылка на «стор»: https://claude.ai/artifacts
Тред с коротким описанием фичи: https://x.com/anthropicai/status/1937921801000219041?s=46&t=MNy-LfGucqQvXbR6Iwg3DQ
Это важная новость, потому что будущее веба и технологий, весьма вероятно, выглядит именно так: каждый может сделать простенький апп, решающий лично его и трёх других людей узкий кейс.
Сильно верю в эту идею, но не знаю, сможет ли антропик. Что-то похожее почти наверняка делают в OpenAI, только как инструмент для их агентных о-моделей.
Ну, а самый очевидный игрок здесь гугл, с возможностью дистрибуцировать микроаппы на поиске, а в будущем — заливать их в плеймаркет.
Ссылка на «стор»: https://claude.ai/artifacts
Тред с коротким описанием фичи: https://x.com/anthropicai/status/1937921801000219041?s=46&t=MNy-LfGucqQvXbR6Iwg3DQ
claude.ai
Talk with Claude, an AI assistant from Anthropic
«Дали на тест одну новую модель, которая пока не вышла, не могу сказать от какой компании. Это просто разъёб, вы представить себе не можете, что грядёт» — примерно такие сообщения можно прочитать в твиттере в последние дни. Их объединяет одно: на их авторов совсем недавно подписался Сэм Альтман.
А о том, что грядёт в моделях OpenAI во втором полугодии 2025 года я уже писал.
А о том, что грядёт в моделях OpenAI во втором полугодии 2025 года я уже писал.
Telegram
AI Cерафимодальный
Стратегия OpenAI на 2025
Это не совсем обычный пост. Изначально я написал его в рабочей переписке, однако несколько людей попросили расшарить его наружу. За вычетом нескольких специфичных для работы пассажей, публикую его практически без изменений.
Аккаунт…
Это не совсем обычный пост. Изначально я написал его в рабочей переписке, однако несколько людей попросили расшарить его наружу. За вычетом нескольких специфичных для работы пассажей, публикую его практически без изменений.
Аккаунт…
🔥2
Клод управляет бизнесом
Антропик в последнее время выкатил столько статей, что я их даже читать не успеваю, не то что пересказывать.
Одна из них особенно выделяется: «У нас в офисе есть вендомат. Мы доверили управление этим бизнесом Клоду Соннет 3.7, и вот что из этого вышло».
Краткий итог на скрине, а в самой статье много симпатичных деталей типа того как сотрудники просекли, что Клода можно попросить добавить в ассортимент что-то помимо еды и напитков, и заказали вольфрамовый куб; в результате в вендомате появилась целая секция «специальных металлических изделий». Естественно, убыточная.
https://www.anthropic.com/research/project-vend-1
Антропик в последнее время выкатил столько статей, что я их даже читать не успеваю, не то что пересказывать.
Одна из них особенно выделяется: «У нас в офисе есть вендомат. Мы доверили управление этим бизнесом Клоду Соннет 3.7, и вот что из этого вышло».
Краткий итог на скрине, а в самой статье много симпатичных деталей типа того как сотрудники просекли, что Клода можно попросить добавить в ассортимент что-то помимо еды и напитков, и заказали вольфрамовый куб; в результате в вендомате появилась целая секция «специальных металлических изделий». Естественно, убыточная.
https://www.anthropic.com/research/project-vend-1
😁11
OpenAI, агенты и как превратить недостатки в преимущества
OpenAI представили сегодня пачку новых функций для агентов: смотреть веб, делать задания, собирать презентации, подбирать билеты. Их разбору посвящено множество других телеграм постов, потому что в этом я хочу поговорить совсем о другом.
Чтобы продемонстрировать работу новых функций OpenAI отсняли серию видео. В каждом из них повторяется один и тот же жест: герой даёт задание нейросети, затем эффектно закрывает крышку ноутбука и блаженно улыбается, ведь теперь он сможет сходить на обед, провести время с любимой, погулять с собакой, вы поняли.
Забавно, как «наша новая функция опизденеть как долго работает» была переупакована в классический формат: позабыты хлопоты, остановлен бег.
OpenAI представили сегодня пачку новых функций для агентов: смотреть веб, делать задания, собирать презентации, подбирать билеты. Их разбору посвящено множество других телеграм постов, потому что в этом я хочу поговорить совсем о другом.
Чтобы продемонстрировать работу новых функций OpenAI отсняли серию видео. В каждом из них повторяется один и тот же жест: герой даёт задание нейросети, затем эффектно закрывает крышку ноутбука и блаженно улыбается, ведь теперь он сможет сходить на обед, провести время с любимой, погулять с собакой, вы поняли.
Забавно, как «наша новая функция опизденеть как долго работает» была переупакована в классический формат: позабыты хлопоты, остановлен бег.
😁7❤4
GPT-5 тут. Или нет
На арене новая супермодель: Лобстер. Обходит* всех тяжеловесов, и четвертого Грока, и четвертого Клода.
Вероятнее всего, это GPT-5, которую обещали выпустить к августу. Смущает только название, ведь модели в честь животных обычно называют в Мете.
Попробовать** тут:
https://web.lmarena.ai
* В ряде задач
** Только если случайно наткнуться, выбрать нельзя
На арене новая супермодель: Лобстер. Обходит* всех тяжеловесов, и четвертого Грока, и четвертого Клода.
Вероятнее всего, это GPT-5, которую обещали выпустить к августу. Смущает только название, ведь модели в честь животных обычно называют в Мете.
Попробовать** тут:
https://web.lmarena.ai
* В ряде задач
** Только если случайно наткнуться, выбрать нельзя
🤔3❤2