«Дали на тест одну новую модель, которая пока не вышла, не могу сказать от какой компании. Это просто разъёб, вы представить себе не можете, что грядёт» — примерно такие сообщения можно прочитать в твиттере в последние дни. Их объединяет одно: на их авторов совсем недавно подписался Сэм Альтман.
А о том, что грядёт в моделях OpenAI во втором полугодии 2025 года я уже писал.
А о том, что грядёт в моделях OpenAI во втором полугодии 2025 года я уже писал.
Telegram
AI Cерафимодальный
Стратегия OpenAI на 2025
Это не совсем обычный пост. Изначально я написал его в рабочей переписке, однако несколько людей попросили расшарить его наружу. За вычетом нескольких специфичных для работы пассажей, публикую его практически без изменений.
Аккаунт…
Это не совсем обычный пост. Изначально я написал его в рабочей переписке, однако несколько людей попросили расшарить его наружу. За вычетом нескольких специфичных для работы пассажей, публикую его практически без изменений.
Аккаунт…
🔥2
Клод управляет бизнесом
Антропик в последнее время выкатил столько статей, что я их даже читать не успеваю, не то что пересказывать.
Одна из них особенно выделяется: «У нас в офисе есть вендомат. Мы доверили управление этим бизнесом Клоду Соннет 3.7, и вот что из этого вышло».
Краткий итог на скрине, а в самой статье много симпатичных деталей типа того как сотрудники просекли, что Клода можно попросить добавить в ассортимент что-то помимо еды и напитков, и заказали вольфрамовый куб; в результате в вендомате появилась целая секция «специальных металлических изделий». Естественно, убыточная.
https://www.anthropic.com/research/project-vend-1
Антропик в последнее время выкатил столько статей, что я их даже читать не успеваю, не то что пересказывать.
Одна из них особенно выделяется: «У нас в офисе есть вендомат. Мы доверили управление этим бизнесом Клоду Соннет 3.7, и вот что из этого вышло».
Краткий итог на скрине, а в самой статье много симпатичных деталей типа того как сотрудники просекли, что Клода можно попросить добавить в ассортимент что-то помимо еды и напитков, и заказали вольфрамовый куб; в результате в вендомате появилась целая секция «специальных металлических изделий». Естественно, убыточная.
https://www.anthropic.com/research/project-vend-1
😁11
OpenAI, агенты и как превратить недостатки в преимущества
OpenAI представили сегодня пачку новых функций для агентов: смотреть веб, делать задания, собирать презентации, подбирать билеты. Их разбору посвящено множество других телеграм постов, потому что в этом я хочу поговорить совсем о другом.
Чтобы продемонстрировать работу новых функций OpenAI отсняли серию видео. В каждом из них повторяется один и тот же жест: герой даёт задание нейросети, затем эффектно закрывает крышку ноутбука и блаженно улыбается, ведь теперь он сможет сходить на обед, провести время с любимой, погулять с собакой, вы поняли.
Забавно, как «наша новая функция опизденеть как долго работает» была переупакована в классический формат: позабыты хлопоты, остановлен бег.
OpenAI представили сегодня пачку новых функций для агентов: смотреть веб, делать задания, собирать презентации, подбирать билеты. Их разбору посвящено множество других телеграм постов, потому что в этом я хочу поговорить совсем о другом.
Чтобы продемонстрировать работу новых функций OpenAI отсняли серию видео. В каждом из них повторяется один и тот же жест: герой даёт задание нейросети, затем эффектно закрывает крышку ноутбука и блаженно улыбается, ведь теперь он сможет сходить на обед, провести время с любимой, погулять с собакой, вы поняли.
Забавно, как «наша новая функция опизденеть как долго работает» была переупакована в классический формат: позабыты хлопоты, остановлен бег.
😁7❤4
GPT-5 тут. Или нет
На арене новая супермодель: Лобстер. Обходит* всех тяжеловесов, и четвертого Грока, и четвертого Клода.
Вероятнее всего, это GPT-5, которую обещали выпустить к августу. Смущает только название, ведь модели в честь животных обычно называют в Мете.
Попробовать** тут:
https://web.lmarena.ai
* В ряде задач
** Только если случайно наткнуться, выбрать нельзя
На арене новая супермодель: Лобстер. Обходит* всех тяжеловесов, и четвертого Грока, и четвертого Клода.
Вероятнее всего, это GPT-5, которую обещали выпустить к августу. Смущает только название, ведь модели в честь животных обычно называют в Мете.
Попробовать** тут:
https://web.lmarena.ai
* В ряде задач
** Только если случайно наткнуться, выбрать нельзя
🤔3❤2
GPT тупеет, когда её заставляют общаться как человек
The Information выпустил лонгрид о состоянии дел в OpenAI накануне выхода GPT-5 и за последний год.
Завтра её будут пересказывать все телеграм каналы, так что давайте их опередим.
https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5
Самое интересное: модель-учитель о3 была невероятно умной и показывала высокий уровень понимания самых разных областей. А потом из неё сделали чат-бот, и он отупел: видимо, когда модель заставляют вести себя как человек, она теряет в когнитивных свойствах. Я тоже.
Из других интересных деталей: ещё в июне из-за технических сложностей ни одна внутренняя модель не была достаточно хороша, чтобы назвать её GPT-5. А изначально GPT-5 вообще должна была стать Orion, но она не оправдала вложенных в неё надежд; в итоге её выложили как 4.5 и сейчас потихоньку отключают.
Тезисный пересказ с моими комментариями (курсивом).
- o3 показал удивительный буст в решении сложных задач (бенчмарк ARC). Но когда эту модель адаптировали под чат-версию, этот прирост исчез.
- Новая GPT-5 модель значительно лучше справляется с созданием приложений, которые хорошо выглядят. (Я уже пробовал GPT-5 на арене, и она действительно выдаёт более симпатичный результат)
- GPT-5 лучше справляется с агентскими задачами из многих действий, пример — определять, когда чат поддержки должен вернуть покупателю средства.
- Разница не будет настолько большой, как между GPT-3 и GPT-4 (мне кажется, это не правда. Вы вообще помните, какой плохой была GPT-4 на релизе?)
- Orion это 4.5, и он не оправдал надежд. Скорее всего из-за качества претрейна, но также и потому, что те улучшения, которые повышали качество моделей поменьше, не сработали на огромной.
- Зато сработал другой подход, делать более длинные цепочки размышлений — так появились ризонеры.
- Как и o1, модель o3 основывалась на GPT-4o. Однако «родительская модель» (учитель) для o3 достигала куда больших высот в понимании научных и других концептов. Частично — потому что для неё использовалось куда больше чипов Nvidia. А частично — потому что ей дали возможность искать в вебе и по репозиториям с кодом.
- Ну и кусок про reinforcement learning (немного путанный, The Information точно правильно всё понял?): родительские модели просили сгенерировать тысячи ответов на сложные вопросы по биологии, медицине и инженерии, и затем обучали на тех ответах, которые совпали с теми, что дали мясные эксперты.
- Наконец, то, ради чего была написана статья: когда модель-учитель конвертировали в чат-версию модели («модель-ученик»), она не показала себя сильно лучше, чем o1. (Опять же, по моим ощущениям это не так, o3 гораздо лучше показывает себя в реальных задачах. Но вероятно речь про конкретные математические или кодовые применения).
- Одно из подозрений — что способ, которым модель понимает сложные концепты, достаточно далёк от того, как общаются люди (ну… да, но разве мы понимаем вещи в общении? Странный пассаж тоже).
- Тем не менее, звонкая цитата: чат-бот версия o3 значительно тупее обычной, потому что вынуждена говорить на человеческом языке, а не своём собственном.
- Этому косвенно свидетельствует белиберда, которую модель генерирует в процессе «думания».
- Сразу — гипотеза от меня: что, если размышляющие модели настолько лучше не потому, что они долго думают, а потому, что могут на время отойти от формата чат-бота, который их тупит?
- Наконец, o-нейминг окончательно запутал пользователей, поэтому Альтман сказал возвращаться к привычной нумерации.
- Однако ещё даже в июне из-за технических трудностей ни одна из разрабатываемых моделей не была достаточно хороша, чтобы назваться GPT-5.
- У OpenAI есть ещё один туз в рукаве: универсальный верификатор — инструмент, который автоматизирует процесс проверки, что модель нагенерировала на RL-этапе качественных ответов (и снова звучит как будто The Information чего-то недопоняли. Это же ровно то, что сделал DeepSeek, какой ещё туз в рукаве).
[чуть не влез по длине, финал первым комментом].
The Information выпустил лонгрид о состоянии дел в OpenAI накануне выхода GPT-5 и за последний год.
Завтра её будут пересказывать все телеграм каналы, так что давайте их опередим.
https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5
Самое интересное: модель-учитель о3 была невероятно умной и показывала высокий уровень понимания самых разных областей. А потом из неё сделали чат-бот, и он отупел: видимо, когда модель заставляют вести себя как человек, она теряет в когнитивных свойствах. Я тоже.
Из других интересных деталей: ещё в июне из-за технических сложностей ни одна внутренняя модель не была достаточно хороша, чтобы назвать её GPT-5. А изначально GPT-5 вообще должна была стать Orion, но она не оправдала вложенных в неё надежд; в итоге её выложили как 4.5 и сейчас потихоньку отключают.
Тезисный пересказ с моими комментариями (курсивом).
- o3 показал удивительный буст в решении сложных задач (бенчмарк ARC). Но когда эту модель адаптировали под чат-версию, этот прирост исчез.
- Новая GPT-5 модель значительно лучше справляется с созданием приложений, которые хорошо выглядят. (Я уже пробовал GPT-5 на арене, и она действительно выдаёт более симпатичный результат)
- GPT-5 лучше справляется с агентскими задачами из многих действий, пример — определять, когда чат поддержки должен вернуть покупателю средства.
- Разница не будет настолько большой, как между GPT-3 и GPT-4 (мне кажется, это не правда. Вы вообще помните, какой плохой была GPT-4 на релизе?)
- Orion это 4.5, и он не оправдал надежд. Скорее всего из-за качества претрейна, но также и потому, что те улучшения, которые повышали качество моделей поменьше, не сработали на огромной.
- Зато сработал другой подход, делать более длинные цепочки размышлений — так появились ризонеры.
- Как и o1, модель o3 основывалась на GPT-4o. Однако «родительская модель» (учитель) для o3 достигала куда больших высот в понимании научных и других концептов. Частично — потому что для неё использовалось куда больше чипов Nvidia. А частично — потому что ей дали возможность искать в вебе и по репозиториям с кодом.
- Ну и кусок про reinforcement learning (немного путанный, The Information точно правильно всё понял?): родительские модели просили сгенерировать тысячи ответов на сложные вопросы по биологии, медицине и инженерии, и затем обучали на тех ответах, которые совпали с теми, что дали мясные эксперты.
- Наконец, то, ради чего была написана статья: когда модель-учитель конвертировали в чат-версию модели («модель-ученик»), она не показала себя сильно лучше, чем o1. (Опять же, по моим ощущениям это не так, o3 гораздо лучше показывает себя в реальных задачах. Но вероятно речь про конкретные математические или кодовые применения).
- Одно из подозрений — что способ, которым модель понимает сложные концепты, достаточно далёк от того, как общаются люди (ну… да, но разве мы понимаем вещи в общении? Странный пассаж тоже).
- Тем не менее, звонкая цитата: чат-бот версия o3 значительно тупее обычной, потому что вынуждена говорить на человеческом языке, а не своём собственном.
- Этому косвенно свидетельствует белиберда, которую модель генерирует в процессе «думания».
- Сразу — гипотеза от меня: что, если размышляющие модели настолько лучше не потому, что они долго думают, а потому, что могут на время отойти от формата чат-бота, который их тупит?
- Наконец, o-нейминг окончательно запутал пользователей, поэтому Альтман сказал возвращаться к привычной нумерации.
- Однако ещё даже в июне из-за технических трудностей ни одна из разрабатываемых моделей не была достаточно хороша, чтобы назваться GPT-5.
- У OpenAI есть ещё один туз в рукаве: универсальный верификатор — инструмент, который автоматизирует процесс проверки, что модель нагенерировала на RL-этапе качественных ответов (и снова звучит как будто The Information чего-то недопоняли. Это же ровно то, что сделал DeepSeek, какой ещё туз в рукаве).
[чуть не влез по длине, финал первым комментом].
The Information
Inside OpenAI’s Rocky Path to GPT-5
OpenAI made waves across the industry in December when it published the results from its tests of artificial intelligence that performs better on tasks when it gets more time and computing power to process them. The results implied ChatGPT customers were…
❤6
Cерафимодальный AI
GPT тупеет, когда её заставляют общаться как человек The Information выпустил лонгрид о состоянии дел в OpenAI накануне выхода GPT-5 и за последний год. Завтра её будут пересказывать все телеграм каналы, так что давайте их опередим. https://www.theinfo…
по сути всё у Сиолошной то же самое (что не удивительно, мы один и тот же текст пересказываем), но есть интересные моменты из другой статьи про таинственный универсальный верификатор.
Telegram
Сиолошная
В преддверии выхода GPT-5 — выжимка двух постов TheInformation (первый и второй):
— Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5. Однако большинство трюков, которые исследователи нашли на «маленьких» моделях, потеряли свою эффективность при масштабировании.…
— Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5. Однако большинство трюков, которые исследователи нашли на «маленьких» моделях, потеряли свою эффективность при масштабировании.…
Через две минуты презентация, но на девелоперском сайте уже выложили все данные.
Главное:
Input $1.25
Output $10.00
https://platform.openai.com/docs/models/gpt-5
Главное:
Input $1.25
Output $10.00
https://platform.openai.com/docs/models/gpt-5
😱3
Рутрекер должен быть один из самых дорогих ассетов в мире сейчас
Прочитал старую новость о том, что в Мете скачали и раздавали петабайты порно, чтобы выкачать видеоматериалы из трекеров (в торрентах важно соотношение раздач к скачиванию), и понял, что ничего ценнее Рутрекера сейчас в мире быть вообще не может. "Почему не пайратбэй", — может спросить человек, который никогда им не пользовался.
Потому что разметка пайратбэя это лютый кошмар. Огромная непереваренная недетализированная свалка барахла. Или рутрекер, на котором десятки тысяч человек двадцать лет со скорпулёзностью, граничащей с болезненностью, размечали аболютно все материалы.
Прочитал старую новость о том, что в Мете скачали и раздавали петабайты порно, чтобы выкачать видеоматериалы из трекеров (в торрентах важно соотношение раздач к скачиванию), и понял, что ничего ценнее Рутрекера сейчас в мире быть вообще не может. "Почему не пайратбэй", — может спросить человек, который никогда им не пользовался.
Потому что разметка пайратбэя это лютый кошмар. Огромная непереваренная недетализированная свалка барахла. Или рутрекер, на котором десятки тысяч человек двадцать лет со скорпулёзностью, граничащей с болезненностью, размечали аболютно все материалы.
😁10👍5🌭3
У Дваркеша, главного AI-подкастера, вышло интервью с одним из отцов-основателей машинного обучения, автора RL — Ричардом Саттоном.
И Саттон не подвёл. Дед на аудиторию главного мейнстримного эйай-бро подкаста заявил, что:
- LLM это тупиковая ветвь эволюции,
- парадигма фундаментально ложна,
- любые подходы без целей/вознаграждений и системы непрерывного обучения в опыте обречены на провал.
У внимательного читателя может возникнуть дежа вю, ведь Саттон не первый «отец современного ML» с такими тейками — примерно в том же духе уже несколько лет высказывается и Ян ЛеКун. А если вы поняли шутку про дежа вю, то вам и вовсе пора в рехаб.
Твиттер, ожидаемо, бурлит. К логике Саттона сложно прикопаться, да и авторитет у деда неимоверный. С другой стороны, слишком уж хорошие результаты показывает LLM-подход последние годы, и за это время было выдвинуто несколько действительно красивых гипотез, почему оно всё-таки вертится.
Здесь конечно можно посмеяться над наивными эяйбро, которых коварный Сэм Альтман с его придворными твинками обратили в секту языковых моделей; но дискуссия правда интересная, и с кучей неожиданных тейков с каждой из сторон.
На скриншоте один, от которого заскрежетали неизвестные шестерни в моей собственной голове; мысль настолько же простая, насколько невидимая ровно до того момента, как была произнесена ясно: а что именно имитирует LLM?
И Саттон не подвёл. Дед на аудиторию главного мейнстримного эйай-бро подкаста заявил, что:
- LLM это тупиковая ветвь эволюции,
- парадигма фундаментально ложна,
- любые подходы без целей/вознаграждений и системы непрерывного обучения в опыте обречены на провал.
У внимательного читателя может возникнуть дежа вю, ведь Саттон не первый «отец современного ML» с такими тейками — примерно в том же духе уже несколько лет высказывается и Ян ЛеКун. А если вы поняли шутку про дежа вю, то вам и вовсе пора в рехаб.
Твиттер, ожидаемо, бурлит. К логике Саттона сложно прикопаться, да и авторитет у деда неимоверный. С другой стороны, слишком уж хорошие результаты показывает LLM-подход последние годы, и за это время было выдвинуто несколько действительно красивых гипотез, почему оно всё-таки вертится.
Здесь конечно можно посмеяться над наивными эяйбро, которых коварный Сэм Альтман с его придворными твинками обратили в секту языковых моделей; но дискуссия правда интересная, и с кучей неожиданных тейков с каждой из сторон.
На скриншоте один, от которого заскрежетали неизвестные шестерни в моей собственной голове; мысль настолько же простая, насколько невидимая ровно до того момента, как была произнесена ясно: а что именно имитирует LLM?
❤8
мы будем вспоминать 2022-2025 года с ностальгией по временам, когда ai был текстовым.
❤5🤝1
футурологический конгресс
инвайт в Sora 2
получил просто — зашёл в дискорд openai и попросил. но есть идея, как упростить доступ, попробую навайбкодить между встреч.
доступ
апп скачал в сша сторе (но есть веб-версия). для активации нужен впн сша, просто пользуюсь аппом уже без впн.
главное
это пиковый нейрослоп. Христос превращает камень в хлеба, Сэм Альтман клянчит лайки и подписки. шедеврум тут всех опередил.
что круто
настройка камео! буквально 20 секунд, и у тебя появляется образ
что интересно
подсмотрел в твиттере: можно попросить сгенерировать видео с интерфейсом ChatGPT, который сам генерирует что-то. матрёшечная симуляция! попросил его написать сортировку, но он очевидно не справился. ну, пока что.
что в будущем
не удивлюсь, если скоро камео можно будет нфтизировать и монетизировать. вполне вижу за этим какую-то серьезную экономику! сейчас это только образ, но подумайте — ведь можно и свои навыки продавать, и себя как агента, свои веса. да, я об этом уже писал подробнее
инвайт в Sora 2
получил просто — зашёл в дискорд openai и попросил. но есть идея, как упростить доступ, попробую навайбкодить между встреч.
доступ
апп скачал в сша сторе (но есть веб-версия). для активации нужен впн сша, просто пользуюсь аппом уже без впн.
главное
это пиковый нейрослоп. Христос превращает камень в хлеба, Сэм Альтман клянчит лайки и подписки. шедеврум тут всех опередил.
что круто
настройка камео! буквально 20 секунд, и у тебя появляется образ
что интересно
подсмотрел в твиттере: можно попросить сгенерировать видео с интерфейсом ChatGPT, который сам генерирует что-то. матрёшечная симуляция! попросил его написать сортировку, но он очевидно не справился. ну, пока что.
что в будущем
не удивлюсь, если скоро камео можно будет нфтизировать и монетизировать. вполне вижу за этим какую-то серьезную экономику! сейчас это только образ, но подумайте — ведь можно и свои навыки продавать, и себя как агента, свои веса. да, я об этом уже писал подробнее
🔥4❤🔥3😁2👎1