Пупырка AI – Telegram
Пупырка AI
117 subscribers
733 photos
372 videos
1 file
705 links
AI, дизайн, продукт и слухи. Канал репостов, цитат и жвачки. Основной канал — @logicIntermission
Download Telegram
У Google есть канал для AI Developer’ов. Они там выложили несколько проектов сделанных дизайнерами, просто приколюхи. Я смог скачать не все, остальные по ссылке
1
GPT тупеет, когда её заставляют общаться как человек

The Information выпустил лонгрид о состоянии дел в OpenAI накануне выхода GPT-5 и за последний год.
Завтра её будут пересказывать все телеграм каналы, так что давайте их опередим.

https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5

Самое интересное: модель-учитель о3 была невероятно умной и показывала высокий уровень понимания самых разных областей. А потом из неё сделали чат-бот, и он отупел: видимо, когда модель заставляют вести себя как человек, она теряет в когнитивных свойствах. Я тоже.

Из других интересных деталей: ещё в июне из-за технических сложностей ни одна внутренняя модель не была достаточно хороша, чтобы назвать её GPT-5. А изначально GPT-5 вообще должна была стать Orion, но она не оправдала вложенных в неё надежд; в итоге её выложили как 4.5 и сейчас потихоньку отключают.

Тезисный пересказ с моими комментариями (курсивом).

- o3 показал удивительный буст в решении сложных задач (бенчмарк ARC). Но когда эту модель адаптировали под чат-версию, этот прирост исчез.
- Новая GPT-5 модель значительно лучше справляется с созданием приложений, которые хорошо выглядят. (Я уже пробовал GPT-5 на арене, и она действительно выдаёт более симпатичный результат)
- GPT-5 лучше справляется с агентскими задачами из многих действий, пример — определять, когда чат поддержки должен вернуть покупателю средства.
- Разница не будет настолько большой, как между GPT-3 и GPT-4 (мне кажется, это не правда. Вы вообще помните, какой плохой была GPT-4 на релизе?)
- Orion это 4.5, и он не оправдал надежд. Скорее всего из-за качества претрейна, но также и потому, что те улучшения, которые повышали качество моделей поменьше, не сработали на огромной.
- Зато сработал другой подход, делать более длинные цепочки размышлений — так появились ризонеры.
- Как и o1, модель o3 основывалась на GPT-4o. Однако «родительская модель» (учитель) для o3 достигала куда больших высот в понимании научных и других концептов. Частично — потому что для неё использовалось куда больше чипов Nvidia. А частично — потому что ей дали возможность искать в вебе и по репозиториям с кодом.
- Ну и кусок про reinforcement learning (немного путанный, The Information точно правильно всё понял?): родительские модели просили сгенерировать тысячи ответов на сложные вопросы по биологии, медицине и инженерии, и затем обучали на тех ответах, которые совпали с теми, что дали мясные эксперты.
- Наконец, то, ради чего была написана статья: когда модель-учитель конвертировали в чат-версию модели («модель-ученик»), она не показала себя сильно лучше, чем o1. (Опять же, по моим ощущениям это не так, o3 гораздо лучше показывает себя в реальных задачах. Но вероятно речь про конкретные математические или кодовые применения).
- Одно из подозрений — что способ, которым модель понимает сложные концепты, достаточно далёк от того, как общаются люди (ну… да, но разве мы понимаем вещи в общении? Странный пассаж тоже).
- Тем не менее, звонкая цитата: чат-бот версия o3 значительно тупее обычной, потому что вынуждена говорить на человеческом языке, а не своём собственном.
- Этому косвенно свидетельствует белиберда, которую модель генерирует в процессе «думания».
- Сразу — гипотеза от меня: что, если размышляющие модели настолько лучше не потому, что они долго думают, а потому, что могут на время отойти от формата чат-бота, который их тупит?
- Наконец, o-нейминг окончательно запутал пользователей, поэтому Альтман сказал возвращаться к привычной нумерации.
- Однако ещё даже в июне из-за технических трудностей ни одна из разрабатываемых моделей не была достаточно хороша, чтобы назваться GPT-5.
- У OpenAI есть ещё один туз в рукаве: универсальный верификатор — инструмент, который автоматизирует процесс проверки, что модель нагенерировала на RL-этапе качественных ответов (и снова звучит как будто The Information чего-то недопоняли. Это же ровно то, что сделал DeepSeek, какой ещё туз в рукаве).

[чуть не влез по длине, финал первым комментом].
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT-агенту дали ссылку на публичную камеру на пристани и попросили найти определенную лодку. Он подвигал камеру, поувеличивал картинку и справился с задачей.
Forwarded from Cody
🌠 Используем GPT-5 в Perplexity

* Работает только у пользователей с подпиской Pro и Max

🧭 Поочерёдность действий:
1. Устанавливаем расширение Requestly;

2. Переходим на страницу правил и создаём новое(+ New Rule);

3. В API Mocking выбираем тип «Modify Request Body»;

4. В Select Resource Type выбираем тип «REST API»;

5. В If request-секции выбираем условия:
⚪️URL; Contains; вместо example пишем perplexity_ask
⚪️В Request Body выбираем «Dynamic (JavaScript)»
⚪️Вставляем код в поле под Request Body;

6. Сохраняем правило (Save rule | Ctrl + S);

7. Открываем Perplexity, отправляем любой запрос - готово!


🧑‍💻 Код, который нужно вставить:
function modifyRequestBody(args) {
const { method, url, body, bodyAsJson } = args;

if (method === "POST" && bodyAsJson) {
const modifiedBody = { ...bodyAsJson };

if (!modifiedBody.params) {
modifiedBody.params = {};
}

modifiedBody.params.model_preference = "gpt5";

return JSON.stringify(modifiedBody);
}

return body;
}


👾 // Cody
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Cody
🌠 Используем GPT-5 в Perplexity * Работает только у пользователей с подпиской Pro и Max 🧭 Поочерёдность действий: 1. Устанавливаем расширение Requestly; 2. Переходим на страницу правил и создаём новое(+ New Rule); 3. В API Mocking выбираем тип «Modify Request…
^ подписчик говорит, что, вероятно, нашел способ делать запросы к GPT-5 в Perplexity. Сделали пару проверок в чате, может быть похоже на правду: SVG рисует неплохо (как в твиттере рассказвают), перемножает без вызова кода 20-значные числа, Doom смогла закодить: https://www.perplexity.ai/search/create-html-game-like-a-doom-w-_Bap6EpDRHSacXWPtCKb6A

Скидывайте ваши тесты в комментарии. Пока я бы оценил свою уверенность того, что это правда одна из версий GPT-5, на 60%

UPD: после ещё пары примеров поднимаю уверенность до 75%
Forwarded from Нейродвиж
А вот и планы на выходные: Anthropic выпустили целых 15 видео о том, как кодить вместе с Claude ⌨️

Учат правильно писать промы, создавать автоматизации для рутины, использовать MCP и показывают кейсы из реальной жизни.

Такой себе мини-курс по вайб-кодингу — забираем.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from e/acc
Вместо того чтобы объяснять шестилетке как работает умножение и деление, мы с ним завайбкодили игру. Вместе с Клодом, втроем у нас заняло около часа на всю реализацию. Игру можно добавить на айпад ребенку — весело, приятно и полезно.

Мой воркфлоу:
— прошу gemini собрать общую идею в единый док
— прошу клод на основе него собрать PRD и план реализации
— прошу клод имплементировать им же написанный план, обязательно начиная с тестов
— тестирую сам; если что-то не работает, прошу исправить
— прошу клод сделать план на следующую версию
и так далее

Играть: https://supermath-wheat.vercel.app/
Forwarded from Ai molodca (Dobrokotov)
Media is too big
VIEW IN TELEGRAM
Ну что ж, добро пожаловать в эру контекстных видео-моделей. 😅

Runway Aleph — в каждой второй новости и будто бы вновь заставляет перегретый нейросетями мозг испытать то самое забытое чувство техномагии.

А что на деле? Для теста выбрал шедевр кинематографа, с которым вы наверняка знакомы. Промпты — одноклеточные, из серии: Make (что-то).

Первое впечатление:

1) В целом — жесть, круто.

2) Жаль, что пока только пять секунд.

3) Плохо справляется с мелкими объектами, динамичными или комплексными движениями камеры, нестандартными концептами — в общем, всё те же болячки видео-моделей.

4) Кредиты сгорают со скоростью света — берите анлим.

5) В целом — круто, жесть.

Продолжаю тестировать и жду заявленный аналог от Luma. Думаю, скоро подтянутся Kling и прочие китайские товарищи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from vc.ru
После публикации финансового отчёта Тим Кук провёл общее совещание с сотрудниками Apple, где напомнил о важности ИИ-революции. Он считает, что компания может наверстать разрыв с другими игроками.

«Мы редко были первыми. ПК были до Mac, смартфоны — до iPhone, планшеты — до iPad», но компания создавала их «современные» версии, — сказал он

vc.ru/apple/2136123
Forwarded from e/acc
если сводить ИИ прогресс к единой метрике — то это количество минут, в течение которых ИИ способен выполнять автономную и полезную работу, которая по эффективности не хуже того, что делает эксперт в данной области.

2023: менее 1 минуты
2024: 3–4 минуты
2025: 5–15 минут
2026: я ожидаю (и вижу уже по непубличным демо) от 30 минут до пары часов
Forwarded from Адель и МЛь
Помните хаки промпт инжиниринга? «Я дам тебе чаевые», «От этого зависит моя карьера» и т.д.

Похоже, с современными моделями это все больше не работает.

И даже chain-of-thought промптинг на non-reasoning моделях больше не помогает.

Серия статей:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5165270

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5375404

Source
Сэм Альтман подтверждает, что сериал «Пантеон» классный.

Если в двух словах, то в в сериале для улучшения нейросетей решили загружать реальных людей. Ну и дальше обыгрывается всё, что вы можете себе представить. Мне запомнились люди протестующие против ИИ, ждем в реальности такое.
Perplexity запартнерились с сервисом бронирования в ресторанах Open Table

https://www.perplexity.ai/hub/blog/book-a-table-with-perplexity-and-opentable

К вопросу о том, что делать агентов на понятной инфраструктуре правильнее, чем пытаться кликать по разным сайтам или звонить роботами по телефонам.
Forwarded from 42 секунды
The Information: Cognition предложил выкупить акции сотрудников из Windsurf и говорит, что баланс между «работой и личной жизнью» невозможен

– Cognition предложил выкупить акции примерно 200 сотрудникам
– Ранее Cognition приобрел конкурирующий ИИ-стартап Windsurf
– Согласно письму, сотрудники получат зарплату за девять месяцев
– Недавно Cognition уволил 30 сотрудников из команды Windsurf
– Остальные должны решить до 10 августа: останутся или хотят уйти
– Cognition требуют от всех новых сотрудников полной самоотдачи
– Глава Cognition пишет: «Мы аутсайдеры, требования высоки»
– Он также не верит «в баланс между работой и личной жизнью»
– Миссия стартапа важна, «разделять эти два аспекта невозможно»
– Сотрудники Cognition проводят в офисе «6 дней и 80 часов/нед.»
– Благодаря сделке штат Cognition вырос впятеро (был 39 чел.)
– Также сделка помогла значительно увеличить выручку Cognition
– ARR Windsurf был около $82 млн, что соответствует Cognition

@ftsec
Forwarded from 42 секунды
Bloomberg: Новая команда Apple работает над ИИ-продуктом, похожим на ChatGPT

– Внутри Apple появилась новая команда под названием «Answers»
– Команда «Answers» разрабатывает упрощенную версию ChatGPT
– Руководители Apple считали, что компании не нужен свой чат-бот
– Они считали, что отсутствие чат-бота не показывает ее отставание
– Реальность же такова, что чат-боты на базе ИИ стали популярны
– Различные чат-боты обслуживают сотни миллионов пользователей
– Система Apple Intelligence сейчас не предлагает варианты поиска
– Она обобщает данные, редактирует текст, работает с фото и др.
– Система не содержит ничего похожего на ChatGPT, Gemini и др.
– Apple создала команду «Answers, Knowledge and Information»
– Команда намерена создать новый интерфейс поиска как ChatGPT
– Могут появиться новое приложение и серверная инфраструктура

@ftsec
OpenAI выложили 2 модели в опен-соурс, на 20b и 120b параметров

https://openai.com/open-models/
Вышел Claude Opus 4.1

В Anthropic утверждают, что модель лучше работает с кодом и успешнее справляется с агентскими задачами.

Opus 4.1 уже доступна для платных подписчиков, в Claude Code и через API.

https://www.anthropic.com/news/claude-opus-4-1
Forwarded from Denis Sexy IT 🤖
Если что, модели с лицензией Apache 2.0, можно использовать официально в стартапах своих и как хочется – лица хейтеров OpenAI имадженировали ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему OpenAI, сейчас решили выложить такие крутые модели сейчас?
Все соц-сети гудят в ожидании ChatGPT 5 чуть ли не на этой неделе.
This media is not supported in your browser
VIEW IN TELEGRAM
Eleven Labs выпустили Eleven Music — свою highest quality AI music model.

- Complete control over genre, style, and structure
- Multi-lingual, including English, Spanish, German, Japanese and more
- Edit the sound and lyrics of individual sections or the whole song

https://elevenlabs.io/music