Пупырка AI – Telegram
Пупырка AI
115 subscribers
725 photos
370 videos
1 file
697 links
AI, дизайн, продукт и слухи. Канал репостов, цитат и жвачки. Основной канал — @logicIntermission
Download Telegram
LLM Council
https://github.com/karpathy/llm-council

Андрей Карпатый навайбкодил консилиум нейронок, когда на один вопрос отвечают все, а потом оценивают ответы друг друга. Потом отдельная модель принимает финальное решение.

Пост Андрея:
As a fun Saturday vibe code project and following up on this tweet earlier, I hacked up an **llm-council** web app. It looks exactly like ChatGPT except each user query is 1) dispatched to multiple models on your council using OpenRouter, e.g. currently:

"openai/gpt-5.1",
"google/gemini-3-pro-preview",
"anthropic/claude-sonnet-4.5",
"x-ai/grok-4",

Then 2) all models get to see each other's (anonymized) responses and they review and rank them, and then 3) a "Chairman LLM" gets all of that as context and produces the final response.

It's interesting to see the results from multiple models side by side on the same query, and even more amusingly, to read through their evaluation and ranking of each other's responses.

Quite often, the models are surprisingly willing to select another LLM's response as superior to their own, making this an interesting model evaluation strategy more generally. For example, reading book chapters together with my LLM Council today, the models consistently praise GPT 5.1 as the best and most insightful model, and consistently select Claude as the worst model, with the other models floating in between. But I'm not 100% convinced this aligns with my own qualitative assessment. For example, qualitatively I find GPT 5.1 a little too wordy and sprawled and Gemini 3 a bit more condensed and processed. Claude is too terse in this domain.

That said, there's probably a whole design space of the data flow of your LLM council. The construction of LLM ensembles seems under-explored.

I pushed the vibe coded app to
https://
github.com/karpathy/llm-c
ouncil

if others would like to play. ty nano banana pro for fun header image for the repo


Источник
🔥2
Ещё один апп для вайбкодинга своих приложений очень быстро взлетает. Теперь китайский

https://vc.ru/ai/2614114-prilozhenie-linguang-ant-group-million-skachivaniy
This media is not supported in your browser
VIEW IN TELEGRAM
И ещё сегодня выехал на iOS Anithing. Тоже вайбкод апп для создания своих приложений и паблишинга сразу в аппстор.

https://www.createanything.com

https://apps.apple.com/app/id6751247034
Наконец-то новая модель, которая превосходит Gemini 3. А то уже почти неделя прошла.
😁1
Forwarded from Сиолошная
https://www.anthropic.com/news/claude-opus-4-5

Claude Opus 4.5 таки смог взять 80% на SWE-bench Verified!

Бонусом в модель добавили effort control — прямо как у OpenAI: high, medium, low, дольше думает = лучше решает.

На бенчмарках... ВНЕЗАПНО ждём, потому что цена упала до $5/$25 за миллион токенов (в 3 раза).
ChatGPT раскалили на всех своего Ecom ассистента.

https://openai.com/index/chatgpt-shopping-research/

1. Вход в режим

• Режим Shopping research живёт как отдельный инструмент внутри ChatGPT (через меню + / тулбар, плюс автодетект, что запрос — про покупку, и предложение «переключиться в шопинг»).

2. Диалог вместо фильтров

• Основной сценарий — задаёшь задачу человеческим языком («тихий пылесос для маленькой квартиры, аллергики, бюджет до…»).
• Модель сама уточняет важные параметры вопросами (бюджет, размер, бренд/нет, особенности использования) — вместо ручного ковыряния в фильтрах и чекбоксах.
• UX-сдвиг: фильтры не на панели, а внутри диалога.

3. Карточки и управление выборкой

• В ответ — не просто список ссылок, а подборка карточек товаров + «гайд по выбору»: ключевые trade-offs, кому что подойдёт, чем модели отличаются.
• Поверх карточек — простые бинарные действия: «Не интересует» / «Побольше таких» → быстрый фидбек, который тут же перетюнивает выдачу.
• Важно: это не стандартный каталог с фильтрами, а интерактивный рекомендательный флоу.

4. Персонализация за счёт памяти

• Если включена память ChatGPT, то Shopping research переиспользует уже известные предпочтения: стиль, уровень цен, бренды, прошлые покупки/поиски.
• UX эффект: со временем меньше уточняющих вопросов, больше «узнавания» пользователя.

5. Режим «путеводителя»

• Выход не выглядит как «поисковая выдача», а как мини-обзор/гайд: секции «что важно учесть», «3–7 вариантов под разные сценарии», пояснение компромиссов (цена vs качество, шум vs мощность и т.д.).
• То есть UI = чат + структурированный контент-блок (гайд), а не просто текстовый ответ.

6. Связка с покупкой (Instant Checkout, агентский UX)

• Shopping research стыкуется с Instant Checkout: если товар из поддерживаемого магазина (Etsy/Shopify), рядом появляется «Buy»/checkout прямо в чате.
• UX-следствие: полный путь «от потребности до оплаты» в одном интерфейсе, без выхода в новый таб.

7. Прозрачность и доверие

• В интерфейсе явно проговариваются ограничения: цены/наличие лучше проверить у продавца; рекомендации «органические, не спонсорские» (хотя для мерчантов есть критерии ранжирования: цена, наличие, качество, источники).
Forwarded from Denis Sexy IT 🤖
Илья дал большое интервью:
https://www.youtube.com/watch?v=aR20FWCCjAs

Вот главное:

– Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах: они переобучены на эвалы и плохо обобщают, особенно в сложных многошаговых сценариях

– Главный технический барьер к AGI - ненадёжное обобщение и низкая «человеческая» обучаемость; простое масштабирование предобучения и RL это не решит

– Эпоха «масштабируем всё предобучением» заканчивается: данные конечны, RL жрёт много вычислений; начинается новая «эпоха исследований» с поиском новых рецептов обучения (в т.ч. ценностные функции, архитектур моделей, другие виды RL и т.п.).

– Будущее AGI видится как система, которая учится как человек: один и тот же базовый разум может быстро осваивать разные профессии, постоянно дообучаясь в реальном мире, а не «готовый мозг, который знает всё из коробки»

– Массовое распространение таких АИ-учеников по экономике почти неизбежно приведёт к очень быстрому росту производительности и ВВП; скорость будет сильно зависеть от регулирования в разных странах

– Скорее всего появится много сверхсильных АИ от разных компаний, специализирующихся по нишам (право, медицина, R&D и т.д.), а не один «богоподобный» монополист-суперинтеллект (аниме Пантеон смотрели? Пора если нет)

– Основной риск - огромная мощь: если сделать чрезвычайно сильного целеустремлённого агента, даже с «хорошей» целью, результат может сильно не понравиться людям; желательно ограничивать максимальную мощность единичных систем

– В качестве цели для первых суперинтеллектов он рассматривает «заботу о чувствующих существах» (в т.ч. о самом АИ) как более реалистичную и устойчивую, чем «забота только о людях», но признаёт, что это не идеальное решение

– Он ожидает постепенный, но всё более заметный показ мощных АИ обществу: по мере роста реальной силы моделей компании и государства станут намного более параноидальны и начнут активно координироваться по безопасности и регулированию

– Краткосрочный «хороший» сценарий - универсальный высокий доход и то, что АИ делает почти всю работу; долгосрочно это нестабильно, потому что люди выпадают из активного участия в принятии решений

– Один из возможных (ему самому не очень нравящийся) способов долгосрочной стабилизации - частичное слияние людей с АИ через продвинутые нейроинтерфейсы, чтобы люди разделяли понимание с системами и оставались в контуре управления

– Оценка горизонта: до АИ, который учится как человек и может стать базой для суперинтеллекта, примерно 5-20 лет; текущий «чистый масштабинг» в какой-то момент упрётся в потолок

– SSI (его АИ лаба) он описывает как «чисто исследовательскую» компанию с другим техническим подходом к обобщению и безопасности, которая не ставит ставку на простое наращивание масштаба текущих архитектур, и ожидает, что в итоге крупные игроки всё равно сойдутся в общих стратегиях по безопасному выводу суперинтеллекта в мир
Media is too big
VIEW IN TELEGRAM
Ну вы уже видели наверное, ChatGPT склеил свой голосовой режим с чатом. Теперь удобнее можно и картикни видеть во время разговора и текстом потом продолжить. При этом осталась возможность перебивать и другие приколы про характер голоса.
This media is not supported in your browser
VIEW IN TELEGRAM
Supermemory в Comet

Perplexity улучшило память в своём браузере. Теперь там supermemory. Это расширенная функция персонализации, которая автоматически запоминает предпочтения и контекст из диалогов, а затем использует эти данные вместе с историей запросов для более точных и персонализированных ответов в будущих сессиях.

Память и персонализация между чатами и сессиями это одна из самых важных фичей на мой взгляд для всех ассистентов будущего, похожих новостей думаю будет ещё очень много.
1
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё Perplexity сделали вкладку переводчика. Эти карточки с озвучкой были и раньше теперь просто сделали пункт в меню.

Кстати, ловите ссылки на мои GPTs переводчиков на английский и сербский в ChatGPT.
Похоже, что хорошая генерация дизайна в Фигме задерживается —

Figma столкнулась с коллективным иском в США: компанию обвиняют в том, что она без явного согласия пользователей использовала их дизайнерские файлы и другие данные для обучения своих генеративных ИИ-инструментов.

Говорят, что это нарушает обещания Фигмы не применять пользовательский контент для собственных целей, а также затрагивает интеллектуальную собственность дизайнеров и компаний.

Источник
😢2
Конструкторы миниаппов внутри AI-инструментов упираются в быстрый доступ к запуску своих созданных приложений. Самое простое решение для таких платформ — виджет с быстрым доступом к вашим аппам. Так и сделали Wabi.

Скриншоты взял у этого чела в x
1
Попробовал ещё погенерить в Wabi:

1) Давно хотел попробовать сделать календарь состоящий из эмодзи. В один промпт он сделал не совсем как мне хотелось, но тем не менее очень достойно. Апп

2) Игра в точки из школьного детства. Всё рабоатет, но бот не очень умный, возможно это можно починить, но я просто закинул промпт сненереный в ChatGPT. Игра

3) Попробовал сделать Гереов. В один промпт не вышло.

Есть 5 инвайтов, пишите в комменты +, отправлю в личку, кому нужно)
2
Forwarded from Denis Sexy IT 🤖
В выходные чуть обновил свой тул для редактирования видео – сделал нормальный интерфейс, добавил модный нынче твиттер-эффект с паутиной из чисел поверх видео, а для мемоделов появился новый пресет который накладывает поверх аудио в стиле Core-Core (песню Aphex twin qkthr) или удаляет из видео все куски, где был звук, оставляя только тихие (но с длинными видео долго работает) – короче, без понятия зачем я его обновил, но я так отдыхаю, видимо

Как водится, все работает у вас в браузере и видео никуда не загружается:
https://shir-man.com/convert-video
Media is too big
VIEW IN TELEGRAM
Kling выпустил видеоредактор O1

Работает как Nano Banana, но с видео. Генерирует по референсам, меняет стиль, угол съемки, объекты и всё остальное по текстовым промптам.

Можно попробовать бесплатно тут: https://app.klingai.com/global/omni/new