Пупырка AI – Telegram
Пупырка AI
119 subscribers
734 photos
375 videos
1 file
711 links
AI, дизайн, продукт и слухи. Канал репостов, цитат и жвачки. Основной канал — @logicIntermission
Download Telegram
Сегодня запустили интеграцию Gemini с WhatsApp на Android — теперь пользователи могут использовать голосовые и текстовые команды для совершения звонков и отправки сообщений напрямую с помощью Gemini. Представьте потенциал этого маленького запуска в агентстком будущем, для записи на стрижку и ноготочки.
В Колумбии перехватили беспилотную подлодку наркоторговцев

ВМС Колумбии объявили о захвате автономного подводного аппарата, способного перевозить до 1.5 тонн кокаина. Это первое зафиксированное применение беспилотных «наркоподлодок» в Латинской Америке.

На борту стоит антенна Starlink, спутниковая связь делает возможным удалённое управление. Подлодка не погружается полностью, но идёт почти на уровне воды. Из-за этого она слабо уловима для радаров, в отличие от катеров. До этого беспилотные лодки гораздо меньшего размера использовались для наркотрафика по коротким маршрутам в Средиземноморье.

https://www.navalnews.com/naval-news/2025/07/colombian-navy-captures-unmanned-narco-submarine-in-caribbean-sea/
4 методики работы с контекстом LLM

В Паттерне 4 мы поняли, насколько важно использовать контекст в LLM-системе.
Сейчас давайте разберемся, как это можно делать. Все эти правила прекрасно изложены в статье.

1) Запись во внешнюю память

Очень похоже на то, как люди работает с информацией. В момент поступления данных LLM может догадаться, что это важние знания и записать их куда-то. Например, в текстовый файлик. Это популярный метод, так делает рисерч агент Anthropic.

Не нужно засорять контекст, пихая в него всю информацию. Пускай модель использует только нужное для решения конкретной задачи в текущем состоянии.

2) Выбор нужного из внешней памяти

К долгой памяти нужно обращаться и искать полезные куски. Ровно также, как вы ищете в вашем блокноте полезные записи. То есть делаете RAG по памяти. Искать можно кучей вариантов, не зацикливайтесь на эмбеддингах:

- Если память маленькая, можно прочитать ее всю

- Можно размечать тегами разные участки памяти, например "error" для ошибок, и дальше искать по тегам

- Можно и нужно учитывать время, когда была сделана запись

3) Суммаризация

Часто информации настолько много, что ее проще хранить/использовать в сжатом виде. Обычно делают так: если токенов > X, тогда отдельный LLM-call суммаризует последнюю историю. Это позволяет свежую информацию хранить полностью, а старую уже менее детально.

Так делает Google со своим Gemini, когда агент играет в Покемонов (я кстати в жизни ни разу не играл, расскажите, как оно?).

4) Разделение контекста

В мультиагентских системах разумно иметь изолированные контексты разных LLM. У них могут быть свои задачи/тулы/история.

Еще можно делить контекст не с другими агентами, а с внешней средой. Например, если вы общаетесь со средой черед код, как это делает Huggingface, то среда вам может отдать только название переменной, а весь контент хранить у себя.

Например, агент будет значть, что в VAR1 лежит список всех покупок пользователя. Но сам список он может и не читать, чтобы не засорять контекст.

Нудное послесловие

Разработка крутых LLM-систем это всегда про эксперименты и креатив. Я запрещаю зацикливаться на простых решениях, типа, пихаем в контекст все. Или фиганем эмбеддинги, FAISS потом разберется. Позаботьтесь о себе и о вашей LLM.

Как обычно, рад вопросам по теме в комментариях. Если нужно разобрать ваш кейс — можно в личные сообщения.
Forwarded from Сиолошная
Уже давно и много раз обсуждали, что LMArena теряет смысл — большая часть запросов достаточно общая, «от любителей», и даже маленькие модели научились на них достаточно неплохо отвечать. И это не говоря про то, что отдельные модели просто тюнят под арену, искусственно завышая оценку.

Одним из решений могут стать арены с куда меньшим набором участников (~сотня человек), которые являются экспертами в своих областях. Следуя этой идее Allen AI Institute представили SciArena — платформу для оценки моделей в задаче генерации ответа с опорой на литературу.

Сначала в ответ на запрос отрабатывает retrieval agent — агент, который находит 30 абзацев из разной научной литературы, которая может быть уместна для ответа. Эта часть одинакова для всех моделей, все входные данные одни и те же.

А дальше две случайные модели генерируют по источникам ответ, расставляя цитаты. Дальше есть стадия пост-процессинга, где унифицируется формат ответа / расставление цитат, но это не так интересно.

В итоге 102 доверенных исследователя, работающих в разных дисциплинах, суммарно сделали более 13000 запросов и отметили, какие из результатов им нравятся. OpenAI o3 сильно вырывается вперёд:
— 59% побед против C4 Opus
— 80% побед против Gemini 2.5 Pro

Авторы посмотрели 200 ответов о3, чтобы понять, почему так:
(1) более детальная проработка цитируемых статей: модель o3 последовательно предоставляет более глубокие объяснения и более богатые технические идеи, извлеченные из справочной литературы;
(2) более профессиональная и точная терминология: модель o3 имеет тенденцию использовать специфичный для предметной области словарь и технически точные формулировки, уменьшая двусмысленность и повышая ясность;
(3) четкое структурированное представление: ответы o3 лучше организованы, улучшая как читаемость, так и синтез сложной информации;
(4) более полный охват: для таких типов вопросов, как «Проблемы и ограничения» и «Оценка современного уровня техники», ответы o3 заметно более полны, охватывая более широкий круг вопросов, которые могут быть интересны пользователям.

Блогпост, статья
Forwarded from vc.ru
Китайский поисковик Baidu обновился: появилось «умное» окно ввода с ИИ-инструментами и возможностью генерировать видео и изображения, а также искать по картинкам и голосовым запросам. Для этого его научили понимать несколько диалектов китайского языка.

Также поисковик теперь понимает «расплывчатые» запросы, написанные на естественном языке, а не ориентируется на ключевые слова

vc.ru/ai/2076409
Контекст-инженеры — новые промпт-инженеры

Это не про то, как красиво написать промпт. Это про то, как правильно подать задачу, чтобы ИИ понял и выдал полезный результат.

— Тоби Лютке (Shopify)

Андрей Карпати дополняет:
Контекстная инженерия — это как собрать всё нужное для ИИ:
• что нужно сделать и зачем
• примеры, подсказки
• нужные данные и истории
• без лишнего шума

Если контекста мало — модель “тупит”.
Если много — она “путается”.
Правильный баланс — это и есть искусство.

А ещё хорошее ИИ-приложение должно:
• разбивать задачи на шаги
• звать нужную модель
• проверять результат
• следить за безопасностью и скоростью

Контекстная инженерия — лишь часть сложного слоя, который делает из простых вызовов API полноценные LLM-продукты. И хватит называть это “ChatGPT wrapper” — это уже совсем не то.
💯1
Forwarded from эйай ньюз
Вышел доклад от François Chollet, который я слушал ещё 2 недели назад в Сан-Франциско на YC AI Startup School.

Это, кстати, был один из 3 самых интересных докладов (другие два - это Карпатый и Chelsea Finn).

В докладе Шолле показывает, что до AGI нам еще далековато, что существующие бенчи слишком простые, и показывает свой новый бенч ARC-AGI-2. На новом бенче средний человек набирает 60%, а команда из нескольких — 100%. В то время как o3-high выбивает только 6.5%, а Claude Opus 4 (Thinking 16K) - 8.6%. Показывая, что пропасть между лучшими LLM и человеком тут огромная.

Старый ARC-AGI-1 продержался пять лет, потому что он был вызовом для обычных LLM, которые хороши в запоминании, но пасуют когда дело доходит до настоящего мышления. Ризонеры наконец-то смогли его решать, поэтому сделали ARC-AGI-2, который опять же бьёт в самую слабую точку современных LLM — их способность к подвижному интеллекту (fluid intelligence). Он проверяет умение работать с символами, многошаговыми правилами и контекстом, где тупой перебор не работает. Шолле ожидает, что этот бенч не продержится так долго, потому что именно в ризонинге будет происходить самый быстрый прогресс в ближайшие годы.

Но ARC-2 — это не предел. Шолле уже затизерил ARC-AGI-3, который должен выйти в 2026 году. Он будет ещё жёстче — бенчмарк будет построен в виде интерактивных игр, требующих от ИИ ставить цели и по-настоящему адаптироваться, а не подбирать решение грубой силой. Фокус этого бенча — эффективность обучения, сравнимую с человеческой. Системы должны будут не просто решить задачу, а сделать это быстро и с небольшим количеством примеров. ARC-3 целится в то, чтобы продержаться больше трёх лет.

В конце он объявил о создании своей новой лабы — NDEA. Их цель — строить тот самый ИИ, который нужен для настоящих прорывов: самообучающийся движок для синтеза программ, способный не на автоматизацию, а на изобретения. По сути, они хотят создать систему, которая сможет ускорять научный прогресс, а бенчмарки ARC будут для них главным мерилом успеха.

https://www.youtube.com/watch?v=5QcCeSsNRks

@ai_newz
🔥1
В ChatGPT появится режим репетитора

В режиме «Study Together» ChatGPT будет пошагово объяснять решение задач, задавая наводящие вопросы.

Дата выхода обновления неизвестна, но некоторые пользователи его уже получили.
🔥2
Цукерберг схантил топа Apple по разработке AI

Руоминг Пэн, глава команды foundation-моделей Apple, переходит в Meta*. Там он присоединится к новой команде Meta* Superintelligence Labs и, по данным Bloomberg, получит многомиллионные ежегодные бонусы.

*Meta признана экстремистской организацией и запрещена в РФ

https://www.reuters.com/business/apples-top-ai-executive-ruoming-pang-leaves-meta-bloomberg-news-reports-2025-07-07/
Agentic Web

Старый веб – динозавр, который всё никак не умрет. Многое на себя забрали закрытые экосистемы и маркетплейсы, но мы все знаем интернет-компанию номер один.

Веб выполняет важную роль – связь людей и бизнесов в цифре. Открыл браузер, вбил "ремонт", перешел на сайт. Браузер, поиск и сайты – единая система решения задач для юзеров. Не было бы Google - не было бы сайтов в текущем виде.

Но в новом мире AI-поиска и агентов всё это начинает терять смысл. ChatGPT или Алиса сами за тебя поищут, выберут и даже забронируют. А значит, сайты с их интерфейсами и URL начнут умирать. Моя дочь ещё знает, что такое URL, следующее поколение - вряд ли будет знать :)

Это не значит, что ChatGPT сожрет всё. Бизнесам по-прежнему нужно представлять себя в интернете – но теперь перед новым поколением "окошек в интернет". Такими адаптерами долгое время будут оставаться старые добрые сайты – они же уже есть – но будут появляться и новые способы "разместиться в интернет". Например, разметка schema.org позволяет "представить" сайт для AI.

Google уже строит такой новый интернет. Читать нужно про A2A, но внимательно, между строк.

Тема богатая, будет серия постов. Мир меняется, нужно уметь правильно оседлать эту волну. #agenticweb
Маск аносировал стрим про запуск Grok 4 в среду
Forwarded from Apple Pro Daily News
Самое интересное, что буквально 9 июня, в день начала #WWDC25👨‍💻, Руоминг Панг у себя в соцсети 𝕏 опубликовал большую ветку из постов, рассказывающих про их новые возможности 🧊 Apple Foundation Models, открытые теперь для разработчиков

А в конце ветки он даже пригласил всех заинтересованных откликнуться на вакансии Apple в сфере AI/ML или написать ему в DM для уточнения подробностей, чтобы присоединиться к его команде. Теперь приходят инсайды, что он покинет Apple – как всё изменилось всего за месяц!
Please open Telegram to view this post
VIEW IN TELEGRAM