This media is not supported in your browser
VIEW IN TELEGRAM
На воркшопе сегодня закодил телеграм-клиент на next.js, который среди прочего показывает сообщения в виде слайдшоу. Там ещё много всего любопытного. Ретро-футуристичный интерфейс сначала рисовали в ASCII, этот зен-режим полностью придумал Клод (а я придумал другой, но там не так хорошо пошло).
давно хотелось попробовать себе новые интерфейсы для телеграма поделать, с ии-функциями, конечно.
сложно описать это чувство, когда в твой новенький интерфейс наконец поступают реальные данные.
как я сказал на воркшопе, после этого я обычно громко вскрикиваю и радостно хожу по комнате пару минуток
сложно описать это чувство, когда в твой новенький интерфейс наконец поступают реальные данные.
как я сказал на воркшопе, после этого я обычно громко вскрикиваю и радостно хожу по комнате пару минуток
❤9🔥6🥰3
Невероятно, что ChatGPT Agent был запущен в паблик всего 1 месяц назад. За это время запускать в нём задачки стало настолько привычно, что я начал упираться в лимиты.
По-честному, мне Claude Code нравится больше. Но Claude Code без дополнительных инструментов никогда не будет лопатить такое количество контента и так тщательно. И получить файл в powerpoint из Claude code тоже сложнее.
Я думаю, мы определенно будем нанимать разных агентов под разные задачи. Специализированные агенты будут проводить исследования и заниматься дизайном, тестировать и деплоить, списывать деньги и платить налоги. Уже сейчас даже бесплатно я могу как минимум попробовать десятки агентов.
Аттракцион щедрости не будет длиться вечно, но это хороший момент, чтобы на примере почувствовать, куда продвинулись технологии, и куда они нацелены.
При всей моей горячей любви к Claude code, мне очень нравится, что делают OpenHands. У них в облаке вы можете попробовать работу с этим агентом — дают за регистрацию 20 баксов (я никак с ними не связан). В нём тоже можно исследование попытаться запустить — доступ к MCP Tavily у него имеется.
По-честному, мне Claude Code нравится больше. Но Claude Code без дополнительных инструментов никогда не будет лопатить такое количество контента и так тщательно. И получить файл в powerpoint из Claude code тоже сложнее.
Я думаю, мы определенно будем нанимать разных агентов под разные задачи. Специализированные агенты будут проводить исследования и заниматься дизайном, тестировать и деплоить, списывать деньги и платить налоги. Уже сейчас даже бесплатно я могу как минимум попробовать десятки агентов.
Аттракцион щедрости не будет длиться вечно, но это хороший момент, чтобы на примере почувствовать, куда продвинулись технологии, и куда они нацелены.
При всей моей горячей любви к Claude code, мне очень нравится, что делают OpenHands. У них в облаке вы можете попробовать работу с этим агентом — дают за регистрацию 20 баксов (я никак с ними не связан). В нём тоже можно исследование попытаться запустить — доступ к MCP Tavily у него имеется.
Openai
Introducing ChatGPT agent: bridging research and action
ChatGPT now thinks and acts, proactively choosing from a toolbox of agentic skills to complete tasks for you using its own computer.
❤1
Публикую мой текст 12-летней давности, снова актуально, в конце добавлю почему
Феодальная безопасность
Уильям Гибсон ретвитнул ссылку на отличную лекцию Брюса Шнайера (Bruce Schneier) в Гугле. Брюс занимается компьютерной безопасностью, на встрече он рассказывал про тенденции в этой области. В частности, про то, что мы больше и больше доверяем в вопросах безопасности, о которой в принципе не очень привыкли заботиться, поставщикам оборудования и услуг.
Мы пользуемся устройствами, над которыми имеем удивительно мало контроля: Киндл без спроса устанавливает новые прошивки, айфоны не позволяют удалить куки или даже поставить дополнительный софт для этого и т.д. Джонатан Зиттрейн называет такие устройства «привязанными» (tethered device) и видит в этом большую опасностью, Шнайер чуть более взвешен и видит только экономическую причину в таком поведении вендоров.
Мы пользуемся облачными сервисами: почта, социальные сервисы, проектный менеджмент и т.д., полностью доверяя вопросы безопасности их провайдерам. Причин этому много: удобство, автоматизация, избыточность, однако, отмечает Брюс, такого уровня доверия провайдерам услуг не существовало никогда. Фейсбук стал посредником всех наших социальных взаимодействий, Гугл знает о ваших интересах больше, чем ближайшие родственники. Но это компромисс, на который большинство людей идут без особых раздумий. Мы верим, что поставщики будут обращаться с нами хорошо и защитят от опасностей. Для большинства из нас нет и реальных альтернатив.
Получившуюся среду Брюс назвал феодальной безопасностью. Мы, пользователи, даём клятву верности могущественной компании, которая, в свою очередь, обещает нас оберегать. Средневековый феодализм, добавляет Брюс, сформировался в среде, полной опасностей, в которой для выживания был необходим кто-то более сильный, чем вы сам. Политическая система была довольно сложной и представляла из себя ряд иерархических отношений. Обязательства были у обеих сторон. И, по наблюдению Шнайера, именно такая система становится распространенной в наши дни.
У неё есть свои преимущества: облачные сервисы предоставляют бОльшую безопастности, чем большинство людей смогли бы обеспечить себе сами. Для них провайдеры повышают уровень безопасности, но для более продвинутой аудитории они же этот уровень понижают. […]
——
Почему это актуально сейчас?
Потому что LLM знают про нас ещё больше. Если мы пользуемся ими для всех важных решений, то — на порядки больше, чем условный Гугл знал до появления LLM. Человек с технологиями вступал в разные отношения и задолго до бума генеративного, но редко компаниями удавалось создать что-то, что бы стало нашим другом, конфидентом, любовником.
Радует на этом фоне opensource — открытые и легкие модели, стремительно догоняющие по производительности топовые коммерческие. Уверен, что ИИ, автономно бегающие носимых устройствах — неизбежное будущее, и, к счастью, здесь точно будет выбор между открытыми решениями и полностью закрытыми. gpt-oss — по мне самый важный релиз августа.
Феодальная безопасность
Уильям Гибсон ретвитнул ссылку на отличную лекцию Брюса Шнайера (Bruce Schneier) в Гугле. Брюс занимается компьютерной безопасностью, на встрече он рассказывал про тенденции в этой области. В частности, про то, что мы больше и больше доверяем в вопросах безопасности, о которой в принципе не очень привыкли заботиться, поставщикам оборудования и услуг.
Мы пользуемся устройствами, над которыми имеем удивительно мало контроля: Киндл без спроса устанавливает новые прошивки, айфоны не позволяют удалить куки или даже поставить дополнительный софт для этого и т.д. Джонатан Зиттрейн называет такие устройства «привязанными» (tethered device) и видит в этом большую опасностью, Шнайер чуть более взвешен и видит только экономическую причину в таком поведении вендоров.
Мы пользуемся облачными сервисами: почта, социальные сервисы, проектный менеджмент и т.д., полностью доверяя вопросы безопасности их провайдерам. Причин этому много: удобство, автоматизация, избыточность, однако, отмечает Брюс, такого уровня доверия провайдерам услуг не существовало никогда. Фейсбук стал посредником всех наших социальных взаимодействий, Гугл знает о ваших интересах больше, чем ближайшие родственники. Но это компромисс, на который большинство людей идут без особых раздумий. Мы верим, что поставщики будут обращаться с нами хорошо и защитят от опасностей. Для большинства из нас нет и реальных альтернатив.
Получившуюся среду Брюс назвал феодальной безопасностью. Мы, пользователи, даём клятву верности могущественной компании, которая, в свою очередь, обещает нас оберегать. Средневековый феодализм, добавляет Брюс, сформировался в среде, полной опасностей, в которой для выживания был необходим кто-то более сильный, чем вы сам. Политическая система была довольно сложной и представляла из себя ряд иерархических отношений. Обязательства были у обеих сторон. И, по наблюдению Шнайера, именно такая система становится распространенной в наши дни.
У неё есть свои преимущества: облачные сервисы предоставляют бОльшую безопастности, чем большинство людей смогли бы обеспечить себе сами. Для них провайдеры повышают уровень безопасности, но для более продвинутой аудитории они же этот уровень понижают. […]
——
Почему это актуально сейчас?
Потому что LLM знают про нас ещё больше. Если мы пользуемся ими для всех важных решений, то — на порядки больше, чем условный Гугл знал до появления LLM. Человек с технологиями вступал в разные отношения и задолго до бума генеративного, но редко компаниями удавалось создать что-то, что бы стало нашим другом, конфидентом, любовником.
Радует на этом фоне opensource — открытые и легкие модели, стремительно догоняющие по производительности топовые коммерческие. Уверен, что ИИ, автономно бегающие носимых устройствах — неизбежное будущее, и, к счастью, здесь точно будет выбор между открытыми решениями и полностью закрытыми. gpt-oss — по мне самый важный релиз августа.
🔥2❤1
Хозяйк на заметку — OpenAI выпустили cli-версию кодинг-агента codex (npm install -g @openai/codex).
Это прямой конкурент Claude code, и по подписке, включая Plus, дают доступ ко всем моделям и видимо миллион токенов, которые, впрочем, улетают очень быстро, особенно если модель больше medium.
Это прямой конкурент Claude code, и по подписке, включая Plus, дают доступ ко всем моделям и видимо миллион токенов, которые, впрочем, улетают очень быстро, особенно если модель больше medium.
❤3😁1
ASCII-прототипы — пожалуй, самое большое ускорение на пути к качественным интерфейсам в деле ИИ-разработки, после shadcn.
Почему это эффективно? Используя совсем немного токенов, модель показывает, что именно и где будет находиться в интерфейсе — это и прототип, и база для спецификации, которая потом превратится в код, — и основа для тестов, в том числе и визуальных — через playright или мультимодальные возможности самой LLM.
И Claude, и ChatGPT мультимодальны — claude code и codex могут посмотреть на скриншот, сравнить его с wireframe и в цикле довести до рабочего состояния, так что ручного тестирования будет нужно на меньше в разы.
Про UX в контексте ИИ очень интересно — большиство ИИ-интерфейсов узнаваемы и холодны, как могильная плита, а что такое хороший интерфейс, а уже тем более взаимодействие и пользовательский опыт языковой модели узнать по сути не откуда.
Связка из из автоматического визуального, технического тестирования и a/b-тестов наверняка даст большим компаниями данные о том, что работает, но пока что в качестве ИИ-интерфейсов мы часто получаем неконтролируемый и разрастающийся по минутам ai slop
Почему это эффективно? Используя совсем немного токенов, модель показывает, что именно и где будет находиться в интерфейсе — это и прототип, и база для спецификации, которая потом превратится в код, — и основа для тестов, в том числе и визуальных — через playright или мультимодальные возможности самой LLM.
И Claude, и ChatGPT мультимодальны — claude code и codex могут посмотреть на скриншот, сравнить его с wireframe и в цикле довести до рабочего состояния, так что ручного тестирования будет нужно на меньше в разы.
Про UX в контексте ИИ очень интересно — большиство ИИ-интерфейсов узнаваемы и холодны, как могильная плита, а что такое хороший интерфейс, а уже тем более взаимодействие и пользовательский опыт языковой модели узнать по сути не откуда.
Связка из из автоматического визуального, технического тестирования и a/b-тестов наверняка даст большим компаниями данные о том, что работает, но пока что в качестве ИИ-интерфейсов мы часто получаем неконтролируемый и разрастающийся по минутам ai slop
❤2
Классное исследование про увеличение продуктивности при использовании ИИ для разработки
upd: Исследование на моделях, бывших актуальными в конце 2024 года. Оно всё равно актуально — наука работает медленно, а LLM-кодинг не меняется так уж быстро. Видео-презентация (ссылка в конце поста) — июль 2025.
В исследовании участвовали 100 тысяч разработчиков, использовали подход, основанный на данных — анализировали изменения в git-репозиториях, оценивая функциональность кода, а не количество строк. Каждый коммит исследуется ии-«панелью» из 10-15 экспертов, каждый оценивает по своему измерению.
В среднем ИИ повышает производительность разработчиков на 15-20%, но также приводит к увеличению объема rework — кода, который требует правки после создания.
Прирост производительности наиболее высок для задач с низкой сложностью (30-40%) и более умеренный для задач с высокой сложностью (10-15%). Для некоторых сложных задач ИИ снижает производительность.
ИИ более эффективен с популярными языками (Python, JavaScript). С ними ии может обеспечить прирост производительности до 20%.
Чем больше база, тем меньше прирост производительности.
Итого:
низкая сложность проекта, пишем с нуля → ИИ даст большой буст производительности, 30-40%
высокая сложность, пишем с нуля → прирост скромнее, 10-15%
низкая сложность, старая база → всё ещё хороший прирост — 15-20%
Высокая сложность и старая база — наименьший прирост — от 0 до 10%. А может и хуже стать.
Greenfield-задачи (код с нуля) часто требуют написание стандартного кода (например, CRUD-функциональность для интерфейсов, авторизация, чтение-хранение данных). Это не сложно.
Большая часть реальной разработки находится в Brownfield-зоне, где сложность высокая, и ии-модели не справляются.
(Кто с GDS работал, тот в цирке не смеется!)
Я в этом вижу только положительные новости. Значит большое исследование показывает, что ИИ прекрасно подходит для разработки прототипов. При этом много зависит непосредственно от типа задачи. Из моего опыта, написать стандартную админку проще, чем закодить классный миро-подобный интерфейс, или навайбкодить новый алгоритм (что, впрочем, не исключено). Всегда лучше брать максимально готовое решение, в идеале популярное.
Разработчики никуда не деваются — большая часть программных систем находится как раз в области brownfield (а еще, разумеется, кому-то нужно будет поддерживать и развивать ai slop в продакшне).
Из любопытного — субъективные ощущения увеличения продуктовности разработчиков с реальностью никак не связаны (R = 0.3).
Видео, сайт
upd: Исследование на моделях, бывших актуальными в конце 2024 года. Оно всё равно актуально — наука работает медленно, а LLM-кодинг не меняется так уж быстро. Видео-презентация (ссылка в конце поста) — июль 2025.
В исследовании участвовали 100 тысяч разработчиков, использовали подход, основанный на данных — анализировали изменения в git-репозиториях, оценивая функциональность кода, а не количество строк. Каждый коммит исследуется ии-«панелью» из 10-15 экспертов, каждый оценивает по своему измерению.
В среднем ИИ повышает производительность разработчиков на 15-20%, но также приводит к увеличению объема rework — кода, который требует правки после создания.
Прирост производительности наиболее высок для задач с низкой сложностью (30-40%) и более умеренный для задач с высокой сложностью (10-15%). Для некоторых сложных задач ИИ снижает производительность.
ИИ более эффективен с популярными языками (Python, JavaScript). С ними ии может обеспечить прирост производительности до 20%.
Чем больше база, тем меньше прирост производительности.
Итого:
низкая сложность проекта, пишем с нуля → ИИ даст большой буст производительности, 30-40%
высокая сложность, пишем с нуля → прирост скромнее, 10-15%
низкая сложность, старая база → всё ещё хороший прирост — 15-20%
Высокая сложность и старая база — наименьший прирост — от 0 до 10%. А может и хуже стать.
Greenfield-задачи (код с нуля) часто требуют написание стандартного кода (например, CRUD-функциональность для интерфейсов, авторизация, чтение-хранение данных). Это не сложно.
Большая часть реальной разработки находится в Brownfield-зоне, где сложность высокая, и ии-модели не справляются.
(Кто с GDS работал, тот в цирке не смеется!)
Я в этом вижу только положительные новости. Значит большое исследование показывает, что ИИ прекрасно подходит для разработки прототипов. При этом много зависит непосредственно от типа задачи. Из моего опыта, написать стандартную админку проще, чем закодить классный миро-подобный интерфейс, или навайбкодить новый алгоритм (что, впрочем, не исключено). Всегда лучше брать максимально готовое решение, в идеале популярное.
Разработчики никуда не деваются — большая часть программных систем находится как раз в области brownfield (а еще, разумеется, кому-то нужно будет поддерживать и развивать ai slop в продакшне).
Из любопытного — субъективные ощущения увеличения продуктовности разработчиков с реальностью никак не связаны (R = 0.3).
Видео, сайт
👍4
Что такое context engineering?
Понравилось объяснение Джефа Хабера (Jeff Huber), фаундера Chroma. Он говорит о context engineering в контексте разработки софта, но думаю легко перекладывается на другие виды деятельности.
Сontext engineering — это процесс наполнения контекста токенами, которые помогут эффективно добиваться целей и задач, например, писать надежный программное обеспечение быстро и дёшево.
У абсолютно всех LLM эффективное контекстное окно гораздо меньше, чем номинальное (см. context rot). Эффективность работы LLM, особенно в задачах, требующих ризонинга, быстро падает. Чтобы этого избежать, нужно курировать контекст.
Этапа всего 3:
1. Собрать релевантную информацию
2. Убрать неревантную информацию
3. Оптимизировать релевантную
Gather
Собираем: работаем со структурированными и неструктурированными данными, локальной файловой системой, внешними инструментами (API, MCP, веб-поиск), историей чатов и т.д.
Glean
Отбираем: используем методы Top-k по сходству векторов, Reciprocal Rank Fusion, обучение ранжированию и модели повторного ранжирования, а всё чаще — просто LLM (можно использовать дешевые и даже локальные модели, и делать это более одного раза)
Не важно, пишете ли вы софт или работаете с помощью агентов над текстами — процесс будет похожий.
Понравилось объяснение Джефа Хабера (Jeff Huber), фаундера Chroma. Он говорит о context engineering в контексте разработки софта, но думаю легко перекладывается на другие виды деятельности.
Сontext engineering — это процесс наполнения контекста токенами, которые помогут эффективно добиваться целей и задач, например, писать надежный программное обеспечение быстро и дёшево.
У абсолютно всех LLM эффективное контекстное окно гораздо меньше, чем номинальное (см. context rot). Эффективность работы LLM, особенно в задачах, требующих ризонинга, быстро падает. Чтобы этого избежать, нужно курировать контекст.
Этапа всего 3:
1. Собрать релевантную информацию
2. Убрать неревантную информацию
3. Оптимизировать релевантную
Gather
Собираем: работаем со структурированными и неструктурированными данными, локальной файловой системой, внешними инструментами (API, MCP, веб-поиск), историей чатов и т.д.
Glean
Отбираем: используем методы Top-k по сходству векторов, Reciprocal Rank Fusion, обучение ранжированию и модели повторного ранжирования, а всё чаще — просто LLM (можно использовать дешевые и даже локальные модели, и делать это более одного раза)
Не важно, пишете ли вы софт или работаете с помощью агентов над текстами — процесс будет похожий.
👍6❤2
Граница между инструментами размывается всё больше.
Что это? ChatGPT кодит, или Cursor?
Нет, это китайский ии-браузер Fellou верстает мне презентацию (и такое решение мне нравится гораздо больше, чем если бы он пытался её по чайной ложке собирать в Google Slides). Данные — из рисерча, который браузерный агент сам провёл.
Неплохо сверстал, кстати.
Что это? ChatGPT кодит, или Cursor?
Нет, это китайский ии-браузер Fellou верстает мне презентацию (и такое решение мне нравится гораздо больше, чем если бы он пытался её по чайной ложке собирать в Google Slides). Данные — из рисерча, который браузерный агент сам провёл.
Неплохо сверстал, кстати.
🔥2
Никогда не писал про эту часть своей жизни, но я давно слежу за стартапами в области здоровья — в первую очередь психического, но и здоровья вообще, с упором на продление health span — той части жизни, где мы условно здоровы (можем сами за собой ухаживать, выполнять повседневные задачи). Все мы хотим, чтобы наш health span и life span максимально совпадали — гораздо лучше умереть на прогулке, чем после долгих лет болезни.
Радует, что появляются стартапы, делающие анализы и рекомендации доступными. Заплатить всё равно придётся прилично — сами анализы стоят 500 евро, и делать их нужно каждые 4 месяца. Зато GenAI потенциально позволяет получать очень точные персонализированные рекомендации по изменению — очевидно, в первую очередь питания и добавок, но так же скорее всего и поведения.
Да, пока что это всё ещё премиальная услуга, но даже сырые данные, без рекомендаций, могут быть очень полезным материалам для взаимодействия с ИИ (ChatGPT, например, или Клодом).
В будущем живём, друзья
https://aniva.health/manifesto
Радует, что появляются стартапы, делающие анализы и рекомендации доступными. Заплатить всё равно придётся прилично — сами анализы стоят 500 евро, и делать их нужно каждые 4 месяца. Зато GenAI потенциально позволяет получать очень точные персонализированные рекомендации по изменению — очевидно, в первую очередь питания и добавок, но так же скорее всего и поведения.
Да, пока что это всё ещё премиальная услуга, но даже сырые данные, без рекомендаций, могут быть очень полезным материалам для взаимодействия с ИИ (ChatGPT, например, или Клодом).
В будущем живём, друзья
https://aniva.health/manifesto
❤7🔥2