Tool Building Ape × Gleb Kalinin – Telegram
Tool Building Ape × Gleb Kalinin
1.98K subscribers
231 photos
18 videos
3 files
142 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
Forwarded from AI Mindset (Gleb Kalinin)
4 разрозненных ссылки недели

1) Гайд AI Jason по ии-кодингу в Cursor.

Полезно, даже если вы кодите в другой среде. Один из важных выводов — проектирование и написание спецификации должны быть максимально подробными и легко могут занимать половину или даже больше времени разработки проекта. Языковой модели нужно помочь, предложив конкретные решения, и даже предварительно установив часть пакетов (Джейсон выясняет у ЛЛМ, какие UX-компоненты подойдут для его задачи и вручную устанавливает их из npm).

Спецификация должна быть подробной (включать в себя конкретные решения) и структурированной, потому что имплементация делается пошагово (реализуй первый раздел, второй, третий).

В очередной раз убеждаемся, что разрабатывая что угодно с помощью ии
1) всё ещё нужно думать, чтобы достичь чего-то значимого

2) владение письменным английским становится самым важным навыком ии-разработчика.

3) доменная экспертиза даёт +100500 к качеству продуктов, которые вы с помощью ии можете реализовать. Если бы Джейсон не был разработчиком, он шёл бы к тем же результатам гораздо дольше.

Ещё один его гайд по Cursor AI

Тизер: готовим новую лабу, где будем делать продукт (или высокофункциональный прототип продукта) с помощью ии-инструментов, но используя лучшие ux-практики (за эту часть будет отвечать опытнейший эксперт).

2) Интервью с Джейсоном Кларком (Anthropic)

Джейсон занимается policies в Anthropic и, в отличие от большинства публичных представителей больших ии-компаний, имеет нетехнический бэкграунд, а поэтому в интервью много интересных перспектив и метафор (мне зашло LLM как страны и нерегулируемые LLM как потенциальные rogue states). На градиенте думеры ←→ e/acc Антропик ближе к думерам, от них вы не услышите манифестов в духе Сэма.

Цитата, с которой мы очень согласны и ассоциируем себя:

Some of it looks more like kind of play and theater and psychology all wrapped into one being done by these people who kind of have a vision and are slightly like off consensus.

3) LLM формулируют гипотезы в социальной психологии так же или лучше учёных

4) Любопытный саммари по state of AI (ссылка на facebook) и интеграции ИИ большими компаниями:

«Кастомные AI решения» это в том числе и решения, при разработке которых был активно использован AI. Например, вашей компании нужно инвойсы из пдф-ок заносить в базу данных. Вместо того чтобы покупать готовый сервис, вы просите AI разработать вам соответствующий микросервис. Через 2 часа в вашем AWS задеплоен ColQwen2 с нужными промптами.
[…]
основное применение для AI сейчас: использовать большие и умные модели чтобы быстро разрабатывать небольшие и очень узкоспециализированные сервисы для решения операционных задач с использованием более слабых моделей, либо вообще без AI.»

Бьётся и с тем, как мы, частные лица, может этот же ИИ применять — и применяем уже.

Глеб
2
This media is not supported in your browser
VIEW IN TELEGRAM
Тестирую o1 на генерации кода.
В полтора промта получить работающий код пусть и простой, но всё же 3д-симуляции — вау

Увы, повторить с тем же изяществом такое же с js-based кодом не удалось. Попросил сгененировать симуляцию маятника — модель нагаллюцинировала адреса библиотек, пришлось руками их обновлять
👍2
Cursor already has a super smooth and effective indexing, vectorization and search capabilities making it possible to manage whole directories of different files with LLMs. This allows Cursor to query and examine relevant code across multiple files.

https://publish.obsidian.md/philippepage/Work/Building+Persistent+Local+Knowledge+in+Cursor+Editor

Кажется, инструмент для разработчиков (кстати, вот они у Лекса Фридмана в подкасте — уровень нердовости зашкаливает, но очень интересно) также может оказаться идеальной локальной ai-powered базой знаний.

Я сейчас настраиваю голосового бота, который работает на основе нового голосового API OpenAI (это очень круто), поверх langchain и Obsidian, и выглядит процесс как-то очень олдскульно (хотя и работает).

Не устаю находить подтверждения — если вы разработчик (или сочувствующий), у вас огромное преимущество во всём, что касается ии-инструентов — их для вас в первую очередь делают (и это всё еще довольно сложные инструменты, в которые тяжело зайти с нуля).

Поживу с этой мыслью.

[[LangChain]]
[[Cursor.ai]]
[[Knowledge Management]]
👍3
В вопросе развития и адаптации ии интерфейсы будут играть не последнее место — и это, кстати, часть, которая очень интересна мне и с чем я играю снова и снова. Пока что у нас очень мало продуктов, которые построены с ai mindset с самого основания.

В основном мы видим продукты, которые работают в старой парадигме, со старыми метафорами, которые мы перестали замечать из-за их старости.

Очень будет интересно увидеть на самом деле ai-first интерфейсы. По иронии, Cursor многое наследует у более старых продуктов (это форк VSCode), но всё равно он более ai integral.

Obsidian, который мы так любим, совсем олдскулен — от ai first софта я бы ожидал нативной работы с ллм, векторизацию, классный поиск, API, использование ии для настройки и кастомизации самого редактора. Сейчас ничего этого нет.
👍1
Cursor.ai неожиданно оказался шикарным ai-first knowledge management инструментом. Открыл в нём своё хранилище Obsidian с почти 7000 заметками, и моментально начал искать и генерировать новые заметки с контентом, основанным на моём хранилище, с очень высоким качеством, используя всё ещё топовую Claude3.5.

Например, составил саммари всех тем, которые обсуждал когда-либо с Alexander Povaliaev, а потом сравнил с тем, что обсуждал относительно других отношений (естественно, много общего). Поискал в своём же хралищие интервенции, которые могут быть полезны.

А поскольку Cursor не только читает, но создает и редактирует файлы, используя голос и текстовые компанды в чате можно обновлять файлы.
Редко такое пишу, но сегодня я в приятном удивлении.

Мы планировали сделать короткий воркшоп по Obsidian + AI, теперь однозначно будем делать Obsidian + Cursor.ai.

Obsidian для сбора (с мобайла, голосом, из телеграма) и хранения, автоматизаций, отображения и публикации контента, а Cursor — для генерации и AI-анализа.

Всё интересное только начинается.
🔥8
Advance voice mode в ChatGPT, похоже, может быть почти идеальным ассистентом по изучению языка. До этого я пробовал Loora — приложение, которое, как и ChatGPT, заставляет вас говорить с самого начала. Оно хорошее (например, можно послушать ваше произношение любого слова и сравнить с образцом), но там, увы, только английский.

Для ChatGPT мой промт был примерно такой:

I want to practice German starting with simple sentences. Please speak in German, then translate each sentence into English. Correct me if I make any mistakes, and help me translate my responses into German.

В процессе также попросил использовать данные из наших предыдущих разговоров с ChatGPT, так что мы не просто общались на темы из учебника, а говорили про то, что важно мне.

Любое слово или фразу в Advanced mode можно попросить произнести медленнее — это очень помогает. Не хватает написания в реальном времени, поэтому в конце диалога, уже в текстовом режиме, прошу сделать мне список использованных слов и фраз, которые были использованы во диалоге.

Как и с Loora, с таким ассистентом начинаешь говорить сразу же, что, по-моему, самое важное.
👍3🔥2
Записали про cursor как инструмент управления знаниями подкаст
Forwarded from AI Mindset (Gleb Kalinin)
Выпустили второй подкаст: говорим про набирающий популярнойсть редактор кода Cursor AI как инструмент управления знаниями. On the bleeding edge — даже в англоязычном интернете про это всего несколько постов и тредов в x. В следующем посте расскажем про воркшопы в ноябре по ChatGPT + Obsidian + Cursor для управления знаниями, которые проведем в ноябре.

Описание подкаста
В этом разговоре Глеб и Саша обсуждают возможности и функции Cursor AI как инструмента для управления знаниями и программирования.

Cursor — это мощный редактор кода с интегрированным ИИ, который упрощает разработку. Он легко интегрируется с такими инструментами, как Obsidian, поддерживает Markdown и может использоваться для эффективного управления знаниями. Cursor позволяет задавать запросы к заметкам, анализировать их, настраивать предпочтения для проектов и создавать связи между источниками данных. Благодаря своей гибкости и скорости работы, это универсальный инструмент как для программирования, так и для работы с контентом.

Глеб и Саша делятся своим опытом использования Cursor, его интеграции с Obsidian и тем, как AI может помочь в создании и редактировании контента. Также рассматриваются аспекты парного программирования и как Cursor может быть полезен как для разработчиков, так и для неразработчиков.

В этом разговоре обсуждаются возможности и преимущества использования Cursor в управлении знаниями, его гибкость и настройки, а также сравнение с Obsidian. Говорим, как контекст и сохраненные данные могут быть использованы для более эффективного взаимодействия с информацией. Обсуждаем важность сбора и анализа данных для личной эффективности, а также инструменты управления знаниями, интеграцию веб-данных, проблемы и вызовы в управлении знаниями, а также будущее автоматизации и персонализации знаний с использованием AI.

Говорим про будущее умных систем, их переход от Pull к Push, важность контекста и истории пользователя, проблемы конфиденциальности, локальные модели и впечатления от новых технологий, таких как Cursor.

Youtube
Spotify
Apple Podcasts
1
Курс по Cursor + Obsidian делаем, разумеется, в них же. Если аккуратно развивать коллективный датасет — выгружать транскрипты встреч, идеи, программы уже прошедших встреч, то создание основ любого проекта (курса или воркшопа, экстеншена для Обсидиан или еще чего-то) становится вопросом правильно построенных диалогов с вашими файлами.
4
«Вкалывают роботы, счастлив человек»

Ну что, добро пожаловать в будущее.

Claude выпустили API для управления компьютером. Поднял, настроил. Попросил компьютер найти мне open calls для художников и сохранить их в табличку. Компьютер справился
😱1
Как потестировать:

1) Потребуется API-ключ Anthropic, его нужно будет экспортировать как системную переменную

2) Скачать код отсюда, перейти в папку computer-use-demo

3) запустить в этой папке aider, выполнить /add README.md и попросить установить все пакеты и запустить программу (пакетов будет довольно много)

4) после запускать открыть браузер и адрес http://localhost:8080, если всё ок, вы сможете в чате давать Клоду команды — например, что-то найти в интеренете, сохранить в табличку и так далее. Все эти операции делаются внутри виртуальной машины на Линуксе.

Здесь можно посмотреть демо
👍2
Написал чуть подробнее про Claude Computer — штуки, которая умеет пользоваться вашим компьютером (и да, это достаточно опасно).
👍2
Forwarded from AI Mindset (Gleb Kalinin)
Главная новость недели — новые модели Anthropic (которые даже не сменили версии, показав солидный рост производетельности) и Claude Computer Use.

Эта функциональность позволяет Claude управлять компьютером как человек: двигать курсором, нажимать кнопки, вводить текст, и использовать любое программное обеспечение. Может выполнять последовательности действий (например, проверить таблицу → открыть браузер → заполнить форму). Пока находится в экспериментальной стадии и доступна через API.

Это не первый такой продукт — подобное уже давно реализовано в OpenInterpreter, своя модель для взаимодействия с интерфейсами есть у Apple, подобную же модель показывали злополучные Rabbit (они называли её large action model).

Однако это первый раз, когда подобный API опубликован компанией-разработчиком большой языковой модели, доступнен сразу же неограниченному кругу пользователей.

У модели полно ограничений. Некоторые базовые действия (скроллинг, перетаскивание, зум) даются пока что с трудом. В моих текстах она не справлялась с такими простыми операциями, как закрытие всплывающих окон с запросом про cookie — и, надо признать, эти интерфейсы действительно сложны, и для человека тоже.

Computer Use набрал 14.9% в тесте OSWorld, оценивающей способности ии-моделей пользоваться компьютером, в категории "только скриншоты" — это почти вдвое лучше следующего конкурента (7.8%), но всё ещё не первое место (там сейчас [Agent-S)).
Видео-демо: Claude | Computer use for automating operations - YouTube

Как протестировать уже сегодня:
(понадобятся навыки работы с терминалом)

Безопасный способ. Установите стартовые пакеты из официального дистрибутива  anthropics/anthropic-quickstarts · GitHub — он установит виртуальную машину, у которой нет доступа к вашей файловой системе. Все тестовые операции будут выполняться внутри этой виртуальной машины.

Небезопасный способ. Через вышеупомянытй OpenInterpreter на MacOS. Установите утилиту (pip install open-interpreter), выберите модель (interpreter --model claude-3) и запустите команду (interpreter --os). Теперь вы можете давать утилите текстовые команды, для выполнения которых OpenInterpreter может запускать программы, искать в интернете, создавать, редактировать и удалять файлы.
Для работы с интерфейсами программа делает скриншоты и отправляет их в API Claude, поэтому будьте готовы, что это будет небыстро, и, к сожалению, недешево.


На один эксперимент: поискать в интернете, сохранить данные в таблицу, я потратил около часа, 2 500 000 токенов и почти 8 долларов. Но главное, что эксперимент удался, я получил на выходе pdf с отформатированными результатами поиска.

На другой эксперимент — сделать для меня подборку событий на выходные в Берлине с учетом моих интересов и вывод их в markdown-таблицу, потратил почти 3 доллара и почти миллион токенов.

Если задачи формулировать максимально точно, минимизировать при их постановке использование графических интерфейсов, снизить разрешение экрана (чтобы уменьшить количество потребляемых токенов), то цены можно минимизировать — тут промт-инжиниринг и подготовка среды будут иметь в ближайшее время огромное значение.

И хотя всё это работает пока не очень надежно, есть что-то очень футуристичное в том, что ии может пользоваться графическими интерфейсами почти так же, как мы.

Глеб
Media is too big
VIEW IN TELEGRAM
Выяснил параллельно, что OpenInterpreter передумали делать железку, которая вас слушает, и пивотнулись в приложение.

Уже сейчас, если повезет, можно собрать сетап, в котором вы сможете давать голосовые команды вашему компьютеру (даже находясь далеко от него) и получать голосовые же ответы

https://changes.openinterpreter.com/log/01-app
как вам такой интерфейс к вашему ии-ассистенту?

https://x.com/shipbitagency/status/1787213070168727831
Но самым главным забыл поделиться — мне ии по одной голосовой команде составил табличку интересного на субботу в Берлине. Процесс был глючный, но результат всё равно впечатляет.

> please create a table with 10 events in Berlin this saturday. i'm interested in art and technlogy. please limit to mitte and prenzlauerberg and kreuzberg
👍1
Я пишу с ошибками, и часто их не исправляю. Во-первых, окончательно растворяю перфекциониста, который когда-то заставлял расставлять правильную типографику даже в комментариях к заказу пиццы, во-вторых, чтобы отличать свои тексты от генераций ллм.

Сами ллм же настолько не прихотливы к качеству входящего текста, что этим можно пользоваться и с ошибками без пунктуации просто в ряд набивая ключевые слова расширения контекста

Например, ChatGPT или Claude совершенно все равно, напишите вы pls, pliz, plees или please — модель самого слова в любом случае целиком не видит.

А вот получить из модели человекоподобные ошибки почти невозможно без файн-тьюнинга на текстах с большим количеством ошибок, и даже в этом случае ошибки будут более детерминированы, чем настоящие человеческие.

Это интересная проблема — когда работаешь с midjourney, невозможно достичь рисунков в своем, очень рваном и хаотичном стиле, сколько не крути параметры вроде --chaos

Поэтому давайте ценить свою «шумность», недетерминированность, хаотичность.
👍4❤‍🔥2
Чтобы пользоваться самым прогрессивным ai-стеком, пока ещё приходится много команд запускать в командной строке, править переменные руками и заниматься прочим грустным хакингом.

Но всё большую часть таких задач можно решить в aider или cursor, просто скормив им инструкцию.

Как в старые добрые времена, когда рецепт начинался со слов «скажите повару», рецепт любой технической задачи будет начинаться со слов «скажите ии-агенту».

Уже сейчас можно сказать aider что-то в духе install everything describe in README.md, когда устанавливаешь какой-нибудь очередной пакет — в подавляющем большинстве случаев он справляется.
This media is not supported in your browser
VIEW IN TELEGRAM
Общаюсь с телефона с pdf-ками на моём компьютере. Приложение 01 очень сырое, но когда оно работает, это правда похоже на магию.

Вместо pdf здесь мог бы быть моё хранилище в Obsidian, книга которую я читаю, или что угодно ещё

PS. Включил здесь комментарии
Очень крутой режим в приложении 01, демо которого можно посмотреть в этом видео — включаете приложение в фоне, оно постоянно слушает и транскрибирует всё что слышит, но ничего с транскриптом не делает и никуда его не отправляет, пока вы не нажмете кнопку и не скажете, что именно нужно сделать.

Пользовался бы я этим так (пока весь сетап, увы, несколько хлипкий и периодически разваливается): держал бы включенным, когда потребляю любой контент — аудио, видео, лекции. Сейчас для этих целей использую Limitless (это одно из лучших приложение для реалтайм-транскрибации, и они же планируют отдельное носимое устройство для этих целей).

Когда слышу что-то важное/интересно/нужное, жму на паузу, прошу суммаризировать, ответить на вопрос или, например, сохранить — факты, имена, вопросы в заметку в Obsidian.

Это похоже на фоновый режим, который OpenAI показывали в демо приложения ChatGPT, но так и не зарелизили.
🔥3