Tool Building Ape × Gleb Kalinin – Telegram
Tool Building Ape × Gleb Kalinin
1.98K subscribers
231 photos
18 videos
3 files
142 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
Cursor.ai неожиданно оказался шикарным ai-first knowledge management инструментом. Открыл в нём своё хранилище Obsidian с почти 7000 заметками, и моментально начал искать и генерировать новые заметки с контентом, основанным на моём хранилище, с очень высоким качеством, используя всё ещё топовую Claude3.5.

Например, составил саммари всех тем, которые обсуждал когда-либо с Alexander Povaliaev, а потом сравнил с тем, что обсуждал относительно других отношений (естественно, много общего). Поискал в своём же хралищие интервенции, которые могут быть полезны.

А поскольку Cursor не только читает, но создает и редактирует файлы, используя голос и текстовые компанды в чате можно обновлять файлы.
Редко такое пишу, но сегодня я в приятном удивлении.

Мы планировали сделать короткий воркшоп по Obsidian + AI, теперь однозначно будем делать Obsidian + Cursor.ai.

Obsidian для сбора (с мобайла, голосом, из телеграма) и хранения, автоматизаций, отображения и публикации контента, а Cursor — для генерации и AI-анализа.

Всё интересное только начинается.
🔥8
Advance voice mode в ChatGPT, похоже, может быть почти идеальным ассистентом по изучению языка. До этого я пробовал Loora — приложение, которое, как и ChatGPT, заставляет вас говорить с самого начала. Оно хорошее (например, можно послушать ваше произношение любого слова и сравнить с образцом), но там, увы, только английский.

Для ChatGPT мой промт был примерно такой:

I want to practice German starting with simple sentences. Please speak in German, then translate each sentence into English. Correct me if I make any mistakes, and help me translate my responses into German.

В процессе также попросил использовать данные из наших предыдущих разговоров с ChatGPT, так что мы не просто общались на темы из учебника, а говорили про то, что важно мне.

Любое слово или фразу в Advanced mode можно попросить произнести медленнее — это очень помогает. Не хватает написания в реальном времени, поэтому в конце диалога, уже в текстовом режиме, прошу сделать мне список использованных слов и фраз, которые были использованы во диалоге.

Как и с Loora, с таким ассистентом начинаешь говорить сразу же, что, по-моему, самое важное.
👍3🔥2
Записали про cursor как инструмент управления знаниями подкаст
Forwarded from AI Mindset (Gleb Kalinin)
Выпустили второй подкаст: говорим про набирающий популярнойсть редактор кода Cursor AI как инструмент управления знаниями. On the bleeding edge — даже в англоязычном интернете про это всего несколько постов и тредов в x. В следующем посте расскажем про воркшопы в ноябре по ChatGPT + Obsidian + Cursor для управления знаниями, которые проведем в ноябре.

Описание подкаста
В этом разговоре Глеб и Саша обсуждают возможности и функции Cursor AI как инструмента для управления знаниями и программирования.

Cursor — это мощный редактор кода с интегрированным ИИ, который упрощает разработку. Он легко интегрируется с такими инструментами, как Obsidian, поддерживает Markdown и может использоваться для эффективного управления знаниями. Cursor позволяет задавать запросы к заметкам, анализировать их, настраивать предпочтения для проектов и создавать связи между источниками данных. Благодаря своей гибкости и скорости работы, это универсальный инструмент как для программирования, так и для работы с контентом.

Глеб и Саша делятся своим опытом использования Cursor, его интеграции с Obsidian и тем, как AI может помочь в создании и редактировании контента. Также рассматриваются аспекты парного программирования и как Cursor может быть полезен как для разработчиков, так и для неразработчиков.

В этом разговоре обсуждаются возможности и преимущества использования Cursor в управлении знаниями, его гибкость и настройки, а также сравнение с Obsidian. Говорим, как контекст и сохраненные данные могут быть использованы для более эффективного взаимодействия с информацией. Обсуждаем важность сбора и анализа данных для личной эффективности, а также инструменты управления знаниями, интеграцию веб-данных, проблемы и вызовы в управлении знаниями, а также будущее автоматизации и персонализации знаний с использованием AI.

Говорим про будущее умных систем, их переход от Pull к Push, важность контекста и истории пользователя, проблемы конфиденциальности, локальные модели и впечатления от новых технологий, таких как Cursor.

Youtube
Spotify
Apple Podcasts
1
Курс по Cursor + Obsidian делаем, разумеется, в них же. Если аккуратно развивать коллективный датасет — выгружать транскрипты встреч, идеи, программы уже прошедших встреч, то создание основ любого проекта (курса или воркшопа, экстеншена для Обсидиан или еще чего-то) становится вопросом правильно построенных диалогов с вашими файлами.
4
«Вкалывают роботы, счастлив человек»

Ну что, добро пожаловать в будущее.

Claude выпустили API для управления компьютером. Поднял, настроил. Попросил компьютер найти мне open calls для художников и сохранить их в табличку. Компьютер справился
😱1
Как потестировать:

1) Потребуется API-ключ Anthropic, его нужно будет экспортировать как системную переменную

2) Скачать код отсюда, перейти в папку computer-use-demo

3) запустить в этой папке aider, выполнить /add README.md и попросить установить все пакеты и запустить программу (пакетов будет довольно много)

4) после запускать открыть браузер и адрес http://localhost:8080, если всё ок, вы сможете в чате давать Клоду команды — например, что-то найти в интеренете, сохранить в табличку и так далее. Все эти операции делаются внутри виртуальной машины на Линуксе.

Здесь можно посмотреть демо
👍2
Написал чуть подробнее про Claude Computer — штуки, которая умеет пользоваться вашим компьютером (и да, это достаточно опасно).
👍2
Forwarded from AI Mindset (Gleb Kalinin)
Главная новость недели — новые модели Anthropic (которые даже не сменили версии, показав солидный рост производетельности) и Claude Computer Use.

Эта функциональность позволяет Claude управлять компьютером как человек: двигать курсором, нажимать кнопки, вводить текст, и использовать любое программное обеспечение. Может выполнять последовательности действий (например, проверить таблицу → открыть браузер → заполнить форму). Пока находится в экспериментальной стадии и доступна через API.

Это не первый такой продукт — подобное уже давно реализовано в OpenInterpreter, своя модель для взаимодействия с интерфейсами есть у Apple, подобную же модель показывали злополучные Rabbit (они называли её large action model).

Однако это первый раз, когда подобный API опубликован компанией-разработчиком большой языковой модели, доступнен сразу же неограниченному кругу пользователей.

У модели полно ограничений. Некоторые базовые действия (скроллинг, перетаскивание, зум) даются пока что с трудом. В моих текстах она не справлялась с такими простыми операциями, как закрытие всплывающих окон с запросом про cookie — и, надо признать, эти интерфейсы действительно сложны, и для человека тоже.

Computer Use набрал 14.9% в тесте OSWorld, оценивающей способности ии-моделей пользоваться компьютером, в категории "только скриншоты" — это почти вдвое лучше следующего конкурента (7.8%), но всё ещё не первое место (там сейчас [Agent-S)).
Видео-демо: Claude | Computer use for automating operations - YouTube

Как протестировать уже сегодня:
(понадобятся навыки работы с терминалом)

Безопасный способ. Установите стартовые пакеты из официального дистрибутива  anthropics/anthropic-quickstarts · GitHub — он установит виртуальную машину, у которой нет доступа к вашей файловой системе. Все тестовые операции будут выполняться внутри этой виртуальной машины.

Небезопасный способ. Через вышеупомянытй OpenInterpreter на MacOS. Установите утилиту (pip install open-interpreter), выберите модель (interpreter --model claude-3) и запустите команду (interpreter --os). Теперь вы можете давать утилите текстовые команды, для выполнения которых OpenInterpreter может запускать программы, искать в интернете, создавать, редактировать и удалять файлы.
Для работы с интерфейсами программа делает скриншоты и отправляет их в API Claude, поэтому будьте готовы, что это будет небыстро, и, к сожалению, недешево.


На один эксперимент: поискать в интернете, сохранить данные в таблицу, я потратил около часа, 2 500 000 токенов и почти 8 долларов. Но главное, что эксперимент удался, я получил на выходе pdf с отформатированными результатами поиска.

На другой эксперимент — сделать для меня подборку событий на выходные в Берлине с учетом моих интересов и вывод их в markdown-таблицу, потратил почти 3 доллара и почти миллион токенов.

Если задачи формулировать максимально точно, минимизировать при их постановке использование графических интерфейсов, снизить разрешение экрана (чтобы уменьшить количество потребляемых токенов), то цены можно минимизировать — тут промт-инжиниринг и подготовка среды будут иметь в ближайшее время огромное значение.

И хотя всё это работает пока не очень надежно, есть что-то очень футуристичное в том, что ии может пользоваться графическими интерфейсами почти так же, как мы.

Глеб
Media is too big
VIEW IN TELEGRAM
Выяснил параллельно, что OpenInterpreter передумали делать железку, которая вас слушает, и пивотнулись в приложение.

Уже сейчас, если повезет, можно собрать сетап, в котором вы сможете давать голосовые команды вашему компьютеру (даже находясь далеко от него) и получать голосовые же ответы

https://changes.openinterpreter.com/log/01-app
как вам такой интерфейс к вашему ии-ассистенту?

https://x.com/shipbitagency/status/1787213070168727831
Но самым главным забыл поделиться — мне ии по одной голосовой команде составил табличку интересного на субботу в Берлине. Процесс был глючный, но результат всё равно впечатляет.

> please create a table with 10 events in Berlin this saturday. i'm interested in art and technlogy. please limit to mitte and prenzlauerberg and kreuzberg
👍1
Я пишу с ошибками, и часто их не исправляю. Во-первых, окончательно растворяю перфекциониста, который когда-то заставлял расставлять правильную типографику даже в комментариях к заказу пиццы, во-вторых, чтобы отличать свои тексты от генераций ллм.

Сами ллм же настолько не прихотливы к качеству входящего текста, что этим можно пользоваться и с ошибками без пунктуации просто в ряд набивая ключевые слова расширения контекста

Например, ChatGPT или Claude совершенно все равно, напишите вы pls, pliz, plees или please — модель самого слова в любом случае целиком не видит.

А вот получить из модели человекоподобные ошибки почти невозможно без файн-тьюнинга на текстах с большим количеством ошибок, и даже в этом случае ошибки будут более детерминированы, чем настоящие человеческие.

Это интересная проблема — когда работаешь с midjourney, невозможно достичь рисунков в своем, очень рваном и хаотичном стиле, сколько не крути параметры вроде --chaos

Поэтому давайте ценить свою «шумность», недетерминированность, хаотичность.
👍4❤‍🔥2
Чтобы пользоваться самым прогрессивным ai-стеком, пока ещё приходится много команд запускать в командной строке, править переменные руками и заниматься прочим грустным хакингом.

Но всё большую часть таких задач можно решить в aider или cursor, просто скормив им инструкцию.

Как в старые добрые времена, когда рецепт начинался со слов «скажите повару», рецепт любой технической задачи будет начинаться со слов «скажите ии-агенту».

Уже сейчас можно сказать aider что-то в духе install everything describe in README.md, когда устанавливаешь какой-нибудь очередной пакет — в подавляющем большинстве случаев он справляется.
This media is not supported in your browser
VIEW IN TELEGRAM
Общаюсь с телефона с pdf-ками на моём компьютере. Приложение 01 очень сырое, но когда оно работает, это правда похоже на магию.

Вместо pdf здесь мог бы быть моё хранилище в Obsidian, книга которую я читаю, или что угодно ещё

PS. Включил здесь комментарии
Очень крутой режим в приложении 01, демо которого можно посмотреть в этом видео — включаете приложение в фоне, оно постоянно слушает и транскрибирует всё что слышит, но ничего с транскриптом не делает и никуда его не отправляет, пока вы не нажмете кнопку и не скажете, что именно нужно сделать.

Пользовался бы я этим так (пока весь сетап, увы, несколько хлипкий и периодически разваливается): держал бы включенным, когда потребляю любой контент — аудио, видео, лекции. Сейчас для этих целей использую Limitless (это одно из лучших приложение для реалтайм-транскрибации, и они же планируют отдельное носимое устройство для этих целей).

Когда слышу что-то важное/интересно/нужное, жму на паузу, прошу суммаризировать, ответить на вопрос или, например, сохранить — факты, имена, вопросы в заметку в Obsidian.

Это похоже на фоновый режим, который OpenAI показывали в демо приложения ChatGPT, но так и не зарелизили.
🔥3
Как я грумлю заметки в Obsidian с помощью Cursor

У меня большая (7000+) база заметок в Obsidian, и буду откровенен — много где бардак, потемкинские деревни, навигационные заметки (maps of content) почти пустые, при этом некоторые из них весьма важные для моей жизни.

Просто информация про них раскидана по другим заметкам, и её может быть очень много.

Cursor буквально в 1-2 команды помогает вытащить всё, что про ту или иную тему было написано, и сам вставит это в заметку. А если какого-то контента не хватает, то можно запросить его сгенерировать прямо на месте, используя Claude 3.5 (но хорошо бы валидировать, конечно же, и помечать как сгенерированное).
🔥3
Вот пример заметки, которая была пустой. В несколько запросов я собрал всё-всё, что есть в моей базе знаний, в одну довольно подробную карту контента. Кое-что пришлось поправить руками, но на 90% — получилось то, что нужно. Целый раздел, который я до этого не изучал, появился как следствие такого причёсывания.

Выгрузил её для вас в виде странички → https://brain.glebkalinin.com/default-mode-network/
5