topdatalab – Telegram
topdatalab
1.27K subscribers
106 photos
10 videos
17 files
225 links
Канал поддержки книги «Как монетизировать данные». Работаю над corpsignals.com
Download Telegram
Metabase.pdf
84.3 KB
Месяц назад я общался с Product Manager Metabase.

Самое интересное из разговора - они создают AI агента (уже в их облачной версии).

В файле полное саммари разговора, вдруг кому пригодится
👍8
Прошел мимо в магазине. Вот откуда этот термин появился
4😁3
Кто-нибудь уже использовал Skills в AI агентах?

Помогает?
Я несколько месяцев сделал что-то подобное. Вначале я долго мучался и добавил пару фильтров с помощью курсора для таблицы на corprsignals.
Потом я попросил исходя из примера двух-трех коммитов написать подробную инструкицию по добавлению фильтров в md файл.
При добавлении следующих фильтров я просил корректировать эту инструкцию.

Теперь я могу добавить практически любой фильтр примерно за 10-15 минут, если данные уже подготовлены.

Можно ли сказать, что это skills?
Metabase конечно хорош для self-service аналитики.
Но вот что делать со всякими Excel отчетами для регуляторов?

Нашел отличную, хоть и старую Python библиотеку: https://github.com/zhangyu836/xltpl/blob/master/README_EN.md
Которая умеет использовать JInja шаблоны для генерации Excel отчетов.

Как работает:
1) Пишете коннекторы к данным, например к базе
2) Создатаете Excel файл с Jinja шаблоном как на скриншоте
3) Запускаете - файл ренедерится и все готово.

Мне нравится, что весь дизайн делается в Excel, а данные готовятся в Python.
👍8
Суровые будни Лондона

3 часа назад у моей жены выхватили телефон в нашем районе в Rotherhithe

Два часа трекинга телефона через Find My закончились тем, что телефон застыл на 1 месте

Я нашел статью в интернете, что воры никогда не возят телефоны с собой, чтобы их полиция не отследила и всегда закапывают или прячут их на ночь, чтобы забрать на след день

Вооружившись лопаткой моего сына из набора садовода и мощным фонарем от велика я отправился в Deptford к месту недалеко от памятника Петра 1

После 20 минут поисков телефон был найден в кустах в целости и сохранности


Так что если в следующий раз у вас выхватят телефон и вы увидите, что он находится где-то и его геопозиция обновляется - вы знаете что делать

P.S. не забудьте включить Find My iPhone - штука ОЧЕНЬ мощная, сигнал выключенного телефона за 30 метров ловит
😁2513🤬4🔥2
topdatalab
Вот и Andrew Ng выпустил курс по Agentic AI https://www.deeplearning.ai/courses/agentic-ai/ В чем его крутость - он не привязан к framework (LangChain и пр). И это хорошо! Думаю пройду его.
если проигнорили, то зря!
Я посмотрел уже 2/3 лекций и пишу AI агента для поиска на corpsignals.
И он уже локально работает deep seek. Почему он, год назад кинул туда 20$, нужно потратить.

Вообще конечно, все выглядит как чудо - вызов функций.
Пишешь функции, подаешь их через список. И библиотека aisuite (про нее много на курсе) все делает за тебя.
Осталось только промпт написать.
👍7🔥4
topdatalab
если проигнорили, то зря! Я посмотрел уже 2/3 лекций и пишу AI агента для поиска на corpsignals. И он уже локально работает deep seek. Почему он, год назад кинул туда 20$, нужно потратить. Вообще конечно, все выглядит как чудо - вызов функций. Пишешь функции…
Выложил AI поиск на corpsignals - первую версию.

Теперь умеет искать по индустрии и по кодам импорта/экспорта. А может и вместе.
Под капотом: библиотека aisuite и DeepSeek, индивидуальный вызов функций RAG для индустрий и hs кодов. Для RAG: QWEN embed на CPU + pgvector + pg_search. RAG сделал гибридным - ищет как по векторам, так и полнотекстовый поиск

несколько дней/вечеров ушло на оптимизацию RAG. Гонял свой AI сервер, чтобы считать эмбеддинги. Только за счет этих оптимизаций получил очень хорошее качество ответов. Данные определяют качество всей системы! Впрочем это как в любой ML задаче.
🔥9👍7
Так выглядит успешный процессинг данных в Ducklake, скоро переключу в production. Я думаю я один из первых, кто это будет использовать в боевом режиме, а не просто для аналитики.

Hetzner S3 подкачал - были проблемы несколько недель, часто падал
4🔥3
Сходил рядом в офис революта
🔥11
Софт сейчас относительно легко навайбкодить, а про данные так сказать нельзя. Это значит, что проекты имеющие собственные эксклюзивные данные скопировать сложнее.

Если вы ангел инвестор или VC, инвестируете на pre seed/seed стартапы на Западе. И вам интересен проект, в котором я непосредственно участвую. Напишите мне в личку @rzykov
🔥7
На corpsignals первый платный подписчик - британская логистическая компания, вроде немного, но уже приятно
🔥294👍4
Почти никого не знаю, меня там нет, видимо самовыпилился 🙂
https://newhr.org/data/experts-analytics-2025
😁5
У LLM есть недостатки, да, это не интеллект, а мощная статистическая машина, и это чудо как она работает на "низкой" (предсказывание следующего токена) статистике кода и текстов.

PS: написал этот текст IT команде.

При кодинге с LLM дико повышается ответственность того, кто дает задания LLM машине. Из моего опыта - реализация абстракций пока там плохо работает. Это и ограничение контекстного окна, и скорее всего не так много хорошего кода было использовано при обучении LLM. И мне приходится самому делить на модули во время планирования задачи, либо это делать потом на рефакторинге. Вот сижу и говорю, что здесь неплохо сделать абстрактный класс, и все реализации через него. Тут можно использовать и trait/mixin или дженерики (в зависимости от задачи или ЯП).

То есть возрастают требования к тебе как:
• к архитектору (выше)
• к тестеру
• ревьюеру

И не дай Бог начать лениться, а искушение всегда есть, то начинаются проблемы.

С этим всем мне помогают справится следующие вещи
Очень жесткий цикл:
1. По каждой фиче я держу md файл с описанием
2. Каждая фича планируется в Cursor/Plan mode, курсор лучше видит все кодовую базу, так как он ее индексирует. (Claude/Codex - делают grep каждый раз.) Тегаю доки из прошлого шага.
3. Я внимательно читаю план, правлю его в том же thread
4. Если ок, то в новом чате/чатах курсора прогоняю план
5. Далее заряжаю Codex High - прошу сделать ревью кода
6. И только после ревью кода и правок начинаю делать ревью сам
7. Если все ок - то прошу Курсор прочитать весь незакоммиченный код и обновить документацию в фичах. По изменениям я пробегаюсь еще раз

Для чего нужна документация - она держит контекст! И это полезно не только для LLM, но и онбординга новичков. Я недавно просил знакомого добавить изменения в мой сайд проект, так он просто пробежался глазами по докам фичей в проекта и все сделал.

Я пока не использую нормально skills, rules, плохо пишу промпты, но слежу за документацией, по моему мнению, она важнее всего остального.
С тестами я считаю пока у меня в LLM не очень, хороший тест написать это все-таки инженерное, требующего контекста, который бывает очень долго описывать.
👍16🔥5
Если использовать немецкий язык в IT, то team lead становится группенфюрер!
😁12🤣10🔥1
Коучи - как выбивать бюджет! Не знают еще, что я слишком жесткий эконом. Церковная крыса сдохнет там, где можно вывернуться с помощью Open source
👍4😁3
Знаете, что в последних Chrome есть нейросеть?

https://developer.chrome.com/docs/ai/summarizer-api

попробуйте открыть в последней версии Chrome, и вставить какой-нибудь текст.
Вы получите довольно неплохое summary.

Мне лично понравилось тем, что теперь пользователи могу делать несложную обработку данных прямо на сайте нагружая свои GPU прямо из браузера.

PS: хочу уже сделать - пользователь заходит на страницу и часть конента переписывается прямо у него на глазах!
🔥6
Интересный инсайд про сотрудников, которые продают.

Уже несколько человек часами сидят на corpsignals.com.
С одним из них пообщался вчера вечером.
Оливер из Бирмиргема, продает в холодную, сказал, что сервис ему очень нравится, так как значительно повысилась его продуктивность в поиске лидов.
Он поделился ссылкой с одним из своих коллег.
Но больше никому рассказывать не будет, даже руководителю.

Все дело в том, что у него зарплата привязана к его личным продажам. И он заинтересован наименьшими усилиями получать больше.
Что с этим делать пока не знаю. Ему не нужны конкуренты внутри компании.

PS: а сервис и правда получился отличный, кто о нем знает, сидят там часами.
👍122