Всем привет, на выходных пилил RAG-систему, и при векторизации данных для векторной базы данных Qdrant наткнулся на проблему плохой подготовки данных для векторизации, поискал в интернете, что-то толкового ничего не нашел, платные не рассматривал. Решил свой написать)
В итоге родился пакет ollama_embedder — CLI-инструмент на Dart для создания векторных представлений текста с помощью локального Ollama-сервера.
✨ Что умеет:
🔹 Генерирует эмбеддинги для файлов и целых директорий (рекурсивно).
🔹 Работает с локальным Ollama — проверяет установку, доступность сервера и наличие модели. Для векторизации по умолчанию использует модель nomic-embed-text.
🔹 Два режима предобработки: technical — сохраняет код как есть и textual — фокусируется на тексте, код заменяется на [CODE].
🔹 Умная очистка — удаляет HTML-шум, cookie-баннеры, навигацию, футеры, эмодзи.
🔹 Умное разбиение на чанки:
• Автоматически определяет оптимальный размер (до 1500 символов)
• Создает перекрытия между чанками (200 символов) для сохранения контекста (как же я задолбался это делать 🤯)
• Документы до 3000 символов остаются одним чанком
• Разбиение по границам параграфов, предложений и слов
• Автоматическая маркировка секций (intro, code, lists, urls, auto)
🔹 Надежные запросы — автоматические повторы при ошибках Ollama
🔹 Гибкая настройка — URL сервера, модель, таймауты, размер файлов, пути ввода/вывода
🔹 Структурированный итоговый JSON — готов для векторных БД и RAG-систем
🔹 Покрытие тестами — 78% покрытия кода
Пилил все выходные, но в итоге добился классной подготовки текста и кода для векторизации и, собственно, саму векторизацию.
Так что, если кому интересно про векторизацию данных, ставьте лайк, запилю видео, как оно работает.
Итоговый point в Qdrant на скрине...
Пример чанка:
В итоге родился пакет ollama_embedder — CLI-инструмент на Dart для создания векторных представлений текста с помощью локального Ollama-сервера.
✨ Что умеет:
🔹 Генерирует эмбеддинги для файлов и целых директорий (рекурсивно).
🔹 Работает с локальным Ollama — проверяет установку, доступность сервера и наличие модели. Для векторизации по умолчанию использует модель nomic-embed-text.
🔹 Два режима предобработки: technical — сохраняет код как есть и textual — фокусируется на тексте, код заменяется на [CODE].
🔹 Умная очистка — удаляет HTML-шум, cookie-баннеры, навигацию, футеры, эмодзи.
🔹 Умное разбиение на чанки:
• Автоматически определяет оптимальный размер (до 1500 символов)
• Создает перекрытия между чанками (200 символов) для сохранения контекста (как же я задолбался это делать 🤯)
• Документы до 3000 символов остаются одним чанком
• Разбиение по границам параграфов, предложений и слов
• Автоматическая маркировка секций (intro, code, lists, urls, auto)
🔹 Надежные запросы — автоматические повторы при ошибках Ollama
🔹 Гибкая настройка — URL сервера, модель, таймауты, размер файлов, пути ввода/вывода
🔹 Структурированный итоговый JSON — готов для векторных БД и RAG-систем
🔹 Покрытие тестами — 78% покрытия кода
Пилил все выходные, но в итоге добился классной подготовки текста и кода для векторизации и, собственно, саму векторизацию.
Так что, если кому интересно про векторизацию данных, ставьте лайк, запилю видео, как оно работает.
Итоговый point в Qdrant на скрине...
Пример чанка:
[
{
"doc_id": "source/test.md",
"chunk_id": 0,
"clean_content": "Cleaned single-line chunk text without line breaks...",
"vector": [0.123, 0.456, "..."],
"metadata": {
"source": "source/test.md",
"section": "full_doc",
"type": "text",
"created_at": "2025-01-01T12:00:00.000Z"
}
}
]
🔥26❤5
🚀 Осваиваем Generative AI с Microsoft!
Нашел отличный бесплатный курс от Microsoft Cloud Advocates — Generative AI for Beginners.
📚 21 урок, в каждом — разбор ключевых концепций генеративного ИИ и практические примеры кода на Python и TypeScript:
✅ Как работают LLM и как выбрать подходящую модель
✅ Prompt Engineering (от основ до продвинутых техник)
✅ Создание чат-ботов, генераторов текста и изображений
✅ RAG, векторные базы данных, функциональные вызовы
✅ Безопасность, UX, LLMOps и даже open-source модели (Hugging Face, Mistral, Meta)
💡 Есть видео, код, рекомендации и даже Discord-сообщество для общения и поддержки!
➕ Стартапы могут получить бесплатные кредиты на OpenAI и Azure через Microsoft for Startups Founders Hub.
#generativeai #llm #rag #course #repo
Нашел отличный бесплатный курс от Microsoft Cloud Advocates — Generative AI for Beginners.
📚 21 урок, в каждом — разбор ключевых концепций генеративного ИИ и практические примеры кода на Python и TypeScript:
💡 Есть видео, код, рекомендации и даже Discord-сообщество для общения и поддержки!
➕ Стартапы могут получить бесплатные кредиты на OpenAI и Azure через Microsoft for Startups Founders Hub.
#generativeai #llm #rag #course #repo
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI
21 Lessons, Get Started Building with Generative AI - GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI
👍7
Хорошее, аналитическое обсуждение с HR-специалистом. Со многим согласен. 👍, особенно с инженерией внешнего мира.
https://vkvideo.ru/video-191115425_456239660?t=1h16m42s
https://vkvideo.ru/video-191115425_456239660?t=1h16m42s
VK Видео
Сокращения, AI и рынок СНГ: кто останется востребованным в IT
Рынок IT стремительно меняется — и старые правила больше не работают. В этом эфире Android Broadcast я пригласил сильного HR-эксперта, который более 15 лет работает с наймом в IT и хорошо понимает, как сегодня выглядит рынок в СНГ и за его пределами. Мы подробно…
👍4❤3🥱1
Тут Стас поделился опытом по созданию стартапа, занимательно. Я думаю многим ребятам будет интересно 😎
https://youtu.be/qxUtf64dOj4
https://youtu.be/qxUtf64dOj4
👍13❤2👎2
С наступающим Новым годом, друзья!
Этот год для меня был очень тяжелым...
Многое пришлось пережить и идти дальше. Но, как бы банально это ни звучало, когда есть семья и друзья, пережить многие невзгоды намного проще.
Мой вам совет на Новый год. Цените родителей, семью, друзей, которые с вами идут по жизни. Все остальное — это фасад, за которым пустота. Не бойтесь начинать что-то новое. Самое страшное в жизни — это сожаление, что что-то не сделал, уберите навсегда из вашей жизни частицу «БЫ» — вот если бы... Не было никаких других вариантов, что было, то было, другого быть не могло. Идите вперед к своей мечте, становитесь лучше с каждым днем.
И помните главное: The future belongs to those who believe in the beauty of their dreams.
Этот год для меня был очень тяжелым...
Многое пришлось пережить и идти дальше. Но, как бы банально это ни звучало, когда есть семья и друзья, пережить многие невзгоды намного проще.
Мой вам совет на Новый год. Цените родителей, семью, друзей, которые с вами идут по жизни. Все остальное — это фасад, за которым пустота. Не бойтесь начинать что-то новое. Самое страшное в жизни — это сожаление, что что-то не сделал, уберите навсегда из вашей жизни частицу «БЫ» — вот если бы... Не было никаких других вариантов, что было, то было, другого быть не могло. Идите вперед к своей мечте, становитесь лучше с каждым днем.
И помните главное: The future belongs to those who believe in the beauty of their dreams.
❤29🔥10
https://sub-agents.directory/
Антропик выкатила более 200 различных инструкций для суб-агентов.
Можете глянуть промт для Flutter.
https://sub-agents.directory/flutter-expert
Антропик выкатила более 200 различных инструкций для суб-агентов.
Можете глянуть промт для Flutter.
https://sub-agents.directory/flutter-expert
Sub-Agents Directory
Sub-Agents Directory - Claude Code Prompts & MCP Servers
Browse 200+ Claude Code sub-agent prompts and MCP servers. Copy-paste ready prompts for React, Python, TypeScript, and more.
🔥6❤1
Совсем недавно вышел инструмент redstone_dart, с помощью которого можно писать моды для Minecraft. То есть вы можете писать моды не на Java, а на Dart, и самая киллер-фича в том, что изменения вносятся моментально в реальном времени, а не после перезагрузки мода. Я думаю, многие заработают на данном фреймворке))
Модееры — забирайте)) https://github.com/Norbert515/redstone_dart
Модееры — забирайте)) https://github.com/Norbert515/redstone_dart
GitHub
GitHub - Norbert515/redstone_dart: Write Minecraft mods in Dart with hot reload
Write Minecraft mods in Dart with hot reload. Contribute to Norbert515/redstone_dart development by creating an account on GitHub.
🔥20❤4😱4
Очень мощный репозиторий с готовыми навыками для агентов.
Superpowers - это полный рабочий процесс разработки программного обеспечения, основанный на наборе составных "навыков" и некоторых начальных инструкциях, которые помогут вашему агенту их использовать.
SKILLS:
1. Мозговая атака: уточнение идей и сохранение проекта
2. Использование-git-worktrees: создание изолированного рабочего пространства
3. Письменные планы: разбивка работы на задания
4. Разработка, осуществляемая субагентами: отправка субагентов для выполнения задач
5. Разработка на основе тестирования: КРАСНО-ЗЕЛЕНЫЙ РЕФАКТОРИНГ
6. Запрашивающий проверку кода: проверка соответствия плану
7. Завершающий этап разработки: проверка тестов и принятие решений о слиянии
Забираем, и не благодарим 😁
P.S. Кто не знает, что такое SKILLS, читаем тут
https://claude.com/blog/skills?ref=testingcatalog.com
Superpowers - это полный рабочий процесс разработки программного обеспечения, основанный на наборе составных "навыков" и некоторых начальных инструкциях, которые помогут вашему агенту их использовать.
SKILLS:
1. Мозговая атака: уточнение идей и сохранение проекта
2. Использование-git-worktrees: создание изолированного рабочего пространства
3. Письменные планы: разбивка работы на задания
4. Разработка, осуществляемая субагентами: отправка субагентов для выполнения задач
5. Разработка на основе тестирования: КРАСНО-ЗЕЛЕНЫЙ РЕФАКТОРИНГ
6. Запрашивающий проверку кода: проверка соответствия плану
7. Завершающий этап разработки: проверка тестов и принятие решений о слиянии
Забираем, и не благодарим 😁
P.S. Кто не знает, что такое SKILLS, читаем тут
https://claude.com/blog/skills?ref=testingcatalog.com
Claude
Introducing Agent Skills | Claude
Claude can now use Skills to improve how it performs specific tasks. Skills are folders that include instructions, noscripts, and resources that Claude can load when needed. Claude will only access a skill when it's relevant to the task at hand.
❤4🔥3
Юрий Петров | Flutter
Очень мощный репозиторий с готовыми навыками для агентов. Superpowers - это полный рабочий процесс разработки программного обеспечения, основанный на наборе составных "навыков" и некоторых начальных инструкциях, которые помогут вашему агенту их использовать.…
Ну и можете наш SKILL Flutter разработчика использовать) Чтобы не напортачить в коде, агент за вами будет присматривать.
https://github.com/smmarty/friflex_flutter_starter/tree/main/.agent/skills/flutter_dev
https://github.com/smmarty/friflex_flutter_starter/tree/main/.agent/skills/flutter_dev
GitHub
friflex_flutter_starter/.agent/skills/flutter_dev at main · smmarty/friflex_flutter_starter
Friflex Flutter Starter - Корпоративный шаблон. Contribute to smmarty/friflex_flutter_starter development by creating an account on GitHub.
👍3🙏1