[Развернуть k8s локально]
Я тут познакомился с Minikube. С помощью него можно у себя на ноутбуке развернуть k8s.
Очень удобная штука. Позволяет вести локально разработку приложений под кубер, все тестировать и отлаживать. И только потом выполнять деплой на боевой кластер.
Установил на два ноутбука. Без каких-либо проблем сразу завелся и на mac и на windows с wsl. Установка максимально простая и можно смело идти по оф. гайду.
P.s. если установлен docker, то установку гипервизора можно пропустить. Достаточно установить kubectl и сам minikube.
После выполнить команду
Ссылки:
https://kubernetes.io/ru/docs/tasks/tools/install-minikube/
Я тут познакомился с Minikube. С помощью него можно у себя на ноутбуке развернуть k8s.
Очень удобная штука. Позволяет вести локально разработку приложений под кубер, все тестировать и отлаживать. И только потом выполнять деплой на боевой кластер.
Установил на два ноутбука. Без каких-либо проблем сразу завелся и на mac и на windows с wsl. Установка максимально простая и можно смело идти по оф. гайду.
P.s. если установлен docker, то установку гипервизора можно пропустить. Достаточно установить kubectl и сам minikube.
После выполнить команду
minikube start.Ссылки:
https://kubernetes.io/ru/docs/tasks/tools/install-minikube/
👍5
[Горячая перезагрузка в k8s]
Оказывается, можно разрабатывать приложения под кубер без постоянных пересборок образов.
Удобно. Пишешь код - сохраняешь файл - и через секунду изменения уже работают в поде.
Создал репозиторий с рабочим примером приложения на Python. Для тех кто хочет попробовать - Добро пожаловать).
В
Ссылки:
https://github.com/avagners/k8s_local_dev
Оказывается, можно разрабатывать приложения под кубер без постоянных пересборок образов.
Удобно. Пишешь код - сохраняешь файл - и через секунду изменения уже работают в поде.
Создал репозиторий с рабочим примером приложения на Python. Для тех кто хочет попробовать - Добро пожаловать).
В
README.md пошаговый гайд.Ссылки:
https://github.com/avagners/k8s_local_dev
👍3❤1👀1
[AI. Нужен совет]
Коллеги, кто-то из вас использует в своей работе AI? (думаю уже все)
Как и что? Какие модели используете? Какие задачи решаете?
Поделитесь, пож-та, рабочими инструментами.
Если есть ссылки на гайды как все настроить, буду особо благодарен.
Интересна именно интеграция с vscode.
———
P.s. на работе внутри контура развернуты различные LLM-ки. Можно работать через привычный чат в браузере. Можно также интегрировать в vscode с помощью, например, расширения continue.
Я как раз на этом этапе освоения. Можно сказать практически перестал пользоваться чатами. Пока удается решать небольшие задачи с переменным успехом)
Коллеги, кто-то из вас использует в своей работе AI? (думаю уже все)
Как и что? Какие модели используете? Какие задачи решаете?
Поделитесь, пож-та, рабочими инструментами.
Если есть ссылки на гайды как все настроить, буду особо благодарен.
Интересна именно интеграция с vscode.
———
P.s. на работе внутри контура развернуты различные LLM-ки. Можно работать через привычный чат в браузере. Можно также интегрировать в vscode с помощью, например, расширения continue.
Я как раз на этом этапе освоения. Можно сказать практически перестал пользоваться чатами. Пока удается решать небольшие задачи с переменным успехом)
[Полезное]
Вот тут можно посмотреть характеристики всех популярных моделей.
Например, можно отсортировать по размеру контекста.
На сегодня топ-1 занимает Llama 4 Scout с 10млн токенов.
Очень крутой и полезный портал.
https://artificialanalysis.ai/leaderboards/models
Вот тут можно посмотреть характеристики всех популярных моделей.
Например, можно отсортировать по размеру контекста.
На сегодня топ-1 занимает Llama 4 Scout с 10млн токенов.
Очень крутой и полезный портал.
https://artificialanalysis.ai/leaderboards/models
artificialanalysis.ai
LLM Leaderboard - Comparison of over 100 AI models from OpenAI, Google, DeepSeek & others
Comparison and ranking the performance of over 100 AI models (LLMs) across key metrics including intelligence, price, performance and speed (output speed - tokens per second & latency - TTFT), context window & others.
👍4
[Первый запрос к LLM через API]
Использовал Mistral. Они предоставляют бесплатный тариф для экспериментов.
Также, настроил kilo code. Все работает согласно ожиданиям.
Использовал Mistral. Они предоставляют бесплатный тариф для экспериментов.
Также, настроил kilo code. Все работает согласно ожиданиям.
👍2
[Познакомился с OpenRouter]
Что такое OpenRouter?
Это API‑платформа для единого доступа к многим большим языковым моделям (LLM) от разных провайдеров (OpenAI, Anthropic, Google, Meta, Mistral и др.) через один ключ и один эндпоинт. Это упрощает разработку, снижает вероятность vendor lock‑in и даёт выбор по качеству, цене и производительности.
На платформе большой выбор LLM (в том числе бесплатных).
Вот мой первый ответ через API (модель: minimax/minimax-m2:free):
Что такое OpenRouter?
Это API‑платформа для единого доступа к многим большим языковым моделям (LLM) от разных провайдеров (OpenAI, Anthropic, Google, Meta, Mistral и др.) через один ключ и один эндпоинт. Это упрощает разработку, снижает вероятность vendor lock‑in и даёт выбор по качеству, цене и производительности.
На платформе большой выбор LLM (в том числе бесплатных).
Вот мой первый ответ через API (модель: minimax/minimax-m2:free):
Привет! 🎉 От всей души поздравляю с первым запросом к LLM через API OpenRouter! Это классный шаг, и здорово, что ты начинаешь исследовать возможности современных языковых моделей.
Пусть твоя работа с API будет продуктивной и увлекательной! Если появятся вопросы по использованию OpenRouter или нужна помощь с настройкой/запросами — всегда обращайся. Удачи в проектах! 🚀
👀5👍2🔥1
[🚀 Я только что создал своего первого локального чат-бота]
Я реализовал простого чат-бота на
Сделал так, чтобы использовалась история сообщений для сохранения контекста.
Все работает локально на ноутбуке)
Использовал модель
Я реализовал простого чат-бота на
llama3.2:3b с помощью langchain_ollama! 🎉 Сделал так, чтобы использовалась история сообщений для сохранения контекста.
LangChain — это открытый фреймворк для разработки приложений на основе крупных языковых моделей (LLM, Large Language Models). Он помогает связать мощь современных ИИ-моделей (например, Llama, GPT, Mistral) с внешними источниками данных, инструментами и логикой, чтобы создавать сложные, контекстно-зависимые приложения.
Все работает локально на ноутбуке)
Использовал модель
llama3.2:3b> ollama show llama3.2:3b
Model
architecture llama
parameters 3.2B
context length 131072
embedding length 3072
quantization Q4_K_M
🔥6👀2
[Офигеваю с того, как расширяется функционал для ИИ-агентов]
Раньше думал, что LLM просто всё знает из своих данных. Оказалось, можно подключить её к интернету через готовые тулы!
Tavily - это поисковик для ИИ, который ищет по надежным источникам и отдает факты модели. А ещё есть тулы для Википедии и даже Python REPL, чтобы ИИ мог выполнять код.
Выглядит как магия, но под капотом - просто инструменты, которые делают агента функциональнее.
P.s.
у Tavily есть 1000 запросов в месяц бесплатно.
——
Ссылки:
https://www.tavily.com/
Раньше думал, что LLM просто всё знает из своих данных. Оказалось, можно подключить её к интернету через готовые тулы!
Tavily - это поисковик для ИИ, который ищет по надежным источникам и отдает факты модели. А ещё есть тулы для Википедии и даже Python REPL, чтобы ИИ мог выполнять код.
Выглядит как магия, но под капотом - просто инструменты, которые делают агента функциональнее.
P.s.
у Tavily есть 1000 запросов в месяц бесплатно.
——
Ссылки:
https://www.tavily.com/
🔥4❤2
[Интеграция ИИ и Википедии]
Попробовал тул
Проверил работу 2-х модей: "mistral-large-latest" и локальной "llama3.2:3b".
Была задача ответить на 2 вопроса:
"Сколько лет прошло с появления передачи Топ Гир в эфире? Кто её ведущий сегодня?"
Обе модели отправили запросы в Википедию, получили по 3 страницы на изучение. И на основании полученных данных дали ответ.
Мистраль дала верный ответ:
llama3.2:3b дала абсолютно неверный ответ (предполагаю из-за плохой поддержки русского языка и малого размера контекста)
Для llama3.2:3b задал вопрос на английском языке и указал искать в английской Википедии.
Ответ получил связанный с Top Gear, но не тот, что ожидалось.
Проверил Википедию и понял, что ру-версия страницы имеет более полную информацию. В английской версии информация о передачи разбита на несколько страниц.
Решил проверить работу с en-версией Википедии модель от Мистраль.
Вот результат
Модель дала более развернутый ответ по сравнению с локальной моделью с некоторыми важными комментариями.
P.s. в комментариях скинул логи работы агента. Можно увидеть какие страницы для анализа получил агент из ру-Википедии.
Попробовал тул
WikipediaQueryRun, с помощью которого ИИ-агент может ходить в Википедию и получить актуальную информацию.Проверил работу 2-х модей: "mistral-large-latest" и локальной "llama3.2:3b".
Была задача ответить на 2 вопроса:
"Сколько лет прошло с появления передачи Топ Гир в эфире? Кто её ведущий сегодня?"
Обе модели отправили запросы в Википедию, получили по 3 страницы на изучение. И на основании полученных данных дали ответ.
Мистраль дала верный ответ:
С момента первого выхода передачи *Топ Гир* в 1977 году прошло **48 лет**.
Что касается ведущих, то на данный момент производство британской версии *Top Gear* приостановлено на неопределённый срок. Последние известные ведущие включали Криса Харриса, Фредди Флинтоффа и Рори Рида. Однако после аварии Фредди Флинтоффа в 2023 году съёмки были приостановлены, и будущее шоу остаётся неопределённым.
llama3.2:3b дала абсолютно неверный ответ (предполагаю из-за плохой поддержки русского языка и малого размера контекста)
Сколько лет прошло с появления передачи Топ Гир в эфире - 13 лет.
Кто ведет передачу Топ Гир сегодня? - Ведущим передачи Топ Гир является Дарья Поварникова.
Для llama3.2:3b задал вопрос на английском языке и указал искать в английской Википедии.
Ответ получил связанный с Top Gear, но не тот, что ожидалось.
The Top Gear program first appeared on the air in 2002. As of 2024, the current presenter is Paddy McGuinness, along with Freddie Flintoff and Chris Harris.
Проверил Википедию и понял, что ру-версия страницы имеет более полную информацию. В английской версии информация о передачи разбита на несколько страниц.
Решил проверить работу с en-версией Википедии модель от Мистраль.
Вот результат
The original *Top Gear* program first appeared on TV in **1977**, but the modern and most well-known version of the show premiered on **20 October 2002**.
Calculating the years since 2002:
**2025 - 2002 = 23 years**
So, **23 years** have passed since the relaunch of *Top Gear* in 2002.
---
### Current Presenters (as of the latest available information):
The most recent presenting lineup of the British *Top Gear* (before the show was paused) included:
- **Chris Harris**
- **Andrew "Freddie" Flintoff** (though he left after an accident in 2023)
- **Paddy McGuinness**
However, the BBC announced that *Top Gear* would not return for the "foreseeable future" after Flintoff's departure. If there are updates or changes, I can check for the latest information.
Модель дала более развернутый ответ по сравнению с локальной моделью с некоторыми важными комментариями.
P.s. в комментариях скинул логи работы агента. Можно увидеть какие страницы для анализа получил агент из ру-Википедии.
👍3
[RAG]
Познакомился с Retrieval-Augmented Generation (RAG).
Это технология, которая сочетает большие языковые модели (LLM) с внешними источниками информации для создания более точных и актуальных ответов. Вместо того чтобы полагаться только на данные, на которых была обучена модель, RAG сначала ищет релевантную информацию во внешних базах знаний, а затем использует её для генерации ответа.
Это что-то типа того, что писал ранее про тулы. Мы в модель передаем актуальную информацию из внешнего источника (например, Википедия или страницы из Интернета).
Ключевые преимущества
1) Актуальность:
RAG позволяет получать ответы на основе самой свежей информации, даже если она была добавлена в базу данных после обучения модели.
2) Точность:
Это снижает вероятность выдумывания ответов (галлюцинаций), поскольку модель опирается на проверенные внешние источники.
3) Специализированные знания:
RAG подходит для решения задач, требующих знаний в конкретной области, так как можно подключить LLM к специализированным базам знаний.
P.s.
Успел сегодня познакомиться с векторным поиском.
О векторах, векторизации, эмбеддингах и векторных базах данных напишу позже.
Пока успел реализовать простой пример с 2-я документами и 1 запросом, используя
Более релевантный документ имеет большее значение:
Познакомился с Retrieval-Augmented Generation (RAG).
Это технология, которая сочетает большие языковые модели (LLM) с внешними источниками информации для создания более точных и актуальных ответов. Вместо того чтобы полагаться только на данные, на которых была обучена модель, RAG сначала ищет релевантную информацию во внешних базах знаний, а затем использует её для генерации ответа.
Это что-то типа того, что писал ранее про тулы. Мы в модель передаем актуальную информацию из внешнего источника (например, Википедия или страницы из Интернета).
Ключевые преимущества
1) Актуальность:
RAG позволяет получать ответы на основе самой свежей информации, даже если она была добавлена в базу данных после обучения модели.
2) Точность:
Это снижает вероятность выдумывания ответов (галлюцинаций), поскольку модель опирается на проверенные внешние источники.
3) Специализированные знания:
RAG подходит для решения задач, требующих знаний в конкретной области, так как можно подключить LLM к специализированным базам знаний.
P.s.
Успел сегодня познакомиться с векторным поиском.
О векторах, векторизации, эмбеддингах и векторных базах данных напишу позже.
Пока успел реализовать простой пример с 2-я документами и 1 запросом, используя
langchain_mistralai, model="mistral-embed" и langchain_core.documents.Более релевантный документ имеет большее значение:
Relevant document score: 0.9297172135511551
Irrelevant document score: 0.7505634502492585
👍6
[Мониторинг AI-приложений]
Познакомился с open-source решением Arize Phoenix.
Инструмент предназначен для экспериментов, оценки и устранения неполадок в приложениях ИИ и LLM.
Для примера сделал небольшой RAG, который получает данные из PDF. Делит текст из документа на чанки по 600 символов.
Каждый чанк преобразуется в векторные представления (эмбендинги), которые сохраняются в векторное хранилище в оперативной памяти. После создается retriever, который получает 5 наиболее релевантных фрагмента из документа. Далее эти фрагменты передаются в качестве контекста в LLM.
Инструмент мне понравился. Легкая установка. Приятный и современный UI.
Множество вкладок и метрик по каждому шагу работы приложения.
———
Задал вопрос. Получил точный ответ из книги.
На скрине видно какие чанки из книги были выбраны для контекста LLM. В том числе фрагмент, который содержит точный ответ на вопрос.
Прикольно)
———
Ссылка на документацию:
https://arize.com/docs/phoenix
Познакомился с open-source решением Arize Phoenix.
Инструмент предназначен для экспериментов, оценки и устранения неполадок в приложениях ИИ и LLM.
Для примера сделал небольшой RAG, который получает данные из PDF. Делит текст из документа на чанки по 600 символов.
Каждый чанк преобразуется в векторные представления (эмбендинги), которые сохраняются в векторное хранилище в оперативной памяти. После создается retriever, который получает 5 наиболее релевантных фрагмента из документа. Далее эти фрагменты передаются в качестве контекста в LLM.
Инструмент мне понравился. Легкая установка. Приятный и современный UI.
Множество вкладок и метрик по каждому шагу работы приложения.
———
Задал вопрос. Получил точный ответ из книги.
На скрине видно какие чанки из книги были выбраны для контекста LLM. В том числе фрагмент, который содержит точный ответ на вопрос.
Прикольно)
———
Ссылка на документацию:
https://arize.com/docs/phoenix
👍5🔥2
[Фреймворк Chainlit]
Сегодня познакомился с фреймворком Chainlit.
Это фреймворк, разработанный специально для создания приложений разговорного ИИ, то есть в формате чата.
Фреймворк понравился.
Довольно легко сделать многопользовательскую историю.
Легко кастомизировать UI, добавлять кнопки действий, добавлять настройки для конкретного чата пользователя (например, предложить выбор модели и не только), есть система аутентификации пользователей.
———
Ссылка на документацию:
https://docs.chainlit.io/get-started/overview
Сегодня познакомился с фреймворком Chainlit.
Это фреймворк, разработанный специально для создания приложений разговорного ИИ, то есть в формате чата.
Фреймворк понравился.
Довольно легко сделать многопользовательскую историю.
Легко кастомизировать UI, добавлять кнопки действий, добавлять настройки для конкретного чата пользователя (например, предложить выбор модели и не только), есть система аутентификации пользователей.
———
Ссылка на документацию:
https://docs.chainlit.io/get-started/overview
👍3👀1
[Async vs Sync. Locust]
Мои тесты показали:
- RPS: 220 против 77 (разница в 2,85 раз)
- Response Time: 560ms против 4900ms (разница в 8,75 раз)
(см. скрин графиков)
Это наглядное сравнения производительности синхронного и асинхронного кода.
Тестировал 1 эндпоинт написанный на FastAPI в 2-х вариациях.
Проверял нагрузку на 500 юзеров.
Для моделирования нагрузки использовал Locust.
Это библиотека для симуляции нагрузки на сервер с минималистичным web-ui.
Прикольно)
Мои тесты показали:
- RPS: 220 против 77 (разница в 2,85 раз)
- Response Time: 560ms против 4900ms (разница в 8,75 раз)
(см. скрин графиков)
Это наглядное сравнения производительности синхронного и асинхронного кода.
Тестировал 1 эндпоинт написанный на FastAPI в 2-х вариациях.
Проверял нагрузку на 500 юзеров.
Для моделирования нагрузки использовал Locust.
Это библиотека для симуляции нагрузки на сервер с минималистичным web-ui.
Прикольно)
👍5🔥1