NEW BOT Телеграм, страница - 301355226

Data Portal | DS & ML

8.84K subscribers

187 photos

74 videos

4 files

249 links

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | DS & ML

8.84K subscribers

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

MCP-серверы могут предоставлять богатые UI-возможности

MCP-серверы в Claude/Cursor пока не предлагают никакого UI, например, графики. Это просто текст/JSON.

mcp-ui позволяет добавлять в вывод интерактивные веб-компоненты, которые может отрендерить MCP-клиент.

Забираем с GitHub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.55K views11:59

Data Portal | DS & ML

Годный проект с GitHub, который предоставляет единое sandbox-окружение для разработки AI-агентов. Он объединяет браузер, терминал, файловую систему, VS Code и Jupyter в одном Docker-контейнере, готовый к использованию "из коробки".

Все компоненты работают с общей файловой системой: файл, скачанный в браузере, сразу доступен в терминале или коде.

В контейнер также предустановлены несколько MCP-серверов, благодаря чему AI Agent может напрямую вызывать различные возможности без дополнительной сложной настройки окружения.

Есть поддержка Chrome DevTools Protocol для программного управления браузером, а также встроенный порт-форвардинг и мониторинг сервисов для удобного предпросмотра и отладки веб-приложений.

Предоставляются SDK для Python, TypeScript и Golang, запуск возможен в один клик через Docker.

GitHub: AIO Sandbox

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2👎1

2.71K views05:42

Data Portal | DS & ML

Генеративные vs. дискриминативные модели в ML

(популярный вопрос на собеседованиях по ML)

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍1

2.63K views09:27

Data Portal | DS & ML

Эта статья Себастьяна Рашки пошагово проводит через реализацию self-attention с нуля, далее расширяя разбор до multi-head и cross-attention, с понятными объяснениями и примерами кода на PyTorch.

Обязательное чтение, если хотите глубоко разобраться в трансформерах. Читайте здесь

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

2.74K views16:07

Data Portal | DS & ML

Forwarded from IT Portal

Стенфорд запустил бесплатный курс по Deep Learning, который ведёт основатель Coursera — Эндрю Ын

Программа охватывает всё: от базовых принципов нейросетей до LLM, RL, агентов, RAG и мультимодальных моделей

Первая лекция здесь. Материалы и расписание здесь

@IT_Portal

❤11👍5🤔1

2.3K views05:46

Data Portal | DS & ML

Когда мы говорим про RAG, обычно думают так: проиндексировал документ → потом извлёк тот же самый документ.

Но индексация ≠ извлечение.

Данные, которые ты индексируешь, не обязаны быть теми же данными, которые ты подаёшь в LLM во время генерации.

Вот 4 умных способа индексировать данные:

1) Chunk Indexing (индексация чанков)

🔹Самый распространённый подход.

🔹Документ разбивается на чанки, затем каждый чанк преобразуется в эмбеддинг и сохраняется в векторную БД.

🔹При запросе извлекаются ближайшие чанки по косинусному сходству (или другому метрике).

Просто и эффективно, но слишком большие или «шумные» чанки могут снизить точность.

2) Sub-chunk Indexing (индексация под-чанков)

🔹Берём исходные чанки и дополнительно разбиваем их на более мелкие под-чанки.

🔹Индексируем именно эти мелкие фрагменты.

🔹При извлечении всё ещё возвращаем более крупный чанк для контекста.

Этот подход полезен, если документ содержит несколько разных концепций в одном разделе - повышается шанс точного совпадения с запросом.

3) Query Indexing (индексация по запросам)

🔹Вместо того чтобы индексировать сырой текст, генерируются гипотетические вопросы, на которые, по мнению LLM, данный чанк может ответить.

🔹Эти вопросы эмбеддятся и сохраняются.

🔹При реальном запросе пользователя поиск происходит по этим «синтетическим» вопросам.

🔹Похожая идея используется в HyDE, но там сопоставляется гипотетический ответ с реальными чанками.

Отличный вариант для систем вопрос–ответ (QA), поскольку он сокращает семантический разрыв между пользовательским запросом и индексированными данными.

4) Summary Indexing (индексация по суммаризации)

🔹Используется LLM, чтобы сгенерировать краткое семантическое представление (summary) для каждого чанка.

🔹В индекс попадает именно summary, а не исходный текст.

🔹При извлечении возвращается оригинальный чанк для контекста.

Особенно эффективно для плотных или структурированных данных (например, CSV или таблиц), где эмбеддинги сырого текста не дают осмысленных результатов.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3

2.33K views13:47

Data Portal | DS & ML

3 ключевые свойства следа матрицы в Deep Learning

1. L2-регуляризация: Квадрат нормы Фробениуса, ||W||² = tr(WᵀW), используется для штрафования больших весов и предотвращения переобучения.

2. Вычисление градиентов: Циклическое свойство следа, tr(AB) = tr(BA), упрощает вывод матричных производных при обратном распространении ошибки (backpropagation).

3. Инвариантность: След инвариантен к замене базиса, tr(P⁻¹AP) = tr(A); это свойство используется при поиске нового, более удобного базиса в PCA.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1

2.71K views17:47

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

На GitHub есть репозиторий free-programming-books, где собрано более 4000 бесплатных книг, 2000 курсов и других полезных ресурсов по программированию

Для удобства поиска можно использовать этот инструмент

Этот проект - яркий пример силы опенсорс сообщества, который из клона списка со StackOverflow стал одним из самых популярных на GitHub ✌️

🔸

Русскоязычная версия ресурсов

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍2🤔1

2.82K views09:47

Data Portal | DS & ML

Эндрю Ын анонсировал новый бесплатный курс: Agentic AI

Здесь учат собирать LLM-агентов с нуля, без фреймворков, на чистом Python. Всё чётко, с разбором того, как устроены агенты под капотом.

Что внутри:
- Reflection — агент сам анализирует свои ответы и улучшает их;
- Tool use — учим LLM вызывать функции: искать в вебе, слать письма, писать код;
- Planning — разбиваем задачи на подзадачи и строим план выполнения;
- Multi-agent collaboration — создаём несколько специализированных агентов, которые работают вместе, как команда.

Плюс отдельный блок про evals и анализ ошибок

В итоге соберёте исследовательского агента, который сам ищет, анализирует и пишет отчёты.

Проходится в своём темпе, подходит всем, кто знаком с Python и немного с LLM. Забираем здесь

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍1👀1

2.9K views08:19

Data Portal | DS & ML

Я никогда не использую метод describe из Pandas

Skimpy — гораздо более удобная (и опенсорс) альтернатива, которая предоставляет расширенное описание данных: форму датасета, типы данных по колонкам, статистику, графики распределений и т.д.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🤔5👍3

2.82K views06:57

Data Portal | DS & ML

Один из лучших ресурсов, если хочешь выучить SQL на практике и с нуля

👍

Это интерактивные уроки прямо в браузере, без регистрации и бесплатно. Всё подается шаг за шагом: от базовых запросов до более сложных тем, таких как JOIN и агрегации

Весь процесс строится на упражнениях, так что теорию сразу применяешь на практике

Всем, кто хочет научиться SQL с нуля, рекомендую заценить: https://sqlbolt.com/

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥1🤔1

2.94K views05:50

Data Portal | DS & ML

Бесплатный курс по изучению концепций глубокого обучения

Концептуальное и архитектурное путешествие по моделям компьютерного зрения в глубоком обучении, прослеживающее эволюцию от LeNet и AlexNet до ResNet, EfficientNet и Vision Transformers.

Курс объясняет принципы проектирования, лежащие в основе skip-соединений, bottleneck-блоков, сохранения тождества, компромиссов глубины/ширины и attention.

Каждая глава сочетает наглядные иллюстрации, исторический контекст и сравнения «бок о бок», чтобы показать, почему архитектуры выглядят именно так и как они обрабатывают информацию.

Забираем на YouTube

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🤔1

3.37K views12:12

Data Portal | DS & ML

Находка: репозиторий, где куча туториалов по созданию AI-агентов, готовых к продакшену и с реальными кейсами использования

Весь код в открытом доступе и есть объяснение, как их развернуть. GitHub: agents-towards-production

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

3.7K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Наконец-то в Python 3.14 можно отключить GIL

Это большое событие, потому что раньше, даже если ты писал многопоточный код, Python всё равно выполнял только один поток за раз, без какого-либо прироста производительности.

А теперь Python действительно может выполнять твой многопоточный код параллельно.

И uv полностью это поддерживает!

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18👍2🔥1

3.84K views06:25

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

AI Engineering Hub

Комплексный ресурс для изучения и разработки решений на базе AI. Здесь вы найдёте:

- 93+ продакшн-готовых проектов для любого уровня
- подробные туториалы по LLM, RAG, агентам и многому другому
- реальные примеры применения AI-агентов
- готовые примеры для внедрения, адаптации и масштабирования в ваших проектах

Забираем на GitHub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🔥1

3.86K views09:20

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Все почему-то игнорируют эту новую OCR-модель. Chandra от Datalab заняла топовые позиции в независимых бенчмарках и обошла предыдущего лидера dots-ocr.

Поддерживает более 40 языков

Без проблем обрабатывает текст, таблицы и формулы

Я протестировал её на рукописном письме Рамануджана 1913 года.

Полностью опенсорс: GitHub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🔥5

2.8K views11:39

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

RAG vs. CAG, понятное объяснение

RAG хорош, но у него есть серьёзная проблема

Каждый запрос бьёт по векторной БД. Даже ради статической информации, которая не менялась месяцами.

Это дорого, медленно и лишнее.

Cache-Augmented Generation (CAG) решает эту проблему, позволяя модели «помнить» статическую информацию прямо в своей key-value (KV) памяти.

Ещё лучше? Можно комбинировать RAG и CAG и получить лучшее из обоих подходов.

Как это работает:

RAG + CAG делит вашу базу знаний на два слоя:

↳ Статические данные (политики, документация) один раз кэшируются в KV-памяти модели

↳ Динамические данные (свежие апдейты, «живые» документы) подтягиваются через ретривал

Результат? Более быстрый инференс, меньше затрат, меньше избыточности.

Хитрость в том, чтобы избирательно кэшировать.

Кэшируйте только статичные, ценные знания, которые редко меняются. Если закэшируете всё, упрётесь в лимиты контекста. Разделение «cold» (кэшируемые) и «hot» (получаемые через ретривал) данных делает систему надёжной.

Можно начинать уже сегодня. OpenAI и Anthropic уже поддерживают кэширование промптов в своих API.

Вот ссылка на гайд OpenAI по кэшированию промптов: https://x.com/akshay_pachaar/status/1985690138756989286

Вы уже пробовали CAG в проде?

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2

3.15K views12:13

Data Portal | DS & ML

Введение в системы машинного обучения

Создано профессором Гарварда Виджаем Джанапа Редди. Это открытый учебник, который учит тебя строить реальные, работающие AI-системы: от edge-устройств до облака.

Он выводит обучение за пределы простого “тренируем модель” и показывает, как заставить модель действительно работать - cтабильно, эффективно и с высокой производительностью.

PDF-ка и онлайн версия доступны здесь, репозиторий тут

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍2

3.65K views10:16

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

XBOW привлекла $117 млн для разработки AI-агентов-хакеров

А теперь кто-то выложил аналог с открытым исходным кодом, бесплатно.

Strix — это автономные AI-агенты, которые действуют как реальные хакеры: они динамически выполняют ваш код, находят уязвимости и подтверждают их реальными proof-of-concept-эксплойтами.

Почему это важно:

Главная проблема классического security-тестирования - оно не успевает за скоростью разработки.

Strix решает это, интегрируясь прямо в ваш рабочий процесс:

↳ Запускайте его в CI/CD, чтобы ловить уязвимости до продакшена
↳ Получайте реальные PoC, а не ложные срабатывания от статического анализа
↳ Тестируйте всё: инъекции, контроль доступа, ошибки бизнес-логики

И самое крутое:

Вам не нужно быть экспертом по безопасности. Strix включает полный набор инструментов хакера: HTTP-прокси, автоматизацию браузера и Python runtime для разработки эксплойтов.

Это как если бы у вас была команда безопасности, работающая с той же скоростью, что и ваш CI/CD pipeline.

К тому же инструмент запускается локально в Docker-контейнерах, ваш код никогда не покидает ваше окружение.

Начать очень просто: pipx install strix-agent

Укажите путь к вашему коду: приложению, репозиторию или директории.

Ссылка на GitHub-репозиторий: strix

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤5

4.94K views17:12

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Multi-Head Attention в LLM, визуальное объяснение

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍3❤2👎1

4.45K views08:10