NEW BOT Телеграм, страница - 41707342

Data Portal | DS & ML

8.84K subscribers

187 photos

74 videos

4 files

249 links

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | DS & ML

8.84K subscribers

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Крутейший интерактивный учебник по теории вероятностей и статистике

Внутри наглядные визуализации, интерактивчики и минимум сухой теории. Можно покрутить распределения, посэмплить выборки, поиграться с доверительными интервалами и наглядно увидеть, как это всё работает

Забираем тут, советую открывать с десктопа

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍4👎1

3.72K views17:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Интеллект уровня GPT-4o прямо на вашем телефоне!

MiniCPM-V 4.5 обеспечивает производительность ИИ корпоративного уровня при всего 8B параметров, превосходя модели вроде GPT-4o, Gemini-2.0 Pro на визуальных и языковых задачах.

Поддержка 30+ языков

Плавно работает на iPhone/iPad

Полностью опенсорс: GitHub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥3

2.68K views08:49

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Наткнулся на мощную подборку реальных кейсов применения ML-систем. Более 500 примеров из компаний вроде Spotify, Netflix, Discord и других.

Ссылки ведут прямиком на инженерные блоги, где разложено по полочкам, что и как они делали

Зацените здесь

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

3.27K views14:00

Data Portal | DS & ML

Теорема Байеса: наглядное объяснение

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍11🔥2🤔2

3.03K views09:15

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Кладезь машинного обучения: репозиторий Machine-Learning-Projects

Здесь собрано более 20 проектов, охватывающих темы от компьютерного зрения до обработки естественного языка

Вот парочка крутых проектов из коллекции:

🔸Gender and Age Detection — Определение пола и возраста человека по изображению лица с использованием глубокого обучения и OpenCV.
🔸Medical Chatbot — Медицинский чат-бот, использующий обработку естественного языка для предоставления вероятных диагнозов на основе симптомов.
🔸Driver Drowsiness Detection — Реальное время обнаружения сонливости водителя с помощью OpenCV и CNN, чтобы обеспечить безопасность на дороге.

Каждый проект снабжён подробными описаниями и кодом, так что можно не только посмотреть, но и пощупать самому

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

3.32K views15:00

Data Portal | DS & ML

Роадмап по AI Engineering, которому реально могут следовать новички. Всё построено на 100% бесплатных, опенсорс и комьюнити-ресурсах

Все ресурсы можно найти здесь: GitHub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥8❤4

3.24K views08:49

Data Portal | DS & ML

8 архитектур RAG для AI-инженеров

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍3

2.81K views07:48

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Это лучший способ понять, как на самом деле работают ML-модели

Используйте Drawdata, чтобы нарисовать 2D-датасет прямо в Jupyter. С его помощью можно интерактивно выбирать данные через виджет и обновлять модель по мере того, как данные добавляются

Полностью интерактивно, в реальном времени и с открытым исходным кодом

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍4

3.07K views16:07

Data Portal | DS & ML

Open-source RAG-стек (2025)

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍2

2.96K views09:16

Data Portal | DS & ML

Обучайте модели ИИ на данных, которых даже не существует

SDV — это open-source фреймворк, который с помощью ML изучает паттерны ваших реальных данных и генерирует синтетические табличные данные в больших масштабах.

Поддерживает встроенную анонимизацию, валидацию и многое другое.

GitHub: SDV

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍6👎1

3.08K views14:00

Data Portal | DS & ML

Бесплатный курс, чтобы научиться строить LLM с нуля, используя только чистый PyTorch

Этот курс проведёт вас через весь жизненный цикл: от базовых концептов до продвинутых техник алайнмента

К концу у вас будет глубокий практический опыт, достаточный, чтобы собирать и кастомизировать собственные LLM

https://www.youtube.com/watch?v=p3sij8QzONQ

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤5

2.66K views09:39

Data Portal | DS & ML

11 типов переменных в датасете наглядно

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5

2.51K views18:31

Data Portal | DS & ML

Забирайте в закладки этот бесплатный визуальный гайд по эмбеддингам LLM

Ты узнаешь:
- Что такое эмбеддинги?
- Каким должен быть хороший эмбеддинг?
- Традиционные техники эмбеддингов
- BERT
- Эмбеддинги в современных LLM
- Эмбеддинги в действии
- Эмбеддинги как графы: анализ сети

Ссылка: LLM Embeddings Explained: A Visual and Intuitive Guide

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

2.64K views06:18

Data Portal | DS & ML

4 стратегии, которые используют LLM для генерации текста

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

2.37K views10:20

Data Portal | DS & ML

Сооснователь super.com, который сам разработчик и у его компании годовой ревенью $200M, собрал список материалов по тому, что он сам выучил про ИИ, и сказал: «Прочитайте это за две недели»:

https://github.com/henrythe9th/AI-Crash-Course

Я посмотрел, что он там накидал - реально интересно. В основном это базовые статьи по искусственному интеллекту, и действительно для успеха нет короткого пути: нужно учиться :)

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤4

2.71K views05:22

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

MCP-серверы могут предоставлять богатые UI-возможности

MCP-серверы в Claude/Cursor пока не предлагают никакого UI, например, графики. Это просто текст/JSON.

mcp-ui позволяет добавлять в вывод интерактивные веб-компоненты, которые может отрендерить MCP-клиент.

Забираем с GitHub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.55K views11:59

Data Portal | DS & ML

Годный проект с GitHub, который предоставляет единое sandbox-окружение для разработки AI-агентов. Он объединяет браузер, терминал, файловую систему, VS Code и Jupyter в одном Docker-контейнере, готовый к использованию "из коробки".

Все компоненты работают с общей файловой системой: файл, скачанный в браузере, сразу доступен в терминале или коде.

В контейнер также предустановлены несколько MCP-серверов, благодаря чему AI Agent может напрямую вызывать различные возможности без дополнительной сложной настройки окружения.

Есть поддержка Chrome DevTools Protocol для программного управления браузером, а также встроенный порт-форвардинг и мониторинг сервисов для удобного предпросмотра и отладки веб-приложений.

Предоставляются SDK для Python, TypeScript и Golang, запуск возможен в один клик через Docker.

GitHub: AIO Sandbox

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2👎1

2.71K views05:42

Data Portal | DS & ML

Генеративные vs. дискриминативные модели в ML

(популярный вопрос на собеседованиях по ML)

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍1

2.63K views09:27

Data Portal | DS & ML

Эта статья Себастьяна Рашки пошагово проводит через реализацию self-attention с нуля, далее расширяя разбор до multi-head и cross-attention, с понятными объяснениями и примерами кода на PyTorch.

Обязательное чтение, если хотите глубоко разобраться в трансформерах. Читайте здесь

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

2.74K views16:07

Data Portal | DS & ML

Forwarded from IT Portal

Стенфорд запустил бесплатный курс по Deep Learning, который ведёт основатель Coursera — Эндрю Ын

Программа охватывает всё: от базовых принципов нейросетей до LLM, RL, агентов, RAG и мультимодальных моделей

Первая лекция здесь. Материалы и расписание здесь

@IT_Portal

❤11👍5🤔1

2.3K views05:46

Data Portal | DS & ML

Когда мы говорим про RAG, обычно думают так: проиндексировал документ → потом извлёк тот же самый документ.

Но индексация ≠ извлечение.

Данные, которые ты индексируешь, не обязаны быть теми же данными, которые ты подаёшь в LLM во время генерации.

Вот 4 умных способа индексировать данные:

1) Chunk Indexing (индексация чанков)

🔹Самый распространённый подход.

🔹Документ разбивается на чанки, затем каждый чанк преобразуется в эмбеддинг и сохраняется в векторную БД.

🔹При запросе извлекаются ближайшие чанки по косинусному сходству (или другому метрике).

Просто и эффективно, но слишком большие или «шумные» чанки могут снизить точность.

2) Sub-chunk Indexing (индексация под-чанков)

🔹Берём исходные чанки и дополнительно разбиваем их на более мелкие под-чанки.

🔹Индексируем именно эти мелкие фрагменты.

🔹При извлечении всё ещё возвращаем более крупный чанк для контекста.

Этот подход полезен, если документ содержит несколько разных концепций в одном разделе - повышается шанс точного совпадения с запросом.

3) Query Indexing (индексация по запросам)

🔹Вместо того чтобы индексировать сырой текст, генерируются гипотетические вопросы, на которые, по мнению LLM, данный чанк может ответить.

🔹Эти вопросы эмбеддятся и сохраняются.

🔹При реальном запросе пользователя поиск происходит по этим «синтетическим» вопросам.

🔹Похожая идея используется в HyDE, но там сопоставляется гипотетический ответ с реальными чанками.

Отличный вариант для систем вопрос–ответ (QA), поскольку он сокращает семантический разрыв между пользовательским запросом и индексированными данными.

4) Summary Indexing (индексация по суммаризации)

🔹Используется LLM, чтобы сгенерировать краткое семантическое представление (summary) для каждого чанка.

🔹В индекс попадает именно summary, а не исходный текст.

🔹При извлечении возвращается оригинальный чанк для контекста.

Особенно эффективно для плотных или структурированных данных (например, CSV или таблиц), где эмбеддинги сырого текста не дают осмысленных результатов.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3

2.34K views13:47