This media is not supported in your browser
VIEW IN TELEGRAM
Интеллект уровня GPT-4o прямо на вашем телефоне!
MiniCPM-V 4.5 обеспечивает производительность ИИ корпоративного уровня при всего 8B параметров, превосходя модели вроде GPT-4o, Gemini-2.0 Pro на визуальных и языковых задачах.
Поддержка 30+ языков
Плавно работает на iPhone/iPad
Полностью опенсорс: GitHub
👉 @DataSciencegx
MiniCPM-V 4.5 обеспечивает производительность ИИ корпоративного уровня при всего 8B параметров, превосходя модели вроде GPT-4o, Gemini-2.0 Pro на визуальных и языковых задачах.
Поддержка 30+ языков
Плавно работает на iPhone/iPad
Полностью опенсорс: GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на мощную подборку реальных кейсов применения ML-систем. Более 500 примеров из компаний вроде Spotify, Netflix, Discord и других.
Ссылки ведут прямиком на инженерные блоги, где разложено по полочкам, что и как они делали
Зацените здесь
👉 @DataSciencegx
Ссылки ведут прямиком на инженерные блоги, где разложено по полочкам, что и как они делали
Зацените здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
This media is not supported in your browser
VIEW IN TELEGRAM
Кладезь машинного обучения: репозиторий Machine-Learning-Projects
Здесь собрано более 20 проектов, охватывающих темы от компьютерного зрения до обработки естественного языка
Вот парочка крутых проектов из коллекции:
Каждый проект снабжён подробными описаниями и кодом, так что можно не только посмотреть, но и пощупать самому
👉 @DataSciencegx
Здесь собрано более 20 проектов, охватывающих темы от компьютерного зрения до обработки естественного языка
Вот парочка крутых проектов из коллекции:
🔸 Gender and Age Detection — Определение пола и возраста человека по изображению лица с использованием глубокого обучения и OpenCV.🔸 Medical Chatbot — Медицинский чат-бот, использующий обработку естественного языка для предоставления вероятных диагнозов на основе симптомов.🔸 Driver Drowsiness Detection — Реальное время обнаружения сонливости водителя с помощью OpenCV и CNN, чтобы обеспечить безопасность на дороге.
Каждый проект снабжён подробными описаниями и кодом, так что можно не только посмотреть, но и пощупать самому
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Роадмап по AI Engineering, которому реально могут следовать новички. Всё построено на 100% бесплатных, опенсорс и комьюнити-ресурсах
Все ресурсы можно найти здесь: GitHub
👉 @DataSciencegx
Все ресурсы можно найти здесь: GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥8❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Это лучший способ понять, как на самом деле работают ML-модели
Используйте Drawdata, чтобы нарисовать 2D-датасет прямо в Jupyter. С его помощью можно интерактивно выбирать данные через виджет и обновлять модель по мере того, как данные добавляются
Полностью интерактивно, в реальном времени и с открытым исходным кодом
👉 @DataSciencegx
Используйте Drawdata, чтобы нарисовать 2D-датасет прямо в Jupyter. С его помощью можно интерактивно выбирать данные через виджет и обновлять модель по мере того, как данные добавляются
Полностью интерактивно, в реальном времени и с открытым исходным кодом
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍4
Обучайте модели ИИ на данных, которых даже не существует
SDV — это open-source фреймворк, который с помощью ML изучает паттерны ваших реальных данных и генерирует синтетические табличные данные в больших масштабах.
Поддерживает встроенную анонимизацию, валидацию и многое другое.
GitHub: SDV
👉 @DataSciencegx
SDV — это open-source фреймворк, который с помощью ML изучает паттерны ваших реальных данных и генерирует синтетические табличные данные в больших масштабах.
Поддерживает встроенную анонимизацию, валидацию и многое другое.
GitHub: SDV
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍6👎1
Бесплатный курс, чтобы научиться строить LLM с нуля, используя только чистый PyTorch
Этот курс проведёт вас через весь жизненный цикл: от базовых концептов до продвинутых техник алайнмента
К концу у вас будет глубокий практический опыт, достаточный, чтобы собирать и кастомизировать собственные LLM
https://www.youtube.com/watch?v=p3sij8QzONQ
👉 @DataSciencegx
Этот курс проведёт вас через весь жизненный цикл: от базовых концептов до продвинутых техник алайнмента
К концу у вас будет глубокий практический опыт, достаточный, чтобы собирать и кастомизировать собственные LLM
https://www.youtube.com/watch?v=p3sij8QzONQ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤5
Забирайте в закладки этот бесплатный визуальный гайд по эмбеддингам LLM
Ты узнаешь:
- Что такое эмбеддинги?
- Каким должен быть хороший эмбеддинг?
- Традиционные техники эмбеддингов
- BERT
- Эмбеддинги в современных LLM
- Эмбеддинги в действии
- Эмбеддинги как графы: анализ сети
Ссылка: LLM Embeddings Explained: A Visual and Intuitive Guide
👉 @DataSciencegx
Ты узнаешь:
- Что такое эмбеддинги?
- Каким должен быть хороший эмбеддинг?
- Традиционные техники эмбеддингов
- BERT
- Эмбеддинги в современных LLM
- Эмбеддинги в действии
- Эмбеддинги как графы: анализ сети
Ссылка: LLM Embeddings Explained: A Visual and Intuitive Guide
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
Сооснователь
https://github.com/henrythe9th/AI-Crash-Course
Я посмотрел, что он там накидал - реально интересно. В основном это базовые статьи по искусственному интеллекту, и действительно для успеха нет короткого пути: нужно учиться :)
👉 @DataSciencegx
super.com, который сам разработчик и у его компании годовой ревенью $200M, собрал список материалов по тому, что он сам выучил про ИИ, и сказал: «Прочитайте это за две недели»:https://github.com/henrythe9th/AI-Crash-Course
Я посмотрел, что он там накидал - реально интересно. В основном это базовые статьи по искусственному интеллекту, и действительно для успеха нет короткого пути: нужно учиться :)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤4
This media is not supported in your browser
VIEW IN TELEGRAM
MCP-серверы могут предоставлять богатые UI-возможности
MCP-серверы в Claude/Cursor пока не предлагают никакого UI, например, графики. Это просто текст/JSON.
mcp-ui позволяет добавлять в вывод интерактивные веб-компоненты, которые может отрендерить MCP-клиент.
Забираем с GitHub
👉 @DataSciencegx
MCP-серверы в Claude/Cursor пока не предлагают никакого UI, например, графики. Это просто текст/JSON.
mcp-ui позволяет добавлять в вывод интерактивные веб-компоненты, которые может отрендерить MCP-клиент.
Забираем с GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Годный проект с GitHub, который предоставляет единое sandbox-окружение для разработки AI-агентов. Он объединяет браузер, терминал, файловую систему, VS Code и Jupyter в одном Docker-контейнере, готовый к использованию "из коробки".
Все компоненты работают с общей файловой системой: файл, скачанный в браузере, сразу доступен в терминале или коде.
В контейнер также предустановлены несколько MCP-серверов, благодаря чему AI Agent может напрямую вызывать различные возможности без дополнительной сложной настройки окружения.
Есть поддержка Chrome DevTools Protocol для программного управления браузером, а также встроенный порт-форвардинг и мониторинг сервисов для удобного предпросмотра и отладки веб-приложений.
Предоставляются SDK для Python, TypeScript и Golang, запуск возможен в один клик через Docker.
GitHub: AIO Sandbox
👉 @DataSciencegx
Все компоненты работают с общей файловой системой: файл, скачанный в браузере, сразу доступен в терминале или коде.
В контейнер также предустановлены несколько MCP-серверов, благодаря чему AI Agent может напрямую вызывать различные возможности без дополнительной сложной настройки окружения.
Есть поддержка Chrome DevTools Protocol для программного управления браузером, а также встроенный порт-форвардинг и мониторинг сервисов для удобного предпросмотра и отладки веб-приложений.
Предоставляются SDK для Python, TypeScript и Golang, запуск возможен в один клик через Docker.
GitHub: AIO Sandbox
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2👎1
Генеративные vs. дискриминативные модели в ML
(популярный вопрос на собеседованиях по ML)
👉 @DataSciencegx
(популярный вопрос на собеседованиях по ML)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍1
Эта статья Себастьяна Рашки пошагово проводит через реализацию self-attention с нуля, далее расширяя разбор до multi-head и cross-attention, с понятными объяснениями и примерами кода на PyTorch.
Обязательное чтение, если хотите глубоко разобраться в трансформерах. Читайте здесь
👉 @DataSciencegx
Обязательное чтение, если хотите глубоко разобраться в трансформерах. Читайте здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
Forwarded from IT Portal
Стенфорд запустил бесплатный курс по Deep Learning, который ведёт основатель Coursera — Эндрю Ын
Программа охватывает всё: от базовых принципов нейросетей до LLM, RL, агентов, RAG и мультимодальных моделей
Первая лекция здесь. Материалы и расписание здесь
@IT_Portal
Программа охватывает всё: от базовых принципов нейросетей до LLM, RL, агентов, RAG и мультимодальных моделей
Первая лекция здесь. Материалы и расписание здесь
@IT_Portal
❤11👍5🤔1
Когда мы говорим про RAG, обычно думают так: проиндексировал документ → потом извлёк тот же самый документ.
Но индексация ≠ извлечение.
Данные, которые ты индексируешь, не обязаны быть теми же данными, которые ты подаёшь в LLM во время генерации.
Вот 4 умных способа индексировать данные:
1) Chunk Indexing (индексация чанков)
🔹 Самый распространённый подход.
🔹 Документ разбивается на чанки, затем каждый чанк преобразуется в эмбеддинг и сохраняется в векторную БД.
🔹 При запросе извлекаются ближайшие чанки по косинусному сходству (или другому метрике).
Просто и эффективно, но слишком большие или «шумные» чанки могут снизить точность.
2) Sub-chunk Indexing (индексация под-чанков)
🔹 Берём исходные чанки и дополнительно разбиваем их на более мелкие под-чанки.
🔹 Индексируем именно эти мелкие фрагменты.
🔹 При извлечении всё ещё возвращаем более крупный чанк для контекста.
Этот подход полезен, если документ содержит несколько разных концепций в одном разделе - повышается шанс точного совпадения с запросом.
3) Query Indexing (индексация по запросам)
🔹 Вместо того чтобы индексировать сырой текст, генерируются гипотетические вопросы, на которые, по мнению LLM, данный чанк может ответить.
🔹 Эти вопросы эмбеддятся и сохраняются.
🔹 При реальном запросе пользователя поиск происходит по этим «синтетическим» вопросам.
🔹 Похожая идея используется в HyDE, но там сопоставляется гипотетический ответ с реальными чанками.
Отличный вариант для систем вопрос–ответ (QA), поскольку он сокращает семантический разрыв между пользовательским запросом и индексированными данными.
4) Summary Indexing (индексация по суммаризации)
🔹 Используется LLM, чтобы сгенерировать краткое семантическое представление (summary) для каждого чанка.
🔹 В индекс попадает именно summary, а не исходный текст.
🔹 При извлечении возвращается оригинальный чанк для контекста.
Особенно эффективно для плотных или структурированных данных (например, CSV или таблиц), где эмбеддинги сырого текста не дают осмысленных результатов.
👉 @DataSciencegx
Но индексация ≠ извлечение.
Данные, которые ты индексируешь, не обязаны быть теми же данными, которые ты подаёшь в LLM во время генерации.
Вот 4 умных способа индексировать данные:
1) Chunk Indexing (индексация чанков)
Просто и эффективно, но слишком большие или «шумные» чанки могут снизить точность.
2) Sub-chunk Indexing (индексация под-чанков)
Этот подход полезен, если документ содержит несколько разных концепций в одном разделе - повышается шанс точного совпадения с запросом.
3) Query Indexing (индексация по запросам)
Отличный вариант для систем вопрос–ответ (QA), поскольку он сокращает семантический разрыв между пользовательским запросом и индексированными данными.
4) Summary Indexing (индексация по суммаризации)
Особенно эффективно для плотных или структурированных данных (например, CSV или таблиц), где эмбеддинги сырого текста не дают осмысленных результатов.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3
3 ключевые свойства следа матрицы в Deep Learning
1. L2-регуляризация: Квадрат нормы Фробениуса,
2. Вычисление градиентов: Циклическое свойство следа,
3. Инвариантность: След инвариантен к замене базиса,
👉 @DataSciencegx
1. L2-регуляризация: Квадрат нормы Фробениуса,
||W||² = tr(WᵀW), используется для штрафования больших весов и предотвращения переобучения.2. Вычисление градиентов: Циклическое свойство следа,
tr(AB) = tr(BA), упрощает вывод матричных производных при обратном распространении ошибки (backpropagation).3. Инвариантность: След инвариантен к замене базиса,
tr(P⁻¹AP) = tr(A); это свойство используется при поиске нового, более удобного базиса в PCA.Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1