DS & ML | YeaHub – Telegram
DS & ML | YeaHub
464 subscribers
259 photos
67 videos
372 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
Media is too big
VIEW IN TELEGRAM
#полезное
🤯 Вайбкодерам салют: вышел Cursor 1.0

(Да, 1.0. Видимо все до этого было MVP). Ну так вот, что нового:

🟠 Теперь есть поддержка Jupyter Notebooks! Агент наконец-то сможет создавать и редактировать ячейки прямо внутри ноутбуков. Пока что это будет работать только с Sonnet, но скоро обещают добавить больше моделей.

🟠 Добавили BugBot для гитхаба. Агент будет автоматически просматривать ваши PR, вылавливать потенциальные ошибки и проблемы и оставлять комментарии. Прямо внутри комментария можно будет нажать на «Исправить в Cursor», чтобы сразу провалиться в редактор с автоматически созданным промптом для исправления бага.

🟠 Background Agent теперь доступен всем. Это фича для удаленного выполнения задач в фоновом режиме. Агенты работают над задачами асинхронно, так что можно поручить много тасок отдельным экземплярам.

🟠 Расширенная контекстная память, как в ChatGPT. Теперь Cursor сможет запоминать какие-то факты из диалогов и учитывать их в будущем.

🟠 MCP теперь можно добавлять одним щелчком мыши. На сайте уже лежит список официальных серверов (+ можно добавить свой).

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
#полезное
😱 Llama Nemotron Nano VL от NVIDIA — один из лучших open-source инструментов для документов**

Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей.

Что это такое:
Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая:
• разбирает PDF
• вытаскивает таблицы
• парсит графики и диаграммы
• работает на одной GPU

Заточена под:
🟠 Вопрос-ответ по документам
🟠 Извлечение таблиц
🟠 Анализ графиков
🟠 Понимание диаграмм и дешбордов

Под капотом — vision-энкодер C-RADIO v2 (distilled multi-teacher трансформер), который справляется даже с визуальным шумом и высоким разрешением.

OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат.

🚩 И всё это работает на одной видеокарте.

Hf
юПодробнее

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#Собес #mongoDB
🤔 Какова роль профайлера в MongoDB?

Профайлер MongoDB анализирует производительность операций с базой данных, включая чтение, запись и выполнение запросов. Он помогает находить медленные запросы и решать, где требуется оптимизация, например, добавление индексов.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
#полезное
🛞 Figure 02 уже сегодня сортирует, перемещает и анализирует десятки товаров одновременно

Наблюдая за такими роботами, сложно представить, что через год в логистике и на складах будут работать люди.
Скорость, с которой они развиваются, — просто ошеломляющая.

То, что ещё недавно казалось фантастикой, уже становится реальностью.
И происходит это быстрее, чем мы успеваем привыкнуть.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😎 MiniCPM4 — компактная LLM нового поколения

Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания.

Что нового

🟠 InfLLM v2 — обучаемое разреженное внимание
🟠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью
🟠 BitCPM — ультракомпактная тернарная квантизация
🟠 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning
🟠 CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде

Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
GitHub: https://github.com/OpenBMB/MiniCPM

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤓 Инструмент недели: `torchao` — лёгкое квантование и оптимизация PyTorch-моделей
квантовани— это новая экспериментальная библиотека от команды PyTorch, разработанная для простого применения квантования, разреживания и других оптимизаций к нейросетевым моделям.

Основные возможности:
🟠 autoquant — автоматическое квантование модели по слоям, без ручной настройки
🟠 поддержка INT8 квантования, совместимого с torch.ao.quantization
🟠 интеграция с PyTorch 2.x (использует torch.compile, dynamo, inductor)
🟠 поддержка разреживания (sparsity), структурных трансформаций
🟠 работа с предварительно обученными моделями — ResNet, MobileNet, Llama и др
🟠 возможность применения на CPU/GPU, включая ускорение inference в ONNX и TorchScript
Подробнее на GitHub

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #mongoDB
🤔 Какие модели данных существуют в MongoDB?

MongoDB поддерживает две основные модели данных: вложенные (embedded) и нормализованные (normalized). Вложенные модели объединяют данные в одном документе, а нормализованные используют ссылки между документами.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥺 NVIDIA выпустила *Nemotron-Personas* — 100 000 синтетических персон на Hugging Face!

Открытый датасет, сгенерированный нейросетью, но основанный на *реальных распределениях* пользователей. Что это даёт:

🟠 Больше *разнообразия* в данных
🟠 Снижение *предвзятости* моделей
🟠 Защита от *model collapse* при масштабном обучении

Подходит для тестирования, дообучения и анализа LLM в сценариях с разными типами людей: по мотивации, профессии, эмоциям, взглядам и пр.

Датасет уже доступен на Hugging Face: NVIDIA Nemotron-Personas
HuggingFace

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2
#полезное
🛞 Cartridges: как ускорить LLM в 26 раз без потери качества

Что, если вместо того, чтобы каждый раз загонять в контекст LLM весь репозиторий, мы предварительно обучим мини-контекст — и будем просто вставлять его при генерации?

Это и есть идея Cartridges — небольшой KV-кэш, обученный заранее с помощью метода self-study (обучение во время инференса).

Репозиторий: содержит код для тренировки "картриджа" — легкого представления большого текстового дампа (например, всей кодовой базы), которое вставляется в LLM как контекст.

Проблема:
🔴 Если вставлять много текста в LLM, KV-кэш раздувается, скорость падает, стоимость растёт

Решение:
🔵 Обучаем маленький KV-кэш для документации или репо
🔵 Используем его как "сжатый контекст" при генерации

Результаты:
🟠 До 26× ускорения
🟠 Качество ответов сохраняется
🟠 Простая реализация и универсальный подход

Подробнее в статье: *Cartridges: Lightweight and general-purpose long context representations via self-study*

git clone https://github.com/HazyResearch/cartridges && cd cartridges
pip install uv
uv pip install -e .


Идея простая, но мощная: пусть LLM "запоминает" ваш проект заранее — и работает с ним быстро, как с привычным знанием.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
👍 Mistral выпустила ризонинг-модель Magistral.

Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления».

Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах:

🟢опенсорсный Magistral Small с 24 млрд. параметров;

🟠корпоративный Magistral Medium.

Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных).

В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах.

Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme.

🟠Статья
🟠Модель
🟠Техотчет
🟠Web Demo

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#Собес #mongoDB
🤔 Какие языки программирования поддерживает MongoDB?

MongoDB официально поддерживает языки С, C++, C#, Java, Node.js, Perl, PHP, ython, Ruby, Scala, Go и Erlang. Также есть драйверы, созданные сообществом для других языков.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👋 cuOpt от NVIDIA стал open source!

Теперь можно легко ускорять задачи оптимизации —
🔵 линейное программирование (LP)
🔵 целочисленные задачи (MIP)
🔵 маршрутизацию транспорта (VRP)
— с помощью GPU, почти не меняя код.

Работает с Python, REST API и CLI
Поддерживает PuLP и AMPL
Запускается локально или в облаке
Настраивается за пару минут

pip install --extra-index-url=https://pypi.nvidia.com cuopt-server-cu12==25.5.* cuopt-sh==25.5.*

Результат — решения почти в реальном времени, даже для сложных задач.
Попробуй

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👨‍💻 ML после релиза: почему модель может сломаться — и как это вовремя заметить

Внедрили модель, подтвердили гипотезу, получили эффект — работа сделана? Увы, нет.

После деплоя начинается настоящее испытание:
🟠 данные меняются,
🟠 поведение пользователей эволюционирует,
🟠 а ваша модель может незаметно терять эффективность.

Must-read для тех, кто работает с ML в продакшене и хочет, чтобы решения были устойчивыми, а не разовыми.

Читайте, делитесь и не забывайте наблюдать за своими моделями: https://proglib.io/sh/fjpFLVWn8Z

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM