DS & ML | YeaHub – Telegram
DS & ML | YeaHub
467 subscribers
259 photos
67 videos
371 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#Собес #pandas
🤔 Как найти корреляцию в Pandas?

💬 Кратко:
Метод DataFrame.corr() вычисляет коэффициент корреляции между всеми числовыми столбцами DataFrame. Он автоматически игнорирует пропущенные ( NaN ) и нечисловые значения. Используется для анализа взаимосвязи данных, например, в статистике или машинном обучении.

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😱 Суммы Римана и интегралы обе преследуют цель вычислить площадь под кривой, но отличаются точностью и методом.
Сумма Римана — это приближение, при котором площадь оценивается как сумма площадей прямоугольников, расположенных под кривой. Ширина каждого прямоугольника определяется разбиением интервала, а высота берётся из значения функции в выбранной точке внутри каждого подинтервала (например, в левой границе, правой границе или середине). При увеличении числа прямоугольников точность приближения возрастает.

Интеграл же представляет собой точное значение площади под кривой и определяется как предел суммы Римана при стремлении числа прямоугольников к бесконечности и их ширины — к нулю.
Иными словами, суммы Римана — это ступени, а определённый интеграл — это конечная цель.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
❤️‍🔥 Какие признаки могут указывать на то, что модель застряла в saddle point

Плато в loss не всегда значит минимум; анализ кривизны и наблюдение за динамикой обучения помогают распознать saddle points.

🟠 Плато в loss: функция потерь почти не меняется на протяжении многих итераций.

🟠 Анализ кривизны: если посмотреть на Гессиан или приблизительные вторые производные, можно заметить направления с отрицательной кривизной, где градиент ещё не ноль.

🟠 Резкий спад при адаптивных методах: использование momentum или адаптивного learning rate может внезапно снизить loss после долгого плато — это значит, что модель была в saddle region, а не в настоящем минимуме.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
👋 NVIDIA ускорила LLM в 53 раза

Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.

🚩 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.

Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.

Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.

Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.

Результат - Jet-Nemotron:

- 2 885 токенов/с

- 47× меньше KV-кеша (всего 154 MB)

- Топовая точность при космической скорости

Почему это важно:

Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.

Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.

Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.

Github
Статья

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#Собес #pandas
🤔 Как установить индекс в Pandas DataFrame?

💬 Кратко:
Метод set_index() позволяет сделать столбец, Series или список индексом DataFrame. Он также поддерживает множественные индексы.

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😎 Получайте RAG-ready данные из любого неструктурированного файла

Tensorlake преобразует неструктурированные документы в RAG-ready данные в несколько строк кода. Возвращает layout документа, структурированное извлечение, bounding boxes и т. д.

Работает с любым сложным layout, рукописными документами и многоязычными данными
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#видео
🤓 Этот YouTube-канал - настоящая сокровищница для понимания концепций машинного обучения.
Ссылка

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
😐 Kubechecks позволяет пользователям GitHub и GitLab точно видеть, какие изменения повлияют на их текущие деплойменты в ArgoCD, и автоматически запускать различные наборы тестов на соответствие перед мёрджем.
Забираем на GitHub

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pandas
🤔 Как удалить индекс, строку или столбец из существующего DataFrame?

💬 Кратко:
🟠 Удаление индекса выполняется через reset_index()
🟠 Удаление строки осуществляется с помощью df.drop (index)
🟠 Удаление столбца выполняется через df.drop(columns, axis=1)

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 Dolphin — превращает PDF в структурированные данные

Dolphin (Document Image Parsing via Heterogeneous Anchor Prompting) — 100% open source-модель для автоматического разбора PDF и сканов.

Зачем нужен:
— Конвертирует документы в готовые форматы: Markdown, HTML, LaTeX, JSON.
— Извлекает текст, таблицы, формулы и изображения.
— Полезен как для подготовки данных для LLM, так и для любых автоматизированных систем, архивов, поиска и аналитики.

Как работает:
1⃣ Анализ макета страницы — определяет все элементы в естественном порядке чтения.
2⃣ Параллельный парсинг — с «якорями» и промптами под каждый тип контента.

Представьте, что у вас есть 500 отчётов в PDF с финансовыми таблицами и графиками. Dolphin превращает их в аккуратный CSV или JSON, готовый для анализа в Pandas или загрузки в базу данных — без ручного копипаста и правок.


Лёгкая архитектура + параллельная обработка = высокая скорость без потери качества.

Репозиторий с кодом и моделями: https://clc.to/6gPIwA

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😐 Деплойте AI-приложения, просто добавив Python-декоратор

Beam — опенсорс альтернатива Modal для деплоя серверлесс AI-нагрузок.

Просто выполните uv add beam-client, добавьте декоратор и превратите любой воркфлоу в серверлесс-эндпоинт

https://github.com/beam-cloud/beta9

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😬 Понимание LLM с нуля

Статья с нуля и на арифметике уровня средней школы объясняет, как работают LLM: от ручной «генеративки на бумаге» до современной архитектуры Transformer
Читаем здесь

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pandas
🤔 Как добавить индекс, строку или столбец в существующий DataFrame?

💬 Кратко:
🟠 Добавление индекса выполняется через set_index() , позволяя установить столбец, список или Series в качестве индекса.
🟠 Добавление строк можно сделать с помощью df.loc[], передав индекс и значения, или через pd.concat() , объединяя несколько DataFrame.
🟠 Добавление столбцов осуществляется через присвоение df[ 'column_name'] = values , а также методами df.insert() и df.assign()

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM