DS & ML | YeaHub – Telegram
DS & ML | YeaHub
466 subscribers
259 photos
67 videos
371 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#Собес #git
🤔 Перечислите команды для удаления ветки git

💬 Кратко:
Для удаления локальной ветки:
git branch -d ‹ branch_name>

Если ветка содержит незавершённые изменения:
git branch -D ‹ branch_name>

Для удаления удалённой ветки:
git push origin --delete ‹branch_name>


📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥱 Tongyi Lab и Alibaba представили ReSum — новый способ, который позволяет веб-агентам искать дольше и отвечать точнее.

Ключевые результаты:
🔵 +4,5% к качеству по сравнению с ReAct
🔵 до +8,2% с ReSum-GRPO
🔵 Pass@1: 33,3% и 18,3% на сложных тестах BrowseComp

В чём проблема ReAct?
Агенты в ReAct ведут подробный «дневник»: думают, делают действие (поиск, клик), фиксируют результат и снова повторяют цикл.
Это делает процесс прозрачным, но в длинных задачах история быстро разрастается → лимит контекста → потеря деталей.

🚀 Решение ReSum:
🟠 Когда контекст близок к пределу, агент останавливается и пишет резюме: проверенные факты + ещё открытые вопросы.
🟠 Потом он продолжает уже с этого резюме, вместо длинной переписки.

Что добавили авторы:
🟢 Отдельную 30B-модель для резюме, которая лучше обрабатывает «шумные» страницы и выделяет важное.
🟢 Усиленное обучение ReSum-GRPO: агент получает награду только за финальный ответ, а она распределяется по всем промежуточным шагам. Это учит собирать правильные факты и делать сжатые, полезные резюме.

Итог: агенты остаются в рамках токен-бюджета и решают сложные задачи веб-поиска и анализа фактов лучше, чем классический ReAct.
Тык

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😵 DataMind - открытая система для умных дата-агентов

DataMind - это новая архитектура для создания универсальных агентов анализа данных, которые уже превосходят GPT-5 и DeepSeek-V3.1 по качеству рассуждений и работе с кодом.

Зачем создан DataMind
Сегодня большинство дата-агентов используют закрытые модели и зависят от промпт-инжиниринга.
Открытые решения не умеют устойчиво рассуждать по шагам и работать с разными форматами данных.
Команда DataMind решила эти три главные проблемы:
1. Недостаток качественных данных для обучения
2. Неправильные стратегии обучения
3. Ошибки при многошаговом исполнении кода

🔢 Как устроен DataMind
Система включает полный цикл - от генерации данных до обучения и выполнения задач.
Она использует:
- классификацию задач и создание запросов от простых к сложным
- фильтрацию траекторий через self-consistency (самопроверку ответов)
- комбинацию динамического обучения SFT и RL, что делает процесс стабильным
- оптимизированное выполнение кода в изолированной среде

📄 Результаты
- Модель DataMind-14B показала 71.16 % среднего результата и превзошла GPT-5 и DeepSeek-V3.1
- Лёгкая версия DataMind-7B стала лучшей среди open-source решений — 68.10 %, обучена на 12 000 траекторий

💼 Главные выводы
- Фильтрация через self-consistency эффективнее, чем выбор одной «лучшей» траектории
- Потери SFT стабилизируют обучение, но при ошибочной настройке вызывают колебания
- RL сокращает разрыв между моделями, но не меняет общий рейтинг

Команда открыла датасет DataMind-12K и модели DataMind-7B и 14B, чтобы сообщество могло строить своих аналитических агентов.

🟢Исследование: https://arxiv.org/abs/2509.25084
🟢Код: https://github.com/zjunlp/DataMind
🟢Модели и данные: https://huggingface.co/collections/zjunlp/datamind-687d90047c58bb1e3d901dd8)

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#Собес #git
🤔 Что делает команда git stash?

💬 Кратко:
Команда git stash сохраняет текущие незавершённые изменения в специальное место (стек), чтобы вы могли переключиться на другую ветку или выполнить другие действия. Эти изменения можно позже восстановить с ПОМОЩЬЮ git stash apply или git stash pop .

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #decorator
🤔 Что такое декораторы?

💬 Кратко:

Декораторы — это функции, которые принимают другую функцию в качестве аргумента и возвращают новую функцию с изменённым поведением. Они позволяют добавлять функциональность к функциям или методам, не изменяя их код.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #github
🤔 Что такое Git и GitHub?

💬 Кратко:

Git — это система контроля версий, которая позволяет отслеживать изменения в коде, возвращаться к старым версиям и работать над проектом совместно с другими разработчиками. GitHub — это платформа, где можно хранить код в облаке, делиться им и управлять проектами с помощью Git. Вместе они помогают эффективно работать над проектом в команде.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #oop #encapsulation #inheritance
🤔 Расскажи о принципах ООП в контексте Python

💬 Кратко:

Основные принципы ООП:

- Инкапсуляция (Encapsulation): объединение данных и методов, работающих с этими данными, внутри объекта.
- Наследование (Inheritance): возможность одного класса использовать функционал другого.
- Полиморфизм (Polymorphism): способность методов работать с разными типами данных.
- Абстракция (Abstraction): скрытие деталей реализации и предоставление только необходимого интерфейса.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #dynamic_graph #static_graph #tensorflow
🤔 Чем PyTorch отличается от других фреймворков глубокого обучения, таких как TensorFlow?

💬 Кратко:

PyTorch и TensorFlow отличаются архитектурой вычислений: PyTorch использует динамическую вычислительную графику, что позволяет изменять граф во время выполнения, в то время как TensorFlow использует статичный граф, который требует предварительного определения. Это делает PyTorch более интуитивным и удобным для отладки, но TensorFlow может обеспечивать лучшую производительность благодаря оптимизации вычислений. Также PyTorch более дружелюбен к Python-разработчикам, поскольку поддерживает структуру управления Python, в то время как TensorFlow абстрагирует многие детали.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #git_pull
🤔 Как вы разрешаете конфликты в Git?

💬 Кратко:

Конфликты возникают, когда изменения из удаленного и локального репозиториев пересекаются. Чтобы разрешить конфликт, нужно вручную отредактировать проблемные файлы, выбрать правильную версию, а затем зафиксировать изменения.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
1
#tool #визуализатор
📚 Визуализатор выполнения JS-кода

Пишешь код в редакторе, двигаешь слайдер и смотришь, как движок выполняет каждую инструкцию

Перейти к материалу

👉 База вопросов 👉 Новости
#course #ии
📚 «Введение в Data Science и машинное обучение»

Data Scientist is The Sexiest Job of the 21st Century, а машинное обучение и анализ данных - это захватывающие области, знакомство с которыми точно не оставит вас равнодушными! Мы начнем с самого начала, разберем центральные понятия и темы. Познакомимся с такими методами машинного обучения как деревья решений и нейронные сети. Практическая часть курса будет посвящена знакомству с наиболее популярными библиотеками для анализа данных, используя язык программирования Python — Pandas и Scikit-learn.

Перейти к материалу

👉 База вопросов 👉 Новости
#Собес #module #import
🤔 Что такое модуль в контексте Python?

💬 Кратко:

Модуль — это файл с кодом Python (обычно с расширением .py), который можно импортировать и использовать в других программах. Модули позволяют структурировать код и повторно использовать его.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
1
#Собес #money #decimal #precision
🤔 Как правильно работать с денежными значениями в Python? Какой тип данных для этого лучше использовать?

💬 Кратко:

Для денежных значений лучше использовать decimal.Decimal, так как он хранит мантиссу и показатель в десятичном формате, даёт точные результаты и позволяет управлять точностью и округлением. float использовать не стоит из‑за двоичных погрешностей.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#trainer #печать
📚 Тренируем печать

Быстро печатать — не просто приятно, а выгодно. Когда пальцы успевают за мыслью, код льётся плавно.

Перейти к материалу

👉 База вопросов 👉 Новости
#Собес #asynchronous #threading #multiprocessing
🤔 В чем отличие асинхронности, threading'га и мультипроцессинга?

💬 Кратко:

Асинхронность, многозадачность с потоками (threading) и многозадачность с процессами (multiprocessing) — это разные подходы к выполнению нескольких задач. Асинхронность используется для работы с долгими операциями без блокировки, потоки позволяют выполнять задачи параллельно в одном процессе, а процессы выполняются в отдельных адресных пространствах.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
2
#Собес #dict #hashtable #slot
🤔 Как устроен словарь (dict) в Python? Какая структура данных лежит в его основе?

💬 Кратко:

dict в CPython реализован на основе хеш‑таблицы с открытой адресацией. Ключи хешируются, индекс указывает на слот в массиве записей, где хранится пара (хеш, ключ, значение). При росте таблицы происходит расширение и перехеширование.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #async #await #concurrency
🤔 Что такое асинхронное программирование?

💬 Кратко:

Асинхронное программирование позволяет выполнять несколько задач одновременно, не блокируя основной поток программы. В Python для этого используются ключевые слова async и await, которые позволяют запускать корутины и управлять асинхронными операциями.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #cursor #fetch #batch
🤔 Что такое курсор (cursor) в PostgreSQL?

💬 Кратко:

Курсор — это объект, позволяющий на стороне сервера поэтапно считывать результаты запроса, не загружая их сразу в клиентское приложение. Полезен для обработки больших выборок с контролем размера пакетов.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал