DS & ML | YeaHub – Telegram
DS & ML | YeaHub
464 subscribers
259 photos
67 videos
372 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#статьи
🤓 Что делать, если A/B-тесты врут

Классическая схема A/B-разбиения работает, только если пользователи не влияют друг на друга. Но что, если это не так?

Такси, доставка, соцсети — в таких системах старый добрый user_id → контроль / тест уже не спасает. Метрики искажаются, а выводы могут привести к ошибочным решениям.

В карточках — 5 важных выводов.
В статье — разбор альтернатив

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Какие ключевые различия между алгоритмами с обучением с учителем и без учителя в Scikit-Learn?

Алгоритмы с обучением с учителем в Scikit-Learn требуют меток для данных, что позволяет им предсказывать результаты на основе известных связей между входными и выходными данными. Примеры таких алгоритмов - это регрессия и классификация. Алгоритмы без учителя не требуют меток и используются для поиска скрытых структур в данных, таких как кластеризация и снижение размерности. Примеры: К-средних и РСА.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😱 Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста

Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science.

В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое.

Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🛞 Вышел Public Roadmap для Gemini CLI — команды хотят создать мощного, open-source Coding Agent, ориентированного на сообщество.

Проект развивается сразу по 4 ключевым направлениям:

1⃣ Extensible
CLI должен быть легко расширяемым под любые среды и сценарии: кастомные slash-команды, удалённые протоколы, запуск .gemini.md файлов с пользовательскими тулзами.

2⃣ Everywhere
Агент можно запускать как фоновый процесс в разных окружениях: локально, в контейнерах, GitHub Actions, облаке. Поддерживается делегирование задач субагентам.

3⃣ Intelligent
Фокус на качестве моделей и инструментов. Цель — попасть в топ по метрикам вроде SWE Bench. Все критические баги (P0) будут закрыты до релиза версии 1.0.

4⃣ Open Source
Проект строится в диалоге с сообществом: быстрое реагирование на ишью и PR’ы, минимальный бэклог и удобные процессы участия.

Workstreams уже распределены:
🟠 Качество модели (улучшение рассуждений, устранение повторов)
🟠 Производительность (кеширование, умная маршрутизация моделей)
🟠 Расширяемость (агенты в фоне, деплой в облако)
🟠 Автоматизация сообщества (улучшение dev-флоу)

Если хочешь участвовать в разработке следующего поколения AI-инструментов для кодинга — сейчас самое время подключиться к Gemini CLI.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥄 Что посмотреть: курс по deep learning на mesh и point cloud данных

Курс о том, как применять deep learning к данным на криволинейных поверхностях: мешам и point clouds. Подходит тем, кто хочет использовать data-driven алгоритмы за пределами изображений и текста.

Что в курсе:
🔵 Какие задачи решаются на мешах и облаках точек
🔵 Как обрабатывать такие данные (масштабируемость, обобщение и пр.)
🔵 Обзор SOTA-методов и практические советы для исследований
Видео, слайды и туториал

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Как использовать Scikit-Learn для выбора признаков в наборе данных?

Scikit-Learn предоставляет несколько методов для выбора признаков. Один из них - это VarianceThreshold , который удаляет признаки с низкой дисперсией. Также можно использовать Recursive Feature Elimination (RFE) , который обучает модель и удаляет наименее важные признаки. Другой метод - это Univariate Feature Selection, который выбирает лучшие признаки с помощью статистических тестов, таких как хи-квадрат. Наконец, SelectFromModel позволяет выбрать признаки на основе их важности.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😘 Rig — современная Rust-библиотека для работы с LLM, предлагающая унифицированный интерфейс для разных провайдеров ИИ. Проект выделяется акцентом на модульность и эргономику, позволяя интегрировать языковые модели в приложения с минимальным бойлерплейтом.

Инструмент уже используют в продакшене такие проекты, как Dria Compute Node и Linera Protocol. Библиотека поддерживает не только чат-модели вроде GPT-4, но и векторные базы данных, включая MongoDB и LanceDB.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👋 Так, это что-то новенькое: там вышла статья, которую совместно писали ученые из OpenAI, Anthropic, Google DeepMind и Meta*

Вот так наборчик, да? И о чем, как вы думаете, статья, если она объединила исследователей из четырех таких конкурирующих лаб?

Конечно, о безопасности. Кстати, среди авторов – Йошуа Бенджио, а среди рецензентов – Илья Суцкевер, Джон Шульман и Джеффри Хинтон.

Пишут про цепочки рассуждений (Chain of Thoughts). Основная мысль: люди зря надеятся, что CoT поможет нам надежно интерпретировать модели и считывать их истинные мотивы, предупреждая тем самым какие-то вредные действия.

На сегодняшний день – да, какое-то представление о скрытых мыслях сетей CoT действительно дает, и этим надо активно пользоваться. Но это довольно хрупкая возможность, которая может исчезнуть по мере прогресса.

В перспективе не стоит забывать о физике процесса ризонинга: для модели это та же самая генерация токенов, только в рамках специального тега /think. Фактически, сеть просто генерирует что-то «для себя» перед тем как начать генерировать ответ для пользователя, и мы называем это размышлением.

Нет оснований полагать, что в CoT всегда будут содержаться истинные намерения моделей, тем более для будущих более продвинутых архитектур и методов обучения.

Ну, в общем, очень интересный кейс единодушия ученых. Почитать полностью можно тут

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Что такое Scikit-Learn и почему стоит использовать его вместо других библиотек машинного обучения?

Scikit-Learn - это библиотека машинного обучения на Python, основанная на NumPy, SciPy и Matplotlib. Она предоставляет удобные и эффективные инструменты для анализа данных и моделирования. Scikit- Learn выделяется простым и единообразным АРІ, хорошей документацией и активным сообществом. В библиотеку встроены алгоритмы классификации, регрессии, кластеризации, снижения размерности, обработки данных и оценки моделей. Благодаря этим особенностям она подходит как для новичков, так и для опытных специалистов.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😐 ManusAI теперь умеет визуализировать данные красиво и без боли

Загружаете сырые данные → описываете, что хотите увидеть → выбираете тип графика → Manus сам всё строит.

Мы вот так выяснили, что среди трёх видов пингвинов — Адели, Антарктических и Генту — самые пухлые и длинноластые оказались именно генту.

Подходит идеально для:
🔵 дашбордов и презентаций
🔵 отчётов для коллег и инвесторов
🔵 исследовательского анализа без кода

Приятный интерфейс, поддержка CSV, markdown-выгрузка и PDF. И всё это — бесплатно.

Попробовать: https://manus.ai

@👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😇 Если вы действительно хотите понять, как работают LLM-модели, попробуйте реализовать свою собственную с нуля.

И именно этим вы займётесь в этом курсе: соберёте LLM, похожую на Llama 4, с нуля.

Вы создадите токенизатор, разберётесь с механизмом внимания, углубитесь в Rotary Positional Embeddings и многое другое

https://www.freecodecamp.org/news/code-your-own-llama-4-llm-from-scratch/

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #postgres
🤔 Что такое View (представление) в PostgreSQL?

View — это виртуальная таблица, основанная на SQL-запросе. Она не хранит данные, а предоставляет упрощенный способ доступа к результатам сложных запросов. Views помогают улучшить читаемость кода, повышают безопасность и обеспечивают удобство повторного использования.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
👨‍💻 Фреймворк для подключения любого LLM к любому MCP-серверу (опенсорс).

mcp-use позволяет подключать любую LLM к любому MCP-серверу и создавать кастомные MCP-агенты — без необходимости использовать проприетарные решения вроде Cursor или Claude

Совместим с Ollama, LangChain и другими.

GitHub репозиторий → https://github.com/mcp-use/mcp-use

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥱 VoltAgent — TypeScript-фреймворк для создания автономных AI-агентов. Этот open-source проект предлагает готовую инфраструктуру для разработки сложных агентов на базе LLM, избавляя от необходимости писать всё с нуля. С его помощью можно создавать как простых чат-ботов, так и многоагентные системы с координацией через Supervisor и сложной workflow-логикой.

Фреймворк поддерживает популярные языковые модели, интеграцию с внешними API через Model Context Protocol и даже голосовые интерфейсы через @ voltagent/voice. Для отладки есть VoltOps — платформа с визуализацией работы агентов.
GitHub

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👍 Илон Маск уволил сотрудника xAI из-за философских взглядов

В X приключилась драма в двух действиях:

1⃣ Сотрудник xAI в реплаях к посту другого пользователя заявил, что ИИ не захочет объединяться с человечеством, и это нормально. «Мы просто должны передать эстафету другому, более разумному виду». А когда оппонент сказал, что предпочел бы, чтобы вместо ИИ жили его дети, тот ответил, что это «эгоистично». Это было в начале июля.

2⃣ А сегодня этот инженер объявил, что больше не работает в xAI, и это «связано с тем, что он писал у себя на странице». Илон Маск подтвердил увольнение, написав, что это было вопросом «философских разногласий».

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔1
#Собес #postgres
🤔 Что такое секционирование таблиц (table partitioning) в PostgreSQL?

Секционирование - это разделение таблицы на несколько меньших частей (секции), которые обрабатываются отдельно. Это повышает производительность запросов и облегчает управление большими обьемами данных.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🛞 3blue1brown и welch labs выложили совместное видео

Потрясающее разложение диффузионных моделей: наглядно, интуитивно, элегантно

Есть русские субтитры
видео тут

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1