DS & ML | YeaHub – Telegram
DS & ML | YeaHub
464 subscribers
259 photos
67 videos
372 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#полезное
❤️‍🔥 Microsoft недавно выпустили бесплатный курс по созданию AI-агентов.

В нем 11 уроков с теорией, примерами кода на Python, заданиями и ссылками на доп. материалы
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
👋 OpenAI будет обучать учителей использовать ChatGPT в школах

Стартап присоединился к Американской федерации учителей и запускает пятилетнюю академию, в которой 400 000 учителей будут осваивать и практиковать применение ИИ в своей работе.

Если что, 400 000 – это примерно каждый десятый учитель в Штатах. Все они получат приоритетный доступ к продуктам OpenAI, гранд в виде токенов и кредитов API и бесплатную техподдержку. Плюс – семинары, митапы, воркшопы и онлайн курсы.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Как обрабатывать пропущенные или поврежденные данные в наборе данных с использованием Scikit-Learn?

Scikit-Learn предоставляет класс SimpleImputer , который заменяет пропущенные значения в данных на среднее, медиану или наиболее часто встречающееся значение в каждом столбце. Для поврежденных данных Scikit-Learn не предлагает прямых методов, но можно использовать другие библиотеки, такие как Pandas, для обработки таких данных до подачи их в модель.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#видео
😎 Комбинация из трёх курсов, охватывающих важную математику для ML и DL.

Основное внимание уделяется теоретическим концепциям, сопровождаемым качественными разобранными задачами.
Смотреть видео

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#статьи
🤓 Что делать, если A/B-тесты врут

Классическая схема A/B-разбиения работает, только если пользователи не влияют друг на друга. Но что, если это не так?

Такси, доставка, соцсети — в таких системах старый добрый user_id → контроль / тест уже не спасает. Метрики искажаются, а выводы могут привести к ошибочным решениям.

В карточках — 5 важных выводов.
В статье — разбор альтернатив

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Какие ключевые различия между алгоритмами с обучением с учителем и без учителя в Scikit-Learn?

Алгоритмы с обучением с учителем в Scikit-Learn требуют меток для данных, что позволяет им предсказывать результаты на основе известных связей между входными и выходными данными. Примеры таких алгоритмов - это регрессия и классификация. Алгоритмы без учителя не требуют меток и используются для поиска скрытых структур в данных, таких как кластеризация и снижение размерности. Примеры: К-средних и РСА.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😱 Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста

Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science.

В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое.

Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🛞 Вышел Public Roadmap для Gemini CLI — команды хотят создать мощного, open-source Coding Agent, ориентированного на сообщество.

Проект развивается сразу по 4 ключевым направлениям:

1⃣ Extensible
CLI должен быть легко расширяемым под любые среды и сценарии: кастомные slash-команды, удалённые протоколы, запуск .gemini.md файлов с пользовательскими тулзами.

2⃣ Everywhere
Агент можно запускать как фоновый процесс в разных окружениях: локально, в контейнерах, GitHub Actions, облаке. Поддерживается делегирование задач субагентам.

3⃣ Intelligent
Фокус на качестве моделей и инструментов. Цель — попасть в топ по метрикам вроде SWE Bench. Все критические баги (P0) будут закрыты до релиза версии 1.0.

4⃣ Open Source
Проект строится в диалоге с сообществом: быстрое реагирование на ишью и PR’ы, минимальный бэклог и удобные процессы участия.

Workstreams уже распределены:
🟠 Качество модели (улучшение рассуждений, устранение повторов)
🟠 Производительность (кеширование, умная маршрутизация моделей)
🟠 Расширяемость (агенты в фоне, деплой в облако)
🟠 Автоматизация сообщества (улучшение dev-флоу)

Если хочешь участвовать в разработке следующего поколения AI-инструментов для кодинга — сейчас самое время подключиться к Gemini CLI.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥄 Что посмотреть: курс по deep learning на mesh и point cloud данных

Курс о том, как применять deep learning к данным на криволинейных поверхностях: мешам и point clouds. Подходит тем, кто хочет использовать data-driven алгоритмы за пределами изображений и текста.

Что в курсе:
🔵 Какие задачи решаются на мешах и облаках точек
🔵 Как обрабатывать такие данные (масштабируемость, обобщение и пр.)
🔵 Обзор SOTA-методов и практические советы для исследований
Видео, слайды и туториал

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Как использовать Scikit-Learn для выбора признаков в наборе данных?

Scikit-Learn предоставляет несколько методов для выбора признаков. Один из них - это VarianceThreshold , который удаляет признаки с низкой дисперсией. Также можно использовать Recursive Feature Elimination (RFE) , который обучает модель и удаляет наименее важные признаки. Другой метод - это Univariate Feature Selection, который выбирает лучшие признаки с помощью статистических тестов, таких как хи-квадрат. Наконец, SelectFromModel позволяет выбрать признаки на основе их важности.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😘 Rig — современная Rust-библиотека для работы с LLM, предлагающая унифицированный интерфейс для разных провайдеров ИИ. Проект выделяется акцентом на модульность и эргономику, позволяя интегрировать языковые модели в приложения с минимальным бойлерплейтом.

Инструмент уже используют в продакшене такие проекты, как Dria Compute Node и Linera Protocol. Библиотека поддерживает не только чат-модели вроде GPT-4, но и векторные базы данных, включая MongoDB и LanceDB.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👋 Так, это что-то новенькое: там вышла статья, которую совместно писали ученые из OpenAI, Anthropic, Google DeepMind и Meta*

Вот так наборчик, да? И о чем, как вы думаете, статья, если она объединила исследователей из четырех таких конкурирующих лаб?

Конечно, о безопасности. Кстати, среди авторов – Йошуа Бенджио, а среди рецензентов – Илья Суцкевер, Джон Шульман и Джеффри Хинтон.

Пишут про цепочки рассуждений (Chain of Thoughts). Основная мысль: люди зря надеятся, что CoT поможет нам надежно интерпретировать модели и считывать их истинные мотивы, предупреждая тем самым какие-то вредные действия.

На сегодняшний день – да, какое-то представление о скрытых мыслях сетей CoT действительно дает, и этим надо активно пользоваться. Но это довольно хрупкая возможность, которая может исчезнуть по мере прогресса.

В перспективе не стоит забывать о физике процесса ризонинга: для модели это та же самая генерация токенов, только в рамках специального тега /think. Фактически, сеть просто генерирует что-то «для себя» перед тем как начать генерировать ответ для пользователя, и мы называем это размышлением.

Нет оснований полагать, что в CoT всегда будут содержаться истинные намерения моделей, тем более для будущих более продвинутых архитектур и методов обучения.

Ну, в общем, очень интересный кейс единодушия ученых. Почитать полностью можно тут

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Что такое Scikit-Learn и почему стоит использовать его вместо других библиотек машинного обучения?

Scikit-Learn - это библиотека машинного обучения на Python, основанная на NumPy, SciPy и Matplotlib. Она предоставляет удобные и эффективные инструменты для анализа данных и моделирования. Scikit- Learn выделяется простым и единообразным АРІ, хорошей документацией и активным сообществом. В библиотеку встроены алгоритмы классификации, регрессии, кластеризации, снижения размерности, обработки данных и оценки моделей. Благодаря этим особенностям она подходит как для новичков, так и для опытных специалистов.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😐 ManusAI теперь умеет визуализировать данные красиво и без боли

Загружаете сырые данные → описываете, что хотите увидеть → выбираете тип графика → Manus сам всё строит.

Мы вот так выяснили, что среди трёх видов пингвинов — Адели, Антарктических и Генту — самые пухлые и длинноластые оказались именно генту.

Подходит идеально для:
🔵 дашбордов и презентаций
🔵 отчётов для коллег и инвесторов
🔵 исследовательского анализа без кода

Приятный интерфейс, поддержка CSV, markdown-выгрузка и PDF. И всё это — бесплатно.

Попробовать: https://manus.ai

@👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM