ML Career – Telegram
ML Career
202 subscribers
139 photos
5 videos
2 files
184 links
Branched from @data_career
Download Telegram
Эти пет проекты должен сделать каждый ML специалист

Устроиться можно и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна. А если хотите обогатить свое портфолио совсем мощными пет проектами, то советую наш курс МЛ хард.

1. Кредитный скоринг
Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.

2. Наивный Байесовский классификатор (НБК)
Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:
1. Вычисляем вероятность для каждого слова в тексте и отфильтровываем слова со значением вероятности меньше порогового. Такие слова будут нерелевантными.
2. Для каждого слова в словаре создаём вероятность, что это слово окажется в спаме. Определяем условную вероятность для использования её в НБК.
3. Вычисляем прогнозируемый результат с помощью условных вероятностей.
НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.

3. MLOps
Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.

4. Ранжирование и матчинг
Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.

5. Рекомендашки
Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
Также стоит попробовать обучение с подкреплением: многоруких бандитов.
Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.

@postypashki_old
Pandas устарел?
FireDucks предлагает замену без переписывания кода.

🐼 Pandas - самая популярная библиотека для обработки данных, но она уже давно страдает от низкой производительности.

🐻 Современные альтернативы, такие как Polars, предлагают гораздо более высокую производительность, но переход на новые фреймворки требует изучения нового API, что отталкивает многих разработчиков.

🔥🦆 FireDucks 🦆🔥 решает эту проблему, предлагая полную совместимость с Pandas, но с многопоточной обработкой и ускорением работы компилятора. Для перехода достаточно изменить одну строку:

python 
import fireducks.pandas as pd


Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py


FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks работает быстрее, чем Pandas и Polars, что подтверждается бенчмарками


🔜Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

➡️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

💪И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/


#pandas #polars #fireducks #de #dataengineer #dataengineering
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DataEng
Курс AI Agents от Microsoft

Нашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/
Помимо текстового материала есть и видео лекции на Ютубе.
Forwarded from Pavel Zloi
Прослушал курс про LangGraph от создателей LangChain

Недавно завершил обучение по курсу "Introduction to LangGraph" от команды разработчиков LangChain. Это отличный ресурс для тех, кто хочет продавать свои флоу под видом модных агентских систем, но пока ещё не знает как их делать.

В курсе подробно рассматриваются следующие темы:
- Построение сложных структур с использованием множества инструментов.
- Реализация операций выбора для передачи данных.
- Работа с короткосрочной и долгосрочной памятью.
- Интеракция с пользователем.

Курс рассчитан на 6 часов, но если проходить его, как я, по часу в день, то можно управиться за неделю.
Forwarded from Институт AIRI
⚡️Открываем прием заявок на Лето с AIRI 2025!

В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую атмосферу. В расписании — лекции, семинары, практическая работа, постерная сессия и внеучебные активности.

📎 Подать заявку на участие можно по ссылке до 23:59 29 апреля 2025 года.

Организаторы обеспечивают обучение, проживание и питание, вам нужно будет только добраться до Томска.

Подавайте заявки и делитесь постом с друзьями и коллегами!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Актуальные плейлисты и руководства для дата сайентистов.

1. Полный плейлист по аналитике данных и науке о данных на Python
100 вопросов с собеседований Python
100 вопросов с собеседований Python Часть 2
Лучшие бесплатные курсы и книги по Python
Python. Разбор реальных вопросов.
Python на английском языке
Тинькофф разбор заданий на стажировку
Плейлист на русском

100 вопросов c собесов в Data Science и ML

100 вопросов с собеседований Data Science
Вопросы с собеседований Читать
Data Science разбор реальной задачи с собеседования

2. Плейлист по статистике для аналитики данных и науки о данных
Математика машинного обучения полный курс
Лекции и семинары по курсу "Математическая статистика" на русском
. Статистика на английском языке
Плейлист статистики на английском языке

3. Полный SQL для аналитики и науки о данных
Полный плейлист по SQl на английском языке
Базовый курс по SQL для аналитиков и менеджеров на русском

4. Учебники по Git и Github
Учебники по Git и Github на английском языке
Git курс

5. EDA и Feature Engineering и Feature Selection
Плейлист по Feature Engineering
Выбор функций

6. Плейлист по машинному обучению
Плейлист курс ML на английском языке
Новый плейлист курс ML на английском языке.
Машинное обучение на английском языке:
Машинное обучение на русском

7. Полный плейлист по глубокому обучению и NLP
NLP плейлист
Полный плейлист NLP Live на английском языке

8. Важные фреймворки для производственных развертываний
Подробный плейлист по Flask на английском языке
BentoML Tutorial
Gradio Crash Course

9. Полный комплект инструментов AWS Sagemaker и Sagemaker Studio
Плейлист Sagemaker

10. Полное руководство по MLOPS
Полный комплект Dockers In One Shot Английский язык
Учебные пособия MLFLOW с развертыванием
Мониторинг модели Evidently AI

11. Конечные проекты ML, DL и NLP - весь жизненный цикл до развертывания с использованием инструментов с открытым исходным кодом
Плейлист End To End ML Projects на английском языке

12. Генеративный ИИ и открытый ИИ Плейлист
OPENAI Playlist English(In Progress)
Langchain Playlist(In Progress)
Полное руководство по Pyspark
Плейлист Pyspark

@machinelearning_interview
👍2
MLOps Zoomcamp 2025

Вчера начался MLOps Zoomcamp.

Вводное видео уже на YouTube.

Репозиторий курса.

Официальный канал: https://news.1rj.ru/str/dtc_courses

Секретный чат для совместного прохождения тут: https://news.1rj.ru/str/+meCfqG5WUyE3ZTVi
- от создателей @dezoomcampru2025

https://news.1rj.ru/str/data_whisperer/523
#MLOpsZoomcamp #MLOpsZoomcamp2025 #MLOps #Zoomcamp
Please open Telegram to view this post
VIEW IN TELEGRAM
📆 Что обсуждалось вчера 29.06.2025

😱👀 Начало LLM Zoomcamp 2025 (2 сообщений)

Интересные ссылки:

🔗 Документация и информация о программе LLM Zoomcamp 2025.

#dailysummary | ⭐️ поддержать команду
Forwarded from Клуб CDO (PostoplanBot)
Коллеги из Evidently AI собрали впечатляющий ресурс: “ML and LLM system design — 650 case studies”. Это структурированная база реальных кейсов от 100+ компаний о том, как применяют ML и LLM в продакшене: какие метрики используют, как проектируют системы, оценивают качество и безопасность, и запускают в масштаб. Удобно фильтровать по индустриям и типам задач (рекомендательные системы, поиск/ранжирование, fraud‑детекция, CV, NLP, Generative AI, RAG и др.).

https://www.evidentlyai.com/ml-system-design
Forwarded from asisakov
Курсы по агентам

Тут снова захотелось поговорить про горячие темы. Пока мультиагентные системы катаются на хайп трейне, давайте я быстренько накидаю интересных курсов, ну а вы сами решите, изучать вам это или нет (потом только не говорите, что вам не рекомендовали это изучить):

1️⃣Hugging Face AI Agents Course

2️⃣CS294/194-196 Large Language Model Agents от UC Berkeley (сейчас у них новая итерация, инфа тут)

3️⃣Learn AI Agents Handbook (там же есть очень крутой роадмап) (сюда же курс от ребят на Степике) (ну и третья скобка - кажется, что я подписан на 2 блога в телеге из перечисленных авторов на сайте. UPD. Оказалось, что на 3)

4️⃣Интересный довольно неструктурированный плейлист по AI агентам

5️⃣10-часовое видео AI Agents Full Course 2025

Для тех, кому мало ссылочек - дополнительно гитхаб с собранной дополнительной инфой по курсам и фреймворкам. Го ботать, пока за нас и это не стали делать агенты

@asisakov_channel

#llm #agents #courses
🔥3
Что обсуждалось вчера 30.09.2025

• На основе 2 новых сообщений от 1 участников

Обсуждаемые темы:

📚 Курсы по мультиагентным системам и AI агентам (1 сообщений)
📊 Ресурс с кейсами по ML и LLM системам от Evidently AI (1 сообщений)

Интересные ссылки:

🔗 ML and LLM system design — 650 case studies от Evidently AI

#ml_career