Интересное что-то – Telegram
Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
Forwarded from Градиент обреченный (Sergei Averkiev)
#ml #prod

🔺 ML System Design

Материалы по внешней стороне машинного обучения (за внутреннюю считаем research / исследования) — проектирование того, как это все будет работать, поддерживаться и обновляться (system design).

Тема важная и начать в нее погружаться можно из актуального курса Стэнфорда cs 329s (содержание курса). Все это похоже на системное программирование, только в контексте ML. Сами лекции в виде текста, есть слайды и пара ноутбуков. Лекции прикольные, можно читать как книжку. Сам курс не очень длинный, так что будут шансы пройти до конца 😁.

👉 Лекции и TLDR;

1️⃣ Отличия ML для продакшена. tldr; Данные — сырые и меняются во времени. Приоритеты — быстрый инференс, важна интерпретируемость. Много заказчиков и требований от них.

2️⃣ Основы проектирования. tldr; Понимаем проблему (нужен ли тут вообще ML?). Источники и формат данных. ETL (процессинг и хранение данных).

3️⃣ Тренировочные данные. tldr; Тут довольно понятная тема — что делать с сырыми данными, как собрать из них хороший датасет, нехватка разметки, active learning и т.д.

4️⃣ Feature Engineering. tldr; Данные есть, как будем подавать их в модель? Аугментации (делаем данные разнообразней), придумываем новые признаки. И внезапно про позиционные эмбеддинги.

5️⃣ Model Development. tldr; Six tips for model selection. Важная мысль — не надо сразу брать SOTA, топовый результат на статическом датасете не обязательно будет лучше для вас, начните с простого. kaggle хаки/подходы — bagging, boosting, stacking.

6️⃣ Распределенное обучение и оценка модели. tldr; Про обучение на кластере и виды параллелизма. Сделай бейзлайн (рандомный, эвристики, человеческий, готовые решения). Советы по оценке моделей.

7️⃣ Деплой модели. tldr; Онлайн / оффлайн предсказания. Оптимизация модели — дистилляция, прунинг, квантизация. ML в облаке.

8️⃣ Мониторинг и дрифт данных. tldr; Хьюстон, у нас дрифт данных. Про feedback loop. Различные виды дрифта (covariate, label, concept drifts). Observability — собирай метрики, чтобы понять, что пошло не так.
15 частых ошибок в данных от Visual Capitalist. Помню первый день, когда столкнулась с парадоксом Симпсона, очень долго не могла понять, что же не так))
Forwarded from Data-comics
Важные навыки в периоды стресса.pdf
5.5 MB
[ File : Важные навыки в периоды стресса.pdf ]
Методичка от ВОЗ в комиксах:
"Важные навыки в периоды стресса"

Тут описывается 5 методик, что делать в момент стресса или любых сильных эмоций. Очень понятная, и по ссылке внутри есть аудиофайлы на русском, в которых объясняются техники.

Всем сил! 🤗
Forwarded from Roman
Неплохая обзорная статья https://arxiv.org/abs/2011.02260
#полезно
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html
Forwarded from Roman Izutov
ну смотрите, тут просто чат пои сисдизу, а то бихэв
в целом нужно уметь ответить историями из СВОЕГО РЕАЛЬНОГО опыта на
1) вот эти вопросы
o Give me an example of a time you were unsatisfied with the status quo. How would you change it?
o Give me an example of a time you were driving toward a goal and realized more than half way in that it may not be the best goal
o Give me an example of a time you took an unpopular stance in a meeting with peers/leaders and what did you do?
o Give me an example of a time A time when you took a big risk and it failed.
o Give me an example of a time you used customer feedback to drive improvement or innovation. What was the situation and what action did you take?

2) вопросы из grocking behavioural inteview от educative(он бесплатный) - там же найдете хорошие вопросы, которые уже вы задаете интервьюеру

3) Так же после каждого behave вопроса может быть follow up: В следующий раз при такой ситуации вдела лбы так же или по-другому? - Важно правильно отвечать на эти допвопросы (тут надо рассказать про ретроспективу, как понял что лучше а что хуже, какую работу над ошибками провел и т.д.)

4) не забывайте про STAR и PARLA

Ну и в целом, если жим-жим из-за behave, надо идти в чат https://news.1rj.ru/str/Behavioral_interview
Forwarded from Kali Novskaya (Tatiana Shavrina)
Сделала для вас подборку литературы:
С чего начать в NLP

Пункт номер 0.
Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.

Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка

Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.

Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка

◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка

На русском:
◽️Бесплатный курс Павла Браславского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.

◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.

Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
#systemdesign
Что почитать кроме кабана