Forwarded from Градиент обреченный (Sergei Averkiev)
#ml #prod
🔺 ML System Design
Материалы по внешней стороне машинного обучения (за внутреннюю считаем research / исследования) — проектирование того, как это все будет работать, поддерживаться и обновляться (system design).
Тема важная и начать в нее погружаться можно из актуального курса Стэнфорда cs 329s (содержание курса). Все это похоже на системное программирование, только в контексте ML. Сами лекции в виде текста, есть слайды и пара ноутбуков. Лекции прикольные, можно читать как книжку. Сам курс не очень длинный, так что будут шансы пройти до конца 😁.
👉 Лекции и TLDR;
1️⃣ Отличия ML для продакшена. tldr; Данные — сырые и меняются во времени. Приоритеты — быстрый инференс, важна интерпретируемость. Много заказчиков и требований от них.
2️⃣ Основы проектирования. tldr; Понимаем проблему (нужен ли тут вообще ML?). Источники и формат данных. ETL (процессинг и хранение данных).
3️⃣ Тренировочные данные. tldr; Тут довольно понятная тема — что делать с сырыми данными, как собрать из них хороший датасет, нехватка разметки, active learning и т.д.
4️⃣ Feature Engineering. tldr; Данные есть, как будем подавать их в модель? Аугментации (делаем данные разнообразней), придумываем новые признаки. И внезапно про позиционные эмбеддинги.
5️⃣ Model Development. tldr; Six tips for model selection. Важная мысль — не надо сразу брать SOTA, топовый результат на статическом датасете не обязательно будет лучше для вас, начните с простого. kaggle хаки/подходы — bagging, boosting, stacking.
6️⃣ Распределенное обучение и оценка модели. tldr; Про обучение на кластере и виды параллелизма. Сделай бейзлайн (рандомный, эвристики, человеческий, готовые решения). Советы по оценке моделей.
7️⃣ Деплой модели. tldr; Онлайн / оффлайн предсказания. Оптимизация модели — дистилляция, прунинг, квантизация. ML в облаке.
8️⃣ Мониторинг и дрифт данных. tldr; Хьюстон, у нас дрифт данных. Про feedback loop. Различные виды дрифта (covariate, label, concept drifts). Observability — собирай метрики, чтобы понять, что пошло не так.
🔺 ML System Design
Материалы по внешней стороне машинного обучения (за внутреннюю считаем research / исследования) — проектирование того, как это все будет работать, поддерживаться и обновляться (system design).
Тема важная и начать в нее погружаться можно из актуального курса Стэнфорда cs 329s (содержание курса). Все это похоже на системное программирование, только в контексте ML. Сами лекции в виде текста, есть слайды и пара ноутбуков. Лекции прикольные, можно читать как книжку. Сам курс не очень длинный, так что будут шансы пройти до конца 😁.
👉 Лекции и TLDR;
1️⃣ Отличия ML для продакшена. tldr; Данные — сырые и меняются во времени. Приоритеты — быстрый инференс, важна интерпретируемость. Много заказчиков и требований от них.
2️⃣ Основы проектирования. tldr; Понимаем проблему (нужен ли тут вообще ML?). Источники и формат данных. ETL (процессинг и хранение данных).
3️⃣ Тренировочные данные. tldr; Тут довольно понятная тема — что делать с сырыми данными, как собрать из них хороший датасет, нехватка разметки, active learning и т.д.
4️⃣ Feature Engineering. tldr; Данные есть, как будем подавать их в модель? Аугментации (делаем данные разнообразней), придумываем новые признаки. И внезапно про позиционные эмбеддинги.
5️⃣ Model Development. tldr; Six tips for model selection. Важная мысль — не надо сразу брать SOTA, топовый результат на статическом датасете не обязательно будет лучше для вас, начните с простого. kaggle хаки/подходы — bagging, boosting, stacking.
6️⃣ Распределенное обучение и оценка модели. tldr; Про обучение на кластере и виды параллелизма. Сделай бейзлайн (рандомный, эвристики, человеческий, готовые решения). Советы по оценке моделей.
7️⃣ Деплой модели. tldr; Онлайн / оффлайн предсказания. Оптимизация модели — дистилляция, прунинг, квантизация. ML в облаке.
8️⃣ Мониторинг и дрифт данных. tldr; Хьюстон, у нас дрифт данных. Про feedback loop. Различные виды дрифта (covariate, label, concept drifts). Observability — собирай метрики, чтобы понять, что пошло не так.
Forwarded from настенька и графики
15 частых ошибок в данных от Visual Capitalist. Помню первый день, когда столкнулась с парадоксом Симпсона, очень долго не могла понять, что же не так))
Forwarded from Data-comics
Важные навыки в периоды стресса.pdf
5.5 MB
[ File : Важные навыки в периоды стресса.pdf ]
Методичка от ВОЗ в комиксах:
"Важные навыки в периоды стресса"
Тут описывается 5 методик, что делать в момент стресса или любых сильных эмоций. Очень понятная, и по ссылке внутри есть аудиофайлы на русском, в которых объясняются техники.
Всем сил! 🤗
Методичка от ВОЗ в комиксах:
"Важные навыки в периоды стресса"
Тут описывается 5 методик, что делать в момент стресса или любых сильных эмоций. Очень понятная, и по ссылке внутри есть аудиофайлы на русском, в которых объясняются техники.
Всем сил! 🤗
Forwarded from Alexey Neznanov
Самые основы:
1. Анатомия рекомендательных систем. Часть первая ( http://habr.com/company/lanit/blog/420499/)
2. Анатомия рекомендательных систем. Часть вторая ( http://habr.com/company/lanit/blog/421401/)
3. Рекомендательные системы: идеи, подходы, задачи https://habr.com/ru/company/jetinfosystems/blog/453792/
1. Анатомия рекомендательных систем. Часть первая ( http://habr.com/company/lanit/blog/420499/)
2. Анатомия рекомендательных систем. Часть вторая ( http://habr.com/company/lanit/blog/421401/)
3. Рекомендательные системы: идеи, подходы, задачи https://habr.com/ru/company/jetinfosystems/blog/453792/
Habr
Анатомия рекомендательных систем. Часть первая
Я работаю дата-саентистом в компании CleverDATA . Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых...
Forwarded from Roman
Неплохая обзорная статья https://arxiv.org/abs/2011.02260
Forwarded from Slava Polianskii
Google for Developers
Rules of Machine Learning: | Google for Developers
Forwarded from Small Data Science for Russian Adventurers
#полезно
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html
Forwarded from Roman Izutov
ну смотрите, тут просто чат пои сисдизу, а то бихэв
в целом нужно уметь ответить историями из СВОЕГО РЕАЛЬНОГО опыта на
1) вот эти вопросы
o Give me an example of a time you were unsatisfied with the status quo. How would you change it?
o Give me an example of a time you were driving toward a goal and realized more than half way in that it may not be the best goal
o Give me an example of a time you took an unpopular stance in a meeting with peers/leaders and what did you do?
o Give me an example of a time A time when you took a big risk and it failed.
o Give me an example of a time you used customer feedback to drive improvement or innovation. What was the situation and what action did you take?
2) вопросы из grocking behavioural inteview от educative(он бесплатный) - там же найдете хорошие вопросы, которые уже вы задаете интервьюеру
3) Так же после каждого behave вопроса может быть follow up: В следующий раз при такой ситуации вдела лбы так же или по-другому? - Важно правильно отвечать на эти допвопросы (тут надо рассказать про ретроспективу, как понял что лучше а что хуже, какую работу над ошибками провел и т.д.)
4) не забывайте про STAR и PARLA
Ну и в целом, если жим-жим из-за behave, надо идти в чат https://news.1rj.ru/str/Behavioral_interview
в целом нужно уметь ответить историями из СВОЕГО РЕАЛЬНОГО опыта на
1) вот эти вопросы
o Give me an example of a time you were unsatisfied with the status quo. How would you change it?
o Give me an example of a time you were driving toward a goal and realized more than half way in that it may not be the best goal
o Give me an example of a time you took an unpopular stance in a meeting with peers/leaders and what did you do?
o Give me an example of a time A time when you took a big risk and it failed.
o Give me an example of a time you used customer feedback to drive improvement or innovation. What was the situation and what action did you take?
2) вопросы из grocking behavioural inteview от educative(он бесплатный) - там же найдете хорошие вопросы, которые уже вы задаете интервьюеру
3) Так же после каждого behave вопроса может быть follow up: В следующий раз при такой ситуации вдела лбы так же или по-другому? - Важно правильно отвечать на эти допвопросы (тут надо рассказать про ретроспективу, как понял что лучше а что хуже, какую работу над ошибками провел и т.д.)
4) не забывайте про STAR и PARLA
Ну и в целом, если жим-жим из-за behave, надо идти в чат https://news.1rj.ru/str/Behavioral_interview
Forwarded from Kali Novskaya (Tatiana Shavrina)
Сделала для вас подборку литературы:
С чего начать в NLP
Пункт номер 0. Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.
Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка
Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.
Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка
◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка
На русском:
◽️Бесплатный курс Павла Браславского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.
◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.
Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
С чего начать в NLP
Пункт номер 0. Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.
Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка
Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.
Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка
◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка
На русском:
◽️Бесплатный курс Павла Браславского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.
◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.
Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML