Start Career in DS – Telegram
Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
Спешу поделиться материалами курса, который сам не так давно прошёл.
Сошлюсь на страницу с подробным описанием и ссылкой на плейлист с видео, но далее будет серия из нескольких постов про те лекции, которые показались мне наиболее интересными.
В целом могу сказать, что это один из самых подробных и интересных курсов по анализу данных из всех, что я видел.
https://dyakonov.org/2020/12/30/pzad/
Несколько наиболее полезных лично для меня лекций.
На собеседованиях (особенно на джуновые позиции) очень любят спрашивать про #метрики
Во многих курсах их введению и объяснению уделяют совсем немного времени, но вот в курсе ПЗАД Александр Геннадьевич провёл две большие лекции по метрикам регрессии и классификации. Очень советую посмотреть - там всё вводится крайне последовательно и понятно.
Лекция 9. Функции ошибки в задаче регрессии: https://youtu.be/7zE1wGk3TVA
Лекция 10. Качество в задачах классификации: https://youtu.be/zX7hzjVBqeM
Продолжение про #метрики в курсе ПЗАД
В этих видео подробно рассматриваются Log Loss, ROC-AUC + ещё ряд интересных и специфичных метрик. В лекциях много практических примеров, мне это прям очень зашло :)
Лекция 11. Скоринговые функции ошибки: https://youtu.be/oKf86OZMf3w
Лекция 12. Кривые в машинном обучении: https://youtu.be/Y3BD_z2DF3M
#тестирование
Сейчас аналитика и Data Science очень часто идут бок-о-бок.
Поэтому на собеседованиях часто спрашивают о том, как работать с A/B тестами и порой даже просят писать код.
Вот эта статья из Академии Яндекса поможет вам чуточку лучше с этим разобраться:
https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python?utm_source=smm&utm_medium=tg&utm_campaign=prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python
Говоря о Data Science, очень сложно не упомянуть о крупнейшем в СНГ (думаю, уже и в Восточной Европе) сообществе - Open Data Science.
Оно представлено каналом в слаке, в котором публикуют целую кучу полезной информации - курсы, вакансии, предстоящие конференции. Кроме того, сообщество очень активное - там вполне можно задать свой вопрос и получить на него грамотный ответ.
Зарегестрироваться: https://ods.ai/

Приложил парочку своих скринов, чтобы вы примерно представляли о чём речь :)
👍2
Позволю себе взять в канале @kupchanski пост, который здорово поможет при подготовке к собеседованиям в части #python
Некоторые вопросы из списка я реально встречал и задавал на собеседованиях, так что сохраняйте :)
Forwarded from Data Science Guy
Неплохая статья, для оценки собственных навыков в python. Рекомендую пробежаться, освежить знания или узнать новое)
https://mcs.mail.ru/blog/spisok-voprosov-s-sobesedovaniy-python-dlya-data-sayentistov
Конспект лекций Анатолия Карпова на тему #статистика в формате ноутбука.
В нём рассматриваются многие базовые термины с примерами в знакомом всем формате
https://nbviewer.jupyter.org/github/KlukvaMors/basic_stat/blob/main/%D0%BA%D0%BE%D0%BD%D1%81%D0%BF%D0%B5%D0%BA%D1%82.ipynb?flush_cache=true
Ещё один достойный список вопросов для подготовки к собеседованию, наткнулся на просторах интернета.
Он на английском, но возможно это будет кому-то и в плюс :)
Многие из вопросов действительно очень годные.
+ к практически всем есть ответы, по ним удобно готовиться


https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
Ещё один хороший сборник вопросов с собеседований на тему #статистика.
Важно: лично мне кажется, что ответы на некоторые вопросы тут даны ну прям уж совсем краткие (та же стат. значимость). Так что советую перед собесом более подробно пробежаться по ним и покопаться в теме.
https://proglib.io/sh/q6rCD0Nca1
На собеседованиях часто задают вопросы с используемыми в работе DS'a библиотеками.
В частности, про #numpy
Если хотите поупражняться, вот хороший репозиторий для этого:
https://github.com/rougier/numpy-100
Там 100 заданий самого разного уровня - над тремя звёздочками уверен, что многим придётся подумать :)

P.S. Для тех кто боится гита.
Можете просто тыкнуть зелёную кнопку Code, затем Download ZIP. Потом разахривируйте на своём компьютере и используйте файлики 100_Numpy_exercises.ipynb (сами задания), 100_Numpy_exercises_with_hints.md (задания с подсказками), 100_Numpy_exercises_with_hints_with_solutions.md (решения)
#визуализация
Копаясь по работе с графиками, наткнулся на вот эту классную заметку: https://neptune.ai/blog/pandas-plot-deep-dive-into-plotting-directly-with-pandas

Честно признаюсь - сам долго не знал, что графики можно рисовать просто приписав .plot() к датафрейму в Pandas. В этой статьей есть куча примеров рисования разнообразных визуализаций с помощью этого
super-cheatsheet-machine-learning.pdf
1.3 MB
Наткнулся тут на просторах интернета на "Super VIP Cheatsheet: Machine Learning" от ребят из Stanford University.
Я бы описал его так: оочень краткий конспект некоторых основных тем в ML с самыми важными формулами и наглядными иллюстрациями.
Некоторые темы раскрыты прям круто: функции потерь, град. спуск, регрессии, обучение без учителя, метрики. А вот про деревянные модели рассказали как-то не очень подробно.
Кроме того, в конце есть блок "Refreshers", который покрывает, как мне кажется, очень большую часть базовой математической теории, которая используется в алгоритмах.
Для тех кто не любит большие книжки - там всего 16 страниц! Прям самое то на полистать и вспомнить формулы перед собеседованием.
#книжки
👍1🔥1
Ну и по традиции содержание брошюры, чтобы быстро понять о чём речь:
#алгоритмы
Выше в этом треде писалось о том, что в некоторых компаниях на собеседованиях любят спрашивать про алгоритмы и структуры данных.
Удобная шпаргалка по сложности взаимодействия с разными структурами данных:
15-31-02-shpargalka.png
1.1 MB
В высоком качестве:
В статье выше есть даже примерная схемка в какой ситуации какой критерий выбирать: