Start Career in DS – Telegram
Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
Pandas_Cheat_Sheet.pdf
172.4 KB
#python
Мини-шпаргалка по Pandas
python.pdf
335.4 KB
#python
Шпаргалка по основам Python
#интересное
Крутое выступление, которое позволит понять кто же такие DS'ы:
https://youtu.be/Cs3ae65tmKA

Тут Валера говорит про то, что на самом деле непосредственно Data Scientist'ов не существует, но зато есть более точные роли - ML Engineer, Data Analyst, Data Engineer, ML Researcher, Analyst, DevOps.
Проблема в том, что на практике большинство компаний под DS'ами подразумевают некоторую совокупность этих ролей с более-менее определенными коэффициентами. Кто-то хочет чтобы вы умели и сбор таблиц настраивать, и модельки делать, кто-то - чтобы вы умели напрямую взаимодействовать с бизнесом, строить модели и оценивать бизнес-эффект от них.
Эти пропорции важно понимать на этапе общения с представителями компании, чтобы не строить ложных надежд. Потому что согласитесь - печально устроиться DS'ом и сутками ковырять эксельки (а о таких случаях в некоторых компаниях я слышал)
#алгоритмы
Тем, кто уже разобрался с основами, и хочет глубже погрузиться в один из самых распространëнных методов:
https://youtu.be/UYDwhuyWYSo

Тут Анна Вероника рассказывает про многие полезные особенности CatBoost'а. Но лекция непростая, поэтому лучше на входе иметь чёткое представление относительно того, что из себя представляет бустинг
👍4
Ещë немного про #kaggle - как это помогает в карьере и помогает ли вообще?
Рассказывает Паша Плесков, один из мировых лидеров по соревнованиям в области машинного обучения.
https://youtu.be/fXnzjJMbujc
#интересное, #python
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.

Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Мне тут студенты задали очень интересный вопрос. Давайте без гугла - правда очень интересно. Чуть позже сделаем подробный разбор :)
Может ли Information Gain при разбиении в дереве быть отрицательным?
Anonymous Poll
34%
Да
66%
Нет
👍2
Интересная статья про фичи и их отбор. На английском, но он тут достаточно простой:
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
👍2
#метрики
Очень хорошая статья, которая позволит подробно разобраться с одной из очень часто используемых метрик - ROC-AUC.
Блог Александра Дьяконова в целом очень советую, он содержит в себе большое количество полезностей. Думаю, буду еще на него ссылаться :)
https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
#SQL
На стажëрских позициях SQL не всегда требуют. Но это может сыграть вам на руку и выделить среди других кандидатов :)
А если вы претендуете на позицию джуна, то я бы сказал, что SQL - прям мастхэв.
Самый лучший сайт для изучения SQL с нуля - sql-ex.ru
Там есть всё - и теория, и практика, и куча примеров. И всё бесплатно
👍1
Несколько интересных экспериментов с #pandas
Вновь ссылка на статью Александра Дьякнова. В ней есть сравнение распространённых методов решения разных задач, которые часто возникают на практике:
https://dyakonov.org/2019/09/23/python-и-pandas-делаем-быстрее/
1
#алгоритмы
В некоторых компаниях на интервью любят спрашивать алгоритмы и структуры данных. Справедливости ради, нужно сказать, что к этим "некоторым компаниям" можно отнести Яндекс, Google и Facebook.
Есть очень классная книжка, которая содержит разборы огромной кучи задач на эту тему. Причем разбирается это всё прямо в виду задач с собесов.
Книга называется "Cracking the coding interview"
Ссылка: https://disk.yandex.ru/i/4_Ef2sBal5LohA
1
#python
Регулярки в питоне - штука крайне полезная. Они позволяют быстро и удобно работать со строками.
Вот очень хорошая статья, которая даëт все необходимые вводные:
https://tproger.ru/translations/regular-expression-python/?utm_medium=messenger&utm_source=telegram

Самое интересное там начинается со слов "До сих пор мы рассматривали поиск определенной последовательности символов. Но что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам?"
👍2
#DL #курсы
"Хочу понять нейронки, куда пойти?"
Мне в своё время очень зашла Deep Learning School от ФМПИ МФТИ: https://www.dlschool.org/
Сейчас ребята даже сделали курс на степике, стало вдвойне удобно.
В их курсах есть вообще всё - начиная с базовой математики, заканчивая соревнованиями на кэгле по распознаванию изображений
Если вы уже разобрались с материалами выше про #SQL, то очень советую поковыряться с оконными функциями.
Вот хорошая статья, которая объясняет зачем они нужны и как с ними работать: https://m.habr.com/ru/post/268983/
Оконные функции вообще считаются достаточно продвинутым уровнем SQL. И понимать где их использовать - прям очень круто. Но очень желательно иметь возможность где-то практиковаться - например, на том же sql-ex.ru
👍1
#git
Вот этот интерактивный туториал поможет понять как грамотно работать с гитом:
https://learngitbranching.js.org/?locale=ru_RU