Start Career in DS – Telegram
Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
#интересное, #python
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.

Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Мне тут студенты задали очень интересный вопрос. Давайте без гугла - правда очень интересно. Чуть позже сделаем подробный разбор :)
Может ли Information Gain при разбиении в дереве быть отрицательным?
Anonymous Poll
34%
Да
66%
Нет
👍2
Интересная статья про фичи и их отбор. На английском, но он тут достаточно простой:
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
👍2
#метрики
Очень хорошая статья, которая позволит подробно разобраться с одной из очень часто используемых метрик - ROC-AUC.
Блог Александра Дьяконова в целом очень советую, он содержит в себе большое количество полезностей. Думаю, буду еще на него ссылаться :)
https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
#SQL
На стажëрских позициях SQL не всегда требуют. Но это может сыграть вам на руку и выделить среди других кандидатов :)
А если вы претендуете на позицию джуна, то я бы сказал, что SQL - прям мастхэв.
Самый лучший сайт для изучения SQL с нуля - sql-ex.ru
Там есть всё - и теория, и практика, и куча примеров. И всё бесплатно
👍1
Несколько интересных экспериментов с #pandas
Вновь ссылка на статью Александра Дьякнова. В ней есть сравнение распространённых методов решения разных задач, которые часто возникают на практике:
https://dyakonov.org/2019/09/23/python-и-pandas-делаем-быстрее/
1
#алгоритмы
В некоторых компаниях на интервью любят спрашивать алгоритмы и структуры данных. Справедливости ради, нужно сказать, что к этим "некоторым компаниям" можно отнести Яндекс, Google и Facebook.
Есть очень классная книжка, которая содержит разборы огромной кучи задач на эту тему. Причем разбирается это всё прямо в виду задач с собесов.
Книга называется "Cracking the coding interview"
Ссылка: https://disk.yandex.ru/i/4_Ef2sBal5LohA
1
#python
Регулярки в питоне - штука крайне полезная. Они позволяют быстро и удобно работать со строками.
Вот очень хорошая статья, которая даëт все необходимые вводные:
https://tproger.ru/translations/regular-expression-python/?utm_medium=messenger&utm_source=telegram

Самое интересное там начинается со слов "До сих пор мы рассматривали поиск определенной последовательности символов. Но что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам?"
👍2
#DL #курсы
"Хочу понять нейронки, куда пойти?"
Мне в своё время очень зашла Deep Learning School от ФМПИ МФТИ: https://www.dlschool.org/
Сейчас ребята даже сделали курс на степике, стало вдвойне удобно.
В их курсах есть вообще всё - начиная с базовой математики, заканчивая соревнованиями на кэгле по распознаванию изображений
Если вы уже разобрались с материалами выше про #SQL, то очень советую поковыряться с оконными функциями.
Вот хорошая статья, которая объясняет зачем они нужны и как с ними работать: https://m.habr.com/ru/post/268983/
Оконные функции вообще считаются достаточно продвинутым уровнем SQL. И понимать где их использовать - прям очень круто. Но очень желательно иметь возможность где-то практиковаться - например, на том же sql-ex.ru
👍1
#git
Вот этот интерактивный туториал поможет понять как грамотно работать с гитом:
https://learngitbranching.js.org/?locale=ru_RU
Спешу поделиться материалами курса, который сам не так давно прошёл.
Сошлюсь на страницу с подробным описанием и ссылкой на плейлист с видео, но далее будет серия из нескольких постов про те лекции, которые показались мне наиболее интересными.
В целом могу сказать, что это один из самых подробных и интересных курсов по анализу данных из всех, что я видел.
https://dyakonov.org/2020/12/30/pzad/
Несколько наиболее полезных лично для меня лекций.
На собеседованиях (особенно на джуновые позиции) очень любят спрашивать про #метрики
Во многих курсах их введению и объяснению уделяют совсем немного времени, но вот в курсе ПЗАД Александр Геннадьевич провёл две большие лекции по метрикам регрессии и классификации. Очень советую посмотреть - там всё вводится крайне последовательно и понятно.
Лекция 9. Функции ошибки в задаче регрессии: https://youtu.be/7zE1wGk3TVA
Лекция 10. Качество в задачах классификации: https://youtu.be/zX7hzjVBqeM
Продолжение про #метрики в курсе ПЗАД
В этих видео подробно рассматриваются Log Loss, ROC-AUC + ещё ряд интересных и специфичных метрик. В лекциях много практических примеров, мне это прям очень зашло :)
Лекция 11. Скоринговые функции ошибки: https://youtu.be/oKf86OZMf3w
Лекция 12. Кривые в машинном обучении: https://youtu.be/Y3BD_z2DF3M