Start Career in DS – Telegram
Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого:
https://facebook.github.io/prophet/

Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс и позволяет находу отрисовывать красивые графики
Start Career in DS
Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого: https://facebook.github.io/prophet/ Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс…
Спасибо большое @cosadesl за классную книжку по работе с временными рядами в комментариях!
Там глава конкретно про Prophet очень крутая, думаю, всем будет полезно:
https://ranalytics.github.io/tsa-with-r/ch-intro-to-prophet.html

Хоть и описываются функции R'овские, но в Python синтаксис не сильно отличается. А вот описание основных функций, гиперпараметров и особенностей на русском - штука полезная.
#softskills - штука очень полезная и нужная в работе. Часто мало сделать задачу круто - важно объяснить своё решение коллегам/руководству и убедить их в том, что оно действительно поможет принести value для бизнеса.
Кажется, самая большая подборка материалов по софтам, которую я встречал:
https://vc.ru/education/101011-samaya-bolshaya-podborka-po-prokachke-soft-skills-hvatit-na-vsyu-zhizn
Каждый уважающий себя DS гоняет xgboost :)
Но далеко не каждый понимает что означают те или иные его параметры. Вот статья, в которой рассказывают про смысл большинства из них:
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
🔥1
#softskills
Я тут недавно осознал, что синдром самозванца - большая проблема, из-за которой многие страдают. Причем как стажеры, так и ребята с опытом.
Важно всегда помнить, что если вас взяли на стажировку/работу - значит, вы круты! И в этом сомневаться не нужно.
Статья, в которой рассказывают как со всем этим жить:
https://m.habr.com/ru/post/548384/
👍21
hes-resume-cover-letter-guide.pdf
1.3 MB
Методичка по написанию грамотного #cv (резюме) и cover letter на английском.
Тут есть и основные правила, и глаголы, которые стоит использовать, и куча примеров непосредственно резюме
👍2
#cv
Судя по статистике, тема про написание резюме очень зашла :)
Так что нашёл ещё больше крутых материалов.
https://youtu.be/kJTxH1hCa7c

В этом видео ребята рассказывают про hiring process as it is, объясняют как проходит процесс обработки резюме и на что нужно сакцентировать внимание. Кроме того, разбирают несколько примеров резюме и подробно их комментируют.
Материал на английском, но он там вполне понятный (для технарей)
Когда начинаешь работать с новым методом/алгоритмом, порой очень хочется найти простой код с его использованием.
Нашел тут блок индийца, который собрал кучу простейших примеров использования различных методов в одну кучу:
https://thecleverprogrammer.com/2020/11/27/machine-learning-algorithms-with-python/
👍1
#курсы
Скоро стартует новый поток Data Mining In Action: https://vk.com/wall-78553823_2621
Я проходил несколько направлений ещё в очном формате и могу сказать, что это было мега-полезно. Куча практических кейсов, очень живые преподаватели и интересные домашки.
Аналогов направлению "Индустрия" я вообще не встречал - там разбирают различные кейсы применения ML-решений в бизнесе
Не так давно число участнико перевалило за 1500, спасибо всем вам за доверие контенту этого замечательного канала :)

Думаю, самое время нам с вами познакомиться :)
Меня зовут Рома Васильев, я долгое время работал в DS команде Мегафона, где занимался целой кучей самых разных задач. Ко всему прочему, я некоторое время руководил набором и работой с группами стажёров. Тогда я понял, что многие ребята действительно очень неплохо шарят, но вот именно скиллов прохождения собеседований у них не хватает. И решил забабахать канал, в котором буду делиться всем, что помогло бы начинающим карьеру ребятам.
Сейчас я уже ушёл из Мегафона, собираю себе команду, которая будет заниматься оптимизацией ассортимента в Магните (Magnit Tech, если быть точнее).
Мы собеседуем самых разных ребят и я вижу, что многие из их ошибок мы в той или иной мере обсуждали в этом канале и это очень приятно.
Буду и дальше двигаться по градиенту полезности контента :)

tg: @RAVasiliev
Linkedin: https://www.linkedin.com/in/ravasiliev
Мне бы очень хотелось познакомиться как можно лучше с аудиторией канала, чтобы иметь больше возможностей для улучшения качества контента.
Потыкайте опросы ниже - это займёт не более 30 секунд, но я смогу понять, что вам будет действительно интересно видеть здесь 🙂
Кем вы сейчас работаете? (Или что из нижеперечисленного наиболее близко к вашей деятельности?)
Anonymous Poll
22%
Data Scientist
5%
Data Engineer
12%
Бизнес-аналитик
25%
Работаю совсем в другой области
30%
Пока что не работаю
7%
Другое
Если вы работаете с данными, какой у вас опыт работы?
Anonymous Poll
59%
<1 года
25%
1-3 года
16%
>3 лет
Прошу прощения что завалил опросами субботним вечером, но торжественно клянусь, что буду использовать их результаты во благо 🙂
Почему hh - такая себе затея для поиска работы в DS?
Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл работу там. Но зато знаю десятки людей, которые нашли работу через знакомых/на хакатонах/в ODS. А всё потому что hh совсем не заточен на нашу область - там нет ряда полей, которые хотели бы видеть работодатели, нет удобной навигации и подробной информации по вакансиям. Разве что, hh удобен для первичного ознакомления с описанием вакансии, но вот целенаправленно рыться там во имя поиска работы - занятие сомнительное. Определенная вероятность успеха конечно есть, но кажется, что она очень мала.
Нашёл для вас очень свежее видео от Data Science Guy на эту тему: https://www.youtube.com/watch?v=Y8gij2WtE6I
Он подробно описывает то, где и как найти свою первую работу в DS 🙂
Start Career in DS
Почему hh - такая себе затея для поиска работы в DS? Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл…
Если hh - так себе, то что делать? Где рассказать о своих успехах и выложить резюме?
По моему опыту, LinkedIn - очень хороший инструмент. Для тех кто не знает - это своего рода Facebook, только для поиска вакансий/сотрудников/деловых контактов. Пару лет назад его заблочили в России, но им всё равно продолжают пользоваться и hr-ы, и непосредственно кандидаты (заходить можно с помощью VPN). Он очень удобен поскольку позволяет явно описать свои навыки, проекты, получить подтверждения навыков от самого линка (пройдя тестик) и от коллег. Но самое главное - можно качественно и в удобном формате описать свои проекты. Если профиль заполнен хорошо (примеры будут в конце), то нужно набрать себе контактов чтобы алгоритмы Линка заработали. Добавляйте всех людей из интересных вам компаний, с интересующим вас опытом и бэграундом. Через какое-то время и к вам начнут добавляться люди. А через какое-то время - и писать hr-ы :)
Мне самому пишут достаточно часто основываясь на навыках, которые описаны в профиле. Если у вас уже есть стоящие проекты (в университете или на стажировке/первой работе) - описывайте их там как можно подробнее.
Вот несколько профилей с очень клёвыми на мой взгляд описаниями
https://www.linkedin.com/mwlite/in/mchera
https://www.linkedin.com/mwlite/in/ravasiliev
https://www.linkedin.com/mwlite/in/dmitry-kostenev
https://www.linkedin.com/mwlite/in/seleznev-artem

Как подрубиться к VPN опишу в комментариях
👍2
Про Gain и может ли он быть отрицательным.
Во всём разобрались. Выше в канале мы обсуждали, почему он не может быть отрицательным в классическом дереве. И это действительно так: в стандартном DecisionTree из sklearn'a нет никаких регуляризаций, которые бы могли на это повлиять.

Теперь про XGBoost. Вот хороший курс по нему, на котором основывалось занятие из прошлого поста: https://youtu.be/OtD8wVaFm6E
В этом видео на 4:17 видно, что мы вводим регуляризацию (с использованием лямбд) в расчёт Similarity. И именно из-за этого мы начинаем получать отрицательные gain'ы.

Таким образом, верный ответ на вопрос "Может ли Information Gain быть отрицательным?" такой: "В классических деревьях без использования регуляризации - нет, не может. Но в более сложных алгоритмах (вроде бустинга) мы в расчёт similarity и gain'а начинаем вводить новые переменные (например лямбду), которые могут сделать его отрицательным"
#вакансии

По опросам выше понял, что аудитория канала очень разнообразная. А у нас в команде как раз есть вакансии на самые позциии Data Scientist, Data Engineer, Business Analyst разных уровней (в т.ч. и джунов, но только на фулл-тайм)

Если совсем кратко: мы сейчас активно развиваем направление Data Science в Магните: уже созданы и функционируют 4 команды: Оптимизация Ассортимента, Оптимизация Промо, Ценообразование и CVM. Базируемся в Сколково (https://sk.ru/news/v-skolkovo-otkrylsya-cifrovoy-ofis-magnita/), но сейчас все сотрудники работают официально удалённо. Думаю, все знают насколько крута команда DS в x5, мы потихоньку растём и выходим на схожий уровень. У вас есть возможность присоединиться к команде в самом начале пути 🙂
Ну и естественно крутая команда и конкурентно-способные зп прилагаются.

Стек:
Python (знание ML библиотек, ООП)
SQL (знание Teradata будет плюсом)
Опыт ведения проектов в GitHub
Hadoop, Spark (как плюс)
Azure Databricks (как плюс)
IDE Pycharm

Кроме этого, естственно, для DS'ов - знание статистики, понимание моделей машинного обучения.

Если интересно - кидайте резюме в личку @RAVasiliev