Кем вы сейчас работаете? (Или что из нижеперечисленного наиболее близко к вашей деятельности?)
Anonymous Poll
22%
Data Scientist
5%
Data Engineer
12%
Бизнес-аналитик
25%
Работаю совсем в другой области
30%
Пока что не работаю
7%
Другое
Если вы работаете с данными, какой у вас опыт работы?
Anonymous Poll
59%
<1 года
25%
1-3 года
16%
>3 лет
Какие материалы стоит больше выкладывать?
Anonymous Poll
26%
Видео с конференций
62%
Статьи на технические темы
25%
Статьи по soft-skill'ам
36%
Вакансии (их пока не было, но можем устроить)
64%
Справочные материалы/брошюры/памятки
45%
Книги
47%
Ссылки на полезные каналы
2%
Другое (можете указать в комментариях)
Как вы относитесь к статьям на английском?
Anonymous Poll
52%
Спокойно, читаю наравне с русскими
39%
Читаю с меньшим приоритетом
10%
Не смотрю английские статьи
Стоит ли попробовать проводить онлайн-встречи с ответами на вопросы? (И приглашать экспертов)
Anonymous Poll
36%
Да, с удовольствием поучавствую в LIVE-формате, если время будет удобным
50%
Да, но скорее всего посмотрю в записи (для любителей смотреть на х2)
14%
Нет, и статей достаточно
Прошу прощения что завалил опросами субботним вечером, но торжественно клянусь, что буду использовать их результаты во благо 🙂
Почему hh - такая себе затея для поиска работы в DS?
Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл работу там. Но зато знаю десятки людей, которые нашли работу через знакомых/на хакатонах/в ODS. А всё потому что hh совсем не заточен на нашу область - там нет ряда полей, которые хотели бы видеть работодатели, нет удобной навигации и подробной информации по вакансиям. Разве что, hh удобен для первичного ознакомления с описанием вакансии, но вот целенаправленно рыться там во имя поиска работы - занятие сомнительное. Определенная вероятность успеха конечно есть, но кажется, что она очень мала.
Нашёл для вас очень свежее видео от Data Science Guy на эту тему: https://www.youtube.com/watch?v=Y8gij2WtE6I
Он подробно описывает то, где и как найти свою первую работу в DS 🙂
Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл работу там. Но зато знаю десятки людей, которые нашли работу через знакомых/на хакатонах/в ODS. А всё потому что hh совсем не заточен на нашу область - там нет ряда полей, которые хотели бы видеть работодатели, нет удобной навигации и подробной информации по вакансиям. Разве что, hh удобен для первичного ознакомления с описанием вакансии, но вот целенаправленно рыться там во имя поиска работы - занятие сомнительное. Определенная вероятность успеха конечно есть, но кажется, что она очень мала.
Нашёл для вас очень свежее видео от Data Science Guy на эту тему: https://www.youtube.com/watch?v=Y8gij2WtE6I
Он подробно описывает то, где и как найти свою первую работу в DS 🙂
YouTube
Как найти первую работу в Data Science || ТОП 5 мест с вакансиями
В этом видео расскажу топ 5 мест, где нужно искать вакансии чтобы устроиться на свою первую работу в сфере дата саенс. Все ссылки упомянутые в ролике ниже в описании:
1. Телеграмм каналы:
* телеграмм канал Data Science Guy - https://news.1rj.ru/str/DataScienceGuy
Каналы…
1. Телеграмм каналы:
* телеграмм канал Data Science Guy - https://news.1rj.ru/str/DataScienceGuy
Каналы…
Start Career in DS
Почему hh - такая себе затея для поиска работы в DS? Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл…
Если hh - так себе, то что делать? Где рассказать о своих успехах и выложить резюме?
По моему опыту, LinkedIn - очень хороший инструмент. Для тех кто не знает - это своего рода Facebook, только для поиска вакансий/сотрудников/деловых контактов. Пару лет назад его заблочили в России, но им всё равно продолжают пользоваться и hr-ы, и непосредственно кандидаты (заходить можно с помощью VPN). Он очень удобен поскольку позволяет явно описать свои навыки, проекты, получить подтверждения навыков от самого линка (пройдя тестик) и от коллег. Но самое главное - можно качественно и в удобном формате описать свои проекты. Если профиль заполнен хорошо (примеры будут в конце), то нужно набрать себе контактов чтобы алгоритмы Линка заработали. Добавляйте всех людей из интересных вам компаний, с интересующим вас опытом и бэграундом. Через какое-то время и к вам начнут добавляться люди. А через какое-то время - и писать hr-ы :)
Мне самому пишут достаточно часто основываясь на навыках, которые описаны в профиле. Если у вас уже есть стоящие проекты (в университете или на стажировке/первой работе) - описывайте их там как можно подробнее.
Вот несколько профилей с очень клёвыми на мой взгляд описаниями
https://www.linkedin.com/mwlite/in/mchera
https://www.linkedin.com/mwlite/in/ravasiliev
https://www.linkedin.com/mwlite/in/dmitry-kostenev
https://www.linkedin.com/mwlite/in/seleznev-artem
Как подрубиться к VPN опишу в комментариях
По моему опыту, LinkedIn - очень хороший инструмент. Для тех кто не знает - это своего рода Facebook, только для поиска вакансий/сотрудников/деловых контактов. Пару лет назад его заблочили в России, но им всё равно продолжают пользоваться и hr-ы, и непосредственно кандидаты (заходить можно с помощью VPN). Он очень удобен поскольку позволяет явно описать свои навыки, проекты, получить подтверждения навыков от самого линка (пройдя тестик) и от коллег. Но самое главное - можно качественно и в удобном формате описать свои проекты. Если профиль заполнен хорошо (примеры будут в конце), то нужно набрать себе контактов чтобы алгоритмы Линка заработали. Добавляйте всех людей из интересных вам компаний, с интересующим вас опытом и бэграундом. Через какое-то время и к вам начнут добавляться люди. А через какое-то время - и писать hr-ы :)
Мне самому пишут достаточно часто основываясь на навыках, которые описаны в профиле. Если у вас уже есть стоящие проекты (в университете или на стажировке/первой работе) - описывайте их там как можно подробнее.
Вот несколько профилей с очень клёвыми на мой взгляд описаниями
https://www.linkedin.com/mwlite/in/mchera
https://www.linkedin.com/mwlite/in/ravasiliev
https://www.linkedin.com/mwlite/in/dmitry-kostenev
https://www.linkedin.com/mwlite/in/seleznev-artem
Как подрубиться к VPN опишу в комментариях
Linkedin
Sign Up | LinkedIn
500 million+ members | Manage your professional identity. Build and engage with your professional network. Access knowledge, insights and opportunities.
👍2
Про Gain и может ли он быть отрицательным.
Во всём разобрались. Выше в канале мы обсуждали, почему он не может быть отрицательным в классическом дереве. И это действительно так: в стандартном DecisionTree из sklearn'a нет никаких регуляризаций, которые бы могли на это повлиять.
Теперь про XGBoost. Вот хороший курс по нему, на котором основывалось занятие из прошлого поста: https://youtu.be/OtD8wVaFm6E
В этом видео на 4:17 видно, что мы вводим регуляризацию (с использованием лямбд) в расчёт Similarity. И именно из-за этого мы начинаем получать отрицательные gain'ы.
Таким образом, верный ответ на вопрос "Может ли Information Gain быть отрицательным?" такой: "В классических деревьях без использования регуляризации - нет, не может. Но в более сложных алгоритмах (вроде бустинга) мы в расчёт similarity и gain'а начинаем вводить новые переменные (например лямбду), которые могут сделать его отрицательным"
Во всём разобрались. Выше в канале мы обсуждали, почему он не может быть отрицательным в классическом дереве. И это действительно так: в стандартном DecisionTree из sklearn'a нет никаких регуляризаций, которые бы могли на это повлиять.
Теперь про XGBoost. Вот хороший курс по нему, на котором основывалось занятие из прошлого поста: https://youtu.be/OtD8wVaFm6E
В этом видео на 4:17 видно, что мы вводим регуляризацию (с использованием лямбд) в расчёт Similarity. И именно из-за этого мы начинаем получать отрицательные gain'ы.
Таким образом, верный ответ на вопрос "Может ли Information Gain быть отрицательным?" такой: "В классических деревьях без использования регуляризации - нет, не может. Но в более сложных алгоритмах (вроде бустинга) мы в расчёт similarity и gain'а начинаем вводить новые переменные (например лямбду), которые могут сделать его отрицательным"
YouTube
XGBoost Part 1 (of 4): Regression
XGBoost is an extreme machine learning algorithm, and that means it's got lots of parts. In this video, we focus on the unique regression trees that XGBoost uses when applied to Regression problems.
NOTE: This StatQuest assumes that you are already familiar…
NOTE: This StatQuest assumes that you are already familiar…
#вакансии
По опросам выше понял, что аудитория канала очень разнообразная. А у нас в команде как раз есть вакансии на самые позциии Data Scientist, Data Engineer, Business Analyst разных уровней (в т.ч. и джунов, но только на фулл-тайм)
Если совсем кратко: мы сейчас активно развиваем направление Data Science в Магните: уже созданы и функционируют 4 команды: Оптимизация Ассортимента, Оптимизация Промо, Ценообразование и CVM. Базируемся в Сколково (https://sk.ru/news/v-skolkovo-otkrylsya-cifrovoy-ofis-magnita/), но сейчас все сотрудники работают официально удалённо. Думаю, все знают насколько крута команда DS в x5, мы потихоньку растём и выходим на схожий уровень. У вас есть возможность присоединиться к команде в самом начале пути 🙂
Ну и естественно крутая команда и конкурентно-способные зп прилагаются.
Стек:
Python (знание ML библиотек, ООП)
SQL (знание Teradata будет плюсом)
Опыт ведения проектов в GitHub
Hadoop, Spark (как плюс)
Azure Databricks (как плюс)
IDE Pycharm
Кроме этого, естственно, для DS'ов - знание статистики, понимание моделей машинного обучения.
Если интересно - кидайте резюме в личку @RAVasiliev
По опросам выше понял, что аудитория канала очень разнообразная. А у нас в команде как раз есть вакансии на самые позциии Data Scientist, Data Engineer, Business Analyst разных уровней (в т.ч. и джунов, но только на фулл-тайм)
Если совсем кратко: мы сейчас активно развиваем направление Data Science в Магните: уже созданы и функционируют 4 команды: Оптимизация Ассортимента, Оптимизация Промо, Ценообразование и CVM. Базируемся в Сколково (https://sk.ru/news/v-skolkovo-otkrylsya-cifrovoy-ofis-magnita/), но сейчас все сотрудники работают официально удалённо. Думаю, все знают насколько крута команда DS в x5, мы потихоньку растём и выходим на схожий уровень. У вас есть возможность присоединиться к команде в самом начале пути 🙂
Ну и естественно крутая команда и конкурентно-способные зп прилагаются.
Стек:
Python (знание ML библиотек, ООП)
SQL (знание Teradata будет плюсом)
Опыт ведения проектов в GitHub
Hadoop, Spark (как плюс)
Azure Databricks (как плюс)
IDE Pycharm
Кроме этого, естственно, для DS'ов - знание статистики, понимание моделей машинного обучения.
Если интересно - кидайте резюме в личку @RAVasiliev
sk.ru
В «Сколково» открылся Цифровой офис «Магнита»
В «Сколково» открылся Цифровой офис «Магнита» 11 сентября 2020 года в Инновационном центре «Сколково» состоялось …
Умение работать с unix-подобными системами, а в частности с терминалом - штука очень полезная. Ловите клёвую подборку команд:
https://tproger.ru/articles/useful-linux-commands/?utm_medium=messenger&utm_source=telegram
P.S. Про некоторое (например, прогноз погоды в терминале) даже я не знал, хотя на линуксовых системах достатончо давно)
https://tproger.ru/articles/useful-linux-commands/?utm_medium=messenger&utm_source=telegram
P.S. Про некоторое (например, прогноз погоды в терминале) даже я не знал, хотя на линуксовых системах достатончо давно)
Tproger
Работаем в терминале Linux как профи: подборка полезных команд
Видели продвинутых пользователей Linux, эффективно работающих в терминале? Хотите так же? Не вопрос: мы собрали много команд для повышения продуктивности.
Книжка выглядит прям супер-годной. Поделюсь тут со ссылкой на блог Александра Дьяконова, там можно найти много интересностей :)
Forwarded from Small Data Science for Russian Adventurers
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
Вопросы для DS-собеседования
Полезная шпаркалка по Encoding'у категориальных фичей:
+хорошая статья [ENG]: https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02
+хорошая статья [ENG]: https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02
❤2
Start Career in DS
Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого: https://facebook.github.io/prophet/ Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс…
Ещё один инструмент для работы с временными рядами:
https://github.com/facebookresearch/Kats
https://github.com/facebookresearch/Kats
GitHub
GitHub - facebookresearch/Kats: Kats, a kit to analyze time series data, a lightweight, easy-to-use, generalizable, and extendable…
Kats, a kit to analyze time series data, a lightweight, easy-to-use, generalizable, and extendable framework to perform time series analysis, from understanding the key statistics and characteristi...
«Как проходит собес на DS? Про что обычно спрашивают? В каком порядке?»
Такие вопросы часто появляются у тех, кто готовится к интервью.
Нашёл несколько примеров, которые в той или иной степени описывают процесс собеседования и несут в себе много полезных инсайтов. #видео_собеседования
Одно из них:
https://youtu.be/svk9GmIMR3U
Такие вопросы часто появляются у тех, кто готовится к интервью.
Нашёл несколько примеров, которые в той или иной степени описывают процесс собеседования и несут в себе много полезных инсайтов. #видео_собеседования
Одно из них:
https://youtu.be/svk9GmIMR3U
#sql
Две статьи про то, почему понимать джойны пересечениями кругов (множеств) не совсем правильно:
https://habr.com/ru/post/448072/
https://habr.com/ru/post/450528/
Две статьи про то, почему понимать джойны пересечениями кругов (множеств) не совсем правильно:
https://habr.com/ru/post/448072/
https://habr.com/ru/post/450528/
Хабр
Понимание джойнов сломано. Это точно не пересечение кругов, честно
Так получилось, что я провожу довольно много собеседований на должность веб-программиста. Один из обязательных вопросов, который я задаю — это чем отличается INN...
«Что делать в ситуациях дисбаланса классов?» - популярный вопрос на собеседованиях всех уровней.
Статья Александра Дьяконова отвечает на этот вопрос:
https://dyakonov.org/2021/05/27/imbalance/
Статья Александра Дьяконова отвечает на этот вопрос:
https://dyakonov.org/2021/05/27/imbalance/
Анализ малых данных
Дисбаланс классов
Рассмотрим ситуацию несбалансированных классов – что нужно уточнить при выработке стратегии решения задачи классификации, какие стратегии бывают, как отвечать на вопрос про дисбаланс на собеседован…
Статья "Feature Engineering, о чём молчат online-курсы"
Если просмотреть наискосок, то может показаться, что какая-то муть. Но часто придумать признаки для модели совсем не так просто.
Лично я например про метод "Отображения времени на круг" узнал относительно не так давно и он показался мне очень красивым 🙂
https://habr.com/ru/company/mailru/blog/346942/
Если просмотреть наискосок, то может показаться, что какая-то муть. Но часто придумать признаки для модели совсем не так просто.
Лично я например про метод "Отображения времени на круг" узнал относительно не так давно и он показался мне очень красивым 🙂
https://habr.com/ru/company/mailru/blog/346942/
Хабр
Feature Engineering, о чём молчат online-курсы
Sherlock by ThatsWhatSheSayd Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у вс...
Парадоксы статистики.
Часто от вас на собеседованиях хотят не нарешанных задачек, а именно понимания статистики. Его можно достигнуть разными способами, но один из наиболее интересных на мой взгляд - научпоп.
Со мной поделились замечательным видео, которое несёт в себе целую кучу парадоксов статистики.
Разогрею ваш интерес тем, что про несколько из них (например, про интервалы времени между автобусами) спрашивали сразу нескольких моих знакомых на собеседованиях в Яндекс :)
#статистика
https://youtu.be/9NYtSfIlRB4
Часто от вас на собеседованиях хотят не нарешанных задачек, а именно понимания статистики. Его можно достигнуть разными способами, но один из наиболее интересных на мой взгляд - научпоп.
Со мной поделились замечательным видео, которое несёт в себе целую кучу парадоксов статистики.
Разогрею ваш интерес тем, что про несколько из них (например, про интервалы времени между автобусами) спрашивали сразу нескольких моих знакомых на собеседованиях в Яндекс :)
#статистика
https://youtu.be/9NYtSfIlRB4
YouTube
Как статистика обманывает нас?
Все технологии и функции безопасности в Яндекс.Такси: https://ya.cc/847tg
Вокруг нас столько информации, что когда мы ее анализируем, совершаем очень много ошибок. Все потому-что мы не знаем законов статистики и теории вероятностей. В этом выпуске мы обсудим…
Вокруг нас столько информации, что когда мы ее анализируем, совершаем очень много ошибок. Все потому-что мы не знаем законов статистики и теории вероятностей. В этом выпуске мы обсудим…