Start Career in DS – Telegram
Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
⭐️ Лучшая заметка для Start Career in DS :)
Я уже от нескольких знакомых слышал, что по этой статье можно рассказать про ML даже бабушке. Если вы только начинаете свой путь, то она 100% для вас. А если уже продолжаете - по ней можно здорово структурировать всё в голове:
https://vas3k.ru/blog/machine_learning/
🔥71👍15🤩2
👨‍🎨 Интерактивные визуализации алгоритмов кластеризации

Нашёл несколько очень клёвых статеек, в которых интерактивно показано как работают различные методы:
- DBSCAN
- K-Means

В них можно посмотреть как изначальная инициализация кластеров (в k-means) и гиперпараметры (dbscan) влияют на выделение кластеров на разных наборах данных
🔥23👍12
🌟 Повлияйте на будущее Start Career in DS!

На связи Рома, создатель этого канала! Всех с прошедшими праздниками!
Последние полгода вышли очень непростые (я поменял работу и отвёл несколько крутых курсов).
Поэтому активность в канале сильно притихла - посты выходили от силы раз в месяц и не такие мощные как раньше.
В ближайшие месяцы есть план оживлять канал. Будет много интересного и уникального контента

Очень хочу услышать ваше мнение и понять что будет интересно вам 🙂

Потыкайте пожалуйста опросник по контенту выше
⬆️
Или пишите о своих хотелках в комментах!
🎉46🔥7👍3
🏫 Шпаргалки по курсам Стэнфорда!

Вот тут собраны короткие обзоры алгоритмов и подоходов из соотвествтующих тем.
Супер-наглядный и удобный формат + нет замудрёной математики. Всё по делу.

CS 221 Artificial Intelligence
CS 229 Machine Learning
CS 230 Deep Learning
47🔥31👍9🎉3
👨‍💻 Програмистские навыки для Data Science

Там у Бориcа вышел клёвый набор постов про технические навыки для DS’ов.
Мне кажется, это местами даже чересчур полный набор навыков. Точнее, так: нет необходимости знать всё это когда вы ищите первую работу, но если заботать каждый из блоков, то это сильно повышает вероятность успеха.


Части с кратким описанием:

Минимальные знания Software Engineering для Data Scientist 1/3
Git: базовые команды, понимание концепции версионирование
LInux: отсутствие боязни перед командной строкой
Библиотеки и зависимости в Python: умение собрать зависимости и настроить окружение для проекта
Python: структура кода, стиль кода, тесты
Чтение кода: не бояться сложных конструкций языка

Минимальные знания Software Engineering для Data Scientist 2/3
Память в Python: понимание базовых алгоритмов и структур данных
HTTP: понимать что это и зачем оно нужно
Sklearn Pipelines: сборка ml-pipeline’ов в единые блоки
SQL: базовые и базовые+ запросы
Docker: умение собрать и поднять контейнер

Минимальные знания Software Engineering для Data Scientist 3/3
Map Reduce: понимание концепции
Распределенные вычисления (Spark/Dask): отлично если вы понимаете как оптимально перевести ваши pandas/sql скрипт в Spark/Dask с учетом особенностей датасета
MLOps - MLFlow: хорошо понимать зачем это нужно и как использовать
👍59🤩82🤮2
👨‍🎓 Симулятор ML1-курса в ВШЭ

От многих ребят слышал что-то вроде “Ну, у меня есть техническая база, но после ухода курсеры совсем не ясно какие курсы по машинке проходить”.
В моём представлении, один из лучших общедоступных курсов по введению в машинное обучение на русском языке - курс Жени Соколова, который читается на многих факультетах в вышке (я и сам его читал).
Казалось бы, один из лучших универов страны, офигеть какие усилия приложены к проработке лекций и семинаров, иии… Все материалы открыты и общедоступны! И лекции, и семинары, и домашки!
Каждый может взять и пройти курс целиком. Разве что, никто не будет проверять ваши работы (дз/проверочные/контрольные).

Вы можете (ссылки кликабельны!):
- смотреть записи лекций, семинаров
- самостоятельно прорабатывать конспекты занятий
- параллельно с записями разбирать семинары
- делать домашки на интерес
- ловить шуточки и жизненные истории в записях лекций Жени!

P.S. Зацените количетсво звёздочек у репозитория курса. И накидайте ещё :))
👍99🔥26🤩31
🐍 Регулярные выражения в Python. Лучшая статья на русском!

Регулярные выражения супер-полезны, когда вам нужно перелопатить большой объём текстовых данных.
Например, вытащить из наименований товаров граммаж, достать города из адресов и т.д.
При этом на русском материалы по этой теме очень сложно найти.

Вот эта статья на хабре - лучшее что я видел 🙂
Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения
👍38🔥9🤩3
​​🦖 Какова вероятность того, что гуляя по улице, вы встретите динозавра?

Ответить на этот вопрос поможет клёвая статья на тему теории вероятностей. Как удачно подметил её автор: «Если непонимание алгебры или математического анализа может мало влиять на вашу жизнь, то непонимание теории вероятностей делает из вас лёгкую мишень для обмана и манипулирования». К тому же, вопросы по ней могут встретиться вам на собеседовании 🙂

Время прочтения ~17 минут, за них вам расскажут:
- О базовых формулах, и о том, откуда они взялись
- О том, что такое условная вероятность
- Что понимается под «независимыми событиями»
- Несколько парадоксов (парадокс Монти-Холла, парадокс мальчика и девочки, парадокс Спящей Красавицы)

#тервер #статья
22👍10🔥7🤩3
​​🤔 Как стать дата-шрушером aka вкатиться в DS?

Филипп написал подробную статью о том, как можно «вкатиться в DS». Вот несколько сценариев по «вкатыванию» оттуда:

Сценарий 1. «Тааак, *****»
«Набираете минимум навыков и врываетесь на Дикий Запад. Дальше учитесь в процессе.Когда я стажировался в Диком Сбере, я своими глазами видел, как чуваки, которые до этого работали в кнопочной системе, приходят на работу и ботают на ней питон.»

Сценарий 2. «Экспресс-курс»
«Этот сценарий более систематичен. От первого он отличается тем, что вы набираете побольше компетенций перед тем, как вломиться в DS-мир. Именно по такому сценарию обычно строятся все курсы переподготовки для взрослых.»

Сценарий 3. «Доскональный aka студенческий»
«Если вы студент младших курсов, делайте акцент на математике и проге. Не бегите впереди паровоза. До нейронок добежать ещё успеете. У вас есть куча времени, чтобы досконально разобраться в математике. Поверьте на слово, это очень полезно. Пока ботаете, можете смотреть на вступительный в ШАД и тайно грезить о нём.»

Подробнее об этих и ещё 6-ти сценариях почитать можно тут: https://vas3k.club/post/9904/
🔥29👍102
​​🏃 Вы когда-нибудь задумывались о том, как на ваш заказ в сервисах доставки еды назначаются курьеры?

Задача: увеличить оборачиваемость - среднее число заказов, которые курьер успевает доставить за час.

Вот как это делали ребята из Яндекс.Еды - время чтения ~7 минут:
автор статьи расскажет, как они с командой уменьшали время бесполезного ожидания курьеров

— А вот как с этой задачей справились ребята из Delivery Club - время чтения ~8 минут: статья о том, как они улучшали скоринг курьеров

Статья на похожую тему - время чтения ~11 минут:
как в Delivery Club прогнозируют время для курьеров, ресторанов и клиентов

#логистика
🔥17🎉4👍2🤩2
🚕 Технологии Яндекс.Такси

Мы когда-то делали пост с обзором алгоритмов, которые используются под капотом. Буквально час назад вышло очень классное видео от ребят из Яндекса, в котором они достаточно подробно рассказывают про прайсинг и не только 🙂
Если вам всегда было интересно узнать почему цены именно такие и что же это за повышенный спрос - вам сюда!

Понакидайте огонёчков, видео того заслуживает 🔥

https://youtu.be/IeFvaGmoHZs
🔥383🤩3
​​🤔 Стандартная выдача OLS - рай для статистиков, ад для фит-предиктеров

В видосе про линейную регрессию мы говорили про то, что существуют два самых часто-используемых инструмента для работы с линейной регрессией: sklearn и statsmodels.

При этом у statsmodels есть подробная статистическая справка по значимости коэффициентов, модели, распределению остатков и т.д.
Читать её, если у вас не было курса по статистике (а еще лучше - стат. моделированию), очень сложно.

Вот в этой статье подробно описаны все пункты выдачи OLS, в частности:

— Как проверить значимость коэффициентов регрессии
— Что такое коэффициент детерминации R-squared и как с ним правильно работать
— Как быстро делать анализ остатков модели
…и как в целом правильно читать выдачу OLS

https://habr.com/ru/post/690414/
27🔥9👍5
📃 Правила написания резюме

Решил написать для вас несколько полезных практик, которые позволят сделать ваше резюме более привлекательным для работодателей. Основаны на моём опыте + общении кучей руководителей/эйчаров 🙂

1. Нет шаблонам с hh. Шаблон с hh универсален, но в случае с аналитическими профессиями он сильно раздут. Да и многие уже напрямую триггерятся со стандартных резюме оттуда
2. Не раздувать объём. Лучше - страница. Нужно понимать, что проверяющие ваше резюме - тоже люди. И если у вас там будет сочинение на 3 страницы, вряд ли кто-то его будет проверять. Нужно писать коротко и по делу
3. Явно пишите на кого идете. Junior/Middle DA/DS/DE. Это упрощает жизнь рекрутеру. Если хотите собеседоваться на несколько ролей (DS/DE) - лучше писать разные cv. И делать акценты на разных блоках
4. Структура очень важна. Хорошее резюме состоит из примерно таких основных блоков: шапка, опыт работы, навыки, образование, достижения. Порядок и пропорции блоков могут варьироваться в зависимости от опыта
5. Нужны ключевые слова для hr. Первый кто видит ваше резюме - рекрутер. Они такие резюме перебирают сотнями, поэтому лучше сразу дать ключевые слова, за которые можно зацепиться (sql/python/pyspark/…). Рекрутера обычно просят искать людей с конкретными навыками, явно указывая их, вы порой сильно увеличиваете свои шансы на этапе скриннинга
6. Конкретные проекты и навыки. Очень хорошим тоном является явно указывать вашу роль при решении задач и эффекты от тех проектов, которые вы реализовывали. При этом важно понимать, что в некоторых компаниях вас будут спрашивать по навыкам и проектам из cv. Умейте рассказать про каждый из пунктов. Не пишите лишнее. Ну и конечно же, врать в резюме не стоит - вас быстро раскусят.
7. Про выступления/статьи - лучше прикладывать гиперссылки. Если вы пишите что где-то публиковались - лучше явно укажите где и с какой статьёй.

Как думаете, может быть стоит устроить анонимный разбор CV? Ставьте 👍 если оно будет полезно!
👍923🔥2
​​​​​​🐍 6 лучших бесплатных курсов для изучения Python

1. Курсы на Stepik от Института биоинформатики:
Программирование на Python - для тех, кто ни разу не программировал
Python: основы и применение - для тех, кто уже имеет небольшой опыт программирования
2. py.CheckiO - игра с множеством различных задачек на питоне и качественными примерами их решений
3. Поколение Python - курс для школьников и всех желающих познакомиться с программированием. Лучший бесплатный курс 2020 года на степике (!)
4. Основы Python от Академии Яндекса - от стандартного ввода-вывода до библиотек для анализа данных.
5. Видеоуроки Python для анализа данных - тут и базовый Python, и NumPy, и Pandas - подойдет как новичкам, так и более опытным.

Жмите 🔥, это очень мотивирует!
🔥934🤩3
Что спрашивать у интервьюеров прежде чем принмиать оффер?

Перед принятием оффера обязательно нужно уточнить про доступность и адекватность данных, возможности роста. Кроме того, в DS есть ещё ряд специфичных вопросов, ответив на которые вы можете сильно упростить себе дальнейшую жизнь.
У Жени есть клёвый пост на эту тему

А еще есть у Жени есть канал про с Нескучными позициями в Data Science: @not_boring_ds_jobs
👍20🔥51
📈 Метрики и функции потерь в линейной регрессии: как выбрать лучшую модель?

Метрики - это инструменты для оценки качества моделей машинного обучения. Они наглядно показывают человеку, насколько хорошо модель предсказывает результаты, что позволяет выявить возможные проблемы.

Функции потерь - это способы измерения ошибки между предсказанными значениями и истинными значениями. Они помогают модели обучаться и адаптироваться к данным.

В прикрепленных фото вы найдете формулы, плюсы и минусы основных метрик и функций потерь в линейной регрессии.

В ближайшее время на нашем ютуб-канале выйдет мини-лекция про метрики и функции потерь – поэтому подписывайтесь и жмите колокольчик, чтобы не пропустить видео 🙂

Ставьте лайки на этот пост, чтобы ролик вышел быстрее) 👍
👍83🔥107