Start Career in DS – Telegram
Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
Start Career in DS
#DL #курсы "Хочу понять нейронки, куда пойти?" Мне в своё время очень зашла Deep Learning School от ФМПИ МФТИ: https://www.dlschool.org/ Сейчас ребята даже сделали курс на степике, стало вдвойне удобно. В их курсах есть вообще всё - начиная с базовой математики…
🎓Ребята из DL School стартуют осенний поток!
Школа очень хорошая тем, что:
1. Подходит новичкам. Всё начинается с основ Python и базовой математики;
2. Разгояется достаточно быстро. К концу первого курса вы уже зарешаете несколько соревнований на Kaggle (с картинками!);
3. Преподаватели супер-бодрые, их очень приятно слушать;
4. Фактически, это вполне годная бесплатная альтернатива платным курсам.

Я в своё время проходил, всем очень рекомендую 🙂
https://news.1rj.ru/str/dl_stories/574
🔥34👍3🤩1
📊 Гайд по #Matplotlib.
Не знаю как вы, но я первое время очень страдал при работе с этим зверем. Причём помню как первое время несколько раз садился разбираться c ним, но в итоге всё сводилось к “да пофиг, скопирую со стековерфлоу, работает же”. Но вот когда нужно было добавить новые элементы диаграмм, жизнь превращалась в ад... То оси поменяются местами, то всё слепится в одну непонятную массу, то ещё что-то. В конце концов я просто сел и потратил день на чтение доки.

Но сейчас я бы лучше пробежался по вот такому гайду: https://devpractice.ru/matplotlib-lessons/
Ключевые разделы:
- Я новичок. Можно попроще? - Про ключевые типы графиков
- Основные компоненты matplotlib - Про то, как управлять подписями на осях, размерами и расположением визуализаций
- Как строить графики? - Про продвинутые (в каком-то смысле) типы графиков 🙂


P.S. На картинке реальный график с первых дней моей стажировки, которая была уже давно-давно 🙂
🔥52👍15🎉1
🧑‍💻 Подготовка к собеседованиям

Один из лучших способов подготовиться к интервью - попробовать поставить себя на место кандидата заранее.
В этом могут здорово помочь открытые собседования на ютубе. Подготовили для вас подборку из них.

Для джунов
1. Ключевые блоки: Python, A/B-тесты, Работа с данными (SQL+Pandas), ML алгоритмы
Junior Data Scientist | Собеседование | karpov.courses
2. Ключевые блоки: Python, SQL, ML и работа с данными, статистика
Типичное собеседование #1. Позиция Junior Data Scientist. Accepted!
3. Собеседование на работу с данными c помощью Python и SQL (проводит сам Анатолий Карпов!):
Junior аналитик данных | Собеседование | karpov.courses

Для мидлов
1. Двухсерийная версия: по ML Design и Python
Middle Data Scientist | Выпуск 1. Секция ML | Собеседование | karpov.courses
Middle Data Scientist | Часть 2. Секция Python и работы с данными | Собеседование | karpov.courses
2. Ключевые блоки: Теория вероятностей, SQL, ML, бизнес-кейс
Собеседование на Middle Data Scientist | #Нанято S1E01RU
3. Не совсем формат собеседования, но вопросы хорошие.
Ключевые блоки: Python, SQL, статистика, ML
100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование
🔥63👍19🎉21🤩1
📊 [ENG] Очень красивый курс по базовой теории вероятностей и статистике:
https://seeing-theory.brown.edu/
Тут фактически ускоренное введение в предметную область, которое позволит вам быстро понять ключевые идеи и термины.

Много супер-наглядных визуализаций. Даже если считаете что шарите в статистике - советую потыкаться и получить эстетическое удовлетворение.
Мне понравились визуализации базовых понятий (мат. ожидание, дисперсия, функция распределения, условная вероятность и т.д.). Если они всегда вас пугали или настораживали - рекомендую посмотреть курс.
🔥104👍15👎2
Yandex Cup 🏆

Сегодня старовала аналитическая секция Yandex Cup, в организации которой я принимаю участие. Там интересные и разнообразные задачки, точно будет над чем подумать 🙂

Можно как минимум порешать задачки и подготовиться к собеседованиям, как максимум - выиграть денег (1 место = 300к) и пройти в Яндекс по упрощённой схеме

https://yandex.ru/cup/analytics/
🔥16🎉4👍2
Несколько клёвых курсов от Академии Яндекса.
В питоне формат теория+задачки, в ML - чисто теория с примерами кода.

1. Основы Python. От стандартного ввода-вывода до библиотек для анализа данных. "не потребуется специальной подготовки — достаточно знаний по информатике, логике и математики на уровне школьной программы."
2. Машинное обучение, но это будто бы перемещённый и структурированный учебник ШАДа по ML. Имхо он местами чересчур глубок, но всё равно очень крут.

Тыкайте 🔥 под постами!
Это мотивирует искать лучшие материалы для вас 🙂
🔥176👍212👎2
🎞 Интервью от Start Career in DS!
Недавно поговорил с подписчикам и понял, что не все знают про наш YouTube канал с интервью! А они очень клёвые 🙂

1. Александр Дьяконов - про зарождение DS в России, особенности образования и будущее анализа данных
2. Валерий Бабушкин - про работу в России, в Яндексе, FAANG и важность софт-скиллов
3. Анатолий Карпов - про образование (бесплатное и платное!) и ключевые компетенции аналитика
4. Андрей Лукьяненко - про переход из консалтинга в DS, Kaggle-грандмастерство и антивыгорание
5. Николай Валиотти - про создание своей аналитической компании и роли в анализе данных
6. Иван Кобзев - про то, как из разработки прийти в Яндекс мидлом+
🔥34👍6🤩1
⭐️ Лучшая заметка для Start Career in DS :)
Я уже от нескольких знакомых слышал, что по этой статье можно рассказать про ML даже бабушке. Если вы только начинаете свой путь, то она 100% для вас. А если уже продолжаете - по ней можно здорово структурировать всё в голове:
https://vas3k.ru/blog/machine_learning/
🔥71👍15🤩2
👨‍🎨 Интерактивные визуализации алгоритмов кластеризации

Нашёл несколько очень клёвых статеек, в которых интерактивно показано как работают различные методы:
- DBSCAN
- K-Means

В них можно посмотреть как изначальная инициализация кластеров (в k-means) и гиперпараметры (dbscan) влияют на выделение кластеров на разных наборах данных
🔥23👍12
🌟 Повлияйте на будущее Start Career in DS!

На связи Рома, создатель этого канала! Всех с прошедшими праздниками!
Последние полгода вышли очень непростые (я поменял работу и отвёл несколько крутых курсов).
Поэтому активность в канале сильно притихла - посты выходили от силы раз в месяц и не такие мощные как раньше.
В ближайшие месяцы есть план оживлять канал. Будет много интересного и уникального контента

Очень хочу услышать ваше мнение и понять что будет интересно вам 🙂

Потыкайте пожалуйста опросник по контенту выше
⬆️
Или пишите о своих хотелках в комментах!
🎉46🔥7👍3
🏫 Шпаргалки по курсам Стэнфорда!

Вот тут собраны короткие обзоры алгоритмов и подоходов из соотвествтующих тем.
Супер-наглядный и удобный формат + нет замудрёной математики. Всё по делу.

CS 221 Artificial Intelligence
CS 229 Machine Learning
CS 230 Deep Learning
47🔥31👍9🎉3
👨‍💻 Програмистские навыки для Data Science

Там у Бориcа вышел клёвый набор постов про технические навыки для DS’ов.
Мне кажется, это местами даже чересчур полный набор навыков. Точнее, так: нет необходимости знать всё это когда вы ищите первую работу, но если заботать каждый из блоков, то это сильно повышает вероятность успеха.


Части с кратким описанием:

Минимальные знания Software Engineering для Data Scientist 1/3
Git: базовые команды, понимание концепции версионирование
LInux: отсутствие боязни перед командной строкой
Библиотеки и зависимости в Python: умение собрать зависимости и настроить окружение для проекта
Python: структура кода, стиль кода, тесты
Чтение кода: не бояться сложных конструкций языка

Минимальные знания Software Engineering для Data Scientist 2/3
Память в Python: понимание базовых алгоритмов и структур данных
HTTP: понимать что это и зачем оно нужно
Sklearn Pipelines: сборка ml-pipeline’ов в единые блоки
SQL: базовые и базовые+ запросы
Docker: умение собрать и поднять контейнер

Минимальные знания Software Engineering для Data Scientist 3/3
Map Reduce: понимание концепции
Распределенные вычисления (Spark/Dask): отлично если вы понимаете как оптимально перевести ваши pandas/sql скрипт в Spark/Dask с учетом особенностей датасета
MLOps - MLFlow: хорошо понимать зачем это нужно и как использовать
👍59🤩82🤮2
👨‍🎓 Симулятор ML1-курса в ВШЭ

От многих ребят слышал что-то вроде “Ну, у меня есть техническая база, но после ухода курсеры совсем не ясно какие курсы по машинке проходить”.
В моём представлении, один из лучших общедоступных курсов по введению в машинное обучение на русском языке - курс Жени Соколова, который читается на многих факультетах в вышке (я и сам его читал).
Казалось бы, один из лучших универов страны, офигеть какие усилия приложены к проработке лекций и семинаров, иии… Все материалы открыты и общедоступны! И лекции, и семинары, и домашки!
Каждый может взять и пройти курс целиком. Разве что, никто не будет проверять ваши работы (дз/проверочные/контрольные).

Вы можете (ссылки кликабельны!):
- смотреть записи лекций, семинаров
- самостоятельно прорабатывать конспекты занятий
- параллельно с записями разбирать семинары
- делать домашки на интерес
- ловить шуточки и жизненные истории в записях лекций Жени!

P.S. Зацените количетсво звёздочек у репозитория курса. И накидайте ещё :))
👍99🔥26🤩31
🐍 Регулярные выражения в Python. Лучшая статья на русском!

Регулярные выражения супер-полезны, когда вам нужно перелопатить большой объём текстовых данных.
Например, вытащить из наименований товаров граммаж, достать города из адресов и т.д.
При этом на русском материалы по этой теме очень сложно найти.

Вот эта статья на хабре - лучшее что я видел 🙂
Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения
👍38🔥9🤩3
​​🦖 Какова вероятность того, что гуляя по улице, вы встретите динозавра?

Ответить на этот вопрос поможет клёвая статья на тему теории вероятностей. Как удачно подметил её автор: «Если непонимание алгебры или математического анализа может мало влиять на вашу жизнь, то непонимание теории вероятностей делает из вас лёгкую мишень для обмана и манипулирования». К тому же, вопросы по ней могут встретиться вам на собеседовании 🙂

Время прочтения ~17 минут, за них вам расскажут:
- О базовых формулах, и о том, откуда они взялись
- О том, что такое условная вероятность
- Что понимается под «независимыми событиями»
- Несколько парадоксов (парадокс Монти-Холла, парадокс мальчика и девочки, парадокс Спящей Красавицы)

#тервер #статья
22👍10🔥7🤩3
​​🤔 Как стать дата-шрушером aka вкатиться в DS?

Филипп написал подробную статью о том, как можно «вкатиться в DS». Вот несколько сценариев по «вкатыванию» оттуда:

Сценарий 1. «Тааак, *****»
«Набираете минимум навыков и врываетесь на Дикий Запад. Дальше учитесь в процессе.Когда я стажировался в Диком Сбере, я своими глазами видел, как чуваки, которые до этого работали в кнопочной системе, приходят на работу и ботают на ней питон.»

Сценарий 2. «Экспресс-курс»
«Этот сценарий более систематичен. От первого он отличается тем, что вы набираете побольше компетенций перед тем, как вломиться в DS-мир. Именно по такому сценарию обычно строятся все курсы переподготовки для взрослых.»

Сценарий 3. «Доскональный aka студенческий»
«Если вы студент младших курсов, делайте акцент на математике и проге. Не бегите впереди паровоза. До нейронок добежать ещё успеете. У вас есть куча времени, чтобы досконально разобраться в математике. Поверьте на слово, это очень полезно. Пока ботаете, можете смотреть на вступительный в ШАД и тайно грезить о нём.»

Подробнее об этих и ещё 6-ти сценариях почитать можно тут: https://vas3k.club/post/9904/
🔥29👍102
​​🏃 Вы когда-нибудь задумывались о том, как на ваш заказ в сервисах доставки еды назначаются курьеры?

Задача: увеличить оборачиваемость - среднее число заказов, которые курьер успевает доставить за час.

Вот как это делали ребята из Яндекс.Еды - время чтения ~7 минут:
автор статьи расскажет, как они с командой уменьшали время бесполезного ожидания курьеров

— А вот как с этой задачей справились ребята из Delivery Club - время чтения ~8 минут: статья о том, как они улучшали скоринг курьеров

Статья на похожую тему - время чтения ~11 минут:
как в Delivery Club прогнозируют время для курьеров, ресторанов и клиентов

#логистика
🔥17🎉4👍2🤩2
🚕 Технологии Яндекс.Такси

Мы когда-то делали пост с обзором алгоритмов, которые используются под капотом. Буквально час назад вышло очень классное видео от ребят из Яндекса, в котором они достаточно подробно рассказывают про прайсинг и не только 🙂
Если вам всегда было интересно узнать почему цены именно такие и что же это за повышенный спрос - вам сюда!

Понакидайте огонёчков, видео того заслуживает 🔥

https://youtu.be/IeFvaGmoHZs
🔥383🤩3
​​🤔 Стандартная выдача OLS - рай для статистиков, ад для фит-предиктеров

В видосе про линейную регрессию мы говорили про то, что существуют два самых часто-используемых инструмента для работы с линейной регрессией: sklearn и statsmodels.

При этом у statsmodels есть подробная статистическая справка по значимости коэффициентов, модели, распределению остатков и т.д.
Читать её, если у вас не было курса по статистике (а еще лучше - стат. моделированию), очень сложно.

Вот в этой статье подробно описаны все пункты выдачи OLS, в частности:

— Как проверить значимость коэффициентов регрессии
— Что такое коэффициент детерминации R-squared и как с ним правильно работать
— Как быстро делать анализ остатков модели
…и как в целом правильно читать выдачу OLS

https://habr.com/ru/post/690414/
27🔥9👍5