Start Career in DS – Telegram
Start Career in DS
11.8K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
💼 Как быстро вспомнить основные идеи в ML перед собеседованием?

Если вы только начинаете карьеру, то на собеседованиях в DS вас точно будут спрашивать про то, как работают конкретные алгоритмы.
Какое-то время назад мы решили сделать серию видео для того, чтобы быстро вспомнить все ключевые идеи!

Пока что вышло не так много видео, но если хотите какое-то особенное - пишите в комментариях 🙂

1. Линейная регрессия. Что спросят на собеседовании? ч.1 - про основные идеи линейной регресии, предобработку признаков, fit-predict и регуляризацию
2. Линейная регрессия. Что внутри sklearn? Зачем градиентный спуск? Что спросят на собеседовании? ч.2 - про то, какие реализации линейной регрессии есть и как они работают под капотом
3. Функционалы потерь и метрики регрессии. Простым языком! - все базовые метрики и функционалы потерь регрессии в одном видео
4. Логистическая регрессия, самое простое объяснение! - как устроена логистическая регрессия, что оптимизирует и почему аппроксимирует вероятности.

Оставляйте 🔥 под видео, каждый из них приблизит момент выпуска следующих видео!)
🔥8612👍12❤‍🔥6
🐶 Пет-проекты для начинающего Data Scientistа

Pet-project
- это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия. Начинающему дата саентисту почти что необходимо сделать какой-нибудь
(пусть даже совсем небольшой)
пет-проект

Во-первых, это позволит вам понять, действительно ли вы заинтересованы в этой сфере.
Во-вторых, точно прокачает ваши навыки.
Ну и в-третьих, его можно будет указать в резюме, если у вас не было опыта работы. Собеседующий точно заметит, если вы будете с энтузиазмом рассказывать про свои проекты

В идеале в вашем проекте должны быть затронуты все этапы работы с данными:
1. Получение данных:
- Можно спарсить данные, например, с помощью библиотек BeautifulSoup, Scrapy или Selenium (если под этим постом наберётся 100 сердечек ❤️, мы расскажем про парсинг подробнее)
- Можно поработать с какой-нибудь APIшкой для получения данных (например, с api ХедХантера для вакансий)
- Можно скачать датасет из открытых источников, например, с Kaggle или Google Dataset Search

2. Исследовательский анализ данных (EDA):
- Повизуализировать данные с помощью библиотек вроде Matplotlib, Seaborn или Plotly для нахождения закономерностей и аномалий
- Поприменять статистический анализ для понимания распределений и тестирования гипотез

3. Предобработка данных:
- Почистить данные от пропусков и выбросов
- Преобразовать типы данных, нормализировать и стандартизировать их
- Попробовать придумать новые признаки для повышения точности моделей

4. Построение моделей:
- Понять, какой алгоритм машинного обучения будет эффективнее в вашей задаче (от линейной регрессии до градиентного бустинга и глубокого обучения)
- Оптимизировать его гиперапараметры

5. Настройка регулярных процессов (про это, кстати, у нас был пост):
- Автоматизировать сбор и обновление данных через скрипты
- Настроить автоматическое переобучение моделей с новыми данными

6. Работа с большими данными:
- Попробовать поработать с Hadoop/Spark для обработки большого объема данных (если под этим постом наберётся 150 сердечек❤️, мы расскажем подробнее про MapReduce)
- Понять, что в вашем проекте это совсем ни к чему и использовать для хранения и обработки данных, например, PostgreSQL или MongoDB

7. Деплой модели:
- Юзануть Docker контейнеры для упаковки и деплоя моделей и приложений
- Познакомиться с облачными платформами, такими как AWS, Google Cloud или Azure для развертывания моделей

Будет очень классно, если идея проекта придет к вам в процессе решения какой-нибудь задачи из жизни. Если же идей нет, можно взять их отсюда:
10 проектов по data science для начинающих
36 идей для проектов по аналитике данных
(просто вбиваете в поиск “идеи пет-проекта для data scientistа” 😁)

Ставьте сердечки❤️ под этим постом, если было полезно, и начинайте делать свой первый пет-проект, если еще не начали!
234👍13🔥4
💼 Как научиться проходить собесы?
Лучший способ - проходить собесы. Ну, или смотреть как это делают другие 🙂
Вот Вадим не щадит себя, проходит их везде где можно и выкладывает записи!

Самые интересные видео с канала:

1. Собес на DS'a в Сбер
2. Собес на Senior DS'a в Райф
3. Как составить резюме программисту. Полный гайд
4. Полный гайд по собеседованию в IT — рабочий алгоритм

Подписывайтесь на Вадима, в его каналах можно найти много интересного 🙂
Куда идти: Tg, YouTube
🔥45👍102❤‍🔥1😁1
💼 Вакансии в различные направления DS, Аналитики и ML

Наши друзья сделали канал с вакансиями для ребят всех уровней: от стажёров до лидов!

Чем он отличается от прочих подобных:
1. Заранее отметаются сомнительные компании и сомнительные вакансии
2. По каждой вакансии делается короткая выжимка, чтобы бытро понять надо оно вам или нет
3🌟. К каждой вакансии ребята цепляют подборку материалов по ней. Если компания малоизвестная - скажут где почитать про неё, если направление своеобразное - дадут статью/набор статей, которые позволят понять что происходит

В общем, ОЧЕНЬ рекомендуем подписаться на Your Dream Data Job!
❤‍🔥11👍97😁2
🐘 MapReduce - что это такое?

Если говорить по-простому, то MapReduce - это модель распределенных вычислений, которая необходима, чтобы считать то, что либо нужно делать быстрее, либо то, на что не хватает памяти (либо и то, и то)

Обычно системы MapReduce используются в больших компаниях, которым нужно обрабатывать петабайты данных. Самый распространенный фреймворк - Hadoop, но некоторые компании создают свои MapReduce системы (например, в Яндексе своя система называется Ыть)

Чтобы понять, что такое MapReduce, во-первых, советуем глянуть это видео [ENG]
А во-вторых, стоит по порядку прочитать эти две статьи, в которых автор (имхо) супер доступно, с примерами, объясняет, как устроена модель MapReduce:
MapReduce без зауми, ч.1 - автор статьи рассказывает, как он, столкнувшись с задачей посчитать количество всех слов в Википедии, сам еще раз “придумал” MapReduce
MapReduce без зауми, ч.2 - тут уже разбираются более-менее реальные SQL-ные операции

Если вы собираетесь работать в крупной IT-компании, вам нужно знать, что такое MapReduce. Поэтому смотрите видео, читайте статьи (раз, два) и оставляйте огонёчки 🔥 под этим постом, если он вам понравился))
🔥45👍116😁2
Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями

Ребята из Альфы во главе с Женей написали клёвую статью, которая позволит отлично понять как устроена работа в Data Science.

Про что рассказывают в статье:
👨‍🏫 Причины возникновения рутины с точки зрения пользователя, бизнеса и дата сайентистов
💪 Примеры процессов, в которых удалось побелить рутину внутри банка
📈 Тренды и новые вызовы области, как за ними угнаться

Мне статья понравилась, советую почитать 🙂
16👍7🔥5
✍️ Подробный пост про парсинг

В написании этого поста нам помог Семёнов Богдан, который имеет богатый опыт в парсинге 🙂. Давайте отблагодарим его сердечками под этим постом! ❤️

Вообще, процесс парсинга вебсайта можно разделить на два этапа:
1. Получение html-документа
2. Выбор нужной информации из этого документа

Для получения html-ины используют:
1. Обычный requests, если на сайте вообще нет защиты от парсинга
2. Инструменты для автоматизации веб-браузера, чтобы сайт пропустил вас:
- Selenium - читайте актуальную документацию, потому что, например, ChatGPT-3.5 выдает функции, которых уже нет
- Puppeteer

Для того, чтобы распарсить html-ину, можно использовать:
1. BeautifulSoup
2. Scrapy

📜 5 советов для парсинга:
1. Если на сайте стоит капча, то можно использовать патч Selenium, который не запускает антиботовые сервисы. Вот видос, как с его помощью можно распарсить LinkedIn (внимание, некоторые методы Selenium-а оттуда устарели)
2. Для того, чтобы не быть забаненным по IP, нужно использовать прокси. Вообще, есть разные виды прокси. В идеале использовать ротирующиеся прокси, чтобы они постоянно менялись, и их не банили.
А можно делать так:
– Закупаете несколько (штук 5) прокси (например, тут)
– Пишете код, чтобы менять их с некоторой частотой (норм руководство)
3. Если капча кастомная, то вам, скорее всего придётся вводить её вручную. Для того, чтобы пришёл сигнал, что с парсером что-то пошло не так, можно сделать простенького бота в телеграме, который будет уведомлять вас (если хотите пост про создание тг ботов - давайте наберем 50 огоньков🔥)
4. Seleniumом парсить долго. Ускорить парсинг можно, забирая cookies и headers из Selenium-а, и кидая их в requests. Но это может работать не на всех сайтах(
5. Иногда Selenium залагивает, чтобы бороться с этим, можно ставить ему таймауты –, например, если страница не прогрузилась за 60 секунд, стопать процесс селениума и пересоздавать с этого же урла новый.

Ещё несколько классных советов есть в этой статье, обязательно прочитайте её 🙂
И ставьте сердечки ❤️ под этим постом, если было полезно (если наберем 250, расскажем про парсинг с мобильных приложений)
76🔥47👍12
Лучшее что вы можете сделать когда начинаете искать работы на рынке IT как в РФ, так и не РФ - прочитать методичку Бори. И начать применять знания оттуда. Очень рекомендую :)
Forwarded from Борис опять
#работа

# Методичка по поиску работы в ML/DS и IT в целом

В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.

Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.

https://btseytlin.github.io/intro.html

Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.

@boris_again
👍40🔥25😁2🤩1
🐈 CatBoost - супер удобный градиентный бустинг
Градиентный бустинг
- это техника машинного обучения для задач классификации и регрессии, которая строит модель предсказания в форме ансамбля слабых предсказывающих моделей, обычно деревьев решений.
Каждая следующая модель в ансамбле уменьшает ошибку предыдущей модели


Про то, как работает градиентный бустинг можно почитать, например, в статье с обзором ансамблей машинного обучения или в хендбуке от Яндекса. Одна из самых лучших библиотек для градиентного бустинга над деревьями решений – CatBoost. С этой библиотекой побеждают в соревнованиях на kaggle, она используется для решения задач классификации в крупных компаниях

Её преимущества:
– Встроенная обработка категориальных данных (их не нужно предобрабатывать, просто выставить гиперпараметры)
– Уменьшенный риск переобучения
– Высокая скорость работы и эффективность на больших объемах данных
– Встроенная обработка пропущенных значений
– Классная визуализация

Чтобы разобраться с этой библиотекой, стоит:
– Почитать официальную документацию
– [ENG] Посмотреть тетрадку с обзором катбуста
– Почитать статью про катбуст
🦖[ENG] Посмотреть видео от StatQuest (часть 1 и часть 2)
🌶 Посмотреть видео от Computer Science Club

Ставьте огоньки 🔥 под этим постом, и пишите в комментариях, про что написать ещё)
🔥656👍6
🌐 ML на графах для решения задачи матчинга

Один из наших подписчиков, Иван, написал очень крутую статью про решение задач матчинга с помощью графовых нейронных сетей.

А если конкретнее - про применение алгоритмов кластеризации на графах при поиске одинаковых товаров в онлайн-магазине.

Классический подход для  решения такой задачи состоит из двух этапов:
1. Подбор кандидатов. На этом этапе используется грубый, но быстрый алгоритм для подбора большого количества схожих объектов, потенциальных пар
2. Проверка пар моделью (т. н. матчинг) — более точная проверка того, действительно ли в паре одинаковые объекты.

У объекта может быть более одного дубликата, и хочется их объединять в одну группу, один кластер.

Просто склеить все найденные пары в один кластер — не лучшая идея, поскольку предсказания модели на 2 этапе имеют не нулевой процент ошибок, а такая склейка их только размножит.

В статье рассказывается про то, как алгоритмы Community Detection позволяют эту проблему решать

Статья на хабре тут
29🔥19❤‍🔥4👍3
🧑‍🎓 Leetcode по ML/DS

Думаю, все знают про leetcode, с помощью которого можно отлично натаскаться на алгоритмические задачки.
Нашли аналогичный сервис по ML/DS задачкам, на котором можно попрактиковаться в решении задач по SQL, Python, Теории вероятностей и статистике. В нём собраны задачки, которые спрашивают топовых компаниях вроде Tesla/Twitter/Facebook/Linkedin и т.д.

Отличная штука для того, чтобы попрактиковаться перед собеседованием 🙂

https://datalemur.com/questions
🔥132👍238❤‍🔥1
📉 Кажется, мы стали забывать БАЗУ

За последнее время я несколько раз почувствовал себя олдом. Один из них - когда понял, что многие не знают про великие курсы Анатолия Карпова по статистике!

В них Толя (один из создателей школы karpov courses) рассказывает на пальцах про все ключевые темы в статистике, которые нужно знать для начала карьеры в DS. И именно по этим курсам огромное количество людей (если верить степику, 271к+) изучали статистику :)

Все эти курсы бесплатные и лежат на степике тут:
Часть 1, Часть 2, Часть 3
🔥116👍17😁9❤‍🔥53
🎓 Где можно потренироваться писать код на SQL?

Если вы только изучили основы SQL (или собираетесь это сделать), то очень советуем закрепить знания на практике.
В рамках собеседований на DS позиции очень часто просят реализовывать различные запросы, попрактиковаться с этим перед интервью всегда полезно.

1. Тренажер ДВФУ на Степике
В начале есть теория, можешь начинать разбираться прям с нуля
Хорошая база чтобы понять базовый синтаксис, но практически нет заковыристых задач

2. Классика жанра, sql-ex.ru
Огромное количество задач, на которых можно поупражняться с самыми разными запросами.
Иногда причиняет боль. На sql-ex есть будто бы вообще всё, что только можно придумать. Это и плюс, и недостаток. Иногда сложно найти то, что нужно именно вам

2. SQLTest - наглядный сервис для нарешивания задачек
Ограниченное число задач, которые очень похожи на то, что реально приходится считать в жизни. Из минусов - их относительно немного и все они крутятся вокруг одного набора данных

4. SQL Academy - Сервис с очень приятным и понятным интерфейсом, частично платный
Из крутого - в нём можно повизуализировать связи таблиц, интерактивно порассматривать схемы данных и т.д. Задач много и они разбиты по уровням

5. Симулятор SQL от Karpov.Courses
В нём есть и блок теории, и блок практики, в котором можно потыкаться с реальными задачками

Если хотите больше подобных подборок - накидывайте 🔥 под постом!
🔥74❤‍🔥126👍2
🚀Вакансия в Яндекс Лавку

На связи Рома Васильев, создатель этого канала 🙂
Ищу себе человека в команду аналитики ассортимента Яндекс.Лавки.
Формальное описание вакансии можно почитать тут

Чем предстоит заниматься:
- Аналитика матчинга товаров, разработка алгоритмов матчинга, метрик и отчетов поверх них
- Автоматизация процессов запуска новых товаров
- Разработка новых метрик и отчетов для оценки эффективности ассортимента

Что нужно знать, что будет на собесах:
- SQL, Python
- Статистику и теор. вер (используем для оптимизации алгоритмов и проведения тестов)

Ищу кандидатов уровня middle/middle+, если у вас есть опыт работы в е-коме - вдвойне круто.
За подробностями и с откликами можно приходить в личку
❤‍🔥24🔥10😁32
🐍 Где практиковать написание кода на Python

Ну, раз уж писали про SQL, хорошо бы и про Python написать 🙂
Итак, сборник ресурсов, на которых можно пописать код для тренировки перед собесами и не только:

1. Хэнбук Яндекса - повторить/узнать базу
Отлично хорошо структурированный вводный курс. Тут по каждой основной теме есть блок теории + блок практических заданий.
Покрываются как базовые темы (например условные операторы, циклы) так и data-библиотеки (numpy, pandas)

2. py.Checkio - глубоко поковыряться в особенностях синтаксиса и пописать всё на свете
Очень много заданий, можно залипнуть буквально на несколько месяцев

3. Leetcode, куда же без него. Классика по натаскиванию на алго-задачки
Однако, там ОЧЕНЬ много задач. Если начать решать всё подряд - будет очень больно. Но есть вот такая схемка, которая позволит пройтись по всем основным блокам, от простого к сложному

4. Точечное повторение Numpy и Pandas
Конечно, работу с этими библиотеками лучше тренировать на практике, но вспомнить основной функционал можно с помощью этих тренажеров

Ничего не забыли?
Если хотите больше подобных подборок - накидывайте 🔥 под постом!
👍46🔥43❤‍🔥9
💙 Weekend оффер в аналитику Лавки и Еды

В прошлый раз по ровно такой же программе к нам пришло несколько очень крутых ребят.
На этой неделе повторим!
Если вы давно хотели податься в аналитику Яндекса, но сомневались - это шанс для вас 🙂

Буквально до завтра можно решить тестовое (базовый тервер+python), а в выходные - пройти секции и получить оффер. Кстати, вот здесь я подробно рассказывал про секции и про то, как к ним готовиться

Регистрироваться тут
❤‍🔥102🔥2👍1
🖥 База знаний SCiDS

Вы просили - мы сделали!
Пересобрали базу знаний по всем материалам, которые собирали в этом канале. Более 300 постов теперь доступны в максимально системном формате. Новые посты тоже обязательно будем доливать, поэтому если вы еще не подписаны - подписывайтесь! 🙂

Наша база знаний лежит здесь: [Ссылка на Notion]

Основные блоки:
🎬 Наш канал на YouTube
🆕 Для новичков (чтобы понять, что такое DA/DS)
💼 Подготовка к собеседованию, составление резюме и поиск работы
📝 Математика и статистика
⌨️ Языки программирования
🧠 Машинное обучение
📊 Аналитика
⚙️ Инструменты
🔍 Специфика задач в разных областях
🗒️ Полезная информация и шпаргалки


---

💡 Создатель нашего канала, Рома Васильев, также ведёт персональный блог, в котором делится идеями касательно образования, обучения и развития в анализе данных.
Если готовы нырнуть в это всё глубже - приходите читать: @ravasiliev_ch
🔥83👍3212
🧑‍🏫 Записи лекций по курсу МФТИ "Теория вероятностей" от А.М.Райгородского

Один из самых крутых базовых курсов по Теории вероятностей!
Позволяет быстро понять все основные темы. А Андрей Михайлович - мега-крутой преподаватель, который умеет вовлечь в тему и объяснить всё на примерах.

Собрали для вас все лекции с их коротким описанием, чтобы можно было выбрать и посмотреть интересную/нужную вам:
1. Геометрическая вероятность. Условная вероятность и независимость событий

2. Формула полной вероятности и формула Байеса. Схема испытаний Бернулли
3. Случайные графы. Полиномиальная схема. Конечное вероятностное пространство. Аксиоматика Колмогорова
4. Предельные теоремы схемы испытаний Бернулли. Случайные величины и функции распределения (начало)
5. Случайные величины и функции распределения (продолжение)
6. Математические ожидания случайной величины. Независимость случайных величин, корреляция
7. Неравенства Маркова и Чебышёва. Свойства дисперсии случайной величины
8. Закон больших чисел. Неравенства уклонения в случайном блуждании
9. Формула обращения. Многомерные функции распределения
10. Распределения случайных векторов. Вероятностная сходимость
11. Сходимость по распределению. Усиленный закон больших чисел
12. Характеристические функции. Центральная предельная теорема
13. Центральная предельная теорема (продолжение)

Накидайте 🔥 это посту если хотите больше материалов по базе 🙂
🔥17115❤‍🔥4👍4
📐 Задачи на геометрическую вероятность из экзаменов в ШАД

Задачи на геометрическую вероятность позволяют отлично понять суть вероятности, вспомнить геометрию и размять мозги.
А ещё их очень любят периодически давать на собеседованиях!

Вашему вниманию предлагаются три задачки. Попробуйте решить их сами:
1. Внутри правильного треугольника единичной площади случайным образом выбирается точка и соединяется с двумя вершинами. Какого математическое ожидание площади полученного треугольника?
2. На окружности выбираются три случайных точки - вершины треугольника. Какова вероятность того, что центр треугольника будет находиться внутри треугольника?
3. Плоскость разбита на прямоугольники 10x20. Выбирается окружность диаметра 4 с центром в случайном месте плоскости. Какова вероятность того, что окружность пересечет три прямугольника (будет иметь хотя бы одну общую точку с каждым из них)?

Здесь все они разбираются с очень красивыми визуализациями и примерами

Накидывайте 🔥 этому посту, если хотите больше подобных задачек!
🔥43🤩3❤‍🔥2😁2