Junior Data Scientist – Telegram
Junior Data Scientist
936 subscribers
8 photos
5 files
31 links
Расскажу о своем скромном опыте входа в мир Data Science.
Связь: @EgoorS
Download Telegram
Обучение без учителя.
#планобучения

Напоминаю, на радаре “Python для анализа данных” от МФТИ, ФРОО и Мэйл Ру Груп. Прошлая неделя доставила нам порцию машинлернинга с учителем, сегодня обойдемся без него. Неделя номер 4. Начинается все с задачи кластеризации, меток у нас больше нет, ищем структуру в данных. Первым рассмотренным алгоритмом будет метод К-средних с методом Локтя, сразу после этого следует видео с практикой, после чего начинается агломеративная кластеризация и два ее подхода. После снова видео с применением и красивые дендрограммы. Из плотностных методов представлен DBSCAN с классным примером на картах (или только я люблю подобного рода гео-визуализации). В конце немного затронут тему метрик. Практика сносная, интересная. Вторая часть связана с методами снижения размерности. Тут по классике - PCA или метод главных компонент, а за многомерное шкалирование отдувается t-SNE. Третья часть порадует любителей фильмов. Рекомендательные системы, пожалуй, на данный момент времени окружают нас везде, тут тоже. Авторы довольно емко и понятно повествуют о рекомендательных системах. На этом моменте, признаюсь честно, на практике я забуксовал, долго не мог решить какое-то задание с рекомендашками. Я путался, тупил, переделывал, переписывал код с нуля (особенно во второй части практики). Ну а что поделать, не все всегда дается легко, мы как-никак с нуля залетаем. Оу, на этом моменте стали появляться плохие мысли (может это не мое или я слишком туп для этих ваших датасаенсов?!), которые нужно гнать из головы, все получится (но не у всех и не все!). Советую вам переключаться на другие задачи, если одна не получается, чтобы не за минусморалить.

Yea:
Для кого? Для тех кто прошел уже пол пути.
Сколько по времени? 1.5 - 2 недели. Реально тяжелая практика, можно застрять.
Вердикт. 4.5/5. Интересные задачи и много материала.
Ссылки: курсик.
Шпаргалки по Пандас!
#полезное #планобучения

Очень красивая шпаргалка от PyData с визуализацией работы основных функций и емкая, но не менее полезная от DataQuest.
Для любителей потыкать ячейки в юпитере, прикладываю ноутбук, основанный на книге Python for Data Analysis by Wes McKinney.

Вердикт. 4.5/5. Хорошая выжимка для начинающих.
Ссылки: ноутбук Пандас.
Нейронные сети без регистрации и смс.
#планобучения

Напоминаю, на радаре “Python для анализа данных” от МФТИ, ФРОО и Мэйл Ру Груп. Начинается все с краткого экскурса в историю и проблем, которые мешали развитию нейронок, хотя идеи были давно. Разбирают плюсы и минусы. Далее основы основ - нейроны, слои нейронов, функции активации (сигмоида, релу, гиперболический тангенс). После познакомимся с обучением нейросеток и методом обратного распространения ошибки, а также с модификациям градиентного спуска. Ну и с другими основными понятиями: батч, дропаут, ранняя остановка. Тест простой, а вот задание вызывает вопросики. Мне лично не понятно, что хотели сказать авторы этим, мне показалось не совсем в тему. Во второй части изучаем глубокие нейронные сети с 2 скрытыми слоями. В сверточных НС достаточно подробно описаны слои и их работа, даже новичок должен разобраться. После них идут рекуррентные НС на примере ЛСТМок, уже более поверхностно. После этого авторы кратко пробегаются по современным архитектурам нейросеток - автоэнкодеры, ГАНы, Seq2Seq. Ну так, для ознакомления с общими принципами сойдет. Практика интересная, знакомят с ТензорФлоу и Керасом (можем бездумно накидывать слои в Керасе и называть это экспериментами). Задание довольно простое - немного предобработать данные и создать нейросеть по заданным критериям.

Получаем:
Сколько по времени? 1-1.5 недели, не более.
Вердикт. 3.75/5. Слишком много всего намешано.
Ссылки: курс эры.
Шпаргалки по numpy!
#полезное #планобучения

Первая основана на книге Python for Data Analysis by Wes McKinney (2016 года). Вторая взята с сайте http://www.dataquest.io/. Для любителей занампить по хардкору прикладываю ссылку на гитхаб с сотней задач.

Вердикт. 4.5/5. Аналогично Пандасу. Хорошая выжимка для начинающих.
Ссылки: 100 упражнений по numpy.
Финальный проект. Подведем итоги.
#планобучения

Напоминаю, на радаре “Python для анализа данных” от МФТИ, ФРОО и Мэйл Ру Груп. Честно говоря, даже сказать о нем нечего. Вам нужно сделать свой проект по определению одежды на картинке из набора изображений фешн (ис май профешн) МНИСТ. Ну и показать все, чему вы научились. Проект с проверкой от таких же вкатчиков, как и вы.
Сколько по времени? Пару вечеров.
Вердикт. 3.5/5. Идея проекта клевая, но не хватает разнообразия.

Итоги курса.
Пройти курс за 6 недель вполне можно, но я бы рассчитывал на 8 недель (2 месяца), при условии того, что вы уже знаете питон и немного математики для того, чтобы понимать о чем вообще идет речь. Курс достаточно свежий и устаревшей информации почти нет, чаще всего теория подкреплена практикой и нет разрыва между видео и заданием. К плюсам можно отнести тесты, которые реально помогают разобраться в материале. К минусам - слишком поверхностный разбор некоторых важных вещей. Но я бы рассматривал этот курс именно как ознакомительный. С этой задачей он справляется на все 100%, вы получаете базу и понимание того, что вообще есть в ДС и как это работает.

Общий вердикт. 4/5. Курс дает отличную базу, с которой намного проще двигаться дальше.
Ссылки: coursera.
Теоретический минимум по BigData. Ын Анналин, Су Кеннет.
#планобучения

Надеюсь все отошли от прошлого курса, продолжаем бороздить обучение.
Начну с того, что нашел я это чудо (книгу) в какой-то подборке книг по МЛ (а большинство подборок книг в интернете - полнейший треш, который попадает в подборку только из-за названия). Так случилось и тут, книга стояла в одном ряду с книгами, которые на порядок выше по сложности (по какому принципу вообще?!). ШТОШ, начнем. Скажу сразу, никакой бигдаты тут нет, скорее всего, ошибка перевода, да и теорией назвать тут что-то достаточно сложно. В книге 208 страниц, 12 глав, много всяких графиков, картинок, табличек и разного гуманитарного (сорян, гуманитарии, не кидайтесь в меня камнями), но не формул, даже простейших. Не знаю как вам, но мне такое сложно воспринимать всерьез. Даже формулы расчета метрик убрали в приложение, а там просто складывают и делят целые числа, как-то уж слишком гуманитарно получается. По содержанию, кстати, вполне неплохо, есть обучение с учителем/без учителя/с подкреплением (бандитос), А/Б тестирование и общая информация о данных. Джентельменский набор, так сказать. Встречаются интересные примеры в некоторых темах.
Эту книгу я начал читать уже после мэйловского курса, поэтому максимум что она могла мне дать - это некоторые темы, с которыми там не познакомили. После того, как минимально порылся под капотом МЛа, такие книги кажутся ерундой. НО! Если бы я прочитал ее до курса, то она была бы весьма полезна. Она хорошо структурирована, с хорошими примерами и графиками, не пугает вкатчика математикой (хотя это может сыграть плохую шутку).

Вопросики и ответики:
Для кого? 1) Для совсем нулевых.
2) Для тех, кому приходится взаимодействовать с ДСами (но им важно понимать, чем занимаются ДСы, чтобы разговаривать на одном языке).
Сколько по времени? Два вечера, не более (!).
Вердикт. Разделим на 3 части:
4.5/5 для совсем новичков.
2/5 для тех, кто прошел хоть один ознакомительный курс.
5/5 для людей, которым не нужно глубоко погружаться в ДС, но хотелось иметь общее понимание сферы для взаимодействия с ДСами.
Ссылки: нету.
Как я узнал про Дата Саенс, машины лёрнинга и прочие бигдаты.
#всякоеразное

Каждый первый раз столкнулся со сферой по-своему, я вот на ютубе. Меня всегда интересовала тема таргетированной рекламы и как именно она работает, почему именно на меня нацелена та или иная (порой не тривиальная) реклама. На тот момент это было какой-то магией для меня. Ютуб -> рекомендации -> какое-то большое интервью про бигдату -> ну посмотрим. Смотрю, понимаю, что мне дико заходит эта тема. Главный герой вью - Артур Хачуян, специалист по обработке больших данных и основатель компании Tazeros Global. Ну очень интересное видео для меня на тот момент, много разных вещей, в которые сложно поверить. Кто собирает данные, зачем, что с ними делают, как из каких-то циферок получить деньги и на что вообще способны современные технологии. Артур очень интересный собеседник, который без пафоса и всякой теории рассказывает обычным людям достаточно сложные, а главное интересные вещи. После этого видео я начал гуглить другие его видео/лекции, меня реально затянуло. Оу, а обучаться я начну только через год (а зря!). Пожалуй с этого видео все началось, этот человек реально смог заинтересовать меня ДСом. Советую посмотреть пару роликов и вам, топ контент.

Ссылки: первое видео, вью любителя многоэтажек.
Открытый курс машинного обучения от ОДС.
#планобучения

Как вы уже поняли, наш радар засек курс от сообщества ОДС. Немного погуглив что-нибудь по МЛ, вы почти сразу наткнетесь хоть на одну статью из этого курса. Open Data Science - международное сообщество, объединяющее специалистов, исследователей и инженеров, связанных с Data Science. Ну и самое крупное в рунете уж точно. Вся основная движуха в Слаке, вход не свободный, но меня приняли достаточно быстро (пару раз читал, что людей не принимали более месяца, не знаю с чем связано). Там есть почти все что нужно ДСу - от веток про обучение до вакансий и составления резюме. Советую вступить!

Ну а сегодня начнем разбирать курс. Состоит он из 10 занятий, которые подкреплены соответствующими статьями на хабре, видосом от Юрия Кашницкого и репозитория на гитхабе с ноутбуками и домашками (даже на нескольких языках). Проходил курс я по такой схеме:
- читаем статью на хабре (может где-то тупим/не понимаем),
- смотрим видео на скорости 1.5х (тк лекции достаточно долгие) и разбираемся,
- перечитываем статью
- начинаем прощелкивать ноутбуки с занятия, разбирая тему.
В текстовой версии есть ссылки на домашку, которая не проверяется. По сути, опять самопроверка, но есть тест в виде гугл-формы. Делаешь задание, получаешь ответ, тыкаешь свой вариант, в конце видишь правильные ответы и начинаешь работу над ошибками (это важно).

Надеюсь уже на этой неделе начнем разбирать с вами данный курс!

Ссылки: гит, хабр, ютаб
Начинаем ОДСовский курс. Часть раз.
#планобучения

Сегодня разберем 2 темы. Скажу сразу, я не помню некоторые моменты этого курса, поэтому могу что-то забыть, видео с лекциями я не помню вообще, но посмотреть их стоит однозначно (на скорости 1.5х). Стартуем по классике - с пандаса и датафрейма про отток клиентов за бугром. Проводим самый простенький ЕДА - прогружаем табличку, чекаем размерность, тип данных, максимальные значения и так далее. Учимся выделять части таблицы по условиям, сортировке, группировке и всякому разному. Далее строим графики и сводные таблицы, понимая, что данная телекоммуникационная компания с оттоком 15% клиентов почти мертва. На гите 5 ноутбуков - 3 полезных. Ноутбук из статьи советую покрутить самому, а не просто прощелкать. Также есть небольшой туториал по нампи и весьма годный обзор пандаса с графиками. На практике нас ждет титаник, задания интересные, в меру сложные, на них не засиживаемся. Во 2 теме разбираем визуализацию. Странно, но начинается она в плотли и сеаборна, а не матплотлиб.пайплот ас плт. Анализируем признаки с помощью графиков, наслаждаемся их разнообразием, рисуем виолончевидные формы (никогда не понимал их предназначение при наличии гениальных боксплотов). В конце по харду пройдемся по уже знакомому нам ТСНЕ. Приложено 6 ноутбуков - 3 годных, один с обзором библиотек, который советую покрутить самому, ну и домашка с практикой. Тут я вроде немного застрял, потому что в прошлом курсе эта тема прошла как-то мимо меня.

Го выводы:
Для кого? Думаю, что все-таки с нуля будет сложновато. Хотя бы для знающих начальный пандас.
Сколько по времени? 1/1.5 недели.
Вердикт. 4.5/5. Хорошая неделя, в меру сложная, практика дает о себе знать.
Ссылки: тема 1, тема 2
Пау-пау, всем привет!

Если у Вас есть какие-либо вопросы, предложения, идеи или темы, о которых вы бы хотели услышать, Вы можете о них написать мне в личку, в чатик или в комментарии к этому посту. Жду от Вас обратной связи :)
Продолжаем ОДСовский курс. Часть два.
#планобучения

На повестке одна большая тема. Тема 3. Начинается все с задач в машинном обучении и, пожалуй, самого интерпретируемого алгоритма в МЛ - дерева решений. Выясняем что же такое энтропия, а так же алгоритм построения. Далее следует отличный пример с расчетом энтропии (советую повторить расчеты на бумаге) для шариков. Пробегаемся по другим критериям тоже. Потом отрисовываем пару картинок для примера разбиения рандомных данных. С помощью графвиза рисуем само дерево (я тут долго пытался отрисовать, но такое ощущение, что какие-то либы конфликтовали, поэтому если из коробки у вас не запускатеся, то оставьте это дело). Далее идет разбор дерева в задачах регрессии, а также основные его параметры. После чего следует метод ближайших соседей (ну очень кратко). Закончив с этим, разбираем кросс-валидацию с примером решения задачи оттока для нашего обанкротившегося оператора связи и попрактикуемся на МНИСТ. В конце подводем итоги/плюсы/минусы дерева и кНН.
Из ноутбуков полезных 2 (еще один это просто перепечатанная статья с хабра) - практика и ДЗшка. В практике - Титаник, дерево решений и... Посылочка на Кеггл. Что на самом деле очень годно и полезно. В домашке материала поболее. Честно говоря, игрушечный набор "девушка в баре" для меня был совсем не в тему, смысла я его не понял (зачем он там и почему). А вот с последним набором данных идет классное задание с небольшим ЕДА, заполнением пропусков и кодированием признаков. В конце знакомимся уже с лесами.

Го выводы:
Для кого? Для вкатчиков в МЛ, которые хоть где-то читали/слышали об этих алгоритмах
Сколько по времени? Около недели.
Вердикт. 4/5. Боевая неделя, но чего-то не хватает.
Ссылки: тема 3
Всем привет!
Михаил делает свой подкаст про ДС, слушателем которого я являюсь и сейчас собирает вопросы от начинающих.
Задавайте свои вопросы в комментариях на его канале!
Наверное, стажировки - это самый понятный и эффективный способ "вкатиться" в любую профессию. У кого еще получить первоначальный опыт, как не у тех, кто уже понимает рынок и делает для пользователей что-то полезное? Если бы у меня сейчас была цель устроиться на какую-нибудь новую для меня работу, в которой у меня есть только теоретические знания - я бы всеми правдами и неправдами пытался попасть на стажировку к лидерам рынка. Ведь после качественной стажировки тебе уже не смогут сказать, что ты совсем без опыта и найти работу мечты будет значительно проще.

Мы с ребятами из Яндекса решили запустить небольшой цикл ответов на вопросы про стажировки. Наверное, вы слышали, что они постоянно набирают стажеров, в том числе и по аналитике данных и по машинному обучению. На вопросы будут отвечать как HR-менеджеры, непосредственно отбирающие потенциальных стажеров, так и заказчики от бизнеса, которые точно знают какие специалисты им нужны. Так вот, чтобы этот цикл был максимально приближенным к жизни, мы решили предварительно собрать вопросы, которые интересуют будущих специалистом по машинному обучению и аналитике.

Задавайте ваши вопросы в комментариях к этому посту, а мы обязательно на них ответим в подкасте!
Продолжаем ОДСовский курс. Часть три.
#планобучения

Врываемся в линеар моделс. Тема 4. Начало начал у нас - теория по методу наименьших квадратов и методу максимального правдоподобия, а также разложение ошибки на смещение и разброс. Математика. Но делать нечего, надо разбираться, вспоминать. В конце полирнем регуляризациями, и перейдем к логистической регрессии. Все по той же схеме. Вдумчиво читаем, разбираемся, лучше, наверное, даже смотреть видосик с лекцией. После этой горы формулок переходим к реальным примерам и разбираем достаточно показательную задачку про микрочипы и регуляризацию, а также к отзывам на фильмы (на самом популярном датасете для данного вида задач). Минусы у логрега тоже разбираем - XOR-проблема, которая отлично проиллюстрирована авторами курса. Далее нам объясняют как работать с кривыми обучения и валидации. Ну и все, подводят итоги и плюсы/минусы линейных моделей. Кстати, забыл сказать, что часто (если не всегда) в конце статьи есть пунктик "полезные материалы" (там много дополнительного материала). Ноутбуков много, но все кроме 2 - статья на хабре в более удобном виде. Остается - практис и домашка. Практика интересная - будем идентифицировать пользователя, честно сказать, не помню сколько потратил время на это занятие. Плюсом сделаем еще одну посылку на кеггл, что радует (как будто авторы сразу воспитывают в вас маленького грандмастера). В домашке прогнозируем популярность статей, тоже тоже вполне годное и интересное задание.

Го выводы:
Для кого? ~/~/~
Сколько по времени? Неделя или чуть больше.
Вердикт. 4.5/5. Ноу комментс.
Ссылки: тема 4
Продолжаем ОДСовский курс. Часть 4етыре.
#планобучения

Композиции: леса и прочие бэггинги. Тема 5. Начинаем с общих подходов, теории, графиков, схемок, все довольно понятно и структурировано. Далее начинаем ходить по лесам (случайным). Крутой разбор параметров для случайного леса с примерами, все наглядно и вполне понятно. Потом следует полезная часть про оценку важности признаков, а закончится все на плюсах/минусах, как и всегда. Переходя к жупитер-нотебукам, стоит отметить, что их сегодня аж 3, к практике и домашке добавился ноутбук с метриками (ну так, средненький, я бы раньше начал объяснять метрики на месте автором). В практической части уже по классике посылочки на кеггл, небольшое задание. А вот домашка достаточно массивная, но годная.
Тема 6. Строим и отбираем признаки. Этой теме не все и не всегда уделяют много внимания на курсах, но тут не прошли мимо этой важной (имхо) темы. Помню, что во время обучения мне эта тема показалась какой-то уж слишком разрозненной. Начинается все с текстов, в которых рассматривают бэг-оф-вордсы, тф-идфы и ворд-ту-веки (там прикольная пояснительная гифка). Далее переходят к изображениям, геоданным, датам, временным рядам. Очень быстро и сумборно. Так, чисто познакомится. Нормализация описана достаточно подробно и понятно, немного будет затронуто логнормальное распределение. В конце нам немного поведают о выборе признаков и статистических подходах в этих делах. В ноутбуках статейка с хабра на английском и регрессия, много регрессии... Очень. Много. Регрессии. Наслаждайтесь.

Го выводы:
Для кого? ~/~/~
Сколько по времени? 1.5-2 недели.
Вердикт. 4/5. 6 тема уж слишком сумбурна.
Ссылки: тема 5, тема 6
Всем привет, я немного увяз в работе, но канал не забрасываю. Совсем недавно исполнился год, как я работаю в ДС. Возникла идея написать пост с моими наблюдениями за год работы (в основном не по технической части). Оно вам надо, ребятки?
Anonymous Quiz
99%
Надо
1%
Не надо
Всем ку, выкладываю пост, который обещал. Дисклеймер. Пост основан только на моем личном опыте, тут только мои мысли. На роль правдоруба не претендую, могу в чем-либо быть не прав. Это хаотичные мысли в моей голове, а не топ советов.

- Тщательнее выбирайте работодателя.
Да, я реально могу посоветовать это даже джунам. Иногда описание вакансии и вопросы на собеседовании могут не совпадать с вашими реальными обязанностями (советую посмотреть ролик Валерия Бабушкина). Задавайте абсолютно все вопросы, что вас интересуют, лучше потратить время на собеседовании, чем на устройство на не вашу работу.

- Некоторые компании не понимают кого ищут. Недавно мой товарищ проходил собеседование в одну крупную телеком компанию на аналитика (в основном SQL). На техническом собеседовании были вопросы связанные с данными и предыдущим опытом работы. В итоге потратив месяц на все это действо, он вышел на работу и понял, что его работа почти вообще не будет касаться SQL. Да, это может быть разовым случаем и мне вообще не понятно что это было, но такое может произойти.

- Soft skills. Работая в большой компании ты осознаешь это в полной мере. Стоит признать, что в айти уже не только интроверты-погромисты, хотя их не малая часть. Но по моему опыту, техническую часть люди с развитыми софтами подтягивают достаточно быстро, а вот наоборот это почти не работает.

- Общение. Больше общайтесь с людьми, от которых вы можете чему-то научиться. Да, вы можете работать ДСом не в айти компании, и может закрастся мысль, что раз большинство вокруг совсем не программисты, то и учится у них нечему. Это не совсем верно, подтягивайте с их помощью свои софт скиллы.

- Деньги. Волнующая тема для многих, особенно для тех, кто меняет сферу деятельности. Про столицу говорить не буду, там отдельная история. В регионах все не очень, скорее всего ваша зарплата будет больше, чем у начинающих не в айти, но будет довольно скромной. Бывают исключения, как и везде.

- Нужны ли джуны? Зависит от компании, поясню. Джун, имхо, достаточно дорогое удовольствие. Не все горят профессией, кому-то не понравится сфера, он уйдет во фронтенд, кто-то не доволен зарплатой со старта и тд. Причин очень много. Работодателя в этом случае тоже можно понять, зачем ему сотрудник, который отнимает время у более сильных коллег, сразу не может участвовать в серьезных проектах, может уйти почти в любое время из-за причин, к которым компания может не иметь отношения? По моим наблюдениям, джунов набирают в большие компании, которые реально могут себе это позволить, компании поменьше очень редко выкладывают такие вакансии.

Задавайте вопросы в комментариях, если будет что-то интересное, запилю ещё пару постов.