В Data Science не нужна математика (Почти)
Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.
В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.
Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать далее...
Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.
В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.
Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать далее...
SQL HowTo: наперегонки со временем
В PostgreSQL несложно написать запрос, который уйдет в глубокую рекурсию или просто будет выполняться гораздо дольше, чем нам хотелось бы. Как от этого защититься?
Читать далее...
В PostgreSQL несложно написать запрос, который уйдет в глубокую рекурсию или просто будет выполняться гораздо дольше, чем нам хотелось бы. Как от этого защититься?
Читать далее...
Работа над неразмеченными данными с QGIS и opentripmap на практике
Автор делится интересным опытом работы с неразмеченными данными при помощи открытых ресурсов. К сожалению, из-за подписанного NDA, я не смогу полностью поделиться кодом, но, разумеется, всегда готов помочь в комментариях и личных сообщениях с разрешением какого-либо вопроса по теме.
Читать...
Автор делится интересным опытом работы с неразмеченными данными при помощи открытых ресурсов. К сожалению, из-за подписанного NDA, я не смогу полностью поделиться кодом, но, разумеется, всегда готов помочь в комментариях и личных сообщениях с разрешением какого-либо вопроса по теме.
Читать...
Разбор базового решения для задачи определения железнодорожной колеи и подвижного состава с Цифрового Прорыва
В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.
Спойлер: в конце статьи есть советы для улучшения базового решения.
Читать...
В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.
Спойлер: в конце статьи есть советы для улучшения базового решения.
Читать...
Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы
В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье автор рассказывает, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.
Читать...
В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье автор рассказывает, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.
Читать...
Нужен ли английский программисту?
Мы совместно с карьерной платформой Jobby постарались комплексно ответить на этот вопрос и дать вам чёткое понимание, как и где английский используется в программировании.
Английский программисту однозначно нужен (уровня B1 - B2 будет достаточно) и вот, почему:
🔹 Функции, переменные, классы и тд нужно также обозначать на английском и желательно, чтобы формулировка была максимально близка к сути функции или класса
🔹 English также употребляется, когда строчишь комментарий к коду
🔹 Большая часть документации а также огромная часть крутых обучаюших роликов представлена на английском язык.
🔹 Значительная часть вакансий - зарубежные, а значит основной язык общения - английский
Код – это такой же международный язык, который должен быть понятен всем.
Кстати, найти работу и применить навыки программирования вам поможет карьерная платформа Jobby!
Мы совместно с карьерной платформой Jobby постарались комплексно ответить на этот вопрос и дать вам чёткое понимание, как и где английский используется в программировании.
Английский программисту однозначно нужен (уровня B1 - B2 будет достаточно) и вот, почему:
🔹 Функции, переменные, классы и тд нужно также обозначать на английском и желательно, чтобы формулировка была максимально близка к сути функции или класса
🔹 English также употребляется, когда строчишь комментарий к коду
🔹 Большая часть документации а также огромная часть крутых обучаюших роликов представлена на английском язык.
🔹 Значительная часть вакансий - зарубежные, а значит основной язык общения - английский
Код – это такой же международный язык, который должен быть понятен всем.
Кстати, найти работу и применить навыки программирования вам поможет карьерная платформа Jobby!
Любовь, люди и роботы: как создать чат-бота, за которого не стыдно
Исторически сложилось, что в Ozon основной объём поддержки осуществляется через чат. В 2020 году бот закрывал 27% от общего числа обращений, а в 2022-м — уже 62%. Это сотни тысяч тикетов в день, при этом качество ответов не ухудшилось. Важность чат-бота выросла в разы.
Из этой статьи вы узнаете, за что пользователи любят и ненавидят роботов, зачем вообще нужен чат-бот и на какие метрики мы смотрим. А ещё я расскажу, кто входит в команду разработки бота, что у него под капотом и как устроен процесс генерации фич.
Читать...
Исторически сложилось, что в Ozon основной объём поддержки осуществляется через чат. В 2020 году бот закрывал 27% от общего числа обращений, а в 2022-м — уже 62%. Это сотни тысяч тикетов в день, при этом качество ответов не ухудшилось. Важность чат-бота выросла в разы.
Из этой статьи вы узнаете, за что пользователи любят и ненавидят роботов, зачем вообще нужен чат-бот и на какие метрики мы смотрим. А ещё я расскажу, кто входит в команду разработки бота, что у него под капотом и как устроен процесс генерации фич.
Читать...
Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще
Сегодня поговорим о новостях из мира Data Science. За пару последних месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы».
Читать...
Сегодня поговорим о новостях из мира Data Science. За пару последних месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы».
Читать...
Продвинутый уровень визуализации данных для Data Science на Python
Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.
Читать...
Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.
Читать...
Законы мира информационных технологий
Всем известный закон Мёрфи гласит: «Если что-то плохое может случиться, то оно обязательно произойдет». Согласитесь, не самая позитивная установка, особенно когда это касается работы. И тут мне стало любопытно, а есть ли такие законы, которые мне, как ИТ-специалисту, максимально помогут избежать «чего-то плохого». К своему удивлению, я их нашел, и даже не один.
Читать...
Всем известный закон Мёрфи гласит: «Если что-то плохое может случиться, то оно обязательно произойдет». Согласитесь, не самая позитивная установка, особенно когда это касается работы. И тут мне стало любопытно, а есть ли такие законы, которые мне, как ИТ-специалисту, максимально помогут избежать «чего-то плохого». К своему удивлению, я их нашел, и даже не один.
Читать...
Как я перешел из нефтянки в IT за 1 год
Данная статья, скорее всего, подойдет начинающим разработчикам, а также тем, кто уже добился кое-какого опыта в своей сфере, и не может решиться сменить ее. Я поделюсь моим опытом вхождения в IT, тем какие цели я для себя ставил и как преодолевал трудности, с которыми я столкнулся. А для тех, кто не любит много читать, я в конце дам несколько советов, а также приведу краткий план своего развития.
Читать...
#longread #career
Данная статья, скорее всего, подойдет начинающим разработчикам, а также тем, кто уже добился кое-какого опыта в своей сфере, и не может решиться сменить ее. Я поделюсь моим опытом вхождения в IT, тем какие цели я для себя ставил и как преодолевал трудности, с которыми я столкнулся. А для тех, кто не любит много читать, я в конце дам несколько советов, а также приведу краткий план своего развития.
Читать...
#longread #career
Хранение данных, опыт Oxygen: профессиональные СХД становятся еще более востребованными
В этом посте речь пойдет о преимуществах виртуализации хранилищ NetApp, о том, что дают нам СХД Huawei, как организовано подключение пользователей к виртуальному хранилищу облака Oxygen. Также мы рассмотрим несколько примеров, когда преимущества профессиональных СХД остаются неоспоримыми.
Читать...
В этом посте речь пойдет о преимуществах виртуализации хранилищ NetApp, о том, что дают нам СХД Huawei, как организовано подключение пользователей к виртуальному хранилищу облака Oxygen. Также мы рассмотрим несколько примеров, когда преимущества профессиональных СХД остаются неоспоримыми.
Читать...
Как мы в Brand Analytics разработали Детектор сбоев и как вы можете помочь его улучшить
Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.
Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.
Читать...
Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.
Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.
Читать...
Снижаем размерность. Факторный анализ и метод главных компонент
Факторный анализ – многомерный метод, который применяется для изучения связей между переменными, когда существует предположение об избыточности исходных данных. Вращение Varimax в ходе факторного анализа способствует нахождению наилучшего подпространства признаков.
Метод главных компонент – метод статистического анализа, позволяющих снизить размерность пространства признаков и потерять при этом минимальное количество информации. Достигается это за счёт построения подпространства признаков меньшей размерности таким образом, чтобы дисперсия, распределённая по получаемым осям, была максимальна.
Читать...
Факторный анализ – многомерный метод, который применяется для изучения связей между переменными, когда существует предположение об избыточности исходных данных. Вращение Varimax в ходе факторного анализа способствует нахождению наилучшего подпространства признаков.
Метод главных компонент – метод статистического анализа, позволяющих снизить размерность пространства признаков и потерять при этом минимальное количество информации. Достигается это за счёт построения подпространства признаков меньшей размерности таким образом, чтобы дисперсия, распределённая по получаемым осям, была максимальна.
Читать...
Почему ваш pandas работает в 3000 раз медленнее?
На простом примере разберу несколько методов pandas, которые, к слову, известны почти всем уверенным аналитикам, и сравним их скорость работы. Кроме того, разберу причины большой разницы в скорости. Зная, как работают методы pandas, работа с ними может открыться с другой стороны.
Читать...
На простом примере разберу несколько методов pandas, которые, к слову, известны почти всем уверенным аналитикам, и сравним их скорость работы. Кроме того, разберу причины большой разницы в скорости. Зная, как работают методы pandas, работа с ними может открыться с другой стороны.
Читать...