Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Работа в Data Science: что важно знать и как этому научиться

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).


Читать...
​​🗣7 инструментов распознавания речи

Чтобы разработать собственную ML-систему распознавания речи, можно воспользоваться следующими фреймворками и библиотеками:

Читать...
​​Нейрон мне в элерон: суррогатные модели

Статья о том как автор применил нейросети при создании сложных технических систем – приспособили GRU в качестве суррогатной модели для испытаний. Реальный кейс для клиента в рамках реального проекта.

Читать...
​​В Data Science не нужна математика (Почти)

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!

Читать далее...
​​Инструменты анализа временных рядов в ETNA

Статья про методы EDA в библиотеке ETNA, а также о том, что можно увидеть с их помощью в данных и как использовать для улучшения модели прогнозирования.

Читать...
​​SQL HowTo: наперегонки со временем

В PostgreSQL несложно написать запрос, который уйдет в глубокую рекурсию или просто будет выполняться гораздо дольше, чем нам хотелось бы. Как от этого защититься?

Читать далее...
Англоязычный канал на тему DS и MachineLearning.

👉 Welcome
​​Работа над неразмеченными данными с QGIS и opentripmap на практике

Автор делится интересным опытом работы с неразмеченными данными при помощи открытых ресурсов. К сожалению, из-за подписанного NDA, я не смогу полностью поделиться кодом, но, разумеется, всегда готов помочь в комментариях и личных сообщениях с разрешением какого-либо вопроса по теме.

Читать...
​​Разбор базового решения для задачи определения железнодорожной колеи и подвижного состава с Цифрового Прорыва

В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.
Спойлер: в конце статьи есть советы для улучшения базового решения.

Читать...
​​Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы

В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье автор рассказывает, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.

Читать...
​​Нужен ли английский программисту? 

Мы совместно с карьерной платформой Jobby постарались комплексно ответить на этот вопрос и дать вам чёткое понимание, как и где английский используется в программировании. 

Английский программисту однозначно нужен (уровня B1 - B2 будет достаточно) и вот, почему: 

🔹 Функции, переменные, классы и тд нужно также обозначать на английском и желательно, чтобы формулировка была максимально близка к сути функции или класса 

 🔹 English также употребляется, когда строчишь комментарий к коду
 
 🔹 Большая часть документации а также огромная часть крутых обучаюших роликов представлена на английском язык.

 🔹 Значительная часть вакансий - зарубежные, а значит основной язык общения - английский

Код – это такой же международный язык, который должен быть понятен всем.

Кстати, найти работу и применить навыки программирования вам поможет карьерная платформа Jobby!
​​Любовь, люди и роботы: как создать чат-бота, за которого не стыдно

Исторически сложилось, что в Ozon основной объём поддержки осуществляется через чат. В 2020 году бот закрывал 27% от общего числа обращений, а в 2022-м — уже 62%. Это сотни тысяч тикетов в день, при этом качество ответов не ухудшилось. Важность чат-бота выросла в разы.

Из этой статьи вы узнаете, за что пользователи любят и ненавидят роботов, зачем вообще нужен чат-бот и на какие метрики мы смотрим. А ещё я расскажу, кто входит в команду разработки бота, что у него под капотом и как устроен процесс генерации фич.

Читать...
​​Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще

Сегодня поговорим о новостях из мира Data Science. За пару последних месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы»

Читать...
​​Продвинутый уровень визуализации данных для Data Science на Python

Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.

Читать...
​​Законы мира информационных технологий

Всем известный закон Мёрфи гласит: «Если что-то плохое может случиться, то оно обязательно произойдет». Согласитесь, не самая позитивная установка, особенно когда это касается работы. И тут мне стало любопытно, а есть ли такие законы, которые мне, как ИТ-специалисту, максимально помогут избежать «чего-то плохого». К своему удивлению, я их нашел, и даже не один.

Читать...
​​Как я перешел из нефтянки в IT за 1 год

Данная статья, скорее всего, подойдет начинающим разработчикам, а также тем, кто уже добился кое-какого опыта в своей сфере, и не может решиться сменить ее. Я поделюсь моим опытом вхождения в IT, тем какие цели я для себя ставил и как преодолевал трудности, с которыми я столкнулся. А для тех, кто не любит много читать, я в конце дам несколько советов, а также приведу краткий план своего развития. 

Читать...

#longread #career
​​О важности датасета и о том, как сделать его лучше. Опыт нашей компании

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Читать...
​​Орел или решка? Основы теории вероятностей простыми словами

Теория вероятностей – это раздел математики, изучающий случайные события, их свойства и действия над ними. В этой статье мы рассмотрим ее определение, основы и применение. Плюс три простых задачи с решениями.

Читать...
​​Хранение данных, опыт Oxygen: профессиональные СХД становятся еще более востребованными

В этом посте речь пойдет о преимуществах виртуализации хранилищ NetApp, о том, что дают нам СХД Huawei, как организовано подключение пользователей к виртуальному хранилищу облака Oxygen. Также мы рассмотрим несколько примеров, когда преимущества профессиональных СХД остаются неоспоримыми.

Читать...
​​Поиск объектов на видео с помощью Python

В данной статье хочу рассказать про поиск объектов на видео с помощью Python и OpenCV. Помимо обычных видео, можно использовать и камеры.

Читать...
Как мы в Brand Analytics разработали Детектор сбоев и как вы можете помочь его улучшить

Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.

Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.

Читать...