Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
628 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Англоязычный канал на тему DS и MachineLearning.

👉 Welcome
​​Работа над неразмеченными данными с QGIS и opentripmap на практике

Автор делится интересным опытом работы с неразмеченными данными при помощи открытых ресурсов. К сожалению, из-за подписанного NDA, я не смогу полностью поделиться кодом, но, разумеется, всегда готов помочь в комментариях и личных сообщениях с разрешением какого-либо вопроса по теме.

Читать...
​​Разбор базового решения для задачи определения железнодорожной колеи и подвижного состава с Цифрового Прорыва

В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.
Спойлер: в конце статьи есть советы для улучшения базового решения.

Читать...
​​Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы

В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье автор рассказывает, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.

Читать...
​​Нужен ли английский программисту? 

Мы совместно с карьерной платформой Jobby постарались комплексно ответить на этот вопрос и дать вам чёткое понимание, как и где английский используется в программировании. 

Английский программисту однозначно нужен (уровня B1 - B2 будет достаточно) и вот, почему: 

🔹 Функции, переменные, классы и тд нужно также обозначать на английском и желательно, чтобы формулировка была максимально близка к сути функции или класса 

 🔹 English также употребляется, когда строчишь комментарий к коду
 
 🔹 Большая часть документации а также огромная часть крутых обучаюших роликов представлена на английском язык.

 🔹 Значительная часть вакансий - зарубежные, а значит основной язык общения - английский

Код – это такой же международный язык, который должен быть понятен всем.

Кстати, найти работу и применить навыки программирования вам поможет карьерная платформа Jobby!
​​Любовь, люди и роботы: как создать чат-бота, за которого не стыдно

Исторически сложилось, что в Ozon основной объём поддержки осуществляется через чат. В 2020 году бот закрывал 27% от общего числа обращений, а в 2022-м — уже 62%. Это сотни тысяч тикетов в день, при этом качество ответов не ухудшилось. Важность чат-бота выросла в разы.

Из этой статьи вы узнаете, за что пользователи любят и ненавидят роботов, зачем вообще нужен чат-бот и на какие метрики мы смотрим. А ещё я расскажу, кто входит в команду разработки бота, что у него под капотом и как устроен процесс генерации фич.

Читать...
​​Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще

Сегодня поговорим о новостях из мира Data Science. За пару последних месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы»

Читать...
​​Продвинутый уровень визуализации данных для Data Science на Python

Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.

Читать...
​​Законы мира информационных технологий

Всем известный закон Мёрфи гласит: «Если что-то плохое может случиться, то оно обязательно произойдет». Согласитесь, не самая позитивная установка, особенно когда это касается работы. И тут мне стало любопытно, а есть ли такие законы, которые мне, как ИТ-специалисту, максимально помогут избежать «чего-то плохого». К своему удивлению, я их нашел, и даже не один.

Читать...
​​Как я перешел из нефтянки в IT за 1 год

Данная статья, скорее всего, подойдет начинающим разработчикам, а также тем, кто уже добился кое-какого опыта в своей сфере, и не может решиться сменить ее. Я поделюсь моим опытом вхождения в IT, тем какие цели я для себя ставил и как преодолевал трудности, с которыми я столкнулся. А для тех, кто не любит много читать, я в конце дам несколько советов, а также приведу краткий план своего развития. 

Читать...

#longread #career
​​О важности датасета и о том, как сделать его лучше. Опыт нашей компании

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Читать...
​​Орел или решка? Основы теории вероятностей простыми словами

Теория вероятностей – это раздел математики, изучающий случайные события, их свойства и действия над ними. В этой статье мы рассмотрим ее определение, основы и применение. Плюс три простых задачи с решениями.

Читать...
​​Хранение данных, опыт Oxygen: профессиональные СХД становятся еще более востребованными

В этом посте речь пойдет о преимуществах виртуализации хранилищ NetApp, о том, что дают нам СХД Huawei, как организовано подключение пользователей к виртуальному хранилищу облака Oxygen. Также мы рассмотрим несколько примеров, когда преимущества профессиональных СХД остаются неоспоримыми.

Читать...
​​Поиск объектов на видео с помощью Python

В данной статье хочу рассказать про поиск объектов на видео с помощью Python и OpenCV. Помимо обычных видео, можно использовать и камеры.

Читать...
Как мы в Brand Analytics разработали Детектор сбоев и как вы можете помочь его улучшить

Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.

Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.

Читать...
​​Снижаем размерность. Факторный анализ и метод главных компонент

Факторный анализ – многомерный метод, который применяется для изучения связей между переменными, когда существует предположение об избыточности исходных данных. Вращение Varimax в ходе факторного анализа способствует нахождению наилучшего подпространства признаков.

Метод главных компонент – метод статистического анализа, позволяющих снизить размерность пространства признаков и потерять при этом минимальное количество информации. Достигается это за счёт построения подпространства признаков меньшей размерности таким образом, чтобы дисперсия, распределённая по получаемым осям, была максимальна.

Читать...
​​Почему ваш pandas работает в 3000 раз медленнее?

На простом примере разберу несколько методов pandas, которые, к слову, известны почти всем уверенным аналитикам, и сравним их скорость работы. Кроме того, разберу причины большой разницы в скорости. Зная, как работают методы pandas, работа с ними может открыться с другой стороны.

Читать...
​​Feature Engineering или стероиды для ML моделей

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными 😉.

Читать...
​​Применять чистый AI также опасно, как и чистый спирт

Банки и предсказания.

Рассмотрим самую простую задачу предсказания поведения, проще некуда,
но весьма распространенную и пользующуюся повышенным спросов в некоторых кругах.

Это задача скоринга в банке. Получить массив параметров, вектор, матрица, куб - это уже на вкус разработчиков, обработать и выдать вероятность возврата средств, если они будут выданы тому, кого описал массив информации.

Читать далее...
​​Все, что нужно знать об ALBERT, RoBERTa и DistilBERT

Обзор различий и сходств различных трансформеров BERT из библиотеки Hugging Face и как их использовать.

👉 Читать перевод...
👉 Читать оригинал...
​​Решение задачи определения границ предложений

В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных.

Читать...