Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
628 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Нужен ли английский программисту? 

Мы совместно с карьерной платформой Jobby постарались комплексно ответить на этот вопрос и дать вам чёткое понимание, как и где английский используется в программировании. 

Английский программисту однозначно нужен (уровня B1 - B2 будет достаточно) и вот, почему: 

🔹 Функции, переменные, классы и тд нужно также обозначать на английском и желательно, чтобы формулировка была максимально близка к сути функции или класса 

 🔹 English также употребляется, когда строчишь комментарий к коду
 
 🔹 Большая часть документации а также огромная часть крутых обучаюших роликов представлена на английском язык.

 🔹 Значительная часть вакансий - зарубежные, а значит основной язык общения - английский

Код – это такой же международный язык, который должен быть понятен всем.

Кстати, найти работу и применить навыки программирования вам поможет карьерная платформа Jobby!
​​Любовь, люди и роботы: как создать чат-бота, за которого не стыдно

Исторически сложилось, что в Ozon основной объём поддержки осуществляется через чат. В 2020 году бот закрывал 27% от общего числа обращений, а в 2022-м — уже 62%. Это сотни тысяч тикетов в день, при этом качество ответов не ухудшилось. Важность чат-бота выросла в разы.

Из этой статьи вы узнаете, за что пользователи любят и ненавидят роботов, зачем вообще нужен чат-бот и на какие метрики мы смотрим. А ещё я расскажу, кто входит в команду разработки бота, что у него под капотом и как устроен процесс генерации фич.

Читать...
​​Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще

Сегодня поговорим о новостях из мира Data Science. За пару последних месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы»

Читать...
​​Продвинутый уровень визуализации данных для Data Science на Python

Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.

Читать...
​​Законы мира информационных технологий

Всем известный закон Мёрфи гласит: «Если что-то плохое может случиться, то оно обязательно произойдет». Согласитесь, не самая позитивная установка, особенно когда это касается работы. И тут мне стало любопытно, а есть ли такие законы, которые мне, как ИТ-специалисту, максимально помогут избежать «чего-то плохого». К своему удивлению, я их нашел, и даже не один.

Читать...
​​Как я перешел из нефтянки в IT за 1 год

Данная статья, скорее всего, подойдет начинающим разработчикам, а также тем, кто уже добился кое-какого опыта в своей сфере, и не может решиться сменить ее. Я поделюсь моим опытом вхождения в IT, тем какие цели я для себя ставил и как преодолевал трудности, с которыми я столкнулся. А для тех, кто не любит много читать, я в конце дам несколько советов, а также приведу краткий план своего развития. 

Читать...

#longread #career
​​О важности датасета и о том, как сделать его лучше. Опыт нашей компании

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Читать...
​​Орел или решка? Основы теории вероятностей простыми словами

Теория вероятностей – это раздел математики, изучающий случайные события, их свойства и действия над ними. В этой статье мы рассмотрим ее определение, основы и применение. Плюс три простых задачи с решениями.

Читать...
​​Хранение данных, опыт Oxygen: профессиональные СХД становятся еще более востребованными

В этом посте речь пойдет о преимуществах виртуализации хранилищ NetApp, о том, что дают нам СХД Huawei, как организовано подключение пользователей к виртуальному хранилищу облака Oxygen. Также мы рассмотрим несколько примеров, когда преимущества профессиональных СХД остаются неоспоримыми.

Читать...
​​Поиск объектов на видео с помощью Python

В данной статье хочу рассказать про поиск объектов на видео с помощью Python и OpenCV. Помимо обычных видео, можно использовать и камеры.

Читать...
Как мы в Brand Analytics разработали Детектор сбоев и как вы можете помочь его улучшить

Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.

Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.

Читать...
​​Снижаем размерность. Факторный анализ и метод главных компонент

Факторный анализ – многомерный метод, который применяется для изучения связей между переменными, когда существует предположение об избыточности исходных данных. Вращение Varimax в ходе факторного анализа способствует нахождению наилучшего подпространства признаков.

Метод главных компонент – метод статистического анализа, позволяющих снизить размерность пространства признаков и потерять при этом минимальное количество информации. Достигается это за счёт построения подпространства признаков меньшей размерности таким образом, чтобы дисперсия, распределённая по получаемым осям, была максимальна.

Читать...
​​Почему ваш pandas работает в 3000 раз медленнее?

На простом примере разберу несколько методов pandas, которые, к слову, известны почти всем уверенным аналитикам, и сравним их скорость работы. Кроме того, разберу причины большой разницы в скорости. Зная, как работают методы pandas, работа с ними может открыться с другой стороны.

Читать...
​​Feature Engineering или стероиды для ML моделей

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными 😉.

Читать...
​​Применять чистый AI также опасно, как и чистый спирт

Банки и предсказания.

Рассмотрим самую простую задачу предсказания поведения, проще некуда,
но весьма распространенную и пользующуюся повышенным спросов в некоторых кругах.

Это задача скоринга в банке. Получить массив параметров, вектор, матрица, куб - это уже на вкус разработчиков, обработать и выдать вероятность возврата средств, если они будут выданы тому, кого описал массив информации.

Читать далее...
​​Все, что нужно знать об ALBERT, RoBERTa и DistilBERT

Обзор различий и сходств различных трансформеров BERT из библиотеки Hugging Face и как их использовать.

👉 Читать перевод...
👉 Читать оригинал...
​​Решение задачи определения границ предложений

В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных.

Читать...
​​Рецепт готовки Apache Kafka: как создавался Data Lake на 80 Тb

Kafka позволит вам грамотно организовать работу с большим массивом данных, но в процессе может подкинуть проблем. Иногда придется устроить танцы с бубном, чтобы программа продолжила работать, а не рухнула в момент запуска.

Читать...
​​Самые интересные нейросети открытого доступа

К началу 2020-х годов нейросети успели с переднего края научных разработок проникнуть в сферу общедоступных интернет-развлечений. В наши дни каждый может поэкспериментировать с генерацией текстов или изображений, сгенерировать фотореалистичного человека или кота, превратить набросок качества paint — во вполне сносный пейзаж, и всё такое прочее. И в некоторых случаях даже без регистрации и СМС (ну или почти без оных).

Читать...
Wunder Fund: проект для Python разработчика / Data engineer 🔥

Мы в wunderfund.io занимаемся высокочастотной торговлей на бирже (HFT) с 2014 года, активно используем машинное обучение. Сейчас мы торгуем на 12 биржах по всему миру и наш дневной оборот больше $4 млрд. 

И у нас много данных.

Ищем Питон-разработчиков в команду:

🛠 Вы будете разрабатывать парсеры биржевых данных и программы для надежного их сохранения. Будете развивать автоматический пайплайн ежедневной обработки этих сохраненных данных.

👺 Идеальный человек хорошо знает Python, уже строил пайплайны на Luigi/Airflow/etc и выкатывал их продакшн, работал с облачными платформами.

👾 У нас сильная команда и развитая инженерная культура. Вот небольшое видео с рассказом нашего СТО о том, как устроена работа и вообще — https://youtu.be/662q9FVqp50
А вот более подробное описание вакансии (https://wunderfund.io/jobs/data-eng).

Платим от 200 до 400к в месяц ($3k — $7k). В особых случаях больше, договоримся. 

Контакт @nedifar1703
Многих молодых аналитиков, и не только их, работа с исследованиями уводит в темные дебри поиска проблем, планирования, итераций, выводов, а про презентацию результатов и вовсе забывают. Самое досадное случается, когда все потраченные усилия уходят «в стол». И это далеко не редкость для бизнеса.

В последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий.