Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​😎Шесть шагов для создания более качественных моделей Computer Vision

В этой статье автор расскажет, какие есть способы применения моделей компьютерного зрения в реальном мире, и чем модели компьютерного зрения отличаются от моделей машинного обучения, а также вы узнаете как применять модели компьютерного зрения в реальном времени.

Читать...
​​🧑🏼‍💻Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков

В этой статье автор расскажет, почему сбор информации о клиентах, услугах, потреблении и оплатах производиться разными системами, и почему данные агрегируются в таблицах с разными структурами, не связанными общими признаками и логикой, а также вы узнаете зачем нужны разные роли аналитиков, которые могли бы работать параллельно и иметь возможность фокусироваться на определенных задачах.

Читать...
​​😮Применение Python для сбора и предобработки данных цифрового следа

В этой статье автор расскажет, как можно выполнить отправку HTTP‑запроса веб‑серверу поисковика с упоминанием интересующего объекта с помощью библиотеки «Requests«, и как можно выполнить получение ссылки на страницу в интернете про интересующий объект из ответа веб‑сервера с помощью «Beautiful Soup», а также вы узнаете как собирать цифровой след программными инструментами.

Читать...
​​👤Практический опыт проектирования систем графового анализа

В этой статье автор расскажет, почему ни одна система не обладает достойным функционалом пользовательского графического интерфейса из коробки, и почему в части GUI-интерфейса администрирования встречаются вполне интересные и зрелые решения, закрывающие большинство требований, а также вы узнаете почему некоторые популярные системы имеют сильно урезанный функционал в так называемой бесплатной community edition.

Читать...
​​👤Как я писал трекинг парковочных мест

В этой статье автор расскажет, как обучить модель определять парковочные места, и как это можно применять в реальной жизни, а также вы узнаете как сделать код, который считает свободные парковочные места.

Читать...
​​😈Масштабируемая Big Data система в Kubernetes с использованием Spark и Cassandra

В этой статье автор расскажет, как организовать систему распределенного машинного обучения на GPU NVidia, используя язык Java с фреймворками Spring, Spark ML, XGBoost, DML в standalone кластере Spark, и как запустить Spark Jobs в Kubernetes в режимах client и cluster, а также вы узнаете почему для Spark Driver необходим K8S Service Account с полными правами на неймспейс

Читать...
​​🚀Optuna. Подбор гиперпараметров для вашей модели

В этой статье автор расскажет, почему гиперпараметры, задаются разработчиком модели перед ее обучением, и почему фреймворк Optuna обычно используют как оптимизатор гиперпараметров, а также вы узнаете как разработчик может самостоятельно задать пространство для поиска гиперпараметров, используя базовый синтаксис Python.

Читать...
​​🤫Вся правда о кубах данных OLAP: развенчиваем мифы

В этой статье автор расскажет, почему кубы данных — не самая простая тема в дата-инжиниринге, и как кубы данных могут помогать бизнес-аналитикам предварительно упаковывать и агрегировать важные для стейкхолдеров показатели, а также вы узнаете почему кубы это важная характеристика ядра традиционных OLAP-систем.

Читать...
​​🚀Как ускорить вывод ML-моделей в 4 раза, или Как может выглядеть экосистема МLOps в банке

В этой статье автор расскажет, как может выглядеть полноценный конвейер MLOps, и что может уметь, а также вы узнаете как прийти к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию.

Читать...
​​🤨Cache warming в Qlik Sense из подручных материалов

В этой статье автор расскажет, как сделать приложения Qlik Sense быстрее, и почему Qlik не оптимизирован под постоянную работу с внешними источниками, а также вы узнаете какие бывают инструменты для Cache warming.

Читать...
​​😎Применение регулярных выражений для обработки данных

В этой статье автор расскажет, почему сейчас регулярные выражения применяются в разнообразных задачах, и как регулярные выражения могут применяться для решения задач SQL, а также вы узнаете почему на практике не все специалисты применяют регулярные выражения для решения поставленных задач в SQL.

Читать...
​​✉️Как Почта моделирует риски потери отправлений

В этой статье автор расскажет, почему антифрод в логистике — нетривиальная задача, и какие данные легли в основу модели, а также вы узнаете как создать модель, которая предсказывает до 97% возможных пропаж международных отправлений.

Читать...
​​👤Дообучение модели машинного перевода

В этой статье автор расскажет, почему разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей, и как можно дообучить такую модель самому, а также вы узнаете почему после дообучения, при помощи кода m2m_multiling_tune_epochs. py, перевод стал гораздо приятнее.

Читать...
​​🧑🏼‍💻«Инженеров данных заменит автоматика» и другие мифы о DE

В этой статье автор расскажет, почему инженеры данных готовят данные для анализа, машинного обучения и других целей, и почему мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными, а также вы узнаете как No-code-инструменты позволяют управлять данными и упрощают создание их базовых структур.

Читать...
​​🚀Оптимизация выборок в больших коллекциях MongoDB

В этой статье автор расскажет, почему при работе с большими коллекциями в MongoDB, размер которых превышал десятки миллионов записей, возникает необходимость формировать случайные выборки уникальных значений полей, принадлежащих документам этой коллекции, а ещё вы узнаете почему для такой операции, в MongoDB штатно предусмотрена функция $sample, которую можно использовать в составе pipeline при проведении агрегации данных.

Читать...
​​👤Без лишних слов или очищаем речь с помощью текст майнинга

В этой статье автор расскажет, почему поиск качественного инструмента для анализа аудио свелся к выбору между облачными сервисами, и как данное исследование поможет разобраться с нашими вербальными привычками, а также вы узнаете как после нетривиальных настроек облака стал доступен API асинхронного распознавания.

Читать...
​​🧑🏼‍💻Как внедрить Data Driven подход в систему управления поставками

В этой статье автор расскажет, почему каждое предприятие при организации складских запасов ориентируется на производственные планы, и почему после внедрения системы менеджер будет заниматься только интеллектуальной работой, а также вы узнаете о проблемах управления цепями поставок и способы их решений.

Читать...
​​📊Генерация конвейеров обработки данных в Dataflow

В этой статье автор расскажет, почему в Dataflow есть несколько вариантов образцов рабочих потоков, но бизнес-логика используется в них одна, и почему файл определения main содержит логику только одного выполнения, а также вы узнаете почему поток daily выполняет main на ежедневной основе в течение установленного количества прошедших дней.

Читать...
​​😬Как развернуть Apache Superset в облаке: Docker, ВМ, Kubernetes

В этой статье автор расскажет, какие есть способы развёртывания Apache Superset на разных платформах, и почему вариант с развёртыванием Apache Superset в Docker больше подходит для быстрых тестов, а также вы узнаете какие есть вариант с развёртыванием Apache Superset на виртуальных машинах.

Читать...
​​🤔PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

В этой статье автор расскажет, как правильно использовать функцию toPandas вместе с библиотекой pyArrow, и когда использовать toPandas не стоит.

Читать...
​​😵Локализация и рывок вперед: как мы разработали новый подход к облачному хранению данных для Hoff

В этой статье автор расскажет, как сделали облачное хранилище понятным и структурированным источником информации для Hoff, и почему надежность хранилища определяется качеством системы оповещений, то есть алертингом.

Читать...