Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🖥Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

В этой статье автор рассмотрит опыт по построению end-to-end рекомендательной ML-системы визуального поиска похожих товаров с помощью инструментов, предоставляемых облачной платформой.

Читать...
​​👤Как PaaS решил проблемы стандартизации разработки сервиса одной утилитой

В этой статье автор расскажет, почему этот инструмент так важен для разработчика и что он умеет, а что нет.

Читать...
​​😶🌫MLOps в билайн: как катить машинное обучение в production без ML-инженеров. Часть I

В этой статье речь пойдет о нашем опыте создания ML-платформы, которая помогает дата-сайентистам самостоятельно управлять всем жизненным циклом ML-моделей — от разработки до постановки в production.

Читать...
​​🧠Потоковая обработка данных: анализ альтернативных решений

В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.

Читать...
​​🦙Как «воспитать ламу» и ускорить ML-эксперименты

В этой статье мы рассмотрели проведение ML-экспериментов от подготовки данных до деплоя инференс-инстансов.

Читать...
​​👤Каталог данных — почему без него непросто и как всё организовать с максимальной пользой

В этой статье автор расскажет о проблематике работы с данными (и о доверии), и о плюсах, которые даст вам каталог данных.

Читать...
​​🦾Как Guidance выводит ИИ на новый уровень: инструмент для эффективного управления моделями

В данной статье мы рассмотрим его особенности и разберемся, что же это за "зверь".

Читать...
​​💪 Тренды, новые подходы и вызовы в ML-индустрии: онлайн-митап для специалистов в области машинного обучения

Записываем в календари: 25 октября, ML Party, бесплатно по регистрации. Узнаете, как методы обучения с подкреплением позволяют повысить полезность, безопасность и правдивость генеративных моделей. Эксперты Яндекса объяснят, как они группируют предложения магазинов в карточки товаров и при чём тут HNSW и CatBoost, и расскажут о проекте на стыке ML-технологий и ecom-продукта. 

Регистрация…
​​👤Размерности качества данных: обеспечение качества данных с помощью Great Expectations

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность.

Читать...
​​🧐Разметка данных при помощи GPT-4

В этой статье мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач.

Читать...
​​👤YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

В этой статье я расскажу как мы в рамках YTsaurus делали его ещё эффективнее.

Читать...
​​🎃Классификация текстов в spaCy: пошаговая инструкция

В этой статье вы узнаете, как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку.

Читать...
​​📊Как использовать GPU для ускорения аналитической обработки данных

В этой статье мы расскажем о трех шагах, которые помогут внедрить GPU в работу компании.

Читать...
​​👾Дообучение ruGPT-3.5 13B с LoRA

В данной статье мы разберем каждый этап обучения модели, начиная от подготовки данных и заканчивая конвертацией в формат GGML.

Читать...
​​🗣SAGE: коррекция орфографии с помощью языковых моделей

В этой статье мы расскажем, как решали эту проблему внутри SberDevices, и как это привело к созданию проекта по исследованию задачи коррекции текста.

Читать...
​​🧠Создание искусственного интеллекта для игры Баше без нейронных сетей

В данной статье я хочу раскрыть суть машинного обучения на примере создания искусственного интеллекта

Читать...
​​👣Airflow в Kubernetes. Часть 1

В этой статье мы рассмотрели минимальный набор сущностей, необходимый для запуска Airflow.

Читать...
​​😉Как применять метод PCA для уменьшения размерности данных

В этой статье мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).

Читать...
​​🥸Введение в data science: инструменты и методы анализа

В этой статье вы узнаете, как наука о данных обнаруживает скрытые закономерности, предвидит события и извлекает важные идеи из огромного количества данных, окружающих нас в современном обществе.

Читать...
​​🦾OSINT: инструменты

В этой статье вы узнаете о некоторых инструментах, которые помогут вам узнать о человеке максимум.

Читать...
​​🧠Как выбрать GPU для машинного обучения

В этой статье мы рассказали, на какие параметры графических ускорителей стоит обращать внимание, если планируете работать с машинным обучением.

Читать...