Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🧐Разметка данных при помощи GPT-4

В этой статье мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач.

Читать...
​​👤YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

В этой статье я расскажу как мы в рамках YTsaurus делали его ещё эффективнее.

Читать...
​​🎃Классификация текстов в spaCy: пошаговая инструкция

В этой статье вы узнаете, как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку.

Читать...
​​📊Как использовать GPU для ускорения аналитической обработки данных

В этой статье мы расскажем о трех шагах, которые помогут внедрить GPU в работу компании.

Читать...
​​👾Дообучение ruGPT-3.5 13B с LoRA

В данной статье мы разберем каждый этап обучения модели, начиная от подготовки данных и заканчивая конвертацией в формат GGML.

Читать...
​​🗣SAGE: коррекция орфографии с помощью языковых моделей

В этой статье мы расскажем, как решали эту проблему внутри SberDevices, и как это привело к созданию проекта по исследованию задачи коррекции текста.

Читать...
​​🧠Создание искусственного интеллекта для игры Баше без нейронных сетей

В данной статье я хочу раскрыть суть машинного обучения на примере создания искусственного интеллекта

Читать...
​​👣Airflow в Kubernetes. Часть 1

В этой статье мы рассмотрели минимальный набор сущностей, необходимый для запуска Airflow.

Читать...
​​😉Как применять метод PCA для уменьшения размерности данных

В этой статье мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).

Читать...
​​🥸Введение в data science: инструменты и методы анализа

В этой статье вы узнаете, как наука о данных обнаруживает скрытые закономерности, предвидит события и извлекает важные идеи из огромного количества данных, окружающих нас в современном обществе.

Читать...
​​🦾OSINT: инструменты

В этой статье вы узнаете о некоторых инструментах, которые помогут вам узнать о человеке максимум.

Читать...
​​🧠Как выбрать GPU для машинного обучения

В этой статье мы рассказали, на какие параметры графических ускорителей стоит обращать внимание, если планируете работать с машинным обучением.

Читать...
​​👤Data Consistency: как быть уверенным, что с данными всё ок

В этой статье я хочу поделиться своим опытом по решению этой комплексной задачи и бонусом покажу примеры использования array functions в ClickHouse.

Читать...
​​🙈Как получить полезную информацию из своих категориальных признаков?

В этой статье расскажу про способы работы с ними, которыми пользуюсь сам.

Читать...
​​🖼12 лучших инструментов аннотирования изображений на 2023 год

В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой.

Читать...
​​🦹‍♂Борьба с несбалансированными данными

В этой статье автор расскажет что же делает борьбу с несбалансированными данными такой сложной задачей.

Читать...
​​👁Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1)

В этой статье мы рассмотрим, как можно улучшить качество и производительность SAM: научить модель генерировать более детализированные и гранулярные маски, а также ускорить её работу в 50 раз и адаптировать для мобильных устройств.

Читать...
​​🚀Ускоряем процесс разметки с помощью интерактивной сегментации

В этой статье мы поговорим про задачу интерактивной сегментации на основе кликов (click-based) и как она может ускорить процесс разметки данных для различных типов сегментации.

Читать...
​​👁«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

В этой статье мы рассмотрим, как SAM может применяться для решения таких задач, как inpainting, tracking, 3D-сегментация и 3D-генерация, а также увидим, как SAM работает на датасетах из медицинской сферы и сравним дообученую модель с базовыми весами.

Читать...
​​🛠MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных

В этой статье я рассмотрю материалы, которые помогут вам лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики.

Читать...
​​💪Как мы определили веса алгоритмов ранжирования крупнейших маркетплейсов на открытых данных

В этой статье расскажу, как мы прошли этот путь и проверили, что решение действительно работает.

Читать...