Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🤔Жук, нумерология, хеш или ничо? Оптимизация работы с путями

В этой статье я поделюсь с своим опытом оптимизации задачи по редактированию и поддержке в актуальном состоянии огромного количества данных типа «куда направить товар».

Читать...
​​🔮Предсказываем цены с помощью методов анализа данных и машинного обучения

В этой статье мы поговорим с вами о задаче, связанной с разработкой комплексной модели для прогнозирования цен на электроэнергию, которая позволяет обеспечить стабильность и надежность работы энергосистемы.

Читать...
​​👁Сокращаем дистанцию: как сконструировать SQL-модели в MLflow и упростить управление жизненным циклом машинного обучения

В этой статье мы разберемся в фундаментальных принципах использования на платформе простой SQL-модели и, во-вторых, решить сложную задачу — как сохранить SQL запросы (SQL-модели), используя репозиторий моделей MLflow.

Читать...
​​👽От Style Transfer до диффузии: эволюция визуальных эффектов на смартфонах

В этой статье я разберу эволюцию видеоэффектов, поделюсь наблюдениями и раскрою пару инсайдов о том, как перенести стилизацию изображения из StableDiffusion на смартфоны.

Читать...
​​🔍Анализ номинативных данных

В этой статье мы разберем подробнее понятие номинативных данных и их анализ.

Читать...
​​👤Обзор Llemma: новая математическая open-source модель

В этой статье я расскажу про обучение модели, новый датасет Proof-Pile-2 и в конце сравню ее с ChatGPT и GPT-4 на ЕГЭ заданиях по профильной математике.

Читать...
​​🚀Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

В этой статье я расскажу, как используя недокументированные возможности фреймворка Apache Spark, качественно подобрать гиперпараметры для модели градиентного бустинга всего за один человеко-день вместо обычных пяти.

Читать...
​​👾Переизобретаем сжатие в распределенной базе данных

В этой статье расскажу, как мы изменили подход к сжатию данных, чем пришлось пожертвовать и почему менее эффективное «на бумаге» решение в результате превзошло наши ожидания.

Читать...
​​👥Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

В этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

Читать...
​​🚦 Как создавались новые Яндекс Карты высокой детализации и откуда для этого брались данные
 
В этом выпуске подкаста Yet Another Podcast технический директор и продакт-менеджер сервиса рассказывают, что такое HD-карты, зачем на дороги нанесли разметку и добавили объемные здания, как создается «Народная карта» и что ждет карты в будущем, а также поделились фишками, которые есть в Картах.
 
Смотреть тут…
​​🤖Общаемся с базой знаний: как мы улучшили точность генеративных ответов LLM с помощью собственного RAG

В этой статье мы покажем работающие кейсы и синергию подходов, реализованных нами в рамках разработки агента вопросно ответной системы - FractalGPT QA агента.

Читать...
​​👁Машинное зрение для контроля горнодобывающей техники

В этой статье я расскажу, как с помощью нейронки можно считать циклы погрузки на фронтальных погрузчиках.

Читать...
​​👨‍🔬Дежурный data-инженер: рабочие хроники

В этой статье я расскажу о том, как data-инженер принимает вызовы технической команды по работе с платформой данных.

Читать...
​​📒RecTools – OpenSource библиотека для рекомендательных систем

В этой статье я расскажу про библиотеку RecTools, которая собрала в себе все самые необходимые модели, метрики и инструменты для построения рекомендательных систем.

Читать...
​​🐿Введение в Apache Flink: осваиваем фреймворк на реальных примерах

В этой статье рассмотрим пайплайн Kafka‑to‑Kafka, задачу дедупликации событий, использование таймеров и другие примеры.

Читать...
​​👾Компромисс смещения и дисперсии в машинном обучении

В этой статье мы рассмотрим такое понятие в машинном обучении, как компромисс смещения и дисперсии (bias-variance Tradeoff).

Читать...
​​😵Проблема множественного тестирования на практике

В этой статье я расскажу, о проблеме множественного тестирования, методах решения проблемы, и о практическом опыте работы с множественными экспериментами.

Читать...
​​🗣Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

В этой статье, используя технику Retrieval-Augmented Generation ("Поисковая расширенная генерация"), мы настроим русскоязычного бота, который будет отвечать на вопросы потенциальных работников для выдуманного свечного завода.

Читать...
​​📊Обработка результатов статистических наблюдений с помощью толерантных интервалов

В этой статье хочу поделиться личным опытом использования толерантных интервалов для обработки результатов статистических наблюдений, привести некоторые примеры и дать краткое описание процедуры расчета с реализацией на языке Python.

Читать...
​​📷(Более) точное измерение динамического диапазона сенсора камеры

В этой статье поговорим о том, как (более) точно измерять динамический диапазон сенсора камеры и что с этими замерами можно сделать.

Читать...