DATApedia | Data science – Telegram
DATApedia | Data science
3.44K subscribers
198 photos
91 videos
2 files
837 links
Тут вы найдете всё, что связано с Data Science, AI и Machine Learning, как для начинающих, так и для бывалых специалистов. Также, для вас, мы переводим зарубежные статьи.

Сотрудничество: @Seyfme
Download Telegram
​​Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций

В данной статье автор расскажет, что такое GPT-модели, как упростить их создание под свои задачи, и покажет на практических примерах, как команда VK Cloud смогла создать GPT-модель при минимуме затрат.

Перейти к статье | DATApedia | #DS_AI
👍3
​​ML в полях. Как упростить жизнь агрономов?

Сегодня мы поделимся опытом создания решения автоматизации процесса уборки полей и разберемся с особенностями обучения ML-моделей для агропромышленной отрасли.

Перейти к статье | DATApedia
🔥2
​​Разбираемся в отличии среднего чека от ARPU на примере одного интернет-магазина

В этой статье автор разобрался в бизнес-метриках и ответил на вопросы:

- Что такое ARPU и средний чек? Как их рассчитывать? На какие вопросы они отвечают и для чего нужны?

- Могут ли они ARPU и средний чек быть равны между собой? Будут ли отличаться в динамике месяц от месяца?

- Что если в бизнесе кол-во продуктов фиксировано и все они с одинаковой ценой? Будет ли показатель от месяца к месяцу одинаков? А если рассчитывать среднюю выручку?

Разберемся обо всем по порядку. А для наглядности – рассчитаем данные метрики на реальных данных интернет-магазина.

Перейти к статье | DATApedia
​​Oracle/ClickHouse. DWH. Партицирование как средство быстрого обновления данных

В этой статье хотелось бы рассмотреть такой вопрос - как частичное обновление больших объемов данных в таблицах, которые активно используются пользователями на чтение. Задача является типовой, и с ней сталкивается каждый инженер данных. При этом не важно на какой ступеньке своей карьерной лестницы вы находитесь, Junior или Senior, такие задачи будут.

Перейти к статье | SQLpedia
​​Переходим на Greenplum быстро

Статья рассказывает о проекте по разработке и открытии исходного кода Greenplum быстро - инструмента для загрузки данных и выполнения расчетов с использованием Python-процедур.

Перейти к статье | DATApedia
🔥2
VK Data Meetup — митап об инструментах и людях, которые умеют работать с данными

Когда: 12 октября, 14:00 по Москве
📍 Регистрация

VK Data Meetup — это серия событий о практиках работы с данными на разных уровнях.

Митап 12 октября посвящен работе с большими данными и ML. Обсудим:
• Тренды работы с данными;
• Процессы взаимодействия со смежными подразделениями и внутри дата-команд;
• Новые инструменты, такие как Spark on Kubernetes и No Code AutoML-платформы;
• Кейсы решения практических бизнес-задач от ведущих российских компаний.

Митап будет интересен дата- и ML-инженерам, тимлидам и разработчикам платформ данных, архитекторам и специалистам по Data Science.

Присоединяйтесь к сообществу VK Data Meetup, чтобы узнать про работающие практики и поделиться своим опытом.

Зарегистрироваться
​​Ансамбли в машинном обучении

Данная статья описывает общую систематизацию ансамблей (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете.

Перейти к статье | DATApedia
👍2
​​Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами

"Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен"

Перейти к статье | DATApedia
🔥3
Яндекса открыл приём заявок на Yandex ML Prize — премию для учёных и преподавателей в области Machine Learning

Принять участие могут исследователи, их научные руководители и преподаватели в области распознавания и синтеза речи, компьютерного зрения, информационного поиска и анализа данных, обработки естественного языка генеративных моделей.

Лауреаты Yandex ML Prize получат по денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях и другие призы от Яндекса.

Подать заявку

Реклама. ООО «Яндекс»
👍4🔥21👏1
​​Как мы создавали self-service функционал проверки качества данных для ML-моделей

Данная статья описывает создание self-service функционала проверки качества данных для ML-моделей в банке. В статье рассказывается о том, как была выстроена схема работы с большими данными, используемыми для ML-моделей банка, и как были использованы различные Open Source-инструменты для проверки качества данных.

Перейти к статье | DATApedia
🔥3
Алоха, коллеги!
Сегодня дадим вам задачу на логику из нашей рубрики #fromInterviewWithLove

В кафе поставили 3 разных автомата, которые наливают напитки. В первом — кофе, во втором — чай, а в третий выдаёт случайным образом то кофе, то чай. Для каждого из автоматов нужна 1 монета, чтобы получить напиток.

На заводе перепутали маркировку автоматов, поэтому на каждом из них оказалась неправильная наклейка. Сколько монет понадобится, чтобы понять, где какой автомат?

Вы удивитесь, как элегантно решается эта задача.

Кидаем монету в автомат с наклейкой «Чай-кофе». Мы знаем, что на нем неправильная наклейка, как и на всех, поэтому правильная будет либо «Чай», либо «Кофе». Теперь смотрим, что нам выдаст этот автомат. Например, он выдал чай. Значит, правильная наклейка для этого автомата — «Чай». Теперь нам нужно найти кофейный автомат среди двух оставшихся. Мы помним, что все наклейки перепутаны, поэтому там, где будет написано «Кофе», на самом деле не кофейный автомат. Чай тоже уже занят. Поэтому под надписью «Кофе» скрывается автомат, который выдаёт и кофе, и чай. Значит, с наклейкой «Чай» будет автомат, который выдаёт кофе.

Чтобы разобраться с наклейками, достаточно всего одной монеты!


DATApedia
👍8🔥3
​​Становясь Пангеей: будущее современного стека для анализа данных

Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.

Перейти к статье | DATApedia
​​Дообучение ruGPT-3.5 13B с LoRA

Статья содержит подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.

Перейти к статье | DATApedia | #DS_AI
🔥3
​​О точности вычислений: как не потерять данные в цифровом шуме

В данной статье описываются причины ошибок, возникающих при использовании чисел типа float, а также проблемы, связанные с накоплением ошибок при обработке больших данных.

Перейти к статье | DATApedia
🔥2
​​Применение нейросетевых подходов для формирования признаков в моделях

В данной рассказано о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.

Перейти к статье | DATApedia | #DS_AI
​​Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге

В данной статье автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.

Перейти к статье | DATApedia
👍1🔥1
😁101
​​Введение в библиотеку Diffusers и диффузионные модели

Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио. В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.

Перейти к статье | DATApedia