NEW BOT Телеграм, страница

DATApedia | Data science

Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций

В данной статье автор расскажет, что такое GPT-модели, как упростить их создание под свои задачи, и покажет на практических примерах, как команда VK Cloud смогла создать GPT-модель при минимуме затрат.

Перейти к статье | DATApedia | #DS_AI

👍3

1.21K views11:00

DATApedia | Data science

ML в полях. Как упростить жизнь агрономов?

Сегодня мы поделимся опытом создания решения автоматизации процесса уборки полей и разберемся с особенностями обучения ML-моделей для агропромышленной отрасли.

Перейти к статье | DATApedia

🔥2

1.23K views12:03

DATApedia | Data science

Разбираемся в отличии среднего чека от ARPU на примере одного интернет-магазина

В этой статье автор разобрался в бизнес-метриках и ответил на вопросы:

- Что такое ARPU и средний чек? Как их рассчитывать? На какие вопросы они отвечают и для чего нужны?

- Могут ли они ARPU и средний чек быть равны между собой? Будут ли отличаться в динамике месяц от месяца?

- Что если в бизнесе кол-во продуктов фиксировано и все они с одинаковой ценой? Будет ли показатель от месяца к месяцу одинаков? А если рассчитывать среднюю выручку?

Разберемся обо всем по порядку. А для наглядности – рассчитаем данные метрики на реальных данных интернет-магазина.

Перейти к статье | DATApedia

1.19K views07:18

DATApedia | Data science

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

😁11

1.25K views07:02

DATApedia | Data science

Forwarded from SQLpedia | Базы данных

Oracle/ClickHouse. DWH. Партицирование как средство быстрого обновления данных

В этой статье хотелось бы рассмотреть такой вопрос - как частичное обновление больших объемов данных в таблицах, которые активно используются пользователями на чтение. Задача является типовой, и с ней сталкивается каждый инженер данных. При этом не важно на какой ступеньке своей карьерной лестницы вы находитесь, Junior или Senior, такие задачи будут.

Перейти к статье | SQLpedia

1.11K views07:00

DATApedia | Data science

Переходим на Greenplum быстро

Статья рассказывает о проекте по разработке и открытии исходного кода Greenplum быстро - инструмента для загрузки данных и выполнения расчетов с использованием Python-процедур.

Перейти к статье | DATApedia

🔥2

1.06K views09:00

DATApedia | Data science

VK Data Meetup — митап об инструментах и людях, которые умеют работать с данными

⏰ Когда: 12 октября, 14:00 по Москве
📍 Регистрация

VK Data Meetup — это серия событий о практиках работы с данными на разных уровнях.

Митап 12 октября посвящен работе с большими данными и ML. Обсудим:
• Тренды работы с данными;
• Процессы взаимодействия со смежными подразделениями и внутри дата-команд;
• Новые инструменты, такие как Spark on Kubernetes и No Code AutoML-платформы;
• Кейсы решения практических бизнес-задач от ведущих российских компаний.

Митап будет интересен дата- и ML-инженерам, тимлидам и разработчикам платформ данных, архитекторам и специалистам по Data Science.

Присоединяйтесь к сообществу VK Data Meetup, чтобы узнать про работающие практики и поделиться своим опытом.

Зарегистрироваться

1.1K views12:41

DATApedia | Data science

Ансамбли в машинном обучении

Данная статья описывает общую систематизацию ансамблей (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете.

Перейти к статье | DATApedia

👍2

1.15K views13:25

DATApedia | Data science

Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами

"Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен"

Перейти к статье | DATApedia

🔥3

1.3K views07:00

DATApedia | Data science

Яндекса открыл приём заявок на Yandex ML Prize — премию для учёных и преподавателей в области Machine Learning

Принять участие могут исследователи, их научные руководители и преподаватели в области распознавания и синтеза речи, компьютерного зрения, информационного поиска и анализа данных, обработки естественного языка генеративных моделей.

Лауреаты Yandex ML Prize получат по денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях и другие призы от Яндекса.

Подать заявку

Реклама. ООО «Яндекс»

👍4🔥2❤1👏1

1.32K views08:03

DATApedia | Data science

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

😁7

1.15K views07:55

DATApedia | Data science

Как мы создавали self-service функционал проверки качества данных для ML-моделей

Данная статья описывает создание self-service функционала проверки качества данных для ML-моделей в банке. В статье рассказывается о том, как была выстроена схема работы с большими данными, используемыми для ML-моделей банка, и как были использованы различные Open Source-инструменты для проверки качества данных.

Перейти к статье | DATApedia

🔥3

1.09K views16:53

DATApedia | Data science

Алоха, коллеги!
Сегодня дадим вам задачу на логику из нашей рубрики #fromInterviewWithLove

В кафе поставили 3 разных автомата, которые наливают напитки. В первом — кофе, во втором — чай, а в третий выдаёт случайным образом то кофе, то чай. Для каждого из автоматов нужна 1 монета, чтобы получить напиток.

На заводе перепутали маркировку автоматов, поэтому на каждом из них оказалась неправильная наклейка. Сколько монет понадобится, чтобы понять, где какой автомат?

Вы удивитесь, как элегантно решается эта задача.

Кидаем монету в автомат с наклейкой «Чай-кофе». Мы знаем, что на нем неправильная наклейка, как и на всех, поэтому правильная будет либо «Чай», либо «Кофе». Теперь смотрим, что нам выдаст этот автомат. Например, он выдал чай. Значит, правильная наклейка для этого автомата — «Чай». Теперь нам нужно найти кофейный автомат среди двух оставшихся. Мы помним, что все наклейки перепутаны, поэтому там, где будет написано «Кофе», на самом деле не кофейный автомат. Чай тоже уже занят. Поэтому под надписью «Кофе» скрывается автомат, который выдаёт и кофе, и чай. Значит, с наклейкой «Чай» будет автомат, который выдаёт кофе.

Чтобы разобраться с наклейками, достаточно всего одной монеты!

DATApedia

👍8🔥3

1.27K views07:37

DATApedia | Data science

Становясь Пангеей: будущее современного стека для анализа данных

Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.

Перейти к статье | DATApedia

1.12K views11:15

DATApedia | Data science

Forwarded from QApedia | Тестирование

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

😁6👍3

1.05K views09:33

DATApedia | Data science

Дообучение ruGPT-3.5 13B с LoRA

Статья содержит подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.

Перейти к статье | DATApedia | #DS_AI

🔥3

1.2K views07:00

DATApedia | Data science

О точности вычислений: как не потерять данные в цифровом шуме

В данной статье описываются причины ошибок, возникающих при использовании чисел типа float, а также проблемы, связанные с накоплением ошибок при обработке больших данных.

Перейти к статье | DATApedia

🔥2

1.09K views07:00

DATApedia | Data science

Применение нейросетевых подходов для формирования признаков в моделях

В данной рассказано о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.

Перейти к статье | DATApedia | #DS_AI

1.08K views06:30

DATApedia | Data science

Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге

В данной статье автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.

Перейти к статье | DATApedia

👍1🔥1

1.45K views06:52

DATApedia | Data science

😁10❤1

1.41K views09:10

DATApedia | Data science

Введение в библиотеку Diffusers и диффузионные модели

Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио. В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.

Перейти к статье | DATApedia

1.16K views08:00

About

Blog

Apps

Platform