Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций
В данной статье автор расскажет, что такое GPT-модели, как упростить их создание под свои задачи, и покажет на практических примерах, как команда VK Cloud смогла создать GPT-модель при минимуме затрат.
Перейти к статье | DATApedia | #DS_AI
В данной статье автор расскажет, что такое GPT-модели, как упростить их создание под свои задачи, и покажет на практических примерах, как команда VK Cloud смогла создать GPT-модель при минимуме затрат.
Перейти к статье | DATApedia | #DS_AI
👍3
ML в полях. Как упростить жизнь агрономов?
Сегодня мы поделимся опытом создания решения автоматизации процесса уборки полей и разберемся с особенностями обучения ML-моделей для агропромышленной отрасли.
Перейти к статье | DATApedia
Сегодня мы поделимся опытом создания решения автоматизации процесса уборки полей и разберемся с особенностями обучения ML-моделей для агропромышленной отрасли.
Перейти к статье | DATApedia
🔥2
Разбираемся в отличии среднего чека от ARPU на примере одного интернет-магазина
В этой статье автор разобрался в бизнес-метриках и ответил на вопросы:
- Что такое ARPU и средний чек? Как их рассчитывать? На какие вопросы они отвечают и для чего нужны?
- Могут ли они ARPU и средний чек быть равны между собой? Будут ли отличаться в динамике месяц от месяца?
- Что если в бизнесе кол-во продуктов фиксировано и все они с одинаковой ценой? Будет ли показатель от месяца к месяцу одинаков? А если рассчитывать среднюю выручку?
Разберемся обо всем по порядку. А для наглядности – рассчитаем данные метрики на реальных данных интернет-магазина.
Перейти к статье | DATApedia
В этой статье автор разобрался в бизнес-метриках и ответил на вопросы:
- Что такое ARPU и средний чек? Как их рассчитывать? На какие вопросы они отвечают и для чего нужны?
- Могут ли они ARPU и средний чек быть равны между собой? Будут ли отличаться в динамике месяц от месяца?
- Что если в бизнесе кол-во продуктов фиксировано и все они с одинаковой ценой? Будет ли показатель от месяца к месяцу одинаков? А если рассчитывать среднюю выручку?
Разберемся обо всем по порядку. А для наглядности – рассчитаем данные метрики на реальных данных интернет-магазина.
Перейти к статье | DATApedia
Forwarded from SQLpedia | Базы данных
Oracle/ClickHouse. DWH. Партицирование как средство быстрого обновления данных
В этой статье хотелось бы рассмотреть такой вопрос - как частичное обновление больших объемов данных в таблицах, которые активно используются пользователями на чтение. Задача является типовой, и с ней сталкивается каждый инженер данных. При этом не важно на какой ступеньке своей карьерной лестницы вы находитесь, Junior или Senior, такие задачи будут.
Перейти к статье | SQLpedia
В этой статье хотелось бы рассмотреть такой вопрос - как частичное обновление больших объемов данных в таблицах, которые активно используются пользователями на чтение. Задача является типовой, и с ней сталкивается каждый инженер данных. При этом не важно на какой ступеньке своей карьерной лестницы вы находитесь, Junior или Senior, такие задачи будут.
Перейти к статье | SQLpedia
Переходим на Greenplum быстро
Статья рассказывает о проекте по разработке и открытии исходного кода Greenplum быстро - инструмента для загрузки данных и выполнения расчетов с использованием Python-процедур.
Перейти к статье | DATApedia
Статья рассказывает о проекте по разработке и открытии исходного кода Greenplum быстро - инструмента для загрузки данных и выполнения расчетов с использованием Python-процедур.
Перейти к статье | DATApedia
🔥2
VK Data Meetup — митап об инструментах и людях, которые умеют работать с данными
⏰ Когда: 12 октября, 14:00 по Москве
📍 Регистрация
VK Data Meetup — это серия событий о практиках работы с данными на разных уровнях.
Митап 12 октября посвящен работе с большими данными и ML. Обсудим:
• Тренды работы с данными;
• Процессы взаимодействия со смежными подразделениями и внутри дата-команд;
• Новые инструменты, такие как Spark on Kubernetes и No Code AutoML-платформы;
• Кейсы решения практических бизнес-задач от ведущих российских компаний.
Митап будет интересен дата- и ML-инженерам, тимлидам и разработчикам платформ данных, архитекторам и специалистам по Data Science.
Присоединяйтесь к сообществу VK Data Meetup, чтобы узнать про работающие практики и поделиться своим опытом.
Зарегистрироваться
⏰ Когда: 12 октября, 14:00 по Москве
📍 Регистрация
VK Data Meetup — это серия событий о практиках работы с данными на разных уровнях.
Митап 12 октября посвящен работе с большими данными и ML. Обсудим:
• Тренды работы с данными;
• Процессы взаимодействия со смежными подразделениями и внутри дата-команд;
• Новые инструменты, такие как Spark on Kubernetes и No Code AutoML-платформы;
• Кейсы решения практических бизнес-задач от ведущих российских компаний.
Митап будет интересен дата- и ML-инженерам, тимлидам и разработчикам платформ данных, архитекторам и специалистам по Data Science.
Присоединяйтесь к сообществу VK Data Meetup, чтобы узнать про работающие практики и поделиться своим опытом.
Зарегистрироваться
Ансамбли в машинном обучении
Данная статья описывает общую систематизацию ансамблей (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете.
Перейти к статье | DATApedia
Данная статья описывает общую систематизацию ансамблей (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете.
Перейти к статье | DATApedia
👍2
Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами
"Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен"
Перейти к статье | DATApedia
"Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен"
Перейти к статье | DATApedia
🔥3
Яндекса открыл приём заявок на Yandex ML Prize — премию для учёных и преподавателей в области Machine Learning
Принять участие могут исследователи, их научные руководители и преподаватели в области распознавания и синтеза речи, компьютерного зрения, информационного поиска и анализа данных, обработки естественного языка генеративных моделей.
Лауреаты Yandex ML Prize получат по денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях и другие призы от Яндекса.
Подать заявку
Реклама. ООО «Яндекс»
Принять участие могут исследователи, их научные руководители и преподаватели в области распознавания и синтеза речи, компьютерного зрения, информационного поиска и анализа данных, обработки естественного языка генеративных моделей.
Лауреаты Yandex ML Prize получат по денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях и другие призы от Яндекса.
Подать заявку
Реклама. ООО «Яндекс»
👍4🔥2❤1👏1
Как мы создавали self-service функционал проверки качества данных для ML-моделей
Данная статья описывает создание self-service функционала проверки качества данных для ML-моделей в банке. В статье рассказывается о том, как была выстроена схема работы с большими данными, используемыми для ML-моделей банка, и как были использованы различные Open Source-инструменты для проверки качества данных.
Перейти к статье | DATApedia
Данная статья описывает создание self-service функционала проверки качества данных для ML-моделей в банке. В статье рассказывается о том, как была выстроена схема работы с большими данными, используемыми для ML-моделей банка, и как были использованы различные Open Source-инструменты для проверки качества данных.
Перейти к статье | DATApedia
🔥3
Алоха, коллеги!
Сегодня дадим вам задачу на логику из нашей рубрики #fromInterviewWithLove
В кафе поставили 3 разных автомата, которые наливают напитки. В первом — кофе, во втором — чай, а в третий выдаёт случайным образом то кофе, то чай. Для каждого из автоматов нужна 1 монета, чтобы получить напиток.
На заводе перепутали маркировку автоматов, поэтому на каждом из них оказалась неправильная наклейка. Сколько монет понадобится, чтобы понять, где какой автомат?
Вы удивитесь, как элегантно решается эта задача.
Кидаем монету в автомат с наклейкой «Чай-кофе». Мы знаем, что на нем неправильная наклейка, как и на всех, поэтому правильная будет либо «Чай», либо «Кофе». Теперь смотрим, что нам выдаст этот автомат. Например, он выдал чай. Значит, правильная наклейка для этого автомата — «Чай». Теперь нам нужно найти кофейный автомат среди двух оставшихся. Мы помним, что все наклейки перепутаны, поэтому там, где будет написано «Кофе», на самом деле не кофейный автомат. Чай тоже уже занят. Поэтому под надписью «Кофе» скрывается автомат, который выдаёт и кофе, и чай. Значит, с наклейкой «Чай» будет автомат, который выдаёт кофе.
Чтобы разобраться с наклейками, достаточно всего одной монеты!
DATApedia
Сегодня дадим вам задачу на логику из нашей рубрики #fromInterviewWithLove
В кафе поставили 3 разных автомата, которые наливают напитки. В первом — кофе, во втором — чай, а в третий выдаёт случайным образом то кофе, то чай. Для каждого из автоматов нужна 1 монета, чтобы получить напиток.
На заводе перепутали маркировку автоматов, поэтому на каждом из них оказалась неправильная наклейка. Сколько монет понадобится, чтобы понять, где какой автомат?
Вы удивитесь, как элегантно решается эта задача.
Чтобы разобраться с наклейками, достаточно всего одной монеты!
DATApedia
👍8🔥3
Становясь Пангеей: будущее современного стека для анализа данных
Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.
Перейти к статье | DATApedia
Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.
Перейти к статье | DATApedia
Forwarded from QApedia | Тестирование
This media is not supported in your browser
VIEW IN TELEGRAM
😁6👍3
Дообучение ruGPT-3.5 13B с LoRA
Статья содержит подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.
Перейти к статье | DATApedia | #DS_AI
Статья содержит подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.
Перейти к статье | DATApedia | #DS_AI
🔥3
О точности вычислений: как не потерять данные в цифровом шуме
В данной статье описываются причины ошибок, возникающих при использовании чисел типа float, а также проблемы, связанные с накоплением ошибок при обработке больших данных.
Перейти к статье | DATApedia
В данной статье описываются причины ошибок, возникающих при использовании чисел типа float, а также проблемы, связанные с накоплением ошибок при обработке больших данных.
Перейти к статье | DATApedia
🔥2
Применение нейросетевых подходов для формирования признаков в моделях
В данной рассказано о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.
Перейти к статье | DATApedia | #DS_AI
В данной рассказано о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.
Перейти к статье | DATApedia | #DS_AI
Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
В данной статье автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.
Перейти к статье | DATApedia
В данной статье автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.
Перейти к статье | DATApedia
👍1🔥1
Введение в библиотеку Diffusers и диффузионные модели
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио. В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.
Перейти к статье | DATApedia
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио. В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.
Перейти к статье | DATApedia