Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​😬Как развернуть Apache Superset в облаке: Docker, ВМ, Kubernetes

В этой статье автор расскажет, какие есть способы развёртывания Apache Superset на разных платформах, и почему вариант с развёртыванием Apache Superset в Docker больше подходит для быстрых тестов, а также вы узнаете какие есть вариант с развёртыванием Apache Superset на виртуальных машинах.

Читать...
​​🤔PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

В этой статье автор расскажет, как правильно использовать функцию toPandas вместе с библиотекой pyArrow, и когда использовать toPandas не стоит.

Читать...
​​😵Локализация и рывок вперед: как мы разработали новый подход к облачному хранению данных для Hoff

В этой статье автор расскажет, как сделали облачное хранилище понятным и структурированным источником информации для Hoff, и почему надежность хранилища определяется качеством системы оповещений, то есть алертингом.

Читать...
​​🧑🏼‍💻Реализация мультиоблачной стратегии для Cloud Storage в Битрикс24

В этой статье автор расскажет, зачем понадобилось S3-хранилище, и как его внедряли и интегрировали в архитектуру облачного сервиса Битрикс24.

Читать...
​​👾Особенности автоматического дифференцирования в PyTorch. Часть 1

В этой статье автор расскажет, почему PyTorch активно развивается более пяти лет и представляет собой целую экосистему для создания моделей машинного обучения на основе глубоких нейронных сетей, и как они помогают научному и бизнес-сообществу проводить исследования, вести разведку данных и проверять гипотезы.

Читать...
​​🤔Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО

В этой статье автор расскажет, как команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов, и почему компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании.

Читать...
​​👤BI система на прокачку: как мы используем плагины Fine BI

В этой статье автор расскажет, как устанавливаются плагины без смс, регистрации и одноразовых SIM карт, и почему изначально плагины использовались, чтобы фиксить баги в версиях или расширять возможности пользователей и администраторов.

Читать...
​​Лаборатория Apache Spark Advanced – хардкор-программа для middle и senior дата-инженеров от Newprolab

➞ летний поток c 3 по 31 июля онлайн
➞ 8 занятий по 3 часа с преподавателем в зуме
➞ 4 лабы, объединенные в один проект
➞ облачный кластер для выполнения лаб
➞ автоматическая проверка лаб чекерами
➞ малая группа и помощь эксперта
➞ преподаватель: Сергей Гришаев, Architect, Сбермаркет

Вы разработаете коннектор к гибридному хранилищу и разберетесь раз и навсегда, что скрыто в Spark "под капотом" и как ускорить обработку данных в своих проектах 

До конца июня действует специальный промокод friends10, который дает еще 10% скидки от цены, указанной на сайте

Узнать подробности и стать участником
​​😮Её величество Иерархия. Классификация и способы хранение в MS Excel

В этой статье автор расскажет, почему в некоторых случаях можно ввести ограничения на иерархию, и почему Excel основан на плоских принципах, а также вы узнаете как это практически можно применять.

Читать...
​​📊Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

В этой статье автор расскажет, почему категориальные данные имеет огромное значение в DataScience, и какие есть способы визуализации таблиц сопряженности.

Читать...
​​🔥Сравнение технологии JuniStat и лазерных систем для беговых тестов

В этой статье автор расскажет, почему лазеры фиксируют только время прохождения бегуна через точки на дистанции, а JuniStat дополнительно собирает информацию о времени реакции, времени бега, скорости и других параметрах, и как при одновременном использовании лазерных датчиков и JuniStat можно получить результаты, которые могут быть использованы для дальнейшего анализа и сравнения результатов.

Читать...
​​🧑🏼‍💻Как мы разрабатывали алгоритм для анализа уникальных посетителей

В этой статье автор расскажет о решении для анализа уникальных посетителей, опишет недостатки существующих на рынке решений и расскажет, почему надо остановиться именно на видеоаналитике.

Читать...
​​🚀Бустим топ: внедрение ML в ранжирование каталога

В этой статье автор расскажет, почему задача ранжирования каталога важна для бизнеса, как можно построить систему ранжирования каталога на основе ML.

Читать...
​​⚡️Применение методов CRISP-DM для анализа Big Sales Data

В этой статье автор расскажет, как можно провести операцию Reverse Engineering для оптимизации процесса продаж, и какой результат от этого можем получить.

Читать...
​​🤔Построение BI-системы: вы могли об этом забыть…

В этой статье автор расскажет, почему тестирование должно происходить на всех этих этапах, и почему у нас должны быть формализованы детальные требования, на основе которых можно оперативно составить и провести такие тесты, а также вы узнаете почему проблема с уровнем производительности всегда актуальна.

Читать...
​​👤Форматы данных и файлов: руководство для архитекторов

В этой статье автор расскажет, почему раньше для каждого Data Event создавалось по 20 полей, но их количество уже давно перевалило за сотню, и почему данные легко хранить в озере, но в строковых форматах для выполнения запроса нужно просканировать значительный объем данных.

Читать...
​​👾Как построить систему геоаналитики с применением ML

В этой статье мы рассмотрим примеры работы сервисов геоаналитики, и выясним какие модели машинного обучения используются при построении таких систем и из каких этапов состоит разработка продукта с возможностями геоаналитики.

Читать...
​​🤖Доменная модель песочницы данных: на чём зиждется Data Fusion

В этой статье автор расскажет, почему в корпоративной архитектуре есть множество инструментов, которые помогают правильно сконфигурировать проект, и как доменная модель может помочь вам разграничить сущности и засетапить внутренние среды для экспериментов.

Читать...
​​⚡️Data-driven рост с помощью науки о данных и машинного обучения

В этой статье автор расскажет, как машинное обучение меняет способы использования данных компаниями для обеспечения прибыльного роста, предоставляя возможность опередить своих конкурентов, и как технологические компании могут ускорить свой рост, приняв пять ведущих практик.

Читать...
​​🧑🏼‍💻Как мы организовали Data Warehouse в MANGO OFFICE

В этой статье мы рассказываем, как реорганизовали в MANGO OFFICE корпоративное хранилище данных: какие проблемы решали, какие точки роста находили и какой получился результат.

Читать...
​​😶‍🌫️Мигрируем с Qlik: как создать надежное хранилище для ваших данных

В этой статье автор расскажет об опыте миграции с такого известного BI‑инструмента, как Qlik.

Читать...