😵Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
В этой статье я расскажу о разработке настоящего production ready инструмента, с интерактивным шеллом с подсветкой синтаксиса и автодополнением, который сможет работать в клиент-серверном режиме, и не только на кластере, но и локально.
Читать...
В этой статье я расскажу о разработке настоящего production ready инструмента, с интерактивным шеллом с подсветкой синтаксиса и автодополнением, который сможет работать в клиент-серверном режиме, и не только на кластере, но и локально.
Читать...
🌳Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса
В этой статье я расскажу о простом для понимания, но в то же время достаточно эффективном алгоритме — дереве решений, а также его расширенной модификацией — случайных лесах решений, и их реализации с помощью PySpark MLib.
Читать...
В этой статье я расскажу о простом для понимания, но в то же время достаточно эффективном алгоритме — дереве решений, а также его расширенной модификацией — случайных лесах решений, и их реализации с помощью PySpark MLib.
Читать...
👤Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]
В данной статье я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
Читать...
В данной статье я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
Читать...