DE++ от Валентина – Telegram
DE++ от Валентина
162 subscribers
33 photos
68 links
Буду сюда скидывать статьи и интересные штуки по data engineering и SWE в целом.
Пишу только про то, что сам прочитал

Написать можно в комменты или @valentinoneone
Download Telegram
Вот настолько я зарядился этим разговором

Решил дать второй шанс VR'у
И второй шанс себе, потому что я уже покупал Quest 2 в 2021, чтобы работать в VR и что-то делать для него🤡.

В итоге все идеи так и остались идеями, из сделанного только N песен на эксперте в Beat Saber, а я тоже попал в группу тех, у кого шлем в основном собирает пыль. Потом отдал его брату и там его вроде используют. Хоть так.

Пока планы такие:
1) Попробовать демки Gracia
2) Настроить среду и ПоПрОгРаМмИрОвАтЬ в очках
3) Снова расчехлить курс по Unity для VR и сделать хоть что-то
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4👍2
У меня на работе сейчас и последние месяцы мало интересных DE задач, поэтому начал смотреть по сторонам и делать что-то смежное для роста в T-shape, если говорить по-модному.

Так что вот доклад в тему про то, как утроено рабочее окружение у команды Hexlet’a.
Если коротко, то:
1) Вы со своей машины только подключаетесь по ssh на сервер и вообще всё делаете там
2) Для изоляции все проекты в docker-compose или Vagrant
3) Для настройки машин Ansible
4) Makefile для унификации команд для проекта
5) asdf для разных версий языков
И другое. Но это самое полезное на мой взгляд.

Первая моя реакция была: "жесть как круто, хочу так же!". Но понятно, что это не полностью применимо под DE разработку.

Я вот уже научился локально поднимать Airflow в контейнерах и тестировать часть логики дагов локально. Это гораздо быстрее, чем ждать пока ci-cd всё соберёт. (Да, иногда приходилось прогонять пайплайн, чтобы потом увидеть ошибку синтаксиса, я тоже от этого не в восторге)
Ещё Makefile точно возьму, но он в последнюю очередь должен идти
И asdf для питона разных версий попробую

Там всего 30 минут без вопросов. Интересно даже просто узнать, как другие люди работают.

DE++ от Валентина
🔥4
Полуреклама, но хорошая, правда

Один из моих первых подписчиков, тоже решил вести канал в телеге про DE.
У него контент для DE уровня Junior-Middle с упором на реальные задачи. Но мне тоже полезно, например, про моделирование данных, я сейчас на работе этим вообще не занимаюсь.
Или один из последних постов он написал в “моём стиле” обзор на доклад про вставку в ClickHouse.

И посты выходят регулярно. В отличии от некоторых, кхе-кхе
С начала января там уже нормальное количество контента накопилось.

Вообще я очень люблю нишевые каналы в телеге, так что если вы ведете или читаете что-то такое (необязательно про DE и IT), то напишите в комментариях! (Что-то типа на 2-500 подписчиков)

Но только после того, как посмотрите канал Алексея, хорошо?

rzv_de от Алексея
3🔥1
Был в месячном мега отпуске в Австралии (и чуть-чуть в Сингапуре) И сходил на 2 митапа в Мельбурне

Так что в этом посте будут очень субъективные наблюдения и мысли, основанные на поверхностных наблюдениях.

Первый про MLOps, второй про dbt. Ещё хотел сходить в офис Microsoft на мастер класс с ChatGPT, но не получилось. Обе темы меня мало касаются, но я не шёл ради докладов.
Я точно хотел:
1) Потренировать английский
2) Побыть на митапе не в РФ
3) Побольше узнать про работу и задачи в стране

Выводы, основанные на такой внушительной выборке:
1) Я могу потянуть разговор на англе
2) Тут митапы это именно про встретиться и поболтать. Доклады – это второстепенное, что-то не сложное на 20-30 минут.
Раньше я выбирал идти или нет только по темам.

Побочный продукт – ушёл мой личный страх про то, что у меня нет опыта в облаках и каких-то инструментов, которые популярны там. Может это потом вылезет, но я послушал какие задачи они решают и сейчас перестал парится на этот счёт.

В целом:
За головокружительной карьерой сюда точно ехать не стоит. А вот если хочется уехать подальше от всего мира, в 5 часов закрывать ноут и идти заниматься вашим любимым водным спортом или хайкать, то Австралия – это ваш бро!

Стиль жизни напоминает Американский (я там не был, но смотрел миллион видосов и сами американцы так сказали), но(!) без американских зарплат. А зачем тогда?

DE++ от Валентина
👍8🔥3
Возвращаемся к формату докладов

Вообще я хотел что-то глянуть, чтобы понять, что такое Feature Store и зачем оно нужно, когда надо, когда нет и т.д.

В целом, я, конечно, понял, что это такое. Но фоном, потому что доклад не про это.
Он больше про проектирование архитектуры серверной highload штуковины (в нашем случае это FC).
Ответы на вопросы: что мониторить, какие лимиты ставить, точки отказа.

Их история построения своего FC началась в 2015, когда ещё никаких нормальных готовых решений не было. Надо ли сейчас такое самому делать ответа не было.

Я пока не готовился, но выглядит как хороший доклад на подготовку к System Design интервью.

Узнал, что существует Samza (типа Flink от LinkedIn’a)

Более обзорный доклад про FC, чтобы получить на вопросы в начале, надеюсь ещё найду и посмотрю🤔

DE++ от Валентина
Please open Telegram to view this post
VIEW IN TELEGRAM
Spark Native UDF

На прошлых выходных и чуть этих первый раз написал нативные UDF для спарка.
С одной стороны, это легче чем я думал. С другой, это просто огромное поле для экспериментов. Но обо всём по порядку.

Все кто используют спарк сразу узнают про UDF, а потом, что их желательно не использовать, потому что:
1) Catalyst не знает, что в этой UDF происходит и не может это оптимизировать. Больше всего нас интересует Predicate pushdown, но вероятно, есть и ещё какие-то
2) Кодогенерация не работает и добавляет лишние проверки на null и try-catch конструкции
3) Если udf работает со строками, то происходит конвертация из String UTF-8 в UTF-16 и обратно. (Спарк работает c utf-8, а Java с utf16)

А что можно с этим делать?
На самом деле не очень много:
1) Переписать на встроенные функции или на
2) Забить
3) (Вроде как у pySpark тоже есть способы ускорить, но я пока в это не погружался + сомневаюсь, что это будет быстрее последнего варианта)
4) Написать свою "нативную" функцию и встроить внутрь Spark.
Т.е. по сути расширить язык Spark SQL своим новым выражением(Expression), чтобы Catalyst начал понимать что это такое. И подставлять Java код, куда сможет (если вы написали)

Как раз последним я и занимался. Сразу скажу, что пока я миллионы денег на кластерных ресурсах не сэкономил.
Но дико кайфанул пока это делал и экспериментировал

Я написал пару тестовых функций и 1 однострочник из реального кода на проде и просто несколько вечеров сидел, смотрел
1) как java код генерится при nullSafeCodeGen и defineCodeGen,
2) насколько быстрее это работает
3) что меняется в разных версиях спарка
4) работает ли Predicate Pushdown если не писать defineCodeGen, а только eval (да, если нужен только PP то можно не страдать с джавой)
и т.д

Планы:
1) Ускорить один расчёт, который кушоет от 600-800 cores и работает 4-5 часов. (в нём есть 15 udf, но на нативные надо переписать только 2-3)
2) Научится +- честно мерить скорость расчётов в спарке
3) Взять какую-то сложную udf на строк 10-20 на питоне и ускорять всеми способами, постепенно дойти до нативной и померить каждый шаг (очень долгая история, но составит полную картину)

P.S. Не забывайте ставить точки с запятой! В Java они всё ещё нужны!!!💩

Источники:
Единственное видео про это от DB неплохое
Единственная статья на русском по мотивам видео хорошая)
Статья от DataBricks зачем они делают CodeGen в Spark

Простенькая статья с примером UUID и реализацией без кодогена, а через eval
Тоже статья с кодом посложнее и примером BinaryExpression

Статья где показано как правильно регистрировать функцию, чтобы можно было использовать в sql
Примеры функций (порт функций из Postgres и Teradata)
Сорцы спарка - как обычно лучший источник примеров

DE++ от Валентина
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62
DE++ от Валентина
Возвращаемся к формату докладов Вообще я хотел что-то глянуть, чтобы понять, что такое Feature Store и зачем оно нужно, когда надо, когда нет и т.д. В целом, я, конечно, понял, что это такое. Но фоном, потому что доклад не про это. Он больше про проектирование…
Тот обзорный доклад, который хотел посмотреть изначально, но наткнулся уже после первого.

В первые 23 минуты отвечает на все основные вопросы про Feature Store. Потом немного примеров и рекламы продукта. В конце вопросы тоже по делу.

Допускаю, что есть доклад получше, но я уже удовлетворил своё любопытство насчёт FS и на работе у меня работы с ним не предвидится.

Точно не обязателен к просмотру, но хотелось поставить точку в теме.

DE++ от Валентина
DE++ от Валентина
Вот настолько я зарядился этим разговором Решил дать второй шанс VR'у И второй шанс себе, потому что я уже покупал Quest 2 в 2021, чтобы работать в VR и что-то делать для него🤡. В итоге все идеи так и остались идеями, из сделанного только N песен на эксперте…
На этих выходных первый раз попробовал 3d моделирование

Решил следовать традициям и сделал «Hello world» с которого многие начинают - курс про пончик от blenderguru. Только на него ушло 1.5 дня💀

Две причины, почему решил чуток переключиться, выбирайте любую:
1) Не поехать кукухой от проги 7 дней в неделю
2) Делаю это в рамках интереса к VR (но заход очень издалека)

Переключится я-то, конечно, переключился, но интересней всего было работать с инструментом «Geometry Nodes». Который, по сути, из себя представляет no-code функции, которые работают с фигурами в 3d. (Тут это посыпка на пончики, которая генерируется рандомно. Но с их помощью люди суперкрутые вещи делают)

Blender после IntelliJ IDEA - просто космолёт по сложности управления. Но понятно, что Idea я уже кучу лет пользуюсь, а блендером нет.

DE++ от Валентина
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤‍🔥1👏1🦄1
Z-ordering

У меня недавно спросили🌚, знаю ли я Z-ordering и я ответил что нет

А это в итоге оказалось, что 50% я знаю и делал, потому что, это сортировка внутри файла (это база для parquet и orc файлов)
+
вычисление доп. колонок для хитрого размещение файлов, чтобы читать ещё меньше файлов, чем при последовательном чтении метаданных.

Небольшая статья как использовать на Delta Lake

Тоже самое, но для azure Databricks

Статейка с объяснением про саму Space filling curve и Z-Order

Уже чтиво посерьёзней от человека из Databricks с полезными картинками, простой реализацией для понимания как это работает (это всегда круто) и заглядываем во внутренности Delta Lake Spark connector. Советую

Так что расклад такой:
Посмотреть на картинки и кивнуть головой - для ленивых
(1 или 2) и 3 статьи - для практиков
3 и 4 - для любителей кишочков🦾

DE++ от Валентина
🔥4🦄1
DE++ от Валентина
Хороший доклад от Владимира. Примерно на половину повторяет прошлый доклад, но уже про другие SQL-движки. По сути, тоже обзорный, но с большей степенью погружения во внутренности, что конечно же круто и выгодно отличает от других обзорных докладов. Плюс…
Сегодня смотрим вот это😎

Вот узнал, что Владимир Озеров и его коллеги(?) начали делать митапы по Database Internals.

Потом отредачу пост и напишу как оно

Думаю, будет не понятно, но очень интересно

UPD:
Первый доклад - тяжело шёл. Такая серьёзная экранизация CS статьи про подсчёт статистики в DB.
Немного узнал, что происходит при выполнении "ANALYZE".

Второй доклад - немного не то, что я ожидал на митапе по Database Internals.
Но интересно было глянуть на новый подход в разработке, где все действия в коде - это сущности в БД. И от этого супер легко делать логику транзакций в распределённом приложени + ещё пару фичей, включая Time Travel Debugger🙀
СТО и сооснователь этого стартапа Mike Stonebraker если что

https://databaseinternals.timepad.ru/event/2835259/
1
В феврале Кирилл Мокевнин написал пост, что хочет провести экскурсии для студентов колледжа Хекслет. Ну и что-то меня сподвигло написать, что я могу.

И вот сегодня это свершилось!
Хорошо, что в компании этот процесс налажен и от меня нужно было только соединить нужных людей и выступить.

Я рассказывал про фундаментальные знания в ИТ и переход из одной специальности в другую. На примере себя как я перекатился из бекенда в DE.

По сути, это моё первое добровольное выступление перед аудиторией. В целом прошло очень гладко всё. Я собой доволен.

Хардкор посты давайте уже после майских😌

DE++ от Валентина
🔥4👍1
Внеплановый пост

У Энди с коллегами вышла статья с эмпирическим исследованием колоночных форматов данных Parquet и ORC.

Из быстрого и интересного:
1) У ORC’a более агрессивное сжатие, из-за этого он работает хуже на быстрых дисках
2) Есть расхождения в реализациях форматов на разных языках. Java поддерживает новейшие функции оптимизации, но из-за JVM они бесполезны.

Все ключевые выводы на последней картинке.

Ставьте 🔥, если хотите, чтобы я всё бросил и прочитал статью полностью (ничего обещать не могу🌚)

Пост Энди в твиттуре
Сама статья
Ссылка на код

DE++ от Валентина
🔥10
DE++ от Валентина
Spark Native UDF На прошлых выходных и чуть этих первый раз написал нативные UDF для спарка. С одной стороны, это легче чем я думал. С другой, это просто огромное поле для экспериментов. Но обо всём по порядку. Все кто используют спарк сразу узнают про UDF…
Ещё один хардкорный доклад про UDF в Spark. Но тут Андрей Титов идёт со стороны pySpark и дополняет недостающие варианты UDF.

Т.е. можно отсортировать все варианты реализации UDF от самого медленного до самого быстрого и будет так:
Python UDF (Обычная)

Pandas UDF

Scala UDF

Spark Expression (Native UDF)

И в докладе затрагиваются первые 3.

Сначала объясняется почему в целом тормозит PySpark и более подробно про udf на питоне.

(Тут было супер интересно, потому что сейчас в команде всё на Scala и я даже не задумывался о том, как Python код запускается на JVM машине и почему это тааак медленно)

Немного затронул Apache Arrow и Pandas UDF

После рассказывает как писать Scala UDF, чтобы их можно было удобно использовать из PySpark. И как делать сложную логику в udf, например сходить в бд.

DE++ от Валентина
🔥4