CMU Intro to Database Systems - Часть 1
Последние две недели смотрю, наверное, лучший университетский курс по БД.
Так тут будет тред про этот курс + задачи + ещё мои заметки по теме
Сначала пункты почему я считаю, что он лучший:
1) Лектор – Andy Pavlo, однозначно крутой спец, рассказывает интересно и понятно, преподают уже кучу лет, статьи научные пишет, свой стартап по БД OtterTune, на лекции первые слайды – новости в индустрии. В общем, на острие науки про БД мужик. Почувствуете его крутость с первой лекции.
2) Слайды на лекциях – моё почтение.
Даже если по описанию какого-то алгоритма ничего не понятно, то после слайдов с пошаговым объяснением понимание приходит.
3) Всё в открытом доступе – все свежие лекции в хорошем качестве и монтаже лежат на ютубе. Там же ссылки на конспекты и слайды. Лекции выкладывают почти сразу. Этот курс в 2023 закончился неделю назад.
А самое главное есть доступ к приёмочной системе практических задач! Я такого не видел, обычно даже самые крутые университеты так не делают.
За этого Andy, конечно, огромный респект
4) Хардкор – ну тут и так понятно. Заглядывают внутрь работы БД очень глубоко.
Требования к курсу – архитектура компьютера и С++, если выполнять практические задания. Но думаю, можно добирать знания по ходу курса, если будет не хватать.
После таких вводных вспоминаю свои 2 семестра по БД в итмо и плакать хочется.
Сайт курса
Ссылка на лекции на YouTube
DE++ от Валентина
Последние две недели смотрю, наверное, лучший университетский курс по БД.
Так тут будет тред про этот курс + задачи + ещё мои заметки по теме
Сначала пункты почему я считаю, что он лучший:
1) Лектор – Andy Pavlo, однозначно крутой спец, рассказывает интересно и понятно, преподают уже кучу лет, статьи научные пишет, свой стартап по БД OtterTune, на лекции первые слайды – новости в индустрии. В общем, на острие науки про БД мужик. Почувствуете его крутость с первой лекции.
2) Слайды на лекциях – моё почтение.
Даже если по описанию какого-то алгоритма ничего не понятно, то после слайдов с пошаговым объяснением понимание приходит.
3) Всё в открытом доступе – все свежие лекции в хорошем качестве и монтаже лежат на ютубе. Там же ссылки на конспекты и слайды. Лекции выкладывают почти сразу. Этот курс в 2023 закончился неделю назад.
А самое главное есть доступ к приёмочной системе практических задач! Я такого не видел, обычно даже самые крутые университеты так не делают.
За этого Andy, конечно, огромный респект
4) Хардкор – ну тут и так понятно. Заглядывают внутрь работы БД очень глубоко.
Требования к курсу – архитектура компьютера и С++, если выполнять практические задания. Но думаю, можно добирать знания по ходу курса, если будет не хватать.
После таких вводных вспоминаю свои 2 семестра по БД в итмо и плакать хочется.
Сайт курса
Ссылка на лекции на YouTube
DE++ от Валентина
👍3🔥2
Лекция 1:
В 2023 плохой звук, можно посмотреть из 2022, там тоже самое, но звук чуть лучше
История БД, проблемы создания БД, как жили до реляционной модели, реляционная модель и р. алгебра и по верхам noSQL
Лекция 2:
Введение в SQL. Все основные конструкции, включая окна. Это примерно все знают. Так что дальше
Лекция 3:
Уже пошла мякотка. Для DE тоже можно узнать новое.
Разные типы памяти, почему Операционные Системы - это "враг" БД. Почему нельзя использовать виртуальную память, когда пишешь БД. Как БД хранит страницы. Хранение по картежам. Слотированные страницы.
Лекция 4:
Разные способы организации записи и чтения данных: Heap Storage, Log-structured storage и index-organized storage.
Word-aligned tuples и способы решения. (Вот этого я не знал, очень понравилась демонстрационная часть с PostgreSQL)
Как хранятся разные типы данных, null значения.
Лекция 5:
Типы нагрузок БД: OLTP, OLAP, Hybrid. Storage Models: хранение по строкам или колонкам. Как это физически организовано. Разные методы кодировок: RLE, Bit packing, dictionary и т.д.
Слайды опять хочется похвалить. Смотреть одно удовольствие.
Вообще, лекции 3-5 сильно пересекаются с начальными главами Кабанчика и Database Internals.
Но мне после этих лекций (и видео контента в целом) было проще читать эти главы, так как уже есть общее представление.
DE++ от Валентина
В 2023 плохой звук, можно посмотреть из 2022, там тоже самое, но звук чуть лучше
История БД, проблемы создания БД, как жили до реляционной модели, реляционная модель и р. алгебра и по верхам noSQL
Лекция 2:
Введение в SQL. Все основные конструкции, включая окна. Это примерно все знают. Так что дальше
Лекция 3:
Уже пошла мякотка. Для DE тоже можно узнать новое.
Разные типы памяти, почему Операционные Системы - это "враг" БД. Почему нельзя использовать виртуальную память, когда пишешь БД. Как БД хранит страницы. Хранение по картежам. Слотированные страницы.
Лекция 4:
Разные способы организации записи и чтения данных: Heap Storage, Log-structured storage и index-organized storage.
Word-aligned tuples и способы решения. (Вот этого я не знал, очень понравилась демонстрационная часть с PostgreSQL)
Как хранятся разные типы данных, null значения.
Лекция 5:
Типы нагрузок БД: OLTP, OLAP, Hybrid. Storage Models: хранение по строкам или колонкам. Как это физически организовано. Разные методы кодировок: RLE, Bit packing, dictionary и т.д.
Слайды опять хочется похвалить. Смотреть одно удовольствие.
Вообще, лекции 3-5 сильно пересекаются с начальными главами Кабанчика и Database Internals.
Но мне после этих лекций (и видео контента в целом) было проще читать эти главы, так как уже есть общее представление.
DE++ от Валентина
👍4🔥3
Возвращаемся к жизни
Нулевой проект занял больше времени, чем я предполагал. А потом я уронил прод на работе и завертелось…
Так что пока что обзор на 2 лекции
Лекция 6:
Сущность «Buffer Pool», что он в целом делает в БД, способы оптимизации. Немного про алгоритмы выбора, что кешировать. Clock и LRU-кеши. Проблемы записи данных. Опять борьба БД с OS, fsync
Вся информация кроме алгоритмов кешей для меня была абсолютно новая. Очень круто.
Лекция 7:
С одной стороны, это обзорная лекция и весь контент уже есть в вики. С другой, я бы его так и не прочитал. Видео контент мне заходит легче.
В целом просто хорошая лекция про хеширование. Можно смотреть в отрыве от курса про бд! Многое узнал (потому что не особо интересовался)
Static и Extendible Hashing, Linear probe, Cuckoo (Я вообще не знал про это), Chained, Linear Hashing.
Быстро, но понятно про Bloom Filter.
После лекции стало понятно, что значит "probe miss" в Спарке у HashAggregate.
+ на фоне разворачивается побочная романтическая история❤️
hur.st/bloomfilter - Наглядная ссылка про Bloom Filter
DE++ от Валентина
Нулевой проект занял больше времени, чем я предполагал. А потом я уронил прод на работе и завертелось…
Так что пока что обзор на 2 лекции
Лекция 6:
Сущность «Buffer Pool», что он в целом делает в БД, способы оптимизации. Немного про алгоритмы выбора, что кешировать. Clock и LRU-кеши. Проблемы записи данных. Опять борьба БД с OS, fsync
Вся информация кроме алгоритмов кешей для меня была абсолютно новая. Очень круто.
Лекция 7:
С одной стороны, это обзорная лекция и весь контент уже есть в вики. С другой, я бы его так и не прочитал. Видео контент мне заходит легче.
В целом просто хорошая лекция про хеширование. Можно смотреть в отрыве от курса про бд! Многое узнал (потому что не особо интересовался)
Static и Extendible Hashing, Linear probe, Cuckoo (Я вообще не знал про это), Chained, Linear Hashing.
Быстро, но понятно про Bloom Filter.
После лекции стало понятно, что значит "probe miss" в Спарке у HashAggregate.
+ на фоне разворачивается побочная романтическая история
hur.st/bloomfilter - Наглядная ссылка про Bloom Filter
DE++ от Валентина
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
F2023 #06 - Database Memory & Disk I/O Management (CMU Intro to Database Systems)
Andy Pavlo (https://www.cs.cmu.edu/~pavlo/)
Slides: https://15445.courses.cs.cmu.edu/fall2023/slides/06-bufferpool.pdf
Notes: https://15445.courses.cs.cmu.edu/fall2023/notes/06-bufferpool.pdf
15-445/645 Intro to Database Systems (Fall 2023)
Carnegie Mellon…
Slides: https://15445.courses.cs.cmu.edu/fall2023/slides/06-bufferpool.pdf
Notes: https://15445.courses.cs.cmu.edu/fall2023/notes/06-bufferpool.pdf
15-445/645 Intro to Database Systems (Fall 2023)
Carnegie Mellon…
👍5❤1❤🔥1
Крутейший выпуск подлодки про NeRF’ы и VR
Сначала про гостя – Андрей Володин, ускорял нейронки в Prizma потом работал над “Нет Монет”. Рассказывает про работу и сложные штуки живо, интересно и очень увлечённо. Сложно не заразится хоть частью такого настроя.
Почти 3 часа — это многовато. Так что, если будут сомнения слушать или нет - советую попробовать первые 30 минут. Дальше не оторвётесь.(Весь кринж навален в первые 3 минуты, аккуратнее)
Основная тема – это VR. В целом про индустрию, технические сложности, графику и проблемы в индустрии. Подойдёт всем и тот, кто уже интересуется (как я) и тот, кто вообще ничего не знает про VR, но хочет узнать.
Вторая тема – чтобы было понятно, что Андрей делает сейчас пришлось рассказать про целый набор сложных, но интересных вещей: нейронки NeRF, гауссовские сплаты, проблемы нативной разработки для VR и оптимизации.
В целом от выпуска ощущение крышесносное. Как будто их стартап сейчас историю творит. Надеюсь у них получится.
Все ссылки тоже советую тыкнуть. Везде всё наглядно с картинками. Я такое люблю.
И в комменты скину видео с демо, про которое говорят в подкасте.
Картинки и описание что такое NeRF’ы
Сайт стартапа Андрея с примерами
Их конкуренты
DE++ от Валентина
Сначала про гостя – Андрей Володин, ускорял нейронки в Prizma потом работал над “Нет Монет”. Рассказывает про работу и сложные штуки живо, интересно и очень увлечённо. Сложно не заразится хоть частью такого настроя.
Почти 3 часа — это многовато. Так что, если будут сомнения слушать или нет - советую попробовать первые 30 минут. Дальше не оторвётесь.
Основная тема – это VR. В целом про индустрию, технические сложности, графику и проблемы в индустрии. Подойдёт всем и тот, кто уже интересуется (как я) и тот, кто вообще ничего не знает про VR, но хочет узнать.
Вторая тема – чтобы было понятно, что Андрей делает сейчас пришлось рассказать про целый набор сложных, но интересных вещей: нейронки NeRF, гауссовские сплаты, проблемы нативной разработки для VR и оптимизации.
В целом от выпуска ощущение крышесносное. Как будто их стартап сейчас историю творит. Надеюсь у них получится.
Все ссылки тоже советую тыкнуть. Везде всё наглядно с картинками. Я такое люблю.
И в комменты скину видео с демо, про которое говорят в подкасте.
Картинки и описание что такое NeRF’ы
Сайт стартапа Андрея с примерами
Их конкуренты
DE++ от Валентина
podlodka.io
Podlodka #354 – Разработка для VR и NeRF
У нас уже был выпуск про VR, потому мы обсудили, что произошло с индустрией за прошедшие годы. В центральной части выпуска подняли тему NeRF – технологии, которая позволяет делать фотореалистичные снимки сцен, после чего по ней можно двигаться в VR шлеме…
❤🔥5
Вот настолько я зарядился этим разговором
Решил дать второй шанс VR'у
И второй шанс себе, потому что я уже покупал Quest 2 в 2021, чтобы работать в VR и что-то делать для него🤡 .
В итоге все идеи так и остались идеями, из сделанного только N песен на эксперте в Beat Saber, а я тоже попал в группу тех, у кого шлем в основном собирает пыль. Потом отдал его брату и там его вроде используют. Хоть так.
Пока планы такие:
1) Попробовать демки Gracia
2) Настроить среду и ПоПрОгРаМмИрОвАтЬ в очках
3) Снова расчехлить курс по Unity для VR и сделать хоть что-то
Решил дать второй шанс VR'у
И второй шанс себе, потому что я уже покупал Quest 2 в 2021, чтобы работать в VR и что-то делать для него
В итоге все идеи так и остались идеями, из сделанного только N песен на эксперте в Beat Saber, а я тоже попал в группу тех, у кого шлем в основном собирает пыль. Потом отдал его брату и там его вроде используют. Хоть так.
Пока планы такие:
1) Попробовать демки Gracia
2) Настроить среду и ПоПрОгРаМмИрОвАтЬ в очках
3) Снова расчехлить курс по Unity для VR и сделать хоть что-то
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥4👍2
У меня на работе сейчас и последние месяцы мало интересных DE задач, поэтому начал смотреть по сторонам и делать что-то смежное для роста в T-shape, если говорить по-модному.
Так что вот доклад в тему про то, как утроено рабочее окружение у команды Hexlet’a.
Если коротко, то:
1) Вы со своей машины только подключаетесь по ssh на сервер и вообще всё делаете там
2) Для изоляции все проекты в docker-compose или Vagrant
3) Для настройки машин Ansible
4) Makefile для унификации команд для проекта
5) asdf для разных версий языков
И другое. Но это самое полезное на мой взгляд.
Первая моя реакция была: "жесть как круто, хочу так же!". Но понятно, что это не полностью применимо под DE разработку.
Я вот уже научился локально поднимать Airflow в контейнерах и тестировать часть логики дагов локально. Это гораздо быстрее, чем ждать пока ci-cd всё соберёт. (Да, иногда приходилось прогонять пайплайн, чтобы потом увидеть ошибку синтаксиса, я тоже от этого не в восторге)
Ещё Makefile точно возьму, но он в последнюю очередь должен идти
И asdf для питона разных версий попробую
Там всего 30 минут без вопросов. Интересно даже просто узнать, как другие люди работают.
DE++ от Валентина
Так что вот доклад в тему про то, как утроено рабочее окружение у команды Hexlet’a.
Если коротко, то:
1) Вы со своей машины только подключаетесь по ssh на сервер и вообще всё делаете там
2) Для изоляции все проекты в docker-compose или Vagrant
3) Для настройки машин Ansible
4) Makefile для унификации команд для проекта
5) asdf для разных версий языков
И другое. Но это самое полезное на мой взгляд.
Первая моя реакция была: "жесть как круто, хочу так же!". Но понятно, что это не полностью применимо под DE разработку.
Я вот уже научился локально поднимать Airflow в контейнерах и тестировать часть логики дагов локально. Это гораздо быстрее, чем ждать пока ci-cd всё соберёт. (Да, иногда приходилось прогонять пайплайн, чтобы потом увидеть ошибку синтаксиса, я тоже от этого не в восторге)
Ещё Makefile точно возьму, но он в последнюю очередь должен идти
И asdf для питона разных версий попробую
Там всего 30 минут без вопросов. Интересно даже просто узнать, как другие люди работают.
DE++ от Валентина
YouTube
Как мы ушли от локальной разработки в облака и что выиграли / Кирилл Мокевнин (Hexlet)
Приглашаем на TechLead Conf X 2025, которая пройдет 5 июня в Москве.
Программа, подробности и билеты по ссылке https://bit.ly/3PZN1hk
---------
TechLead Conf 2021
Конференция, полностью посвященная инженерным процессам и практикам
Тезисы и презентация:…
Программа, подробности и билеты по ссылке https://bit.ly/3PZN1hk
---------
TechLead Conf 2021
Конференция, полностью посвященная инженерным процессам и практикам
Тезисы и презентация:…
🔥4
Полуреклама, но хорошая, правда
Один из моих первых подписчиков, тоже решил вести канал в телеге про DE.
У него контент для DE уровня Junior-Middle с упором на реальные задачи. Но мне тоже полезно, например, про моделирование данных, я сейчас на работе этим вообще не занимаюсь.
Или один из последних постов он написал в “моём стиле” обзор на доклад про вставку в ClickHouse.
И посты выходят регулярно. В отличии от некоторых, кхе-кхе
С начала января там уже нормальное количество контента накопилось.
Вообще я очень люблю нишевые каналы в телеге, так что если вы ведете или читаете что-то такое (необязательно про DE и IT), то напишите в комментариях! (Что-то типа на 2-500 подписчиков)
Но только после того, как посмотрите канал Алексея, хорошо?
rzv_de от Алексея
Один из моих первых подписчиков, тоже решил вести канал в телеге про DE.
У него контент для DE уровня Junior-Middle с упором на реальные задачи. Но мне тоже полезно, например, про моделирование данных, я сейчас на работе этим вообще не занимаюсь.
Или один из последних постов он написал в “моём стиле” обзор на доклад про вставку в ClickHouse.
И посты выходят регулярно. В отличии от некоторых, кхе-кхе
С начала января там уже нормальное количество контента накопилось.
Вообще я очень люблю нишевые каналы в телеге, так что если вы ведете или читаете что-то такое (необязательно про DE и IT), то напишите в комментариях! (Что-то типа на 2-500 подписчиков)
Но только после того, как посмотрите канал Алексея, хорошо?
rzv_de от Алексея
Telegram
rzv Data Engineering
#вперемешку
Data vault 1 и 2 -- методологии моделирования данных для DWH 1/9
Заваривайте чай, серия постов будет длинной :)
Прежде всего -- определимся с ответами на два вопроса. Зачем нужно моделирование данных и почему Data vault стал популярным решением…
Data vault 1 и 2 -- методологии моделирования данных для DWH 1/9
Заваривайте чай, серия постов будет длинной :)
Прежде всего -- определимся с ответами на два вопроса. Зачем нужно моделирование данных и почему Data vault стал популярным решением…
❤3🔥1
Был в месячном мега отпуске в Австралии (и чуть-чуть в Сингапуре) И сходил на 2 митапа в Мельбурне
Так что в этом посте будут очень субъективные наблюдения и мысли, основанные на поверхностных наблюдениях.
Первый про MLOps, второй про dbt. Ещё хотел сходить в офис Microsoft на мастер класс с ChatGPT, но не получилось. Обе темы меня мало касаются, но я не шёл ради докладов.
Я точно хотел:
1) Потренировать английский
2) Побыть на митапе не в РФ
3) Побольше узнать про работу и задачи в стране
Выводы, основанные на такой внушительной выборке:
1) Я могу потянуть разговор на англе
2) Тут митапы это именно про встретиться и поболтать. Доклады – это второстепенное, что-то не сложное на 20-30 минут.
Раньше я выбирал идти или нет только по темам.
Побочный продукт – ушёл мой личный страх про то, что у меня нет опыта в облаках и каких-то инструментов, которые популярны там. Может это потом вылезет, но я послушал какие задачи они решают и сейчас перестал парится на этот счёт.
В целом:
За головокружительной карьерой сюда точно ехать не стоит. А вот если хочется уехать подальше от всего мира, в 5 часов закрывать ноут и идти заниматься вашим любимым водным спортом или хайкать, то Австралия – это ваш бро!
Стиль жизни напоминает Американский(я там не был, но смотрел миллион видосов и сами американцы так сказали) , но(!) без американских зарплат. А зачем тогда?
DE++ от Валентина
Так что в этом посте будут очень субъективные наблюдения и мысли, основанные на поверхностных наблюдениях.
Первый про MLOps, второй про dbt. Ещё хотел сходить в офис Microsoft на мастер класс с ChatGPT, но не получилось. Обе темы меня мало касаются, но я не шёл ради докладов.
Я точно хотел:
1) Потренировать английский
2) Побыть на митапе не в РФ
3) Побольше узнать про работу и задачи в стране
Выводы, основанные на такой внушительной выборке:
1) Я могу потянуть разговор на англе
2) Тут митапы это именно про встретиться и поболтать. Доклады – это второстепенное, что-то не сложное на 20-30 минут.
Раньше я выбирал идти или нет только по темам.
Побочный продукт – ушёл мой личный страх про то, что у меня нет опыта в облаках и каких-то инструментов, которые популярны там. Может это потом вылезет, но я послушал какие задачи они решают и сейчас перестал парится на этот счёт.
В целом:
За головокружительной карьерой сюда точно ехать не стоит. А вот если хочется уехать подальше от всего мира, в 5 часов закрывать ноут и идти заниматься вашим любимым водным спортом или хайкать, то Австралия – это ваш бро!
Стиль жизни напоминает Американский
DE++ от Валентина
👍8🔥3
Возвращаемся к формату докладов
Вообще я хотел что-то глянуть, чтобы понять, что такое Feature Store и зачем оно нужно, когда надо, когда нет и т.д.
В целом, я, конечно, понял, что это такое. Но фоном, потому что доклад не про это.
Он больше про проектирование архитектуры серверной highload штуковины (в нашем случае это FC).
Ответы на вопросы: что мониторить, какие лимиты ставить, точки отказа.
Их история построения своего FC началась в 2015, когда ещё никаких нормальных готовых решений не было. Надо ли сейчас такое самому делать ответа не было.
Я пока не готовился, но выглядит как хороший доклад на подготовку к System Design интервью.
Узнал, что существует Samza (типа Flink от LinkedIn’a)
Более обзорный доклад про FC, чтобы получить на вопросы в начале, надеюсь ещё найду и посмотрю🤔
DE++ от Валентина
Вообще я хотел что-то глянуть, чтобы понять, что такое Feature Store и зачем оно нужно, когда надо, когда нет и т.д.
В целом, я, конечно, понял, что это такое. Но фоном, потому что доклад не про это.
Он больше про проектирование архитектуры серверной highload штуковины (в нашем случае это FC).
Ответы на вопросы: что мониторить, какие лимиты ставить, точки отказа.
Их история построения своего FC началась в 2015, когда ещё никаких нормальных готовых решений не было. Надо ли сейчас такое самому делать ответа не было.
Я пока не готовился, но выглядит как хороший доклад на подготовку к System Design интервью.
Узнал, что существует Samza (типа Flink от LinkedIn’a)
Более обзорный доклад про FC, чтобы получить на вопросы в начале, надеюсь ещё найду и посмотрю
DE++ от Валентина
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Андрей Кузнецов — Распределенный высоконагруженный feature store ОК
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Основная часть доклада будет посвящена архитектуре feature store в ОК и выученным урокам по эксплуатации многокластерного feature store в высоконагруженном продакшене. Рассмотрим feature store как…
— —
Основная часть доклада будет посвящена архитектуре feature store в ОК и выученным урокам по эксплуатации многокластерного feature store в высоконагруженном продакшене. Рассмотрим feature store как…
Spark Native UDF
На прошлых выходных и чуть этих первый раз написал нативные UDF для спарка.
С одной стороны, это легче чем я думал. С другой, это просто огромное поле для экспериментов. Но обо всём по порядку.
Все кто используют спарк сразу узнают про UDF, а потом, что их желательно не использовать, потому что:
1) Catalyst не знает, что в этой UDF происходит и не может это оптимизировать. Больше всего нас интересует Predicate pushdown, но вероятно, есть и ещё какие-то
2) Кодогенерация не работает и добавляет лишние проверки на null и try-catch конструкции
3) Если udf работает со строками, то происходит конвертация из String UTF-8 в UTF-16 и обратно. (Спарк работает c utf-8, а Java с utf16)
А что можно с этим делать?
На самом деле не очень много:
1) Переписать на встроенные функции или на
2) Забить
3) (Вроде как у pySpark тоже есть способы ускорить, но я пока в это не погружался + сомневаюсь, что это будет быстрее последнего варианта)
4) Написать свою "нативную" функцию и встроить внутрь Spark.
Т.е. по сути расширить язык Spark SQL своим новым выражением(Expression), чтобы Catalyst начал понимать что это такое. И подставлять Java код, куда сможет (если вы написали)
Как раз последним я и занимался. Сразу скажу, что пока я миллионы денег на кластерных ресурсах не сэкономил.
Но дико кайфанул пока это делал и экспериментировал
Я написал пару тестовых функций и 1 однострочник из реального кода на проде и просто несколько вечеров сидел, смотрел
1) как java код генерится при nullSafeCodeGen и defineCodeGen,
2) насколько быстрее это работает
3) что меняется в разных версиях спарка
4) работает ли Predicate Pushdown если не писать defineCodeGen, а только eval (да, если нужен только PP то можно не страдать с джавой)
и т.д
Планы:
1) Ускорить один расчёт, который кушоет от 600-800 cores и работает 4-5 часов. (в нём есть 15 udf, но на нативные надо переписать только 2-3)
2) Научится +- честно мерить скорость расчётов в спарке
3) Взять какую-то сложную udf на строк 10-20 на питоне и ускорять всеми способами, постепенно дойти до нативной и померить каждый шаг (очень долгая история, но составит полную картину)
P.S.Не забывайте ставить точки с запятой! В Java они всё ещё нужны!!! 💩
Источники:
Единственное видео про это от DB неплохое
Единственная статья на русском по мотивам видео хорошая)
Статья от DataBricks зачем они делают CodeGen в Spark
Простенькая статья с примером UUID и реализацией без кодогена, а через eval
Тоже статья с кодом посложнее и примером BinaryExpression
Статья где показано как правильно регистрировать функцию, чтобы можно было использовать в sql
Примеры функций (порт функций из Postgres и Teradata)
Сорцы спарка - как обычно лучший источник примеров
DE++ от Валентина
На прошлых выходных и чуть этих первый раз написал нативные UDF для спарка.
С одной стороны, это легче чем я думал. С другой, это просто огромное поле для экспериментов. Но обо всём по порядку.
Все кто используют спарк сразу узнают про UDF, а потом, что их желательно не использовать, потому что:
1) Catalyst не знает, что в этой UDF происходит и не может это оптимизировать. Больше всего нас интересует Predicate pushdown, но вероятно, есть и ещё какие-то
2) Кодогенерация не работает и добавляет лишние проверки на null и try-catch конструкции
3) Если udf работает со строками, то происходит конвертация из String UTF-8 в UTF-16 и обратно. (Спарк работает c utf-8, а Java с utf16)
А что можно с этим делать?
На самом деле не очень много:
1) Переписать на встроенные функции или на
2) Забить
3) (Вроде как у pySpark тоже есть способы ускорить, но я пока в это не погружался + сомневаюсь, что это будет быстрее последнего варианта)
4) Написать свою "нативную" функцию и встроить внутрь Spark.
Т.е. по сути расширить язык Spark SQL своим новым выражением(Expression), чтобы Catalyst начал понимать что это такое. И подставлять Java код, куда сможет (если вы написали)
Как раз последним я и занимался. Сразу скажу, что пока я миллионы денег на кластерных ресурсах не сэкономил.
Но дико кайфанул пока это делал и экспериментировал
Я написал пару тестовых функций и 1 однострочник из реального кода на проде и просто несколько вечеров сидел, смотрел
1) как java код генерится при nullSafeCodeGen и defineCodeGen,
2) насколько быстрее это работает
3) что меняется в разных версиях спарка
4) работает ли Predicate Pushdown если не писать defineCodeGen, а только eval (да, если нужен только PP то можно не страдать с джавой)
и т.д
Планы:
1) Ускорить один расчёт, который кушоет от 600-800 cores и работает 4-5 часов. (в нём есть 15 udf, но на нативные надо переписать только 2-3)
2) Научится +- честно мерить скорость расчётов в спарке
3) Взять какую-то сложную udf на строк 10-20 на питоне и ускорять всеми способами, постепенно дойти до нативной и померить каждый шаг (очень долгая история, но составит полную картину)
P.S.
Источники:
Единственное видео про это от DB неплохое
Единственная статья на русском по мотивам видео хорошая)
Статья от DataBricks зачем они делают CodeGen в Spark
Простенькая статья с примером UUID и реализацией без кодогена, а через eval
Тоже статья с кодом посложнее и примером BinaryExpression
Статья где показано как правильно регистрировать функцию, чтобы можно было использовать в sql
Примеры функций (порт функций из Postgres и Teradata)
Сорцы спарка - как обычно лучший источник примеров
DE++ от Валентина
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Optimizing Apache Spark UDFs
User Defined Functions is an important feature of Spark SQL which helps extend the language by adding custom constructs. UDFs are very useful for extending spark vocabulary but come with significant performance overhead. These are black boxes for Spark optimizer…
🔥6❤2
DE++ от Валентина
Возвращаемся к формату докладов Вообще я хотел что-то глянуть, чтобы понять, что такое Feature Store и зачем оно нужно, когда надо, когда нет и т.д. В целом, я, конечно, понял, что это такое. Но фоном, потому что доклад не про это. Он больше про проектирование…
Тот обзорный доклад, который хотел посмотреть изначально, но наткнулся уже после первого.
В первые 23 минуты отвечает на все основные вопросы про Feature Store. Потом немного примеров и рекламы продукта. В конце вопросы тоже по делу.
Допускаю, что есть доклад получше, но я уже удовлетворил своё любопытство насчёт FS и на работе у меня работы с ним не предвидится.
Точно не обязателен к просмотру, но хотелось поставить точку в теме.
DE++ от Валентина
В первые 23 минуты отвечает на все основные вопросы про Feature Store. Потом немного примеров и рекламы продукта. В конце вопросы тоже по делу.
Допускаю, что есть доклад получше, но я уже удовлетворил своё любопытство насчёт FS и на работе у меня работы с ним не предвидится.
Точно не обязателен к просмотру, но хотелось поставить точку в теме.
DE++ от Валентина
YouTube
Анализ потребности бизнеса в использовании Feature Store
Официальный сайт Selectel — https://slc.tl/hbJ0Q
Selectel Data Platform: https://selectel.ru/services/bigdata/
Selectel ML Platform: https://selectel.ru/services/cloud/mlops/
Группа и чат меропритяия MLечный путь: https://news.1rj.ru/str/mlpathway
Подписывайтесь…
Selectel Data Platform: https://selectel.ru/services/bigdata/
Selectel ML Platform: https://selectel.ru/services/cloud/mlops/
Группа и чат меропритяия MLечный путь: https://news.1rj.ru/str/mlpathway
Подписывайтесь…
DE++ от Валентина
Вот настолько я зарядился этим разговором Решил дать второй шанс VR'у И второй шанс себе, потому что я уже покупал Quest 2 в 2021, чтобы работать в VR и что-то делать для него🤡 . В итоге все идеи так и остались идеями, из сделанного только N песен на эксперте…
На этих выходных первый раз попробовал 3d моделирование
Решил следовать традициям и сделал «Hello world» с которого многие начинают - курс про пончик от blenderguru. Только на него ушло 1.5 дня💀
Две причины, почему решил чуток переключиться, выбирайте любую:
1) Не поехать кукухой от проги 7 дней в неделю
2) Делаю это в рамках интереса к VR (но заход очень издалека)
Переключится я-то, конечно, переключился, но интересней всего было работать с инструментом «Geometry Nodes». Который, по сути, из себя представляет no-code функции, которые работают с фигурами в 3d. (Тут это посыпка на пончики, которая генерируется рандомно. Но с их помощью люди суперкрутые вещи делают)
Blender после IntelliJ IDEA - просто космолёт по сложности управления. Но понятно, что Idea я уже кучу лет пользуюсь, а блендером нет.
DE++ от Валентина
Решил следовать традициям и сделал «Hello world» с которого многие начинают - курс про пончик от blenderguru. Только на него ушло 1.5 дня
Две причины, почему решил чуток переключиться, выбирайте любую:
1) Не поехать кукухой от проги 7 дней в неделю
2) Делаю это в рамках интереса к VR (но заход очень издалека)
Переключится я-то, конечно, переключился, но интересней всего было работать с инструментом «Geometry Nodes». Который, по сути, из себя представляет no-code функции, которые работают с фигурами в 3d. (Тут это посыпка на пончики, которая генерируется рандомно. Но с их помощью люди суперкрутые вещи делают)
Blender после IntelliJ IDEA - просто космолёт по сложности управления. Но понятно, что Idea я уже кучу лет пользуюсь, а блендером нет.
DE++ от Валентина
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤🔥1👏1🦄1
Z-ordering
У меня недавно спросили🌚 , знаю ли я Z-ordering и я ответил что нет
А это в итоге оказалось, что 50% я знаю и делал, потому что, это сортировка внутри файла (это база для parquet и orc файлов)
+
вычисление доп. колонок для хитрого размещение файлов, чтобы читать ещё меньше файлов, чем при последовательном чтении метаданных.
Небольшая статья как использовать на Delta Lake
Тоже самое, но для azure Databricks
Статейка с объяснением про саму Space filling curve и Z-Order
Уже чтиво посерьёзней от человека из Databricks с полезными картинками, простой реализацией для понимания как это работает (это всегда круто) и заглядываем во внутренности Delta Lake Spark connector. Советую
Так что расклад такой:
Посмотреть на картинки и кивнуть головой - для ленивых
(1 или 2) и 3 статьи - для практиков
3 и 4 - для любителей кишочков🦾
DE++ от Валентина
У меня недавно спросили
А это в итоге оказалось, что 50% я знаю и делал, потому что, это сортировка внутри файла (это база для parquet и orc файлов)
+
вычисление доп. колонок для хитрого размещение файлов, чтобы читать ещё меньше файлов, чем при последовательном чтении метаданных.
Небольшая статья как использовать на Delta Lake
Тоже самое, но для azure Databricks
Статейка с объяснением про саму Space filling curve и Z-Order
Уже чтиво посерьёзней от человека из Databricks с полезными картинками, простой реализацией для понимания как это работает (это всегда круто) и заглядываем во внутренности Delta Lake Spark connector. Советую
Так что расклад такой:
Посмотреть на картинки и кивнуть головой - для ленивых
(1 или 2) и 3 статьи - для практиков
3 и 4 - для любителей кишочков🦾
DE++ от Валентина
🔥4🦄1
DE++ от Валентина
Хороший доклад от Владимира. Примерно на половину повторяет прошлый доклад, но уже про другие SQL-движки. По сути, тоже обзорный, но с большей степенью погружения во внутренности, что конечно же круто и выгодно отличает от других обзорных докладов. Плюс…
Сегодня смотрим вот это😎
Вот узнал, что Владимир Озеров и его коллеги(?) начали делать митапы по Database Internals.
Потом отредачу пост и напишу как оно
Думаю, будет не понятно, но очень интересно
UPD:
Первый доклад - тяжело шёл. Такая серьёзная экранизация CS статьи про подсчёт статистики в DB.
Немного узнал, что происходит при выполнении "ANALYZE".
Второй доклад - немного не то, что я ожидал на митапе по Database Internals.
Но интересно было глянуть на новый подход в разработке, где все действия в коде - это сущности в БД. И от этого супер легко делать логику транзакций в распределённом приложени + ещё пару фичей, включая Time Travel Debugger🙀
СТО и сооснователь этого стартапа Mike Stonebraker если что
https://databaseinternals.timepad.ru/event/2835259/
Вот узнал, что Владимир Озеров и его коллеги(?) начали делать митапы по Database Internals.
Потом отредачу пост и напишу как оно
Думаю, будет не понятно, но очень интересно
UPD:
Первый доклад - тяжело шёл. Такая серьёзная экранизация CS статьи про подсчёт статистики в DB.
Немного узнал, что происходит при выполнении "ANALYZE".
Второй доклад - немного не то, что я ожидал на митапе по Database Internals.
Но интересно было глянуть на новый подход в разработке, где все действия в коде - это сущности в БД. И от этого супер легко делать логику транзакций в распределённом приложени + ещё пару фичей, включая Time Travel Debugger🙀
СТО и сооснователь этого стартапа Mike Stonebraker если что
https://databaseinternals.timepad.ru/event/2835259/
databaseinternals.timepad.ru
Database Internals Meetup #2: зачем нам DBOS, и новый тип гистограмм в openGauss / События на TimePad.ru
Второй митап российского сообщества разработчиков СУБД и распределенных систем. Поговорим о задачах и позиционировании DBOS, а также о новом методе оценки кардинальностей в openGauss
❤1
В феврале Кирилл Мокевнин написал пост, что хочет провести экскурсии для студентов колледжа Хекслет. Ну и что-то меня сподвигло написать, что я могу.
И вот сегодня это свершилось!
Хорошо, что в компании этот процесс налажен и от меня нужно было только соединить нужных людей и выступить.
Я рассказывал про фундаментальные знания в ИТ и переход из одной специальности в другую. На примере себя как я перекатился из бекенда в DE.
По сути, это моё первое добровольное выступление перед аудиторией. В целом прошло очень гладко всё. Я собой доволен.
Хардкор посты давайте уже после майских😌
DE++ от Валентина
И вот сегодня это свершилось!
Хорошо, что в компании этот процесс налажен и от меня нужно было только соединить нужных людей и выступить.
Я рассказывал про фундаментальные знания в ИТ и переход из одной специальности в другую. На примере себя как я перекатился из бекенда в DE.
По сути, это моё первое добровольное выступление перед аудиторией. В целом прошло очень гладко всё. Я собой доволен.
Хардкор посты давайте уже после майских😌
DE++ от Валентина
🔥4👍1
Внеплановый пост
У Энди с коллегами вышла статья с эмпирическим исследованием колоночных форматов данных Parquet и ORC.
Из быстрого и интересного:
1) У ORC’a более агрессивное сжатие, из-за этого он работает хуже на быстрых дисках
2) Есть расхождения в реализациях форматов на разных языках. Java поддерживает новейшие функции оптимизации, но из-за JVM они бесполезны.
Все ключевые выводы на последней картинке.
Ставьте 🔥, если хотите, чтобы я всё бросил и прочитал статью полностью (ничего обещать не могу🌚)
Пост Энди в твиттуре
Сама статья
Ссылка на код
DE++ от Валентина
У Энди с коллегами вышла статья с эмпирическим исследованием колоночных форматов данных Parquet и ORC.
Из быстрого и интересного:
1) У ORC’a более агрессивное сжатие, из-за этого он работает хуже на быстрых дисках
2) Есть расхождения в реализациях форматов на разных языках. Java поддерживает новейшие функции оптимизации, но из-за JVM они бесполезны.
Все ключевые выводы на последней картинке.
Ставьте 🔥, если хотите, чтобы я всё бросил и прочитал статью полностью (ничего обещать не могу🌚)
Пост Энди в твиттуре
Сама статья
Ссылка на код
DE++ от Валентина
🔥10