Архитектурки
Вчера прошел "Lakehouse Meetup", где было 2 выступления и панельная дискуссия на тему проблем, технологий, опыта разных компаний: Т-Банк, Лемана Тех, Азбука Вкуса, S7 Airlines, Querify Labs, Positive Technologies (как ни странно)
Картинка №1 - to be, до которой дошли в Лемана Тех (почти)
Картинка №2 - как сейчас в Азбуке Вкуса
Успела заглянуть всего на полчаса, чтобы посмотреть офис, встретиться со знакомыми людьми и съесть пару вкусняшек🙂 Остальное досмотрела в записи, что можете сделать и вы:
YouTube
VK
#system_design
Вчера прошел "Lakehouse Meetup", где было 2 выступления и панельная дискуссия на тему проблем, технологий, опыта разных компаний: Т-Банк, Лемана Тех, Азбука Вкуса, S7 Airlines, Querify Labs, Positive Technologies (как ни странно)
Картинка №1 - to be, до которой дошли в Лемана Тех (почти)
Картинка №2 - как сейчас в Азбуке Вкуса
Успела заглянуть всего на полчаса, чтобы посмотреть офис, встретиться со знакомыми людьми и съесть пару вкусняшек
YouTube
VK
#system_design
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Когда тимлид смотрит твои сторис
😁52🔥13🤔3👍1
CustDev
В моей голове не укладывалось, что это такое, пока я не попробовала на себе. Сначала я не хотела идти, но когда позвали персонально, то почему бы и не пойти на что-то новое)
Кастдев - это по сути встреча, где вы выступаете пользователем продуктов, а другая сторона - разработчиком собственного продукта. Меня поспрашивали про:
🤩 мои боли
🤩 что мне неудобно в функционале
🤩 что мне хотелось бы видеть
🤩 как часто я пользуюсь тем или иным приложением
🤩 какие задачи я решаю с их использованием
🤩 что мне хотелось бы автоматизировать
🤩 трудности, если бы я была новым коллегой
🤩 и т.д.
Возможно, это был бонус, но мне даже показали UI и что там уже можно поделать
Такое проводится с большим количеством людей, чтобы собрать мнения и потом создать ультра-мега-супер-классный продукт, который понравится всем (в идеале)
Встреча была интересной, я постаралась выжать из себя идеи, но как будто это не мой формат😅 К сожалению, меня ничего не бесит и не раздражает в этой жизни))
Следующий шаг - осознать, что каждый день на работе делает DevRel…
В моей голове не укладывалось, что это такое, пока я не попробовала на себе. Сначала я не хотела идти, но когда позвали персонально, то почему бы и не пойти на что-то новое)
Кастдев - это по сути встреча, где вы выступаете пользователем продуктов, а другая сторона - разработчиком собственного продукта. Меня поспрашивали про:
Возможно, это был бонус, но мне даже показали UI и что там уже можно поделать
Такое проводится с большим количеством людей, чтобы собрать мнения и потом создать ультра-мега-супер-классный продукт, который понравится всем (в идеале)
Встреча была интересной, я постаралась выжать из себя идеи, но как будто это не мой формат
Следующий шаг - осознать, что каждый день на работе делает DevRel…
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14 9❤3💅2
Committers in Spark
В спарке есть такая штука, как коммиттеры. Они нужны, чтобы пользователи видели только успешные финальные результаты. Их несколько:
✨ File Output Committer
v1
Сначала все файлы пишутся во временные папки в attempt/, потом перекладываются (по сути rename) в task/ и в самом конце в корень вашей папки. Тут упор на надежность: если что-то упало, то оно перезапустится и не попадет в конечную папку, пока не отработает
v2
Здесь файлы пишутся в attempt/, а потом сразу перемещаются в корень вашей папки. Тут упор на производительность: нет дополнительного шага, но если что-то пойдет не так, то останутся куски файлов
✨ S3A Committers
Для работы с s3 есть magic и staging. Предыдущие не подходят, т.к. переименование реализовано как копирование и удаление. И если файлов много, то это очень долгая операция
magic
Файлы пишутся сразу в корень, но облако должно быть консистентным. Появился в конце 2021
staging
С ним я не игралась, но суть в том, что сами файлы пишутся в стейджинг на hdfs (отсюда и название), а потом грузятся в s3
_SUCCESS
Возможно, вы когда-нибудь заглядывали в файл _SUCCESS. Если писать алгоритмами v1/v2, то он будет пустым. А вот пример с magic:
В спарке есть такая штука, как коммиттеры. Они нужны, чтобы пользователи видели только успешные финальные результаты. Их несколько:
v1
"spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version" = 1
Сначала все файлы пишутся во временные папки в attempt/, потом перекладываются (по сути rename) в task/ и в самом конце в корень вашей папки. Тут упор на надежность: если что-то упало, то оно перезапустится и не попадет в конечную папку, пока не отработает
v2
"spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version" = 2
Здесь файлы пишутся в attempt/, а потом сразу перемещаются в корень вашей папки. Тут упор на производительность: нет дополнительного шага, но если что-то пойдет не так, то останутся куски файлов
Для работы с s3 есть magic и staging. Предыдущие не подходят, т.к. переименование реализовано как копирование и удаление. И если файлов много, то это очень долгая операция
magic
"spark.hadoop.fs.s3a.committer.name" = "magic"
"spark.hadoop.fs.s3a.committer.magic.enabled" = "true"
Файлы пишутся сразу в корень, но облако должно быть консистентным. Появился в конце 2021
staging
С ним я не игралась, но суть в том, что сами файлы пишутся в стейджинг на hdfs (отсюда и название), а потом грузятся в s3
_SUCCESS
Возможно, вы когда-нибудь заглядывали в файл _SUCCESS. Если писать алгоритмами v1/v2, то он будет пустым. А вот пример с magic:
{
"name" : "org.apache.hadoor.fs.3a.commit. files.SuccessData/1",
"timestamp" : 1744183768995,
"date" : "Wed Apr 09 10:29:28 MSK 2025",
"committer" : "magic",
"denoscription" : "Task committer attempt_202504091019345870801396712503545_6660_m_1000000_0",
"metrics" : {
"stream_write_block_uploads" : 0,
"files_created" : 1,
"stream_closed" : 200,
...Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20 4
Найдите 10 отличий 🐱 🥹
У меня было на слуху слово "atlas" в мире дата технологий, но на днях я поняла, что их несколько:
🟠 Есть Apache Atlas - это дата каталог, чтобы управлять метаданными, бизнес-сущностями, смотреть происхождение таблички/поля и т.д.
https://atlas.apache.org/
https://github.com/apache/atlas
🟢 Есть просто Atlas - тулза для миграции схем данных
https://atlasgo.io/docs
https://github.com/ariga/atlas
🔵 А потом я наткнулась на Atlan - это тоже дата каталог, но уже платный
https://atlan.com/
Есть еще какие-то слова, которые обозначают совершенно разные технологии?
У меня было на слуху слово "atlas" в мире дата технологий, но на днях я поняла, что их несколько:
https://atlas.apache.org/
https://github.com/apache/atlas
https://atlasgo.io/docs
https://github.com/ariga/atlas
https://atlan.com/
Есть еще какие-то слова, которые обозначают совершенно разные технологии?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🤷1
Аналитика по сторис
Потратила час-два, но собрала аналитику по сторис, которые я выкладываю😁
Погуглила апишку тг, погулила либу telethon, подняла постгрю в докере, создала две таблички с просмотрами и с пользователями, вызвала метод GetStoryViewsListRequest и собрала оттуда нужную инфу
Покрутила эти таблички в базе, и вот какие выводы я для себя сделала:
⏺️ есть мои контакты, у которых я не в контактах - грустно(
⏺️ есть интересные флаги "bot", "scam", "fake" - у меня все false (либо они коряво определяются)
⏺️ некоторые люди смотрят сторисы спустя год с лишним(!) - вот это шок 😮 😮
⏺️ собрала топ стату по просмотрам
⏺️ чекнула по data quality, что поле count == views_count == кол-ву пользователей в списке == кол-ву просмотров в списке - все норм)
Пользовалась этой докой, но она супер кривая, даже непонятно, что значат некоторые поля
Потратила час-два, но собрала аналитику по сторис, которые я выкладываю
Погуглила апишку тг, погулила либу telethon, подняла постгрю в докере, создала две таблички с просмотрами и с пользователями, вызвала метод GetStoryViewsListRequest и собрала оттуда нужную инфу
Покрутила эти таблички в базе, и вот какие выводы я для себя сделала:
Пользовалась этой докой, но она супер кривая, даже непонятно, что значат некоторые поля
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20🔥12
✨Spark 4.0✨
Official release notes: https://spark.apache.org/releases/spark-release-4-0-0.html
Краткое описание в статейке (работает только с впнкой): https://www.databricks.com/blog/introducing-apache-spark-40
А кто-то живет еще на втором спарке?
Official release notes: https://spark.apache.org/releases/spark-release-4-0-0.html
Краткое описание в статейке (работает только с впнкой): https://www.databricks.com/blog/introducing-apache-spark-40
А кто-то живет еще на втором спарке?
🔥17🍾5 3
Мама, я CTO тимлид
📱 Недавно ко мне вышел человечек и предложил обучаться управленческим навыкам. Сначала я заигнорила, было похоже на скам, и ну сколько уже можно учиться? 😁
После второго пинга я решила зайти посмотреть программы. Это школа Стратоплан, и мне на выбор предложили четыре программы:
- Soft Skills для инженеров
- Команда. Инструменты управления
- Школа руководителя отдела
- Школа технического директора
Я посмотрела стоимость каждого курса, ну пока предлагают - надо брать самое крутое. Конечно, скипаю предыдущие этапы и иду сразу в CTO!
Потом оказалось, что надо сделать вступительное задание и пройти собес😁
Ладно, так уж и быть, начнем с тимлида
Подробное описание программы можно глянуть тут
💻 Во вступительном нужно было написать эссе про себя, решить управленческий кейс (какие решения вы примете в конкретной ситуации, как будете разбираться с проблемами), заполнить чек-лист по компетенциям (найм, контроль команды, переговоры и т.д.). Задания для меня были вообще нетипичными. Потом я записалась на собес, и мы полчаса это все обсуждали. Собес я прошла)
Далее была установочная встреча, где рассказали про формат обучения, и мы даже дважды попрактиковались в мини-командах на тему целей и результатов после курса
📊 Вообще обучение будет проходить раз в месяц 3 дня подряд по 5 часов до октября 😍 Еще есть 8 сопутствующих мини-курсов по 2 месяца, на которые можно записаться и получить серт или просто смотреть в видеозаписях без серта. Они тоже прикольные на тему мотивации, увольнений, коммуникаций, финансов, но я как-нибудь по ходу посмотрю. Хоть и хочется все и сразу, но не могу закоммититься (все-таки лето)
☕️ Дальше буду по итогам каждого модуля рассказывать, что и как, что прошли, что делали, какие ощущения
После второго пинга я решила зайти посмотреть программы. Это школа Стратоплан, и мне на выбор предложили четыре программы:
- Soft Skills для инженеров
- Команда. Инструменты управления
- Школа руководителя отдела
- Школа технического директора
Я посмотрела стоимость каждого курса, ну пока предлагают - надо брать самое крутое. Конечно, скипаю предыдущие этапы и иду сразу в CTO!
Потом оказалось, что надо сделать вступительное задание и пройти собес
Ладно, так уж и быть, начнем с тимлида
Подробное описание программы можно глянуть тут
Далее была установочная встреча, где рассказали про формат обучения, и мы даже дважды попрактиковались в мини-командах на тему целей и результатов после курса
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍18 13❤4
Я сходила на aha…
и мне не понравилось)
Встретила только двух знакомых и чувствовала себя максимально некомфортно в сообществе аналитиков. Залы были почти пустыми, хотя где-то ходила целая 1000 человек
Я поучаствовала в нескольких активностях:
1️⃣ Игруля, где на деревянной дощечке стоят плашки, нужно задавать сопернику вопросы и закрывать неподходящие варианты. Перед последним ходом мой соперник уже понимал, что это профессия человека, который обрабатывает данные) А я понимала, что это какая-то метрика. Пошла ва-банк с ROI, но оказался Churn Rate 🤷♀️
2️⃣ Пошла вытягивать предсказания
Вторая часть предсказания мне не очень понравилась, и я решила вытащить "пояснительную" для решения этого "посложнее":
Ну допустим
3️⃣ На одной станции в призах была кружка (я люблю собирать симпатичные), баллов требовалось немного, и я пошла их копить
Сыграла в викторину, где на определенную тему нужно назвать как можно больше терминов. Нам с соперником досталась тема "Виды графиков", и как же я была счастлива)) А то на тему метрик, статистики я бы вряд ли много чего накидала. Эту игру я выиграла🎉
Потом пошла решать математические задачи. По времени не было никаких ограничений, хоть вечером приноси. Всего 3 задачи: найти этаж по номеру квартиры в доме, тервер, интеграл. В тервер лезть не стала, баллов на кружку уже хватило бы без нее)
4️⃣ Потом покрутила колесо заданий. В самом задании нужно было выбрать, какой вид графика лучше. Оказалось, что визуально разделять категории (одежда, бытовая химия и т.д.) по разным цветам - плохая идея. Только если мы не хотим акцентировать внимание именно на разных категориях. А так можно выбрать, например, выручку и покрасить столбики в зависимости от ее размера
Проходя мимо аналитической настолки, услышала термины "когортный анализ" и "логистическая регрессия", решила не ввязываться😁
⚾️ ⚾️ Второй день послушала уже в онлайне, вообще из всех треков мне понравился только про здоровье, сидячий образ жизни, умственную деятельность и вот это все
и мне не понравилось)
Встретила только двух знакомых и чувствовала себя максимально некомфортно в сообществе аналитиков. Залы были почти пустыми, хотя где-то ходила целая 1000 человек
Я поучаствовала в нескольких активностях:
ROI («Return On Investment», возврат инвестиций) — коэффициент рентабельности инвестиций, который помогает рассчитать окупаемость вложений в проект.
Churn rate, или отток клиентов, — метрика, которая показывает, сколько клиентов потеряла компания за определённый период.
Баг исчезнет сам, будто его и не было. Но откроет кое-что посложнее.
Вторая часть предсказания мне не очень понравилась, и я решила вытащить "пояснительную" для решения этого "посложнее":
Следующий твой инсайт родится из самой глупой идеи. Будь готов.
Ну допустим
Сыграла в викторину, где на определенную тему нужно назвать как можно больше терминов. Нам с соперником досталась тема "Виды графиков", и как же я была счастлива)) А то на тему метрик, статистики я бы вряд ли много чего накидала. Эту игру я выиграла
Потом пошла решать математические задачи. По времени не было никаких ограничений, хоть вечером приноси. Всего 3 задачи: найти этаж по номеру квартиры в доме, тервер, интеграл. В тервер лезть не стала, баллов на кружку уже хватило бы без нее)
Проходя мимо аналитической настолки, услышала термины "когортный анализ" и "логистическая регрессия", решила не ввязываться
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9💅7👍3
Как хранятся айсберг таблицы
На картинке у нас есть таблица под названием "warehouse". Для нее создаются 2 папки: data + metadata. И всего есть 4 типа файликов
🤩 Data Files
Это сами данные в форматах parquet/orc/avro
🤩 metadata.json
Неполный список меты:
- путь к таблице
- время обновления
- схема данных
- версии
- специфичные параметры айсберга
🤩 Manifest File (404eff92-...m0.avro)
Инфа про файлы с данными: пути к ним, количество записей, статистики
🤩 Manifest List (snap-....avro)
В айсбергах есть снепшот - это консистентное состояние таблицы в определенный момент времени. Снепшот знает, какие файлики ему надо выбрать, чтобы получить таблицу на сегодня/вчера/минуту назад. Поэтому по id снепшота можно вернуться к предыдущим состояниям
Так вот Manifest List - это список манифест-файлов, которые относятся к конкретному снепшоту. Этот файл контролирует добавление, обновление, удаление данных и т.п.
🤩 🤩 🤩 🤩 🤩 🤩
Хотела сюда вставить картинки со структурой всех файлов, но вместе они выглядели некрасиво. Поэтому лучше сделаю отдельные посты с более детальным разбором)
На картинке у нас есть таблица под названием "warehouse". Для нее создаются 2 папки: data + metadata. И всего есть 4 типа файликов
Это сами данные в форматах parquet/orc/avro
Неполный список меты:
- путь к таблице
- время обновления
- схема данных
- версии
- специфичные параметры айсберга
Инфа про файлы с данными: пути к ним, количество записей, статистики
В айсбергах есть снепшот - это консистентное состояние таблицы в определенный момент времени. Снепшот знает, какие файлики ему надо выбрать, чтобы получить таблицу на сегодня/вчера/минуту назад. Поэтому по id снепшота можно вернуться к предыдущим состояниям
Так вот Manifest List - это список манифест-файлов, которые относятся к конкретному снепшоту. Этот файл контролирует добавление, обновление, удаление данных и т.п.
Хотела сюда вставить картинки со структурой всех файлов, но вместе они выглядели некрасиво. Поэтому лучше сделаю отдельные посты с более детальным разбором)
Please open Telegram to view this post
VIEW IN TELEGRAM
51🔥23 11❤8👍7👀1
Libretto.pdf
36.2 MB
Либретто
Хотела сходить на hr-оперу ра прошлой неделе, но не смогла. Потом увидела, что стрим сохранился, глянула минут 10 и решила досмотреть попозже. А сейчас стрима уже нет😅
Ухватила только, что это не стандартная опера с красивыми костюмами и декорациями. Сзади был экран, на который выводились чб рисунки города/офиса, а человек перед экраном пел и двигался. Пели тоже не академично, а скорее эстрадно
По первому впечатлению не зацепило, поэтому отложила. Но осталось либретто, которое перед началом высылали всем на почту. Судя по тексту, выглядит как реклама компании)
Хотела сходить на hr-оперу ра прошлой неделе, но не смогла. Потом увидела, что стрим сохранился, глянула минут 10 и решила досмотреть попозже. А сейчас стрима уже нет
Ухватила только, что это не стандартная опера с красивыми костюмами и декорациями. Сзади был экран, на который выводились чб рисунки города/офиса, а человек перед экраном пел и двигался. Пели тоже не академично, а скорее эстрадно
По первому впечатлению не зацепило, поэтому отложила. Но осталось либретто, которое перед началом высылали всем на почту. Судя по тексту, выглядит как реклама компании)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍8😁4
Краудфандинг ресурсов по SQL
А давайте накидаем любые полезные материалы в этом треде. У меня с этим сложности, я sql еще в универе проходила по лекциям и авторской книжке от препода, а потом 3 года шлифовала на рабочих задачах🙂
P.S. всем комментаторам лайк, сердечко и огонечек
А давайте накидаем любые полезные материалы в этом треде. У меня с этим сложности, я sql еще в универе проходила по лекциям и авторской книжке от препода, а потом 3 года шлифовала на рабочих задачах
P.S. всем комментаторам лайк, сердечко и огонечек
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1👀1
Forwarded from Arthur Chupakhin
Добрый день,
Начал обучение на дата инженера, посоветуйте пожалуйста хорошую книгу по SQL 🙏
Что то основательное как Лутц на Питон 😅
Начал обучение на дата инженера, посоветуйте пожалуйста хорошую книгу по SQL 🙏
Что то основательное как Лутц на Питон 😅
👍10❤1
Пусть у нас одна очередь считает витрины, вторая льет стриминговые данные, а в третьей де/да/дс запускают свои наработки. И ресурсы разделены в таком соотношении:
Послеобеденное время, витринки особо пока не занимают очередь, пусть 20% вместо 60%. Тут приходит аналитик и запускает огроменный расчет, который перелопачивает 100млрд данных. Он занимает всю свою очередь, а сверху берет в долг ресурсы у витринной очереди, которая пока более-менее свободна
У бедного аналитика приложение будет простаивать, а все, что не посчиталось, потом пойдет считаться заново (когда очередь освободится)
Дисклеймер: любые совпадения с реальными личностями случайны
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11😁8🔥5❤4🌚2 2