Больше архитектур
Недавно была на "Hadoop Admins Meetup", где рассказывали про современные тех. штуки и подкапотную жесть🌼 В продолжение поста закидываю вам еще ряд интересных картинок с архитектурами систем и умными словами.
Из того, что озвучили в докладах:
Data Ocean Nova - платная штука от Glowbyte
Apache Yunikorn - замена YARN (ресурс-менеджер на кластере)
Talys.SDI - CDC для стриминга с Flink
Apache Kyuubi [кьюби] - суперновая модная штука с парой докладов на русском (остальные - китайские), что-то типо спарка, но поверх спарка (в том числе)
Вряд ли я вживую пойду слушать в другой раз, много чего было абсолютно непонятно😱 Плюс было немного людей, и все такие взрослые и пожившие эту жизнь)) Разве что чтобы быть в контексте?
🔍 P.S. А вы на логотипе Flink тоже видите сердце вместо белочки?
#system_design
Недавно была на "Hadoop Admins Meetup", где рассказывали про современные тех. штуки и подкапотную жесть
Из того, что озвучили в докладах:
Data Ocean Nova - платная штука от Glowbyte
Apache Yunikorn - замена YARN (ресурс-менеджер на кластере)
Talys.SDI - CDC для стриминга с Flink
Apache Kyuubi [кьюби] - суперновая модная штука с парой докладов на русском (остальные - китайские), что-то типо спарка, но поверх спарка (в том числе)
Вряд ли я вживую пойду слушать в другой раз, много чего было абсолютно непонятно
#system_design
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7 4👍1
Командный мудборд
Сделали с коллегами "мотивационный плакат" на одном из ретро за 5 минут
Вот такой у нас вайб😄
Всем хорошей недели!💻
Сделали с коллегами "мотивационный плакат" на одном из ретро за 5 минут
Вот такой у нас вайб😄
Всем хорошей недели!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16😁8 6👍1
В конце "Fundamentals of DE" была ссылка на подкаст, который ведут авторы книги. И мне захотелось погуглить, а какие еще подкасты про де есть. Взяла за основу список с прошлогоднего поста на реддите, убрала неактивные и добавила новые. Поделитесь, кто что слушает и что рекомендуете?
Monday Morning Data Chat - от авторов
The Analytics Engineering Podcast
The Data Engineering Show
The Data Engineering Podcast
The Data Stack Show
Drill to Detail Podcast
Analytics Power Hour
DataTalks.Club
The Data Cloud Podcast
The MongoDB Podcast
The Analytics Everywhere Podcast
The Real Python Podcast
Plumbers of Data Science Podcast
What's New in Data?
The Datanation Podcast
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥24❤5 2👍1
Мини-квиз
Есть два запроса. Какой из них корректный?
1️⃣
2️⃣
Есть два запроса. Какой из них корректный?
SELECT id, COUNT(*)
FROM demo
GROUP BY id
HAVING id = 3;
SELECT id, COUNT(*)
FROM demo
GROUP BY id
HAVING MIN(id) = 3;
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14
Вопрос тут
Правильный вариант - оба!
В having можно использовать:
Так что чисто технически можно фильтровать значения и в having, но, вероятно, это будет дольше
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20
Я начала курс по ✨систем дизайн✨
Давно хотела в это погрузиться - как проектировать, как считать ресурсы и нагрузку, как выбирать технологии
чтобы не только крутить таблички, но и выбиваться в тех лиды👔
У нас есть закупленные курсы, и конкретно этот от карпова на 5 недель. Я уже посмотрела первый вводный урок про то, что будет:
🔘 как собирать фкц и нефкц требования
🔘 как считать нагрузку
🔘 как делать высокоуровневый дизайн
🔘 а как покомпонентный
🔘 а что по масштабированию, отзывчивости и мониторингу
🔘 а сколько закладывать на это все в бюджет
🔘 а может, лучше взять менее идеальную штуку, но по которой у нас есть экспертиза?
Среди спикеров Валерий Бабушкин, который накидал кучу непонятных букв типо ELP, consistent hashing, QPS, trie, фильтр Блума и т.д.
Ну ладно, не совсем непонятных 😁 Trie я видела в задачках на литкоде, а фильтр Блума использовала в магистерской)
Плюс это все еще и с точки зрения данных, а не чисто приложух
Короче, звучит супер хайпово🍢
Давно хотела в это погрузиться - как проектировать, как считать ресурсы и нагрузку, как выбирать технологии
чтобы не только крутить таблички, но и выбиваться в тех лиды
У нас есть закупленные курсы, и конкретно этот от карпова на 5 недель. Я уже посмотрела первый вводный урок про то, что будет:
Среди спикеров Валерий Бабушкин, который накидал кучу непонятных букв типо ELP, consistent hashing, QPS, trie, фильтр Блума и т.д.
Ну ладно, не совсем непонятных 😁 Trie я видела в задачках на литкоде, а фильтр Блума использовала в магистерской)
Плюс это все еще и с точки зрения данных, а не чисто приложух
Короче, звучит супер хайпово
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30👍4❤2
Прошедший Data.Meetup
🕒 24.10.2024 состоялся Data.Meetup 2024 в Сбере, где сначала рассказывали про сберовские штуки типо супермаркета или карты данных, а потом про Trino, Iceberg и Flink.
🐰 Оказалось, что у нас Trino внедряют, но как обычно с банковскими обвязками. Сейчас там сейчас 300+ пользователей, еще планируются доработки и добавление функционала. Показалось, что лучше еще подождать, пока это все подъедет. А на одном недавнем митапе мне сказали, что в озоне пилотится Trino.
Про Trino+Iceberg рассказывал спикер, который в этом году выступал на SmartData с похожим докладом тык
🐿 Больше всего понравился практический доклад по Flink - объясняли про окна событий на пальцах (точнее на белочках и орешках) и как их джойнить между собой. Лайк👍
Я тут поресерчила в конфлюэнсе - у нас есть R&D команда, которая занимается ресерчами новых технологий. И они еще в начале 2022 года (если не раньше) тестили Trino, Iceberg, Hudi, Delta Lake (но не знаю, к чему пришли).
А на кофе-брейке я осмелилась подойти к CDO WB и начать разговор🌼 Помню, что еще давно писала ему по поводу рекламы моего канальчика, но после расценок решила ничего не делать))
Про Trino+Iceberg рассказывал спикер, который в этом году выступал на SmartData с похожим докладом тык
🐿 Больше всего понравился практический доклад по Flink - объясняли про окна событий на пальцах (точнее на белочках и орешках) и как их джойнить между собой. Лайк
Я тут поресерчила в конфлюэнсе - у нас есть R&D команда, которая занимается ресерчами новых технологий. И они еще в начале 2022 года (если не раньше) тестили Trino, Iceberg, Hudi, Delta Lake (но не знаю, к чему пришли).
А на кофе-брейке я осмелилась подойти к CDO WB и начать разговор
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11 2👍1🌚1
Я иду на интенсив по англу!
Есть люди, которые спрашивают про мой уровень англа и как я до него дошла. Все-таки он очень важен в нашей сфере, и гуглеж на англ - наше все. Так что рассказываю свою краткую историю...
📖 История
🟣 Начиналось все очень плохо. Два года (весь 2-3 класс) мы просто читали, а в 4 снова начали учить буквы 💢
🟣 В 5 всем классом поменяли препода, но уже были проблемы с аудированием.
🟣 В 8 я перешла в другую школу с делением на сильную и слабую группы. По тестам я чуть недотянула, но мне разрешили остаться в сильной и попробовать. Мы на уроках смотрели Гарри Поттера в оригинале, и все понимали, а я нет 😭
🟣 В 10 нам сказали, что именно мы все пишем ЕГЭ в след году. Я год с лишним ходила к репетитору, пока нам не сказали "отмена"
🟣 В универе снова были входные тесты, и групп было уже 4 по градации. Да, я попала в сильную! Некоторые снова смотрели фильмы в оригинале без субтитров и имели большой словарный запас. Тогда я тоже начала смотреть фильмы 📺
🟣 На 3 курсе я начала играть в онлайн-игрульку и наткнулась на english-speaking community. В течение 3х лет я подключалась на голос для обсуждений, читала абсолютно все чатики, постила мемы на англ, вела свой словарик частых сокращений, переписывалась с игроками в личке. Заметила, что у меня появился американский акцент
🟣 Потом я захотела получить опыт иностранных собесов на будущее, но мое резюме было никому не нужно 🥲
А сейчас я наткнулась на AgileFluent, они помогают специалистам из IT и digital находить работу за рубежом, а также прокачивать бизнес-английский. У них есть крутые программы, ориентированные не на королевский Future Perfect Continuous in the Past, а на жизнь. И я решила попробовать какой-нибудь интенсив на 1 месяц.
Всего их 3, но мне понравились вот эти:
1️⃣ Engish for IT teams, где на англ ведутся скрам-церемонии (планирование, стендапы, демо, ретро)
2️⃣ Focus on Speaking - как решать конфликты, как давать фидбек и вести переговоры
Решила, что если с первым понятно - когда у тебя есть задачи, то кажется несложным спланировать спринт и рассказывать, чем ты занимался вчера и чем будешь заниматься сегодня.
А вот со вторым уже что-то поинтереснее.
🙂 Встречи 2 раза в неделю, где мы будем обсуждать реальные жизненные ситуации. Поток стартует 11 ноября, и если вы тоже хотите запрыгуть, то можете использовать мой реферальный код CREF-MMTTRM (7% на первую покупку)
Я в предвушении🙂
Есть люди, которые спрашивают про мой уровень англа и как я до него дошла. Все-таки он очень важен в нашей сфере, и гуглеж на англ - наше все. Так что рассказываю свою краткую историю...
А сейчас я наткнулась на AgileFluent, они помогают специалистам из IT и digital находить работу за рубежом, а также прокачивать бизнес-английский. У них есть крутые программы, ориентированные не на королевский Future Perfect Continuous in the Past, а на жизнь. И я решила попробовать какой-нибудь интенсив на 1 месяц.
Всего их 3, но мне понравились вот эти:
Решила, что если с первым понятно - когда у тебя есть задачи, то кажется несложным спланировать спринт и рассказывать, чем ты занимался вчера и чем будешь заниматься сегодня.
А вот со вторым уже что-то поинтереснее.
Я в предвушении
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍8❤3 2
7-8 ноября прошла конфа "Матемаркетинг", где рассказывают в основном про аналитику, рекламу, метрики, АБ-тесты и т.п. Я смотрела в онлайне, пробежалась глазками по всем докладам, изучила наиболее ДЕшные и делюсь с вами)
Расскажу про 4 доклада с крутыми спикерами:
Здесь заинтересовал подход к data governance (управление данными) - системные аналитики описывают данные рядом с кодом. Если нет описания или оно неактуальное, не будет заапрувлен Pull Request через GitLab Actions.
Рассказывали про историю развития платформы, пилот и результаты. Мысль: Data mesh - по сути микросервисы
Тут были экзистенциальные мысли:
Почему у вас выгодно делать продукт "данные"?
"Само" хорошо не будет.
Тут рассказывали про альтернативные технологии, кроме всем известных выделенных жирным. Накидываю вам еще больше незнакомых буковок, но я тоже про половину не слышала, так что все норм:
У них было DWH на Greenplum. В итоге они поменяли стек на:
Storage - S3
Metastore - Iceberg REST Catalog
Compute - Trino
Оркестратор - Dagster
Самое забавное, что в трех самых технических докладах рассказывали про data mesh. Плюс удивлена, что пригласили букмекерские конторы. Как мне кажется, они не особо котируются.
Кто-то стал частичкой мероприятия?
#system_design
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍9🔥4 1
System Design. №1 Требования
Писала тут, что начала проходить курс по SD. Решила вести собственные конспекты, чтобы лучше укладывалось в голове.
🍊 Первое - нужно ответить себе на вопрос:
Отсюда определить фкц и нефкц требования:
✨ Фкц - это фичи. Которые будут нужны, даже если у нас суперкомпьютер с неограниченными ресурсами и ничего никогда не ломается.
✨ Нефкц - вопросики к ограничениям системы, большинство замеряются метриками
Основные вот эти:
1. Производительность и масштабируемость
⚫️ Requests/Queries per second (RPS/QPS) - запросы в сек
⚫️ Connections per second (CPS) - соединения к серверу в сек
⚫️ Throughput - пропускная способность в байтах/сек
⚫️ Latency - задержка отклика (сеть, диск) в мс. Оптимально < 100ms
2. Отзывчивость
⚫️ First Contentful Paint (FCP) - время загрузки первого элемента на страничке. Оптимально < 1.8s
⚫️ Largest Contentful Paint (LCP) - время загрузки самого большого элемента на страничке. Оптимально < 2.5s
⚫️ Time To Interactive (TTI) - время загрузки всех интерактивных элементов
⚫️ Time To First Byte (TTFB) - время получения первого байта видоса
⚫️ Bitrate - скорость передачи данных, бит/с
3. Надёжность и доступность
⚫️ Uptime - процент времени работы системы
⚫️ Availability - процент времени работы системы с учетом ее обслуживания, т.е. эта метрика может быть ниже
⚫️ Mean time between failures (MTBF) - время работы между отказами
⚫️ Mean Time To Repair (MTTR) - время восстановления после сбоя
4. Безопасность
Это соблюдение стандартов безопасности, защита от несанкционированного доступа, шифрование и т.д.
Тут можно потыкаться в метриках и потестить сайтики
#system_design
Писала тут, что начала проходить курс по SD. Решила вести собственные конспекты, чтобы лучше укладывалось в голове.
Зачем нужна эта система?
Отсюда определить фкц и нефкц требования:
Основные вот эти:
1. Производительность и масштабируемость
2. Отзывчивость
3. Надёжность и доступность
4. Безопасность
Это соблюдение стандартов безопасности, защита от несанкционированного доступа, шифрование и т.д.
Тут можно потыкаться в метриках и потестить сайтики
#system_design
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3🤔1
Как я забила всю оперативку
⭐️ Нужно было переложить табличку из кх в s3 через Airflow. Табличка небольшая, проблем быть не должно
Идея №1
1️⃣ Считать табличку из кх в pandas dataframe
2️⃣ Сохранить датафрейм в .csv файл
3️⃣ Залить в s3 через либу boto3
Пока тестирую и отлаживаю на 10 строках - все ок. Убираю лимит - и Airflow становится очень плохо, он не прогружается и не дает завершить таску 🥲
Смотрю в источник - там 12млн строк. Неужели pandas не может столько переварить? Очевидно, надо искать другой способ
Идея №2
Я раньше сталкивалась, что в кх можно прям запросом читать из s3. Вот так:
Оказывается, это работает и на запись!
В эту функцию можно добавлять разные настройки. Из полезного - разбить вашу табличку на несколько файликов. Примерно такой код у меня работает:
Что тут есть?
⚫️ {_partition_id} – это переменная, которая пробрасывается сама. Просто счетчик от 0
Если вставлять этот код в строку, нужно обязательно обрамить скобками {} дважды – иначе s3 воспринимает это по-другому и падает с ошибкой
⚫️ .gz – алгоритм компрессии файликов
⚫️ CSVWithNames – мы включаем названия столбцов первой строкой
⚫️ PARTITION BY [столбец] - можно выбрать существующий или просто задать рандомно
И этот метод работает просто в разы быстрее. Теперь табличка на 12 млн строк пишется за несколько секунд🙂
Идея №1
Пока тестирую и отлаживаю на 10 строках - все ок. Убираю лимит - и Airflow становится очень плохо, он не прогружается и не дает завершить таску 🥲
Смотрю в источник - там 12млн строк. Неужели pandas не может столько переварить? Очевидно, надо искать другой способ
Идея №2
Я раньше сталкивалась, что в кх можно прям запросом читать из s3. Вот так:
SELECT * FROM s3()
Оказывается, это работает и на запись!
INSERT INTO FUNCTION s3()
SELECT * FROM your_table
В эту функцию можно добавлять разные настройки. Из полезного - разбить вашу табличку на несколько файликов. Примерно такой код у меня работает:
INSERT INTO FUNCTION
s3(
'filename_{{_partition_id}}.csv.gz',
'S3_ACCESS_KEY',
'S3_SECRET_ACCESS_KEY',
'CSVWithNames'
)
PARTITION BY rand % 10
SELECT * FROM your_table;
Что тут есть?
Если вставлять этот код в строку, нужно обязательно обрамить скобками {} дважды – иначе s3 воспринимает это по-другому и падает с ошибкой
И этот метод работает просто в разы быстрее. Теперь табличка на 12 млн строк пишется за несколько секунд
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21 19👍3