Data Driven – Telegram
Data Driven
34 subscribers
84 photos
12 files
348 links
канал - записная книжка и дневник, ссылки и репосты интересных событий и статей, мысли и отзывы про то, что изучил самостоятельно
Download Telegram
Cоздание сквозных логов, настройка ETL в Apache NiFi и конфигурация Apache Flink. Обсудим инструменты дата-инженера на бесплатном митапе от билайна при поддержке JUG Ru Group.

20 декабря, 17:00, онлайн, бесплатно.

В программе:

Сергей Евсеев — «Как настроить ETL с JSON'ами в Apache NiFi». Сергей расскажет, как в Apache NiFi настроить пайплайн трансформации и сохранения JSON в хранилище данных и как с помощью Jolt и Avro уменьшить время и трудозатраты на его построение.

Никита Хилов — «Система сквозного логирования с передачей единого идентификатора процесса между независимыми задачами Airflow». Организовать систему пользовательских логов для периодических процессов несложно. Сложнее, когда ключ прекращает быть однозначным идентификатором процесса расчета. Никита расскажет, почему так бывает и как в команде создавали сквозные пользовательские логи в продукте.

Александр Булатов — «Apache Flink: Flink Table API & SQL». Александр расскажет, что такое Table API в Apache Flink, как выглядит создание Source и Sink для Table API & SQL и как Table API взаимодействует с DataStream API.

После каждого доклада вы сможете подискутировать с другими участниками и задать вопросы спикерам. Авторы лучших вопросов получат в подарок мерч от билайна — классные поясные сумки.

Регистрируйтесь и участвуйте — это бесплатно.
Forwarded from karpov.courses
Вы интересовались, когда выйдет Симулятор SQL, а мы обещали запустить его до Нового года. Хорошие новости: этот день наступил!

Симулятор будет полезен всем, кто работает или планирует работать с данными: от аналитиков и менеджеров до тестировщиков и разработчиков. Вы будете решать задачи на реальной инфраструктуре, составлять запросы к базе данных PostgreSQL, строить дашборды в Redash, а также проверять гипотезы и рассчитывать продуктовые метрики (и это далеко не всё!).

Знакомьтесь с программой и присоединяйтесь :)
Forwarded from Data engineering events (Николай Крупий)
👍1
может, кому-то будет полезно
👍1
Forwarded from Без aspera
Мифы и правда о поиске работы за границей

Это была второй по популярности тема в опросе, так что продолжаем. Извините, если мои тезисы больно бьют, но это так работает. Мы видим эти кейсы сотнями в месяц.

Всегда будут люди, которые скажут, а вот у меня друг подруги мамы сделал вот это, и все у него хорошо. Окей, я тут говорю про большинство и про статистику.

Миф 1: я здесь работал продактом/маркетологом/аналитиком в крупной корпорации. Значит буду работать на Западе CPO/CMO/CAO в международном стартапе.

Реальность: будет даунгрейд и/или переход в no name компанию/стартап на рядовую позицию. Чтобы прийти на повышение на Запад, надо буть ультра звездой в России, и то не факт, что выйдет.

Миф 2: буду расти на Западе так же быстро, как я это делал в России. Через три года буду директором.

Реальность: на Западе всё работает намного медленнее. Люди растут медленнее, топами становятся позже, на пенсию уходят поздно. Зайдите на Link и посмотрите на среднестатистический карьерный трек какого-нибудь VP из FMCG или даже из айти. Люди работают годами и десятками лет в одной компании и нарабатывают репутацию.

Миф 3. Через год буду получать +20-30% от того, что есть сейчас.

Реальность: В Европе (особенно в Великобритании. или Германии, например) не принято повышать зарплату сотруднику год от года. Вы договариваетесь на сумму в оффере и дальше по ней работаете ближайшие годы, пока/если не получите официальное повышение по должности.

Миф 4: получу оффер и перееду через две недели

Реальность: между оффером и вашим выходом на работу может пройти больше полугода.

Миф 5: необязательно знать язык страны, куда переезжаю

Реальность: без знания первого языка страны пробиваться наверх будет крайне сложно. Язык — это часть культуры, шуток, слов между строк. Формально можете знать только английский. Неформально — без языка никогда не стать полностью своим.

Миф 6: работодатель меня перевезет

Реальность: работодателю совсем не в кайф заниматься визами, и это доп.сигнал, чтобы выбрать того кандидата, у которого есть виза (при прочих равных)

Миф 7: за пару месяцев найду работу

Реальность: статистика нашей карьерной поддержки говорит, что поиск работы за рубежом занимает 6-12 месяцев

Миф 8: откликнусь на 100 вакансий, процентов 10 позовут на интервью

Реальность: процент положительного ответа (то есть вас приглашают на следующий этап) равен 1%. То есть, чтобы у вас было 10 приглашений, вам надо откликнуться на 1.000 вакансий, а не на 100.

Миф 9: ладно, на Западе всё сложно, но в ОАЭ и арабском мире, в целом, я буду нарасхват

Реальность: будете, если у вас есть местный знакомый или русский, который вас куда-нибудь посоветует и представит.

Миф 10: переехать можно по любой профессии, если я большой спец

Реальность: релокация открыта для технических специальностей где hard намного важнее soft в ежедневной работе и у которых четко очерчен круг навыков: разрабы, продуктовые аналитики, дата сайнтисты, UX дизайнеры, тестировщики, девопсы, дата инженеры. И, конечно, от уровня middle и выше.

P.S. Кстати, лучший курс по релокации на рынке ждет вас по ссылке на новогодней распродаже 🐶

#релокация
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Reveal the Data
📈 Dashboard Canvas 2.0 📈
Три года назад я придумал сделать шаблон сбора требований для дашборда. За это время его использовали много раз, а видео с рассказом про него на канале DataLearn от Димы Аношина посмотрели более 20 тысяч раз. За это время я получил много обратной связи и сам часто использовал шаблон, поэтому смог конструктивно его улучшить. Представляю новую версию!

Подробно, почему он стал таким, я недавно рассказал на конференции Flow, 👉 вот запись 👈, получилась интересная история развития фреймворка. Спасибо организаторам, они согласились выложить доклад в общий доступ сильно раньше, чем планировали.

А вот ссылка на Miro, где теперь есть инструкция, примеры и новая версия в pptx (ещё приложу её в комментарии). Совместно с идеей построения карты дашбордов получается полноценный алгоритм построения системы дашбордов в компании. Делитесь обратной связью и используйте в работе!
@revealthedata
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Alex E
Forwarded from Инжиниринг Данных (Dmitry)
На Хабре вышла статья о разных способах развёртывания Apache Superset (Docker, ВМ, Kubernetes). Автор рассказал обо всех плюсах и минусах и поделился подробной инструкцией на примере облака VK Cloud.

Это очень актуально, учитывая вставшую перед компаниями задачу по полному перестраиванию системы бизнес-аналитики. В современных реалиях развитие BI-решений российских вендоров осуществляются максимально быстро и качественно. У них есть лицензионная поддержка, регулярные обновления и возможность влиять на roadmap.

Читать

#реклама
Очень неплохая статья на английском для тех, кто хочет погрузиться в основное различие Data Vault 1 и Data Vault 2 - использование hash ключей. Разобраны вероятности появления коллизий, способы обхода и много всего интересного https://www.just-bi.nl/talk-about-data-vault-2-0/
Сам не смотрел, но как гляну - скорректирую комментарий.
Forwarded from Инжиниринг Данных (Dmitry)
Если вы только начинаете работать с Microsoft Azure, то вот вам отличная подборка про продукты Azure для аналитики:

Основной продукт это Synapse Analytics, внутри вы найдете все основные сервисы:
- Serverless SQL (аналог Amazon Athena)
- Dedicated SQL Pool (MPP SQL хранилище данных, аналог Redshift)
- Azure Data Explorer (возможно ближайший это ElasticSearch и Splunk)
- Power BI
- Spark Pool (аналог databricks) и замена Azure Databricks
- Synapse ML notebooks (аналог Spark MLlib) и как замена Azure ML
- Azure DevOps (аналог GitHub, Gitlab)
- Azure Data Factory (аналог Airflow, выполняет задачи оркестратора, есть UI или код)

Вот вводные видео:

Synapse Serverless и Synapse Dedicated:
🛵Synapse Espresso: Introduction into Synapse - Serverless SQL Pools
🛵
Synapse Espresso: Introduction to Dedicated SQL Pools
🛵Azure Synapse Serverless vs Dedicated SQL Pool
🛵Azure Synapse Analytics - Source Control with Git Integration

Delta Lake (Lakehouse):
🛵Delta Tables 101: What is a delta table? And how to build one?
🛵Synapse Espresso: Introduction to Delta Tables
🛵What is this delta lake thing?
🛵Explaining what a Lakehouse is!
🛵Get started with SPARK in Azure Synapse Analytics
🛵Talking DATA end to end with Buck Woody

Azure Data Explorer (Kusto):
🛵What is Azure Data Explorer (ADX, aka Kusto) ?
🛵FAST - Billions of rows with Azure Data Explorer (ADX)
🛵How to start with KQL?
🛵KQL - The Next Query Language You Need to Learn | Data Exposed: MVP Edition

Azure Data Factory (ELT)
🛵Introduction to Azure Data Factory

BI слой:
🛵What is Power BI?
🛵An introduction to Azure Analysis Services

ML:
🛵Machine Learning Experiences in Azure Synapse
🛵Machine learning with Apache Spark | Machine 🛵Learning Essentials
🛵Introduction To MLflow-An Open Source Platform for the Machine Learning Lifecycle
🛵Introduction to SynapseML


Задача Microsoft интегрировать все решения в единый интерфейс и возможно скоро мы узнаем про новый продукт🛺
Приглашаем на вебинар «Как готовить данные в Greenplum®»

🗓 Когда: 7 февраля в 12:00 (МСК) 

Архитектор Yandex Cloud расскажет о том:
🔹как выбрать оптимальную модель данных для хранилища;
🔹как хранить, загружать и обрабатывать данные в Greenplum: heap и append-optimized таблицы, индексы, сжатие, партицирование и шардирование данных, подключение к внешним источникам с помощью механизма PXF;
🔹как выявлять типовые проблемы производительности: анализ мониторинга и настроек кластера, чтение и анализ планов запросов;
🔹как оптимизировать производительность;
🔹как выполнять обслуживание кластера Greenplum.

Также спикер проведёт короткую Q&A-сессию. Присылайте вопросы в чат трансляции — спикер ответит на них в прямом эфире.

Участие бесплатное. 

➡️ Регистрируйтесь
Forwarded from Инжиниринг Данных (Dmitry)