Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Презентация в Power Point
Всем привет! Меня зовут Дмитрий Аношин и я работаю в Amazon в роли Data Engineer с 2016 года, я всегда стараюсь развиваться в области BI/DW и поэтому через меня проходит много контента, рад поделиться контентом и опытом. Спасибо, что подписались, здесь я смогу делать следующие вещи:
1)Шарить новости из мира BI/DW/Big Data и тп, так как все время что-нибудь читаю, чтобы не отставать от рынка + могу на русском переводить (теоретически)
2)(В Амазон я управляют BI Community - BI Tech Talks, сейчас там больше 100 комманд BI из Амазон по всему миру, и я провожу онлайн ивенты через Amazon Chime - 1 час презентация. Обычно внутренние команды делятся опытом, что очень трудно сделать, у всех нет времени, или я нахожу профессионалов в LinkedIn и прошу сделать презентацию про их любимую тему, как правило все соглашаются, поэтому сюда я буду заливать Видео+Презентацию с этих мероприятий. Если вы хотите кого-то услышать, напишите мне, я напишу ему, попрошу провести ивент
3)Могу рассказывать про возможности работы за границей, я на этом "собаку съел", я отвлекался на вакансии с 2010 года по всему миру через indeed.com, поэтому есть информация в целом как чего и куда + есть знакомые кто работают за границей в этой области
4)Могу рассказать про резюме, я стал мастером COPY/PASTE и перепробовал разные варианты + cover letter (но не как у всех, а презентация через power point в slideshare, у которой есть пиксель и я могу смотреть активность работодателя и его engagment с моей кандидатурой:)
5)Могу писать про книжки, которые косвенно относятся к BI/DW
6)Могу писать про то как написать книжку, даже если вы не знаете технологию достаточно
7)Могу писать про английский, как его учить для работы
8)Есть еще одна очень интерсная область, я сделать 6-7 друзей BI developer, один из них даже в Ванкувере, до этого он работал там на стройке. Все эти товарищи не знали про BI и что это такое, но я им гаранитированно помог найти работу, но они впахивали 4-6 месяцев чтобы подтянуть знания, один раз это не помогло, и я проходил собеседование за парня из Омска по Skype в Московскую компанию и все получилось, у меня был спортивный интерес, как можно обойти систему:)
Наверно можно много всего, посмотрим как пойдет. Получается интересно, когда я был в России, я писал на английском, а теперь в Канаде, я пишу на русском=) По всем вопросам пишите в Телеграм @dimoobraznii или https://www.linkedin.com/in/dmitryanoshin/.
👍3
Инжиниринг Данных pinned «Всем привет! Меня зовут Дмитрий Аношин и я работаю в Amazon в роли Data Engineer с 2016 года, я всегда стараюсь развиваться в области BI/DW и поэтому через меня проходит много контента, рад поделиться контентом и опытом. Спасибо, что подписались, здесь я смогу…»
Если вы все еще пройти лабу по Snowflake + Tableau, то вперед, ресурсы все еще доступны. PS Snowflake это cloud DW (как Redshift, BigQuery) но круче, или это на меня так подействовали их маркетинг.
PS приглашайте друзей!
This media is not supported in your browser
VIEW IN TELEGRAM
Past-Present-Future-DW-FINAL.pdf
4.1 MB
Лично я всегда люблю White Papers от вендоров. Там часто много маркетинга, но также бывает много полезной информации, которую можно использовать как для общего понимания технологий, тренда на рынке, так и для своих презентация. Вот например, Snowflake White Paper - The Past, Present and Future of DW. How understanding four decades of technology evolution can help you choose the right solution today (Прошлое, настоящее и будущее технолоний хранилищ данных. Как понимание эволюции технологий (баз данных и хранилищ данных) в течение последний 40 лет, помогут выбрать современное решение (хранилище данных). Понятное дело, тут расписано какой, классный Snowflake (он и правда классный), но так же здесь есть история развития технологий для хранилищ данных + требования к современным системам хранилищ данных.
Публиковать интересные White Paper или нет?
Отдельно хочу отметить про знание английского языка. Теоретически я могу переводить, но это будет занимать дополнительное время. Если посмотреть на это задачу с другой стороны, то английский язык MUST HAVE, так как все мы работаем с западными компаниями, где документация или интерфейс на английском. Из плюсов, когда вы разберетесь в терминологии, то все будет намного проще. Если вы не знаете языка, то надо начинать учить, без него будет сложно пробиться. Я планирую написать несколько вводных постов.

1й будет про основные термины по работк с данными (BI, DW и тп) и объясню их простыми словами. Там нет ничего сложного, сложное есть в Machine Learning, так как нужно знать математику.

Про профессии я тоже напишу. Краткий ответ ML это круто, и можно за 2 года (мое мнение) хорошо разобраться в этом и прокачать математику, но нужен реальный опыт, учить в вакуме это не то. Я уверен, что по ML куча специалистов, которые расскажут как лучше прокачаться в этой области.

2й пост напишу про английский язык, как его подучить и про то как я себя изматывал с очень низким КПД

3й пост я напишу про ресурсу, где можно учиться

А там как пойдет. Все что я пишу, это не значит, что это правильно или это единственный вариант развития событий. Я верю, что не бывает людей, которые не правы, просто у кого-то занимает больше время, чтобы получить тот-же результат. Главное это конечная цель и мотивация (хотя как пишет Harvard Business Review телеграмм канал) она не работает, нужна дисциплина.
Вот кстати самый крутой ресурс, который я встречал, в нем есть и математика и Computer Science, алгоритмы, и многое другое, по сути базовые вещи и они меняют формат подачи. https://brilliant.org/
SnowflakeDataeBook.pdf
3.6 MB
В догонку к Snowflake - Cloud DW for Dummies.
Как и обещал, расскажу про терминологию, постараюсь просто, чем проще, тем лучше, да?:)
Очень часто одно и тоже понятие, может иметь множество наименований. Как мы знаем, все, что мы делаем с данными, мы это делаем для того, чтобы добавить ценность бизнесу, работадателю, себе. Я всегда думаю о том, как моя работа может добавить ценности клиенту, коллегам, бизнесу. Я думаю, с этим все согласятся, но по факту, многие работают работу и особо не паряться, и в этом нет ничего плохого, у каждого человека своя история. Что-то я отвлекся, про термины, с которыми мы встречаемся ежедневно в той или иной интерапретации. Каждый термин имеет много определений, и каждый, кто работает в этой области может добавить или изменить что-то, поэтому не судите строго.

Business Intelligence (BI) - я рассматривают это как верхушку всего аналитического решения, которое упрощает доступ к данным для бизнес пользователей, то есть это инструмент для работы с данными, который позволяет пользователям без технических знаний, работать с данными (как правило подключаясь к базе данных или правильней сказать к хранилищу данных). Причем, пользователь видит знакомые для себя понятия, например Дата Продажи, Сумма Продажи, Кол-во товаров и тп. Если у бизнеса есть вопрос, то он сможет найти на него ответ с помощью BI решения. Поэтому, для простоты можно рассматривать это как инструмент, например Excel, Tableau, Qlik, Power BI, Прогноз и тп, все эти решения, в теории, должны облегчить жизнь бизнес пользователям и позволить им быстро принимать решения и отвечать на свои вопросы. Если очень упростить, то анализ ваших расходов в Интернет Банке, это тот же BI.

Self-Service BI - то есть, BI разработчики хотят, чтобы бизнес от них отстал с глупыми вопросами и сами все использовали BI инструмент, чтобы отвечать на свои вопросы, при этом они снабжают пользователей документацией, тренингами и мотивируют на подвиги. Звучит просто, но на практики (моей) работает плохо или совсем не работает.

Data Visualiztion - визуализация данных - неотъемлемая часть BI, так как доказано, что человек воспринимает графическую информацию лучше. Исключение из правили, график пирог (Pie Chart), лучше про него забыть:)

Data Warehouse (DW) - хранилище данных, ну или просто база данных. Когда у вас мало данных, всеравно, где их хранить, табличка в Excel или MS Access могут быть вашим хранилищем данных, куда вы потом подключите BI инструмент. Зато если у вас много данных, наверно, так много, что бесплатный postgresql не справляется, то вам нужно аналитическое хранилище данных, например teradata, или Vertica, или еще чего, что стоит дорого. Очень часто, мы слышим термин MPP (Massive Parallel Processing), то есть наше аналитическое хранилище данных нее просто, а умеет горизонтально масштабироваться, то есть представьте, у вас 1 стиральная машина и куча стирки, вы покупаете еще 2 машины и теперь можно стирать одновременно в 3 раза больше, это и есть MPP архитектура и горизонтальное масштабирование (теперь вас будет сложней застать врасплох на собеседовании). Цель хранилища данных собирать данные или даже накапливать данные (исторически) для анализа, принятия решения или использования их для глубокой аналитики и прогнозирования. Ну или просто большая база данных, где собираются данных о всех активностях вашего бизнеса. Обычно данные хранятся в таблицах, то есть столбцы и строки.

SQL Structure Query Language – язык управления баз данных. То есть для того, чтобы работать с базой данных или хранилище данных (что в каком-то смысле одно и тоже), я имею ввиду, спрашивать (query – писать запросы) мы используем SQL (кстати на английском звучит СИКВЕЛ, а не ЭСКУЭЛ), например, покажите мне список продуктов: SELECT PRODUCT_NAME FROM PRODUCT; Обычно, люди хотят BI, чтобы не учить SQL и чтобы BI создавал SQL за нас, когда мы перетягиваем мышкой (drag and drop).

OLTP – так принято называть транзакционную базу данных, например, кассовый аппарат это OLTP, бэк энд онлайн магазина (база данных), это OLTP. Это база данных, которая позволяет быстро делать операцию INSERT, то есть добавление новых с
трок, зато выполняет медленно аналитические запросы, поэтому нам нужна DW, чтобы мы могли задавать вопросы (писать аналитические запросы)

OLAP – В народе называют КУБ, бывает ROLAP (реляционный) и MOLAP (многомерный). По-простому, для меня это просто результат запроса сохраненный в КЭШ. Реляционный куб создается, когда мы делаем в BI drag and drop и создаем отчет (BI создал SQL, выполнил его, сохранил результат и мы работаем с ним), Многомерный куб создается отдельно, там прописываются иерархии и тп, и потом мы строим Кросс Таблицу (Pivot) и анализируем. И часто, там не обойтись без языка MDX, типа SQL но для многомерных кубов. Самый популярный продукт Microsoft Analyses Service. Я всегда обходил все это дело стороной, и вроде обошлось. В целом, если есть возможность, лучше с ним не заморачиваться, да и вообще для меня вся это OLAP терминология устарела.

Dimension – измерение, как правильно в BI инструменты поля/объекты типа Дата, Имя, Название Продукта и тп, являются измерениями.
Measure – мера, показатель, то есть все что можно агрегировать, кстати в SQL мы для этого используем GROUP BY, а в DW мы может создать таблицу фактов, где уже будут пересчитаны метрики, но это уже головная боль архитектора хранилища данных, если такой у вас имеется.

Staging – так называется область в DW, куда складывается черновые данные или копируются сырые данные из систем источников, например OLTP или Google Analytics, чтобы потом уже создать таблицу фактов и тп.

Data Model – модель данных (не путать с моделью для machine learning). Архитектор DW рисует модель данных, бывают разные подходу, тоже популярный вопрос на собеседование, все спрашивают про него, но мало кто использует, вот и я тоже, не очень использую. А ответ такое, бывает По Инмону, когда модель данных в 3й нормально форме, а бывает по Кимпбалу, когда у нас есть витрины данных. У Инмана, модель покрывает весь бизнес и ее легко дополнять, а вот у К. сложней, там витрина данных как правило покрывает один бизнес-процесс или департамент, зато быстрей внедрить. У К. как раз есть понятие Dimensional Modeling, то есть, когда у нас есть таблица фактов, а по краям Таблицы измерений, и у нас получается схема звезда. (На собеседовании, я бы спросила, а в чем отличие от схемы снежинка?), есть еще и другие подходы, например Data Vault, это уже advance level, я пока не пробовал.

ETL – extract transform load, то есть мы просто извлекаем данных, трансформируем и загружаем, обычно это делается с помощью ETL инструментов, где есть GUI и мы мышкой все можем сделать (можно и на языке программирования). На самом деле это процесс правильно называть Data Integration (интеграция данных) и может быть ELT, то есть мы данные извлекаем, загружаем в DW, и потом трансформируем, используя мощность аналитического DW. Есть бесплатные инструменты Talend, Pentaho DI, или платные Informatica или облачные Azure Data Factory, AWS Glue. Многие любят Python. Я люблю Matillion ETL (Cloud ELT для AWS Redshift).

Big Data – есть понятие большие данные, но сложно сказать, насколько данные должны быть большими, чтобы их так называли. Чаще используют так для названия инструментов для работы с большими данными, как правило это Hadoop и его аналоги. Мое мнение, что сейчас Hadoop уже не так популярен, и его любят люди, которые предлагают услуги с Hadoop, потому что это очень сложные и дорогие проекты. Например, говорят, что. AWS S3 убило слона, но спорить не буду. Например, до сих пор использую его, как вычислительную мощность, чтобы обрабатывать логи кликстрима, но можно и без него обойтись.

Data Lake – озеро данных, как правило дополняет современной аналитическое решение. Обычно это файловое хранилище, например AWS S3 или Azure Blob Storage (просто файловое хранилище, типа Google Drive, но работает в экосистеме аналитических решений)

Data Mining/Data Science/Machine Learning/AI – по этим ребятам лучше комментировать не буду, так как это уже смежная область, но добавлю, что они часто входят в аналитическое решение организации, и существует куча успешных бизнес кейсов по использованию этих технологий. Та
к же они встраиваются в BI решений, чтобы опять же упростить жизнь конечных пользователей. Например, NLP (управление голосом или текстом), умные JOIN между таблицами, прогнозирование – все это возможности Tableau. Так же по опыту замечу, что часто обычная статистика может принести ощутимую пользу, поэтому прежде чем создавать нейронную сеть, попробуйте найти скрытые зависимости в ваших данных с помощью статстики.
Один из самых знаметых авторов, кто пишет о работе с данными и особенно о визуализации данных - это Стефан Фью (Stephen Few). Если у вас стоит задача создавать красивые и информативные дашборды (не важно где), то обязательно прочитайте его книгу ( у него их несколько). Иногда мне кажется, что он был консультантом Табло и помогал им создавать продукт. Хочу поделиться с вами интересной статьей, которая была написана 27 июня 2017 в его блоге - “Basta, Big Data: It’s Time to Say Arrivederci”, статья про хайп вокруг термина Big Data и о том как вендоры его используют, чтобы продавать свои решения подороже, но часто это все buzz words (маркетинг). https://www.perceptualedge.com/blog/?p=2670
👍1
26 ноября будет AWS re:Invent, это крупнейшая конференция в Северной Америке об облачных вычислениях, AWS продуктах, решениях, партнерсктх решения и многое другое. Очень интерсно смотреть Keynote сессии, по ним можно понять куда двигается рынок. Кстати, я планирую сдавать AWS Solution Associate экзамен, это такой вводный экзамен по AWS продуктам, не сложно получить, но говорит о том, что вы знакомы с облаком и AWS. https://reinvent.awsevents.com/learn/livestreams/
AWS klades znanii, vot naprimer AWS Online Tech Talks, tut mojno naiti na lubuu temu webinar i samoe glavnoe vse mojno besplatno poprobovat. Ja naprimer tak uchil Amazon Redshift (besplatno na 2 mesyaca) https://aws.amazon.com/about-aws/events/monthlywebinarseries/
#проанглийский
Все знают, что английский язык очень нуже в ИТ, так как практически все решения западные или часто мы работает в иностранных компаниях, где есть иностранцы, и наш рост завивисит от анлглийского. Недавно, читал статью в Harward Business Review, и оказалось, плохой английский один из барьевро для карьерного роста в западных компаниях. Этого нет в требования, просто так показывает практика.

Какие есть варианты учить английский?
-Курсы английского 2-3 раза в неделю по 1,5-2 часа
-Курсы английского онлайн
-Курсы английского с носителем языка онлайн, обычно 1 час, 2-3 раза в неделю
-Поехать в школу на 3-4 неделю в Англию или на Кипр
-Доп курсы английского на работе (2-3 раза в неделю по 1 часу)
-Курсы английского выходного дня
-Интенсивы
-Возможно некоторые, пользуются гипнозом.

Эти варианты, первое, что приходит на ум. Все зависит от уровня английского, и если у вас был английский в школе или в университете как обычный предмет, то значит ваш уровень английского не на высоте. Возможно вы уже приноровились читать документацию, но писать и говорить это не просто.

Как было у меня? У меня английский был в школе, потом в Университете. Я знал топики, например о России или достопримечательностях, но я не умел писать и говорил очень плохо. Вообще всем знакомо понятие языковой барьер и он действительно существует.

Я пользовался многими вариантами, которые сверху, но они давали очень низкий КПД, и главаня причина это отсутвия эффекта погружения. Когда мы занимаемся английским, мы все равно находимся мыслями в русско язычном прострастве, продолжаем думать на русском и отвлекаться. Отсюда и отсутствие результата.

Что я делал:
1)Самое крутое, что я когда либо делол, это волонтерство через http://world4u.ru/, я выбирал проект в Европе, и ехал на 1-2 месяца, жил в интернациональном лагере, где говорил на английском. Так я победил свой языковой барьер. Цена вопроса виза+билет на самолет. Друзья ездили в Штаты работать, тоже было эффективно.
2)Начиная с 2010 года я искал работу за границей, иногда случались собеседования и оттачивал терминологию и рассказ о своей профессиональной деятельности. Лучший сайт для поиска https://www.indeed.com/worldwide тут можно любую страну выбрать и вперед, так же можно посмотреть на предложения. Кстати возможно смотреть аналитику по ключевым словам, например Oracle vs Redshift и тп.
3)Банальные вещи как: Смотрел сериалы с субтитрами, слушал подкасты, читал проф литературу на англ, было 2 репититора по Skype носители языка (больше как подготовка к IELTS). То есть максимум языка.

Был показательный случай. Я сдал IELTS тест на 6-6.5. Мне нужно было 7 по всем предметам для Австралии. 4ре месяца я занимался 7 дней в неделю английским, у меня былы курсы на работа, просто курсы, 2 преподавателя носители языка. В таком режиме нон стоп, я был 4 месяца, и что вы думаете? Я сдал IELTS на теже балы, только письмо на пол бала выше. Это был финиш, тогда я окончально осознал важность погружения, а все остальное очень не эффективно. В итоге, подался в Канаду, там были ниже требования:)

Кстати, если кому нужно IELTS прокачать, лучший вариант на rutracker org скачать PDF учебники по IELTS, там экзамены прошлых лет, обычно 4 экзамена в одной книге, можете попробовать свои силы.

Поэтому мой вам совет, если вам нужен английский, старайтесь найти вариант с полным погружением, ни одна вечерняя школа или носитель языка по скайпу вам не поможет, нужно минимум месяц куда-нибудь уехать, где нет русскоговорящих, тогда вы заполните пробелы и выйдите на новый уровень. Кстати на Кипр, ехать тоже не вариант, так там больше тусовка, чем школа.
👍1
В приложении презентация - Best Practices for Migrating Big Data
Workloads to AWS (Про миграцию решения для больших данных в облако). Здесь имеют ввиду On-Premise Hadoop (то есть Hadoop кластер, который наодиться у вас в компании и вы тратите много ресурсов на его обслуживание). Не смотря на то, что презентация про AWS, такое же можно сделать в Azure и Google Cloud. В России есть Yandex/Mail Cloud, которые должны обеспечивать подобные решения. В целом презентация про подход.