Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
4) Что работает в России, может совершенно не работать за границей.
Все виды графиков, которые вам могу понадобиться:)
#diversity #разнообразие
Попалось интересная подоборка книг для женщин на внутреннем сайте Amazon от VP Коммуникаций https://www.linkedin.com/in/suzanneskyvara/

В Амазоне очень сильное комьюнити женщин, например Women in Tech и тп, и это здорово, потому что, девочки очень классные инжинеры и аналитики, если у вас мало женского пола в команде, обязательно наймите!

5 Career Books for Women That Are Not “Lean In”
Suzanne Skyvara is the Vice President of Communications at Goodreads -- the world’s largest site for readers and book recommendations, and an Amazon subsidiary. Since 2007, Goodreads has been helping people find and share books they love.

One way readers share what they are reading is by creating personally curated lists, and in the list below, Suzanne shares 5 Career Books for Women That Are Not “Lean In”.

"Working at Goodreads means I get to indulge not only my love of books, but also my curiosity about new ideas. In particular, I’m always looking for new perspectives for women and careers. “Lean In” tends to be the default recommendation, but there are several other strong books worth exploring. The following five books are all ones that have given me information I’ve either used myself and/or found myself sharing frequently with others."

Вот книги:
Playing Big: Find Your Voice, Your Mission, Your Message https://www.goodreads.com/book/show/25310678-playing-big
"I have recommended or given this as a gift to so many women and have yet to find someone who didn’t find it helpful. The section on fear, with 15 different ways to tackle it, provides insights that I haven’t seen in any other book. And I find myself frequently telling people about the chapter on “hiding." “Hiding” is where we think we are diligently moving forward but, in reality, are finding ways to stall and procrastinate on a new and scary project. Mohr also talks about how what helped a woman “win” when at school,​​ fails to translate into successful strategies in a career."

How Women Rise: Break the 12 Habits Holding You Back from Your Next Raise, Promotion, or Job https://www.goodreads.com/book/show/36204301-how-women-rise
"As one Goodreads reviewer noted, this should almost be called “What Got You Here Won’t Get You There: For the Other Half of the Workforce.” Goldsmith wrote the bestseller What Got You Here Won’t Get You There based on his experience coaching (predominantly male) CEOs, but he realized that women face different challenges so he teamed up with women’s leadership expert, Helgesen, to write this insightful book. Their push for women to do a better job of claiming their achievements is a must-read — all too often, women put their heads down, do the work, and believe that this will earn them recognition. It’s one of the major habits that hold women back so read this book to learn how to overcome it. And their chapter on “ruminating” is a very healthy reminder for women about how to move on from mistakes — I really liked how Helgesen and Goldsmith used their own experiences to show how women and men handle failure differently."

The Myth of the Nice Girl: Achieving a Career You Love Without Becoming a Person You Hate https://www.goodreads.com/book/show/35721133-the-myth-of-the-nice-girl
"Fran Hauser, who has held senior positions at Time Inc, People, and Moviefone, and is now a start-up investor focused on female founders, provides an excellent mix of theory with practical advice in her book. While it is a little lightweight in the beginning, the book includes a lot of valuable advice. I appreciated how Hauser shares her own mistakes to show readers how everyone’s road to success has multiple hard lessons along the way. In her chapter about investing in yourself, she gives some of the most actionable tips I’ve seen on networking and finding a mentor — and everyone should read her section on why asking to pick someone’s brain is the kiss of death!"
The Right-and Wrong-Stuff: How Brilliant Careers Are Made and Unmade https://www.goodreads.com/book/show/34523809-the-right-and-wrong-stuff
"While Hauser gives great tips on how to find a mentor, if you’re struggling to make that kind of connection, reading Cast’s book is an excellent next step. It’s like sitting down for a series of insightful conversations with an experienced, supportive leader. While today’s business world is leaning into “focusing on your strengths,” Cast wants to help people avoid the kinds of things that can derail or limit a career. His “Derailer Assessment” was developed and tested with MBA and executive students at Kellogg School of Management to understand which traits and behaviors are holding you back. A second quiz is about understanding what motivates you at work; the five fundamental factors are achievement, affiliation, power, autonomy, and purpose. I was pretty convinced I knew what motivated me, but my results led to an ‘a-ha’ moment for me."

Organize Tomorrow Today: 8 Ways to Retrain Your Mind to Optimize Performance at Work and in Life https://www.goodreads.com/book/show/24693651-organize-tomorrow-today
"This will feel like a very “male” book with lots of sports analogies and anecdotes involving male professionals, but I highly recommend women read it for two reasons: 1) there are some great organizational strategies that will really help you prioritize for success, and 2) there is a useful section on communications. A mentor of mine once told me that your leadership potential is judged on how well you communicate and I see it all the time in meetings. People who are crisp with their answers earn more respect from leaders. If you are down in the weeds with your answers, you’re viewed as being down in the weeds in your work."
#чтение
Если честно, я не люблю читать. Но чтение, это посути единственный источник знаний для меня. В своем канале, я буду писать про хорошие книги, которые я читал или которые рекомендуют в Амазон для развития сотрудников. Читайте проф литературу обязательно, там вы найдте много интресного и полезного! Кстати на #матемаркетинг, я получил кнингу Супербоссы. Сегодня мне попалась интересная мысль, она будет интересный для HR тоже. Как правило мы хотим брать на работу людей с высшим образование (не дай бог, человека отчислили) и еще мы хотим, чтобы он работал на одном месте не меньше 2-3х лет. Я тоже в это верил, но чувствовал, что-то здесь не так. В книге была мысль о том, что если человек отчислили из университета, то это не значит, что он глупый, он просто независимый и им сложнее управлять. А если человек часто меняет работу, это не значит, что он плохо работает, это значит, что ему скучно на работе. Как-то так, поэтому надо избавляться от шаблонов, если такие есть. Не стесняйтесь быть собой.

Выше пост был про книги для девушек. У Амазон есть книги для всех. Сегодня будет список для топ менеджеров, их называют S Team (Senior VP), они обязательны к прочтению.
Creation: Life and How to Make it by Steve Grand http://www.amazon.com/Creation-Life-Make-Steve-Grand/dp/0674011139

The Innovator's Dilemma: The Revolutionary Book that Will Change the Way You Do Business by Clayton Christensen http://www.amazon.com/Innovators-Dilemma-Revolutionary-Business-Essentials/dp/0060521996

Moneyball: The Art of Winning an Unfair Game by Michael Lewis http://www.amazon.com/Moneyball-Art-Winning-Unfair-Game/dp/0393324818

Slack: Getting Past Burnout, Busywork, and the Myth of Total Efficiency by Tom Demarco http://www.amazon.com/Slack-Getting-Burnout-Busywork-Efficiency/dp/0767907698

The Black Swan: The Impact of the Highly Improbable by Nassim Nicholas Taleb http://www.amazon.com/Black-Swan-Improbable-Robustness-Fragility/dp/081297381X

Steve Jobs by Walter Isaacson http://www.amazon.com/Steve-Jobs-Walter-Isaacson/dp/1451648537

By Jim Collins
Built to Last: Successful Habits of Visionary Companies http://www.amazon.com/Built-Last-Successful-Visionary-Companies/dp/0887307396
Good to Great: Why Some Companies Make the Leap...and Others Don't http://www.amazon.com/Good-Great-Companies-Leap-Others/dp/0066620996

By Patrick Lencioni
The Three Signs of a Miserable Job http://www.amazon.com/Three-Signs-Miserable-Job-Employees/dp/0787995312
The Five Dysfunctions of a Team http://www.amazon.com/Five-Dysfunctions-Team-Leadership-Fable/dp/0787960756
Death by Meetinghttp://www.amazon.com/Death-Meeting-Leadership-Fable-About-Business/dp/0787968056
The Four Obsessions of an Extraordinary Executive http://www.amazon.com/Four-Obsessions-Extraordinary-Executive-Leadership/dp/0787954039
The Five Temptations of a CEO http://www.amazon.com/Five-Temptations-CEO-Leadership-Lencioni/dp/0470267585

(Я уверен, все они есть на русском)

Из этого списка я читал только From Good to Great, и действительно, мне потом было любопытно смотреть на мою компанию и лидеров, и смотреть насколько они соответствуют или не соответствуют критериям.

С 3мя маленькими детьми, я читаю сейчас про Карика и Валю, но скоро они научаться читать и каждый день мы будем читать 30-60 минут перед сном, и это будет так же как почистить зубы.

Я лично еще слушаю аудио книги, мне на работу 15 км на велосипеде (электро😎) а это 45 минут, как никак.
👍2
Я заказал себе новую книжку - How to Measure Everything https://www.amazon.com/dp/1118539273 Поделюсь интерсным, если что найду.
#dataengineering
Если вы работаете с текстом, особенно в случае, когда у вас есть форма для ввода данных, то у вас возникает проблема с качеством данных, вам необходимо чистить данные. Вот какие используются техники (их много), я укажу несколько наиболее популярных. (Я думаю вариантов очень много, и может оказаться, что мои примеры не самые лучшие).

Произношение – алгоритм находит слова, которые звучат похоже. Для такой задачи используется алгоритм Metaphone 3, который индексирует слова по их произношению. Этот алгоритм используется для большинства проверщиков грамматики (как мне его не хватает в Телеграм🙈). К сожалению, он работает для English words.

Схожие символы – алгоритм находит и группирует значения у которых буквы или цифры схожи. Используется ngram fingerprint алгоритм, который индексирует слова, по их уникальным символам после удаления знаков препинания, пробелов и дублей. Данный алгоритм поддерживает все языки. Например, такой алгоритм поймет «Дмитрий Аношин» и «Аношин, Дмитрий», потому что обе эти строки имеют одинаковый ключ. К сожалению, этот алгоритм не учитывает произношения и строка «Антон Шмирдий» будет иметь такой же ключ.

Орфография – алгоритм находит и группирует текстовые значения, у которых схожая орфография. Используется алгоритм Levenshtein distance, который вычисляет расстояние между двумя значениями с использованием фиксированного порога по умолчанию. Затем он группирует их вместе. Этот алгоритм поддерживает все языки.

Теперь возникает вопрос, кто должен это делать? В идеале аналитик данных (data scientist), кто хорошо разбирается в алгоритмах и имеет опыт с подобными задачами, строит модель на репрезентативной выборке, затем инженер данных или ETL разработчик) автоматизирует процесс загрузки данных, их очистку и добавляет модель в процесс загрузки данных. Его задача, масштабировать решение и сделать его эффективным и быстрым, а задача аналитика, сделать модель наиболее точной.

Если вы один, то лучший вариант это google, найти, например, пример python или R скрипта, и попробовать его использовать для своих данных.

Такие задачи важны для Market Place, когда у вас есть Продавцы и Покупатели. Как правило, продавцы загружают свой товар самостоятельно и используют freeform для заполнения описания, и тут начинается самое веселое. Представить, допустим у вас 400млн уникальных товаров от 10 тысяч продавцов, и вам необходимо правильно разбить на категории ваши продукту, так как покупатели будут искать товары в определенных категориях, и, если «Постер» попадет в раздел детских игрушек, его будет сложней купить. Часто обогащения данными недостаточно. Например, современную книгу можно идентифицировать по коду ISBN. А если вы продаете книги до 1967 года (коллекционные), то вам ничего не остается, кроме как воспользоваться Machine Learning и постараться «прочитать» описание товара.
#dashboard #datavisualization
Какой самый быстрый способ получения business insights? Конечно же, череж dashboard. С появлением Tableau, планка по качеству визуализации данных значительно поднялась. И таким динозаврам, как SAP BO, Microstartegy, Oracle BI, Cognos, Miscrosoft Reporting Service стало тяжело, и все бросились создавать аналоги Tableau, у каждого вендора есть свой аналог. Несмотря на то, что Tableau лидер и всем он нравится, у него, на мой взгляд, есть одна большая проблема – мы не можем создать единую модель данных. Каждый Tableau Data Source – это лишь одна область бизнеса. В крупной компании, невозможно все засунуть в один источник данных, и мы создаем много источников, так же, простота интерфейса и Self-Service позволяет на создавать быстро много Tableau Workbooks, Tableau Data Sources, без какой-либо документации. То-есть Tableau, круто, когда у вас человек 20, а если 100, 1000, 30000 (например, Wells Fargo) пользователей, то необходимо создавать множество правил (Data Governance) и неукоснительно следовать им.

Возвращаюсь к дашборду. Всем нужен дашборд. С чего начать? Лучше начать с того, чтобы посмотреть какие они бывают. Самая лучшая книга – это The Big Book of Dashboards. И я случайно увидел Pdf этой книги - https://yadi.sk/i/rRBfJrjI3QCCyQ. Дашборды в этой книги созданы в Tableau, но это не важно, вы можете такой же создать, где угодно. Зато в книге хорошо раскрыты принципы и методы.

А есть ли shortcut (короткий путь) для создания дашбордов? Да он есть. В 2015 году я работал в Черногории в отделе маркетинга, и там я попробовал https://www.klipfolio.com (сегодня я увидел, что у них появилась бесплатная версия, раньше не было. Клипфолио позволяет подключаться напрямую к любым источникам данных и обновлять данные в реальном времени. Мы например, повесели у нас в отделе большой телевизор и вывели все метрики на экран, включая результаты A/B тестов. В Амазоне, я не могу ее использовать, у нас все строго. Амазон очень серьезно относиться к безопасности данных.
🐳1
#зарплаты

Для меня самый интересный вопрос, всегда был о зарплате. Всех своих знакомых я всегда спрашивал сколько они зарабатывают, и сейчас, я все равно интересуюсь этим вопросом. Зачем это? Все просто, понимая разброс зарплаты вы можете понять:
1)Сколько вы теоретически сможете зарабатывать максимум в своей индустрии?
2)Какие возможности роста у вас есть в вашей компании?

Если вы читали книгу «Цель» (Goal by Goldratt), то в ней есть одна простая идея, цель любого бизнеса зарабатывать деньги. (Если не читали, то прочитайте, я еще вернусь к этой книге. Она написана как роман, и читатель вместе с героями думает над решением бизнес проблем, очень интересная). То же самое и у нас, мы ходим на работу, чтобы зарабатывать деньги. На собеседование, мы можем рассказывать, что зарплата не важна (я так и делал/ю), но по факту это важный фактор, (вы можете со мной не согласится, и это нормально, чем больше мнений, тем легче найти, то, что действительно правильно для вашего случая). Зарплата не важна в начале карьеры, можно хоть бесплатно работать, ради перспективы, но вы должны знать уровень зарплат, чтобы знать, что просить и на что рассчитывать. Если попросите слишком много, вы ничего не получите, если попросите мало, то получите маленькую прибавку. Например, работаю с данными, я иногда имел доступ к базам данных HR, но и конечно же я всегда интересовался зарплатами;)

Всегда интересуйтесь рынком и уровнем зарплат. Когда я работал в Москве, у меня было любимое хобби проходить собеседования, мне это очень нравилось, даже если мне не нужна работа, я всегда с удовольствием проходил собеседования, поэтому мне было проще помочь другим устроиться на работу. Если коротко, нужно говорить то, что хочет услышать работодатель, по меньше говорить «мы делали», нужно говорить: «Я делал». Вам нужно знать «боль» индустрии, и говорить про это, говорить как вы можете решить конкретную «боль» и как вы это раньше делали, даже если не делали.

Про цифры. Возможно, у меня немного устаревшие данные по нашей индустрии, но тем не менее:
-Начало карьеры – 50к (даже если у вас нет опыта, но не забудь пройти какие-нибудь курсы онлайн)
-1-2 года работы – 90-100к
-2-5 года работы – тут самое интересное, очень много факторов тут, но это будет 120-160

Дальше начинается самое интересное (все цифры настоящие), по факту вам будет сложно получать больше, но можно найти хорошую вакансию, например пойти Архитектором в банк или Старшим разработчиком, и у вас будет 250к. Можно пойти работать Pre Sales к вендуру и получать бонус (например, при зп 200к в месяц получать в конце года 1-2млн рублей). Можно пойти начальником в банк, уже 300-350к (обычно банки платят лучше). Можно попробовать открыть ИП, и делать консалтинг со ставкой 25к в день. Так же я встречал зп по 350к (опять же знаю про банки) на роли архитектора или старшего специалиста по внедрению enterprise business application. Еще могут быть и бонусы.

В общем мой совет, если вы не знаете сколько получает в вашей отрасли в среднем и максимум и сколько вы можете зарабатывать через 1,2,3 года, то вы плывете по течению, и работодатель воспользуется этим и даст вам минимум. Про Канадские зп я тоже расскажу потом. Но к сожалению Канадцы очень закрытые, очень сложно с ними поговорить про зп=)
#dataengineering
Я заметил, что Google Big Query популярен в РФ. Кстати, как я понял можно создать себе бесплатное хранилище, если объем данных не больше 5гб в год. У Azure SQL Server можно точно на год получить БД. Так что если, нужно где-то хранить данные и не хотите зависить от ИТ, это будет отличное решение. (PS аккуратна с sensitive данные, так как это может быть не хорошо, выгружать данные куда-нибудь).

В приложение white paper Optimizing Google BigQuery (оптимизация BQ). 60 страниц про BQ и лучшие практики. Данный документ предоставлен Matillion ETL (облачное решение ETL, работает с Redshift, Snowflake, BQ), я их использую, недавно он получили 20 млн инвестиций, и очень активно развиваются. Правда цена от 7к$ в год.
А как вы ищете business insights в данных?😏
🌚1
Для друзей из freshbi.com написал два блог поста. Они в основном внедряют Power BI, я иногда у них подрабатываю по выходным, но после Tableau, очень сложно работать c Power BI. Так же я им помогаю с вопросами архитектуры, если такие бывают. Вот ссылки на эти 2 поста. Посути это про миграцию в облако, используя Azure.
1) Exploring modern data integration scenarios with Azure Cloud. https://www.freshbi.com/research/datafactory - здесь я описал три наиболее частых сценария при миграции в облако и архитектуру. В основном здесь про Azure DataFactory - это такой cloud ETL. Скопировали с AWS, у них Glue.
2) Follow Along an Azure Data Factory Migration Process https://www.freshbi.com/research/datafactory-z8j2w - здесь уже конкретный пример. Я решил скопировать данные из AWS S3 и загрузить в Azure SQL Server, используя Azure Data Factory.

PS зато они меня удостоили чести быть Power BI Developer:)
👍1
Амазон выпустил предрождественский ролик https://youtu.be/l41wmQVg1Ls под названием «Ты чувствуешь это?». Вообще коробки амазон неотъемлемая часть жизни людей в Северной Америке, это можно даже сказать один из их символов). Как вы понимаете, в Амазон ничего не делается просто так, и была проделана огромная работа маркетологов. Главная цель соответствовать главному принципу Customer Obsession. А вот рекламный ролик 2017 года «Поющие коробки» https://www.youtube.com/watch?v=OITWgx8K6Ko Проектом руководил VP Global Creative, а вот его любимая реклама - https://www.youtube.com/watch?v=XW5-CQdmE_8

PS А как измерять Customer Obcession? Правильно, с помощью данных;)
#dataengineering
Интересное сравнение современных систем Хранилищ Данных. Snowflake самый молодой и был создан для облака и там сразу есть все необходимое. Остальные пытаются догонять.

Так например, Redshift в прошлом году выпустил Spectrum (для поддержки внешних таблиц на основе файлов в S3). А сейчас выпустил новую фичу, для моментального масштабирования вверх и вниз. Например, последний раз уменьшал размер кластера с 4х нод до 3х и это заняло 8 часов (при объеме 6ТБ), что отрицательно сказалось на ночном ETL. В Амазон мы используюе редшифт в качестве Data Mart (витрины данных, то есть собираем только необходимы данные, у каждый команды свой инфраструктура).

Интересно кто будет первым клиентом Snowflake в РФ, и вообще будут ли. PS у вас еще есть возможность пройти лабу с #matemarketing, инструкции в самом вверху канала. Через несколько дней trial закончится.
ML один из самых популряных скилов. Амазон разрабатывает bootcamp для разных категорий профессий, есть для бизнеса, есть и для технических специальностей. И у них классные стикеры;)
#cloudmigration

Создание инфраструктуры в облаке или миграция в облако это уже не тренд, это факт. Как обычно выглядит миграция в облако? Мы создаем себе аккаунт, запускаем необходимые сервисы, настраиваем безопасность и доступ. Остается последний шаг, загрузить наши данные в облако. Мы можешь загружать терабайты данных без проблем. Но как быть с петабайтами? Например, загрузка 100 терабайт при скорости загрузки 1 Gbps, займет 100 дней.

Специально для таких случаев у AWS есть 2 продукта. Когда в 2016 году re:Invest (главный AWS саммит) представили Snowmobile, я думал это шутка, а вот нет. Хотите в облако, к вам приезжает грузовик и вы загружаете данные, затем он их перевозит в дата центр Амазон. 1 грузовик вмещает до 100 петабайт данных и закачивать он будет несколько недель. А вот при скорости 1 Gbps, займет 20 лет. Это вам не фильмы с торрентов качать🤞 (кстати в Канаде тоже все не просто с торрентами, могут и штраф прислать).

Недавно, AWS выпустил еще один продукт Snowball – тоже физический носитель данных, но уже помещается в сумке.

А вот видео с грузовиком https://youtu.be/8vQmTZTq7nw
👍1
#thanksgiving #machinelearning Кстати 22 ноября в Америке день благодарения! Индюшкам аналитика не помогла, надесь вам поможет;)
#bebetter

Увидел интересную статья: 13 вещей, от которых нужно отказаться, чтобы быть успешным.

Вспомнил случай в 2010 году. Я как раз ушел с ГКНПЦ им Хруничева в Cetelem (BNP Paribas), и думал о необходимости Аспирантуры (не только как вариант откосить, но и как дополнительный фундамент для иммиграции или успешной карьеры). Часто в linkedin я встречал приписку Phd, рядом с PMP и тп. Так как я был на факультете машиностроения, то я пришел на факультет информационных технологий и узнал о возможности учиться у них. На вопрос зачем мне это нужно? Я ответил, хочу быть успешней. Декан посмотрел на меня и сказал, что я и так успешный, работаю в банке:/, во-вторых, чтобы учиться у них в аспирантуре, я должен быть фул тайм на кафедре. Причем не для того, чтобы учиться или делать проектную работу, а больше, чтобы быть на подхвате, заменять печатную машинку и тп. На нет и суда нет, я попробовал пойти в Аспирантуру у себя на факультете, но понял, что совершенно никакой пользы нет, и моя Аспирантура никак не помогает мне, да и не поможет в будущем.

Если вы хотите поступать в Аспирантуру, то это будет вам полезно только в том случае, если вы хотите быть ученым, преподавать в университете и возможно уехать за границу в качестве преподавателя и ученого, и продолжать образование там. У меня есть знакомый, кто прошел такой путь, он профессор в Канадском университете, работает с грантами Intel. Я ему задавал свой любимы вопрос о доходе, и работая в Амазон обычным data engineer я зарабатываю в 1,5 раза больше. Я ни в коем случае не говорю, что аспирантура — это плохо, просто вероятность успешного применения ее и ее монетизации очень мала (это мое мнение, у вас может быть противоположное).

В люблм случае, мне очень нравиться находится в стенах учебного заведения и здесь в у нас есть 2 университета University of Victoria (там есть CS и Ecom) и Royal Roads University (MBA). Я пытаюсь у них преподавать аналитику и визуализацию данных, но очень пока все идем медленно. Еще я хочу преподавать в VIATEC – это наш куратор стартапов, для них я хочу рассказывать, как быстро правильно выбирать показатели, как избегать Vanity (от слова суета) показателей и какие инструменты использовать.

Возвращаюсь к этой статье, кстати #1 Viral on Medium https://medium.com/@zdravko/13-things-you-need-to-give-up-if-you-want-to-be-successful-44b5b9b06a26
С 1958 года, когда сотрудник IBM написал статью о потенциале использования Business Intellignece с помощью технологий, мы не достигли значительных результатов в извлечении Actionable Business Insights. Я уверен, у всех таких дашбордов много, а пользы они приносят мало.