Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Хотел расшарить статью про Lakehouse, которую опубликовали в блоге Databricks 19 мая. Соавтор сам Bill Inmon. Для меня это лишь подтверждение, что lake house (микс аналитического хранилища данных и озера данных на базе облачных вычислений) - это сейчас самая востребованная технолгия. Конечно для компаний, кто может себе это позволить.
https://databricks.com/blog/2021/05/19/evolution-to-the-data-lakehouse.html

Свое видение я выложу в datalearn модули 6, 7, 8. Как обычно будет обзор решений, инструментов и тп. Но самое главное, все базируется на модулях 1-5. Считайте, что это ваш стартовый капитал (модули 1-5) в мир современных аналитических решений.
Смотрю выступление 2016 года. https://youtu.be/ez-4m2_jRqQ

На картинке слайд, про количество нод Hadoop. Думаю было достаточно сложно обслуживать все это. Сейчас в облаке несколько кликов и вперед))
Пост не по теме, но тоже интересный🤗

В Канаде велосипед довольно популярен, особенно в Британской Колумбии, где нет зимы. Раньше мы жиле на острове в пригороде Виктории и мне было 17км до офиса. Была велодорожка, и если летом я доезжал за час комфортно, то в дождь и ветер было тяжело, да ещё сумки с кимоно и другим барахлом. Решение было электро велосипед. Они были ещё не очень популярны, и я заказал на AliExpress Bafang Kit. У меня было 4 разных кита, разные батареи и моторы. Главный +, что можно поставить на любой велосипед, мотор у меня втыкался в отверстие для педалей, вот пример. Скорость была до 45км/ч и я приезжал на 15-20 мин быстрей (много светофоров). Я даже думал делать бизнес, устанавливать на велики моторы, но канадцы какие-то капризные и жадные клиенты. Когда стал работать удаленно, все продал за также деньги, что и купил. (Мотор+велосипед). Самый крутой велик о котором я мечтал это Trek из Америки( там нет ограничения на 32км/ч). За эти деньги можно купить Honda civic в хорошем состоянии.

Сейчас мы на большой земле и теперь я могу пользоваться sky train (метро), но чтобы не ходить пешком до метро и от метро, я выбирал себе электро самокат, и нашел действительно хороший, один из лучших по качеству и с большим запасом батареи segway nineboot max. Сегодня на нем отвёз детей в школу (7 и 9) лет и мы трое более менее комфортно доехали. А у вас как с техникой?
Fivetran - облачный ETL (или лучше сказать ELT), который работает с Snowflake, Redshift, Big Query и другими, а так же очень хорошо работает вместе с dbt tool, будет проводить конференцию по европейскому времени - The Modern Data Stack
Forwarded from Roman Zykov
Ребята, привет!
У нас на звонке спрашивали про автограф на книгу


Автор книги "Роман с Data Science. Как монетизировать большие данные" Роман Зыков проведет автограф-сессию.

Она пройдет в Москве в книжном магазине Республика на Маяковской 27 мая (четверг) c 19:00 до 21:00. Автор также даст бесплатные консультации по теме анализа данных в бизнесе. В самом магазине будут в наличии экземпляры книги, которые можно приобрести. Количество ограничено. Не забудьте маски.

Адрес: Москва, м. Маяковская, ул. 1-я Тверская-Ямская, 10. Книжный магазин "Республика".
Дата и время: 27 мая с 19:00 до 21:00
Куда будет развиваться инжиниринг данных следующие 5 лет?
When we look at companies with mature data practices, we only see the final, stable metrics and dashboards. However, simple metrics like "What is the unique user count for this week"? the definition of unique can have multiple answers, and make no mistake, they all more or less correct. Are metrics real? Are we creating an analytical mess with multiple definitions of metrics? The author narrates how it's not only normal, but it's also necessary.

https://benn.substack.com/p/analytics-is-a-mess
Forwarded from Xbox fans - новости Xbox и Microsoft Gaming
В этом году Xbox исполняется 20 лет! https://www.xbox.com/en-CA/20-years-of-xbox
Кто добрался до автограф сессии - молодец!;)
Forwarded from Pavel
Встреча в разгаре.
Возможно вы слышали, что Амазон купил старейшую студию MGM https://press.aboutamazon.com/news-releases/news-release-details/amazon-and-mgm-have-signed-agreement-amazon-acquire-mgm

Чтобы добавить больше контента в Amazon Prime и догнать (может и обогнать Netflix и Disney). На картинке страница из свежей книги, где в 2004 году похожую идею обсуждали про Kindle.

Так же действует и Xbox, покупая крутые студии.
Вы слышали про Chrome Music Lab? Дети в школе изучают, можно послушать как звучит слова data или сделать свое что-нибудь, а детям будет вообще интересно. https://musiclab.chromeexperiments.com/Song-Maker/song/5422805158461440
И последняя полезная ссылка, тоже из школы, я обожаю этот ресурс https://www.getepic.com/app/

Это что-то вроде библиотеки детских книжек, где есть разные уровни. У меня дочь в 6 лет научилась читать сама по ней, можно выбрать книжки с картинками на любую тему, и вам будут их читать с выражением и каждое слово выделять, а вы можете повторять. Для детей must have! Да и взрослым должно подойти, кто только начинает изучать язык. Из всех школьных программ это моя самая любимая! Есть ещё https://ca.ixl.com/ там как игра RPG с заданиями, но так себе.
Хочу вам рассказать про интересную технологию - Azure Data Explorer. Это аналог Splunk и Elastic Search/Log Stash.

В статье есть история продукта и его кодовое название - Kusto, в честь того самого водолаза (я в детстве смотрел по телевизору его погружения). История началась с 4х разработчиков Power BI, которым надо было делать troubleshooting.

Сейчас это отдельный продукт, которой может собирать и хранить структурированные, полу и не структурированные данные. Может писать в него огромное количество данных и сразу писать к ним запросы языком KQL. Хорошо развита text analytics и есть функции ML.

Идеально подходит для логов и телеметрии. Но в Microsoft Gaming многие студии используют его вместо data platform и из палок и секретного ингредиента создают BI решение, которое работает.

Я всегда разделяю аналитику на операционную и на обычную (DW, big data, Lakehouse, data platform). Операционная удобна для быстрого доступа к текущим данных, почти как стриминг. Мы можем писать все логи и телеметрию и получаем доступ к данным с задержкой в секунды. Разработчики игр и QA могут легко отлавливать баги в реальном времени, что удобно, а вот для серьезного аналитического решения этого не хватает.

PS Но так то, можно и экселем обойтись. Не бывает хорошего и плохого решения, бывает более удобное и менее удобное. Кому с чем удобней.

В курсе я хочу рассмотреть операционную аналитику на примере Splunk и Azure Data Explorer (модуль 6 или 8).
Когда начался кипишь по Data Science в 2012-2013 году, было 2 супер книжки по этой теме, и они все еще актуальны:
Doing Data Science - в этой книги мне понравилось как автор искал Data Modeller для DS, и попадались только DW data modeller и они поняли, что это вообще разные вещи))
Data Science for Business

Эти книжки можно легко найти в PDF.