У нас в чатике Инжиниринг Данных много интересных дискуссий про зарплатные ожидания, про страны для миграция, про условия труда и тп. Когда у меня есть время повтыкать в телефон, например в очереди, то очень помогает с пользой скоротать время🙃 В общем, получилось классно.
Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.
Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.
Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?
Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster, там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.
Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.
В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.
Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.
Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.
Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?
Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster, там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.
Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.
В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.
Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
Собеседование в X5 для инженера данных. Я бы его точно завалил. Classы я совсем не использую, но, наверно, в условиях высокой кастомизации и концентрации on-premise решений, без них уже не обойтись.
Хабр
Собеседование на позицию Data Engineer в Х5: чего ждать и как лучше подготовиться
О направлении Data Engineering в X5 В X5 Group активно развивают цифровые продукты, построенные на основе больших данных, использующие сложную аналитику и машинное обучение, такие как...
28 сентября день рабочего стола! С чем я вас и поздравляю! Присылайте свои рабочие места в комментарии. #деньрабочегостола
Data Lakehouse by Ihnmon.pdf
3.1 MB
Коротенькая книжка от отца хранилищ данных (при поддержки Databricks) - Building the Data Lakehouse
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
Следующий урок в Datalearn будет про Snowflake. У них как раз будет конференция Snowflake Build 4-5 Октября сразу в 3х регионах. Как минимум я вам рекомендую послушать Keynote (на любой конференции они интересны и полезны), чтобы знать куда движется аналитический продуктовый мир. https://www.snowflake.com/build/?utm_campaign=Teradata
Snowflake
BUILD
Join BUILD Dev Conference for AI & Apps on November 4 – 7, 2025! Discover the latest from Snowflake on apps, AI/ML and LLMs.
Я всегда говорю - собеседования это хорошо, лишний раз пообщаться с умными и интересными людьми никому не навредит😉
Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.
Конечно в каждом вопросе есть Other и I don't want to answer.
В РФ обычно один вопрос - какие зарплатные ожидания.
Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.
Конечно в каждом вопросе есть Other и I don't want to answer.
В РФ обычно один вопрос - какие зарплатные ожидания.
Совсем недавно Amazon анонсировал много классных новых устройств. Есть видео, где за 1 минуту вам все покажут и расскажут.
Когда я был в Амазоне, я был подписан на beta alexa, и мне каждый месяц присылали всякие новые девайсы попробовать. Но когда я уходил, все попросили сдать:(
Когда я был в Амазоне, я был подписан на beta alexa, и мне каждый месяц присылали всякие новые девайсы попробовать. Но когда я уходил, все попросили сдать:(
YouTube
Amazon's Devices and Services 2021 Event in 60 Seconds | Amazon News
Introducing Amazon’s latest devices and services Introducing a new line-up of devices, services, and features from Amazon, including:
- Amazon Astro, a home robot unlike any other.
- Amazon Glow, a new way to keep family close.
- Echo Show 15, the new…
- Amazon Astro, a home robot unlike any other.
- Amazon Glow, a new way to keep family close.
- Echo Show 15, the new…
Forwarded from Data Apps Design (Artemiy Kzr)
А вот служба поддержки разочаровывает 🙃
15 дней на ответ совсем не о том.
P.S. пытаюсь поставить clickhouse-jdbc-bridge на управляемую версию CH от Я.Облака, чтобы писать запросы к другим базам из CH. Хитрый замысел.
15 дней на ответ совсем не о том.
P.S. пытаюсь поставить clickhouse-jdbc-bridge на управляемую версию CH от Я.Облака, чтобы писать запросы к другим базам из CH. Хитрый замысел.
Хотите научиться работать с облачными базами данных и бесплатно сдать сертификационный экзамен DP-900?
Пройдите двухдневный тренинг от Microsoft 25 и 26 октября.
От экспертов Microsoft вы узнаете о важнейших принципах действия сервисов Azure, проверенных подходах и специфике работы с реляционными и нереляционными данными.
Успейте записаться на тренинг ⟶
PS Пост поддержал приют для собак Зоорассвет в Москве.
PPS Лично я уже сдал экзамен DP-900, очень хорошие материалы по основам аналитике, экзамен стоит того!
Пройдите двухдневный тренинг от Microsoft 25 и 26 октября.
От экспертов Microsoft вы узнаете о важнейших принципах действия сервисов Azure, проверенных подходах и специфике работы с реляционными и нереляционными данными.
Успейте записаться на тренинг ⟶
PS Пост поддержал приют для собак Зоорассвет в Москве.
PPS Лично я уже сдал экзамен DP-900, очень хорошие материалы по основам аналитике, экзамен стоит того!
Из мира игр:
Netflix купил студию, и продолжает развивать направление игр https://nightschoolstudio.com/joining-netflix/
Амазон выпустил свою первую большую игру New World 28 сентября: https://en.m.wikipedia.org/wiki/New_World_(video_game)
Ранее они открыли студию в Монреале https://www.amazongames.com/en-gb/news/articles/amazon-games-opens-development-studio-montreal
А вот Google и Stadia как-то приостановились. Но они были одни из первых в стриминге.
Сбер мутит игры, но как-то все шито-крыто, новостей не слышно.
Все это говорит о росте популярности игровой индустрии и как следствие аналитики, инжиниринга данных в игровой индустрии.
Netflix купил студию, и продолжает развивать направление игр https://nightschoolstudio.com/joining-netflix/
Амазон выпустил свою первую большую игру New World 28 сентября: https://en.m.wikipedia.org/wiki/New_World_(video_game)
Ранее они открыли студию в Монреале https://www.amazongames.com/en-gb/news/articles/amazon-games-opens-development-studio-montreal
А вот Google и Stadia как-то приостановились. Но они были одни из первых в стриминге.
Сбер мутит игры, но как-то все шито-крыто, новостей не слышно.
Все это говорит о росте популярности игровой индустрии и как следствие аналитики, инжиниринга данных в игровой индустрии.
Night School Studio
We are joining the Netflix team. - Night School Studio
As of today, Night School Studio is joining the Netflix team. Over the last few months, we've had countless thoughtful chats about our respective visions for where we see games, storytelling, and our collective opportunity for positive impact somewhere in…
Вам в помощь - клавиатура с CNTRL+C/CNTRL+V
https://drop.com/buy/stack-overflow-the-key-macropad#overview
PS Только для Senior ролей и выше!
https://drop.com/buy/stack-overflow-the-key-macropad#overview
PS Только для Senior ролей и выше!
Совсем недавно мы обсуждали доставку Insights через webhook в Microsoft Teams, а сегодня я увидел Tableau сообщило:
Goodbye, email. 📧
Hello, Slack! 👋
Выглядит красиво! Если у вас Tableau и Slack, то я вам завидую! Я раньше так делал в Splunk в 2015, не знаю, почему Табло не спешило делать такую фичу.
https://www.tableau.com/about/blog/2021/8/when-work-flows-insights-grow-tableau-app-slack
Goodbye, email. 📧
Hello, Slack! 👋
Выглядит красиво! Если у вас Tableau и Slack, то я вам завидую! Я раньше так делал в Splunk в 2015, не знаю, почему Табло не спешило делать такую фичу.
https://www.tableau.com/about/blog/2021/8/when-work-flows-insights-grow-tableau-app-slack
Нашел интересное тестовое задание. Может быть кто-то хочет попробовать его решить на Python?
Мне видится, что можно взять spark, прочитать все JSON в папке data, извлечь схему JSON и дальше написать запрос.
Я не понял, что они хотят найти. Но понятно, что в итоге программу можно положить в docker. Ну или сразу брать готовый контейнер со spark.
На выходе, будет spark submit, куда передается параметры.
Если вы изучаете питон, отличное упражнение и можно решить вообще без спарка.
Интересно посмотреть на ваши решения.
Мне видится, что можно взять spark, прочитать все JSON в папке data, извлечь схему JSON и дальше написать запрос.
Я не понял, что они хотят найти. Но понятно, что в итоге программу можно положить в docker. Ну или сразу брать готовый контейнер со spark.
На выходе, будет spark submit, куда передается параметры.
Если вы изучаете питон, отличное упражнение и можно решить вообще без спарка.
Интересно посмотреть на ваши решения.
GitHub
homework/dep-tree at master · ActiveState/homework
Contribute to ActiveState/homework development by creating an account on GitHub.
Building_an_Open,_Petabyte_Scale_Data_Platform_Keynote_9_29_21.pdf
12.5 MB
Хорошая презентация с the Building an Open, Petabyte Scale Data Platform with Databricks Workshop. Много интересных слайдов, можно идеи к себе в слайды утащить.
Сегодня я поймал себя на мысли, что мне неудобно отправлять коллегам письмо в 9 вечера. И outlook мне показал хорошую опцию - поставить письмо на расписание, так как я его написал в нерабочее время.
Раньше я всегда считал, что это круто написать письмо в 12 ночи, и показать насколько я крут😎
А как у вас с коммуникацией в нерабочее время? Не могу похвастаться карьерными перспективами в майкрософт, но work life balance тут существует. При условии, что вы в рабочее время работаете.🦆
Раньше я всегда считал, что это круто написать письмо в 12 ночи, и показать насколько я крут😎
А как у вас с коммуникацией в нерабочее время? Не могу похвастаться карьерными перспективами в майкрософт, но work life balance тут существует. При условии, что вы в рабочее время работаете.🦆