Все современные платформы развивают свои marketplace, создают множество приложений и привлекают сторонних разработчиков. Примеров много - AWS, Azure, GCP marketplaces, salesforce marketplace, Tableau plugins/apps и тп. Интересная презентация про рынок marketplace. Ждем marketplace от Яндекс и меил облаков, это отличная возможность создание экосистемы и развития продуктов и стартапов.
Slideshare
Sapphire Ventures: The Startup's Guide to Cloud Marketplaces
The document serves as a comprehensive guide for startups on leveraging cloud marketplaces to enhance sales and procurement processes. It outlines essential steps for determining marketplace fit, operationalizing a marketplace strategy, and maximizing sales…
#buildingdatateams chapter1 - Data Teams
Автор рассказывает про сложность BigData и важность Data Teams. Прежде всего дает определение BigData.
Для него все big data, что плохо работает или совсем не работает, например:
- данные грузятся очень долго
-запрос положит базу данных
-задача имеет много шагов
-данные разбросаны по организации и очень сложно собрать их вместе, чтобы решить задачу
Потом он говорит про важность Big data для менеджеров. Потому что они часто недооценивают важность и сложность проектов и как результат - failed.
Главное сложность big data - distributed systems (то есть кластера). Такие системы разбивают задачу на более мелкие шаги и обрабатываю на нескольких машинах.
Дальше он говорит о Data Pipelines и Data Products. Для него data pipeline это процесс, который делает данные доступные для бизнеса. И в процессе данные трансформируются. Data Product используют данные, которые приходят с pipeline и преобразуются таким образом, чтобы было удобно потреблять их пользователям.
Затем он проходится по "непониманиям". Говорит, что часто BI путают с data science и этого нельзя делать. Другая идея, что инженеринг данных это тоже самое, что хранилище данных. Разница в том, что для автора инженеры данных работают с distributed systems, а вот ETL разработчики (DW) с такими системами не работают.
За свою карьеру, он видел много failed проектов. Серкет успеха это правильный набор команд. По мнению автора их должно быть 3:
1) Команды Data Science:
-знаю математику
-понимают важность данных
-есть понимание инструментов big data
-умеют немного программировать
A data scientist is someone who has augmented their math and statistics background with programming to analyze data and create applied mathematical models.
2) Команда Data Engineering:
- у них software engineering background
- у них специализация в big data
- они круто программят
- есть базовые знания data science
A data engineer is someone who has specialized their skills in creating software solutions around big data.
3) Команда Operations:
- отвечают за работу систем и приложений созданных data science & data engineering teams
- оптимизируют и поддерживают сеть (для передачи данных)
- решают проблемы с железом
- установка и обновление ПО
- установка и конфиг операционной системы
An operations engineer is someone with an operational or systems engineering background who has specialized their skills in big data operations, understands data, and has learned some programming.
Дальше он говорит, что для маленьких организаций сложно иметь все 3 команды, и нужен один человек швейцарский нож, которого не найти просто так.
Ну и конечно, если этими команды плохо руководить, вы получите - failed project.
====
🤔 я лично не со всем соглашусь. Мне показалось, что у мужика супер крутой опыт внедрения решения Apache (Hadoop и тп) on premise, включая закупку железа и его конфигурации. Он не работал с BI/DW командами, и наверное, только сейчас начинает работать с облаками. Так как все крупные корпорации еще сидят он premise и у них реальные задачи с огромным объемом данных. Он все разделил на "черное" и "белое", например, если у вас нет background в разработке ПО, то вы плохой инженер. Или есть, вы работает с хранилищем данных, то вы тоже не инженер. Мне видеться картина не в черно белом цвете, а более яркой, когда у нас кто угодно может быть кем угодно, да и еще понятие BigData/DW уже теряет границу и современные платформы данных это микс озера данных и хранилища данных.
Я уже прочитал половину книги, и буду дальше скидывать конспекты автора.
Автор рассказывает про сложность BigData и важность Data Teams. Прежде всего дает определение BigData.
Для него все big data, что плохо работает или совсем не работает, например:
- данные грузятся очень долго
-запрос положит базу данных
-задача имеет много шагов
-данные разбросаны по организации и очень сложно собрать их вместе, чтобы решить задачу
Потом он говорит про важность Big data для менеджеров. Потому что они часто недооценивают важность и сложность проектов и как результат - failed.
Главное сложность big data - distributed systems (то есть кластера). Такие системы разбивают задачу на более мелкие шаги и обрабатываю на нескольких машинах.
Дальше он говорит о Data Pipelines и Data Products. Для него data pipeline это процесс, который делает данные доступные для бизнеса. И в процессе данные трансформируются. Data Product используют данные, которые приходят с pipeline и преобразуются таким образом, чтобы было удобно потреблять их пользователям.
Затем он проходится по "непониманиям". Говорит, что часто BI путают с data science и этого нельзя делать. Другая идея, что инженеринг данных это тоже самое, что хранилище данных. Разница в том, что для автора инженеры данных работают с distributed systems, а вот ETL разработчики (DW) с такими системами не работают.
За свою карьеру, он видел много failed проектов. Серкет успеха это правильный набор команд. По мнению автора их должно быть 3:
1) Команды Data Science:
-знаю математику
-понимают важность данных
-есть понимание инструментов big data
-умеют немного программировать
A data scientist is someone who has augmented their math and statistics background with programming to analyze data and create applied mathematical models.
2) Команда Data Engineering:
- у них software engineering background
- у них специализация в big data
- они круто программят
- есть базовые знания data science
A data engineer is someone who has specialized their skills in creating software solutions around big data.
3) Команда Operations:
- отвечают за работу систем и приложений созданных data science & data engineering teams
- оптимизируют и поддерживают сеть (для передачи данных)
- решают проблемы с железом
- установка и обновление ПО
- установка и конфиг операционной системы
An operations engineer is someone with an operational or systems engineering background who has specialized their skills in big data operations, understands data, and has learned some programming.
Дальше он говорит, что для маленьких организаций сложно иметь все 3 команды, и нужен один человек швейцарский нож, которого не найти просто так.
Ну и конечно, если этими команды плохо руководить, вы получите - failed project.
====
🤔 я лично не со всем соглашусь. Мне показалось, что у мужика супер крутой опыт внедрения решения Apache (Hadoop и тп) on premise, включая закупку железа и его конфигурации. Он не работал с BI/DW командами, и наверное, только сейчас начинает работать с облаками. Так как все крупные корпорации еще сидят он premise и у них реальные задачи с огромным объемом данных. Он все разделил на "черное" и "белое", например, если у вас нет background в разработке ПО, то вы плохой инженер. Или есть, вы работает с хранилищем данных, то вы тоже не инженер. Мне видеться картина не в черно белом цвете, а более яркой, когда у нас кто угодно может быть кем угодно, да и еще понятие BigData/DW уже теряет границу и современные платформы данных это микс озера данных и хранилища данных.
Я уже прочитал половину книги, и буду дальше скидывать конспекты автора.
❤1
Мы практически закончили модуль 3 #datalearn. Роман Бунин подготовил для студентов крутое задание - визуализировать данные по Airbnb London:
Представьте, что вы занимаетесь профессиональной сдачей жилья — берете в долгосрочную аренду объекты, а потом сдаете их в краткосрочную субаренду через Airbnb. У вас есть две задачи, которые вы хотели бы решить с помощью дашборда в Табло. Придумайте и реализуйте любой из них и опубликуйте на Табло Паблик и пришлите ссылку с результатом и ваши пояснения к решаемой задачи в канал de-module03-final-project в слаке. Идеально, если пояснения к задаче будут оформлены в виде заполненного Dashboard Canvas (недостающую информацию придумайте сами). По результатам выполнения проектов будет проведен вебинар, на котором рассмотрим сделанные проекты и будут даны рекомендации по улучшениям.
Задачи на выбор:
1. Создать аналитический инструмент
Для того, чтобы снять новый объект нужно выбрать наиболее привлекательный район, а также сравнить конкретные объекты. Районы сравниваются по количеству объектов, средней стоимости сдачи и средней загрузки объектов в течение года. Также интересна аналитика в разрезе типа комнаты (room_type), количества спален и площади помещений. Аналитический инструмент должен давать ответ на вопрос в каком районе стоит снять помещение в первую очередь и проанализировать топовые предложения в районе, чтобы искать похожие объекты в аренду.
Задача со звездочкой: При выезде на осмотр конкретного объекта вам хотелось бы иметь мобильную версию с основной информацией по этому району, чтобы проводить торги на месте.
2. Сделать операционный дашборд
Вы уже сдаёте 20 объектов в субаренду (выберите случайным образом). Для операционного управления объектами вам необходим дашборд чтобы видеть общую картину, что происходит с вашим портфелем недвижимости (средняя загрузка объекта, средняя длительность аренды, средний чек, общая прибыль за период, средняя оценка), какие объекты сданы или нет на последний день, а также информацию выполнения плана по каждому из объектов. Идеально было бы видеть сравнение метрик со средним по району. Также важно видеть детальные отзывы по каждому из объектов и оперативно реагировать на негативные. Загрузку объекта считаем как кол-во недоступных дней (считаем, что это значит, что объект сдан) делённых на 366 дней. План по загрузки объектов — 75%.
Задача со звездочкой: Долгосрочная аренда на 40% дешевле, чем подневная аренда объекта за весь год. Амортизация и ремонт на каждом объекте составляет 1500$ в год. Посчитайте какие из ваших объектов рентабельны и сколько вы заработали на сдаче объектов.
Больше информации в Git.
Информация про Рому:
https://revealthedata.com/blog/all/about/
Блог: revealthedata.com
Телеграм: https://news.1rj.ru/str/revealthedata
Представьте, что вы занимаетесь профессиональной сдачей жилья — берете в долгосрочную аренду объекты, а потом сдаете их в краткосрочную субаренду через Airbnb. У вас есть две задачи, которые вы хотели бы решить с помощью дашборда в Табло. Придумайте и реализуйте любой из них и опубликуйте на Табло Паблик и пришлите ссылку с результатом и ваши пояснения к решаемой задачи в канал de-module03-final-project в слаке. Идеально, если пояснения к задаче будут оформлены в виде заполненного Dashboard Canvas (недостающую информацию придумайте сами). По результатам выполнения проектов будет проведен вебинар, на котором рассмотрим сделанные проекты и будут даны рекомендации по улучшениям.
Задачи на выбор:
1. Создать аналитический инструмент
Для того, чтобы снять новый объект нужно выбрать наиболее привлекательный район, а также сравнить конкретные объекты. Районы сравниваются по количеству объектов, средней стоимости сдачи и средней загрузки объектов в течение года. Также интересна аналитика в разрезе типа комнаты (room_type), количества спален и площади помещений. Аналитический инструмент должен давать ответ на вопрос в каком районе стоит снять помещение в первую очередь и проанализировать топовые предложения в районе, чтобы искать похожие объекты в аренду.
Задача со звездочкой: При выезде на осмотр конкретного объекта вам хотелось бы иметь мобильную версию с основной информацией по этому району, чтобы проводить торги на месте.
2. Сделать операционный дашборд
Вы уже сдаёте 20 объектов в субаренду (выберите случайным образом). Для операционного управления объектами вам необходим дашборд чтобы видеть общую картину, что происходит с вашим портфелем недвижимости (средняя загрузка объекта, средняя длительность аренды, средний чек, общая прибыль за период, средняя оценка), какие объекты сданы или нет на последний день, а также информацию выполнения плана по каждому из объектов. Идеально было бы видеть сравнение метрик со средним по району. Также важно видеть детальные отзывы по каждому из объектов и оперативно реагировать на негативные. Загрузку объекта считаем как кол-во недоступных дней (считаем, что это значит, что объект сдан) делённых на 366 дней. План по загрузки объектов — 75%.
Задача со звездочкой: Долгосрочная аренда на 40% дешевле, чем подневная аренда объекта за весь год. Амортизация и ремонт на каждом объекте составляет 1500$ в год. Посчитайте какие из ваших объектов рентабельны и сколько вы заработали на сдаче объектов.
Больше информации в Git.
Информация про Рому:
https://revealthedata.com/blog/all/about/
Блог: revealthedata.com
Телеграм: https://news.1rj.ru/str/revealthedata
Хорошо ли иметь свой блог, канал, git профайл, примеры своих работ? (можно выбрать несколько)
Anonymous Poll
35%
Это помогает помогает при поиске работы и прохождения собеседования.
48%
Это помогает развиваться, изучать новый материал и закреплять его.
1%
Это бесполезное занятие, такие ресурсы не интересуют работадателей.
0%
Это бесполезное занятие, потому что я не хочу тратить время на никому не нужный контент
29%
Это помогает делать нетворкинг и знакомиться с интерсными людьми
26%
Это хорошо для кармы (например делиться знаниями)
27%
Это важный актив для резюме (на русском для поиска работы у нас, на английском для заграницы)
35%
Незнаю, но интересно посмотреть вариант отета.
Кто-нибудь проходил курс по облакам? В 5 модуле #datalearn будет как раз введение в облачные вычисления и меня была идея добавить курс на степик, там рассказать в общем про облака и показать на примере AWS/Azure. Но может быть этот курс покрывает достаточно уже, поэтому интерсно узнать. Тогда сделаю по старинке youtube+git.
Stepik: online education
Promoting efficient learning by developing innovative educational technologies. Create an interactive lesson and employ automated grading software.
Еще один свежий BI вендор из Азии - Holistics, предлагает вашему вниманию ebook - The Analytics Stack Guidebook, где вы можете посмотреть про современные аналитические решения и многое другое. Например они рассказывают про Open Source ETL решения, концепты хранилища данных, разницу межлу ETL vs ELT, озера данных и тп. Классные у них в картинки, можно позаимствовать для #datalearn 😜
Недавно я провел опрос про важность блога или других вещей, которые могу помочь вам в развитии карьеры. Реально получается, что 48% считают, что это очень полезно. Но я не уверен, что эти же 48% это делают.
Вам не обязательно быть крутым профи, чтобы вести блог. Например, я начал свой блог TechBI в 2013 и закончил в 2016, когда уже был в Амазоне. Я его начинал только с одной целью, писать туда все в подряд, чтобы у меня была ссылка в резюме. И так как я искал работу за границей, то и блог был на английском. Иногда я переводил русские статья на англ к себе в блог, иногда я фигачил документацию из внутренних порталов Teradata. Были моменты, когда я описывал решения проблем и учился чему-то новому. В целом как блог этот ресурс тянет на 3 с минусом, но как инструмент достижения цели на 4+. Кроме блога, я еще сделал slideshare, на который выкладывал все презентации только на английском языке (еще один актив). Тут я уже больше старался.
Поэтому очередной раз говорю, если серьезно настроены в развитии карьеры в своей области создайте ресурс. Блог проще всего. Можно использовать medium (там нет тролей как на habr или vc). Самое простое, что можно сделать, описывать решение заданий #datalearn, описывать проблемы на работе или может быть писать про ваш путь в мир данных.
Как ни крути, одного резюме с перечнем скилов недостаточно, нужны еще активы. Может быть хороший актив - развитие #datalearn, обучение студентов?;)
В декабре 2018 я писал про интересный lifehack, который я использовал, когда искал работы за границей, да и на hh тоже использовал это вместо cover letter.
Вам не обязательно быть крутым профи, чтобы вести блог. Например, я начал свой блог TechBI в 2013 и закончил в 2016, когда уже был в Амазоне. Я его начинал только с одной целью, писать туда все в подряд, чтобы у меня была ссылка в резюме. И так как я искал работу за границей, то и блог был на английском. Иногда я переводил русские статья на англ к себе в блог, иногда я фигачил документацию из внутренних порталов Teradata. Были моменты, когда я описывал решения проблем и учился чему-то новому. В целом как блог этот ресурс тянет на 3 с минусом, но как инструмент достижения цели на 4+. Кроме блога, я еще сделал slideshare, на который выкладывал все презентации только на английском языке (еще один актив). Тут я уже больше старался.
Поэтому очередной раз говорю, если серьезно настроены в развитии карьеры в своей области создайте ресурс. Блог проще всего. Можно использовать medium (там нет тролей как на habr или vc). Самое простое, что можно сделать, описывать решение заданий #datalearn, описывать проблемы на работе или может быть писать про ваш путь в мир данных.
Как ни крути, одного резюме с перечнем скилов недостаточно, нужны еще активы. Может быть хороший актив - развитие #datalearn, обучение студентов?;)
В декабре 2018 я писал про интересный lifehack, который я использовал, когда искал работы за границей, да и на hh тоже использовал это вместо cover letter.
Blogspot
techBI
This blog consist of useful staff around Business Intelligence, Data Discovery, Operational Intelligence, Digital Intelligence, DWH, ETL, BigData, Data Science and Data Engineering.
👍3
У AWS есть сервис - Direct Connect. Это когда мы подключаем свой датацентр напрямую к дата центру AWS. Вот пример использования такого подключения для реального клиента (конечно в штатах). Они используют QuickSight и Redshift - все как обычно BI+DW. Но у них еще есть куча систем on-premise - SQL Server, Teradata, Presto и тп. И вот они решили подключить on-premise данные к Quicksight используя direct connect. Ну и наверно заливая заодно их в Redshift. Вот ссылка.
👍2🦄1
Так как я работал в Amazon Alexa, хотел рассказать про последнее устройство - AlexaShow 3rd generation. Где прослеживается развитие применения ML для повседневных устройств. Использует новый AZ1 Neural Edge processor (чип специально для ML).
Главное добавление - это возможность экрана вращаться на 360 градусов - motion. Причем она это делает не просто так, а пытается повернуться к вам, на звук. Когда вы разговариваете по Alexa (типа skype видеозвонок, она будет крутиться за вами). Другая интересная фича - security guard. Она может сканировать комнату и отправлять вам фотографию, если замечено движение в ваше отсутствие.
У меня дома есть все 3 поколения AlexaShow и мы можем с детьми созваниваться между комнатами или я могу домой звонить на камеру, когда нахожусь в отпуске. Конечно если нет wifi, то и ничего не будет. Кстати если у вас есть Alexa, скажите ей - "Alexa, fart sound". Мои дети угорают от этого. Кстати google устройство тоже понимает "google, fart sound". Как я понимаю устройства могут найти общий язык. А вот siri еще не дорос до такого уровня AI.
Главное добавление - это возможность экрана вращаться на 360 градусов - motion. Причем она это делает не просто так, а пытается повернуться к вам, на звук. Когда вы разговариваете по Alexa (типа skype видеозвонок, она будет крутиться за вами). Другая интересная фича - security guard. Она может сканировать комнату и отправлять вам фотографию, если замечено движение в ваше отсутствие.
У меня дома есть все 3 поколения AlexaShow и мы можем с детьми созваниваться между комнатами или я могу домой звонить на камеру, когда нахожусь в отпуске. Конечно если нет wifi, то и ничего не будет. Кстати если у вас есть Alexa, скажите ей - "Alexa, fart sound". Мои дети угорают от этого. Кстати google устройство тоже понимает "google, fart sound". Как я понимаю устройства могут найти общий язык. А вот siri еще не дорос до такого уровня AI.
PCMAG
Amazon Echo Show 10 Review
The third-generation Amazon Echo Show 10 smart display delivers powerful audio and adds a motorized base that lets the screen and camera rotate as you move around.
У нас супер новости, #datalearn превысил 2000 студентов, теперь надо на платную подписку mailchimp.
🐳1
На всякий случай хочу закрпепить информацию про канал и datalearn для новеньких подписчиков и стареньких, кто еще не знает деталей.
❤🔥1
Про канал: Я (Дмитрий Аношин LinkedIn telegram) уже больше 15 лет занимаюсь аналитикой, из них 5 лет был в Амазоне, работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных проектах, где драйвером являются данные. Видел и Big Data и Machine Learning, AI в действии в масштабе крупнейшей компании мира. После Амазона работал 5 лет в Microsoft Xbox и Microsoft Azure Data&AI. Активно принимал участие в развитии Microsoft продуктов для аналитики - Synapse, Fabric, Azure Databricks.
Теперь, я помогаю создавать инновационные аналитические решения, создавать дата команды и модернизировать устаревшие решения и как хобби обучаю инженеров и аналитиков через свой образовательный проект Surfalytics.com. Задача Surfalytics - ваша прокачка и трудоустройство на западном рынке, у нас закрытое сообщество в Discord, где мы ботаем DE и аналитику и прокачиваем скилы и добываем job offers.
Я написал несколько книг по аналитике и преподаю Облачные Вычисления (Cloud Computing) в Университете Виктории.
У меня большой опыт в развитии дата сообществ и выступлений на конференциях, meetup и user groups.
Все это помогает быть на пике технологий и следить куда движется индустрия аналитики.
В канале Инжиниринг Данных, я буду писать про современные аналитические решения и истории из жизни, связанные с развитием карьеры, много вредных советов и контента не по теме😜
Ну и конечно для всех желающих есть ресурс на русском DataLearn.ru который мы стартанули с Романом Пономаревым. Может сразу переходить в учебник , выбрать свой курс и учится! И также есть отдельный чат для студентов.
Идея datalearn простая, мы бесплатно учим профессиям для работы с данными. Начиная от основ аналитики - зачем нужны данные и аналитика и заканчиваю BigData. Курс полностью бесплатный. За 3 года я успел записать 7 модулей и потом переключился на Surfalytics.
PS Сейчас работаю над порталом Дата Инженеръ - главный 🇷🇺 портал про Инжиниринг Данных. Вы можете стать контрибъютером, если вам интересно напишите мне.
Теперь, я помогаю создавать инновационные аналитические решения, создавать дата команды и модернизировать устаревшие решения и как хобби обучаю инженеров и аналитиков через свой образовательный проект Surfalytics.com. Задача Surfalytics - ваша прокачка и трудоустройство на западном рынке, у нас закрытое сообщество в Discord, где мы ботаем DE и аналитику и прокачиваем скилы и добываем job offers.
Я написал несколько книг по аналитике и преподаю Облачные Вычисления (Cloud Computing) в Университете Виктории.
У меня большой опыт в развитии дата сообществ и выступлений на конференциях, meetup и user groups.
Все это помогает быть на пике технологий и следить куда движется индустрия аналитики.
В канале Инжиниринг Данных, я буду писать про современные аналитические решения и истории из жизни, связанные с развитием карьеры, много вредных советов и контента не по теме😜
Ну и конечно для всех желающих есть ресурс на русском DataLearn.ru который мы стартанули с Романом Пономаревым. Может сразу переходить в учебник , выбрать свой курс и учится! И также есть отдельный чат для студентов.
Идея datalearn простая, мы бесплатно учим профессиям для работы с данными. Начиная от основ аналитики - зачем нужны данные и аналитика и заканчиваю BigData. Курс полностью бесплатный. За 3 года я успел записать 7 модулей и потом переключился на Surfalytics.
PS Сейчас работаю над порталом Дата Инженеръ - главный 🇷🇺 портал про Инжиниринг Данных. Вы можете стать контрибъютером, если вам интересно напишите мне.
Telegram
Dmitry
dataengineer.ru | surfalytics.com 🏄 | datalearn.ru | 👨💻 https://rockyourdata.cloud ☁️ | www.scifly.ai 🐦
👍101❤54🔥30🐳11🍾4 2😁1💯1🍌1😭1🎄1
Инжиниринг Данных pinned «Про канал: Я (Дмитрий Аношин LinkedIn telegram) уже больше 15 лет занимаюсь аналитикой, из них 5 лет был в Амазоне, работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных…»
9-10 декабря будет интерсной ивент - Denodo Data Fest. Как обычно бесплатно практикуем английский и изучаем рынок современных решений и аналитики.
Кстати 2ое подписчиков канала серьезно взялись за Denodo и прошли уже обучение по продукту (Architecture и Developer) и планируют сдавать сертификацию, чтобы поддерживать и развивать Denodo в Канаде удаленно из России. Может быть потом они выступят с докладам и расскажут про свой опыт.
Есть такая же возможнось по Looker и Plotly;)
Кстати 2ое подписчиков канала серьезно взялись за Denodo и прошли уже обучение по продукту (Architecture и Developer) и планируют сдавать сертификацию, чтобы поддерживать и развивать Denodo в Канаде удаленно из России. Может быть потом они выступят с докладам и расскажут про свой опыт.
Есть такая же возможнось по Looker и Plotly;)
Denodo Datafest 2023
The Agile Data Management and Analytics Conference - Denodo Datafest 2023
Join us for an unforgettable experience and to be a part of advancing cloud, analytics & AI/ML initiatives with logical data fabric!