Каждый день я изучаю databricks и прохожу тренинги по нему. И по-моему не зря. Он получил еще млрд инвестиций от Salesforce, AWS и других. Так как я изучаю продукт в Azure, то там вообще всех запутали. Вы можете использовать Synapse Analytics (DW) от Azure, и к нему опционально использовать databricks или писать запросы к Delta таблицам в databricks. А можете использовать только databricks и строить Delta Lake. Но в Azure про это совсем не четко написано, как будто их задача, чтобы вы использовали Synapse + Databricks, да и только.
Сам продукт состоит из 2х основных компонентов:
- worspace - это notebooks, где мы пишем код, трансформации
- sql Analytics - это BI слой на основе Redash, который купили ранее
Пока больше вопросов, чем ответов. Я понимаю как сделать все решение на Synapse Analytics (DW) + Power BI, так как это классика. А еще бы легче на Snowflake. А вот, если я хочу только databricks, то уже есть вопросы, про ETL, BI и тп. Будем разбираться. Хотелось бы найти людей, кто прошел этот путь.
Сам продукт состоит из 2х основных компонентов:
- worspace - это notebooks, где мы пишем код, трансформации
- sql Analytics - это BI слой на основе Redash, который купили ранее
Пока больше вопросов, чем ответов. Я понимаю как сделать все решение на Synapse Analytics (DW) + Power BI, так как это классика. А еще бы легче на Snowflake. А вот, если я хочу только databricks, то уже есть вопросы, про ETL, BI и тп. Будем разбираться. Хотелось бы найти людей, кто прошел этот путь.
Databricks
Databricks Raises $1 Billion Series G Investment at $28 Billion Valuation
Databricks, the Data and AI company, today announced a $1 Billion investment in response to the rapid global adoption of its unified data platform.
Хороший заголовок - В будущем вы сможете работать удаленно откуда угодно и сколько угодно часов и получать туже зарплату. Для меня будущее наступило года 2 назад.😎
Forbes
The Future Will Entail Working Anywhere You’d Like And The Hours You Want, While Receiving The Same Pay
We tend to think of the future in terms of seismic shifts. The more reasonable reality for the future of work is there will be incremental changes that will blossom into full-blown established trends.
Google cloud пока не оседлал волну и потерял 5 лярдов в 2020, но нагонит ещё.
TechCrunch
Google Cloud lost $5.6B in 2020
Google Cloud lost $5.6 billion in Google's fiscal year 2020, which ended December 31. That's on $13 billion of revenue.
#datalearn именно за такими success stories я охочусь и мы все в сообществе data learn создаем их каждый день своим трудом и целеустремленностью. Мне нравиться доказывать, что обходными путями можно добиться куда больше, чем просто в лоб как все. Что не надо платить кучу денег за посредственные курсы, когда все бесплатно. И главное, что когда мы помогаем кому-то, то этот человек будет так же помогать другим, своим пример мы можем немножко менять судьбы людей, это дает сил🚀
Интересно как повлияет уход Безоса с поста CEO на компанию и на стоимость акций Амазон, которые выросли в 5 раз за 5 лет.
Вовремя я ушел, без Безоса Амазон, не Амазон для меня.
Вовремя я ушел, без Безоса Амазон, не Амазон для меня.
US About Amazon
Email from Jeff Bezos to employees
Fellow Amazonians:
Анастасия Риццо выложила новое видео, очень классно все объяснила, поймет даже человек без опыта.
YouTube
ML-101 | Module 01 | Lesson 02 | Datasets, Libraries, Data Load, Train-Validation-Test datasets.
Курс Getting Started with Machine Learning and Data Science (ML-101).
В этом уроке мы:
📌 Узнаем как составлять план работы с datasets;
📌 Разберем библиотеки: Pandas, Numpy, Matplotlib, Seaborn, Scikit-learn.
📌 Увидим как загрузить данные из .csv файла;…
В этом уроке мы:
📌 Узнаем как составлять план работы с datasets;
📌 Разберем библиотеки: Pandas, Numpy, Matplotlib, Seaborn, Scikit-learn.
📌 Увидим как загрузить данные из .csv файла;…
Делать игры самим оказалось не по зубам для Google Stadia. Они закрыли все студии, что на руку Xbox, PS и другим.
Kotaku
Google Stadia Shuts Down Internal Studios, Changing Business Focus
Google Stadia, the late 2019 streaming platform that promised to revolutionize gaming by letting users stream games without needing to own a powerful PC or console, is altering course, getting out of the game-making business and will now offer its platform…
Отличный message про сертификацию и доп курсы. Если нет сертификата это не так уж и плохо, на то могут быть причины. Но если есть, то это показывает ваш интерес к теме изучения предмета. Я всегда на собеседования в Амазон спрашивал про онлайн курсы типа Coursera, edx. Мне не важны были сертификации, но сам процесс изучения предмета говорит о многом.
Возвращаясь к нашей реальности, если у нас уже все ок с работой и опытом и мы не в консалтинге, где нужен прув экзамена, то и фиг с ним. А вот джунам, которые выдают себя за мидл😜, сертификат добавит веса, будет легче придерживаться своей красивой истории про большой опыт.
Возвращаясь к нашей реальности, если у нас уже все ок с работой и опытом и мы не в консалтинге, где нужен прув экзамена, то и фиг с ним. А вот джунам, которые выдают себя за мидл😜, сертификат добавит веса, будет легче придерживаться своей красивой истории про большой опыт.
Порция постов для оголодавших гиков и прочих причастных к Big Data, ML и Python разработке:
Speaking of Spark Mllib
Modern Big Data architectures
Testing and validation in ML
Если вам интересно то и то, то вы можете подписаться на канал
PS автор поста закинул денежку vsevsevmeste.ru🤗
Speaking of Spark Mllib
Modern Big Data architectures
Testing and validation in ML
Если вам интересно то и то, то вы можете подписаться на канал
PS автор поста закинул денежку vsevsevmeste.ru🤗
Вот и подошла к концу самая эпичная битва зимы!
Финал чемпионата для дата-сайентистов Alfa Battle 2.0.
Присоединяйтесь на утренний кофе с победителями и всеми причастными к громкому событию в it-индустрии 💥
Мы собрали для вас содержательный и яркий видеоподкаст:
- Победители поведали секреты эффективного подхода к решению задач чемпионата
- Организаторы поделились инсайтами “Как создавать задачи со звездочками”
- Жюри выбрало лучшие открытые решения
- Раскрыли карты “Как попасть на стажировку в компании Альфа-Групп”
📍Ссылка на трансляцию - https://www.youtube.com/watch?v=A7ha6mRUnhc
Заваривайте свой любимый напиток и готовьтесь погрузиться в самое технологичное утро февраля ☕️
PS тоже поддержали vsevsevmeste.ru😋
Финал чемпионата для дата-сайентистов Alfa Battle 2.0.
Присоединяйтесь на утренний кофе с победителями и всеми причастными к громкому событию в it-индустрии 💥
Мы собрали для вас содержательный и яркий видеоподкаст:
- Победители поведали секреты эффективного подхода к решению задач чемпионата
- Организаторы поделились инсайтами “Как создавать задачи со звездочками”
- Жюри выбрало лучшие открытые решения
- Раскрыли карты “Как попасть на стажировку в компании Альфа-Групп”
📍Ссылка на трансляцию - https://www.youtube.com/watch?v=A7ha6mRUnhc
Заваривайте свой любимый напиток и готовьтесь погрузиться в самое технологичное утро февраля ☕️
PS тоже поддержали vsevsevmeste.ru😋
Из историй про Power BI. Опять же, может кто подскажет. Задача была простая - использовать Power BI API, чтобы выгружать PDF и обновлять дашборды. Результат сохранять в Shared Folder. Этим больше занимался мой коллега.
Тема интеграции ETL и BI моя любимая! Так как нельзя доверять расписанию BI, так как оно сработает независимо от того, ETL готов или нет. Всегда одни и те же проблема. В 9 утра отчеты уже обновились, все ковыряются в данных и к обеду находят, что данные кривые - оказывается ETL упал ночью😵 Я настраивал так для Microstrategy и SAP BusinessObjects. И даже в tableau делал через Pentaho.
В Tableau я всегда использовал tabcmd (клиент для CLI). Мы можешь его установить на машину с ETL и дергать Tableau Server, как только ETL готов, если что-то сломалось, просто получим уведомление по email и в messenger. Есть еще библиотека для Python, делает тоже самое. В общем очень элегантно и работает безотказно. Можно еще добавить для Windows Febooti CLI email клиент, он будет отправлять отчеты, а можно и в AWS S3 складывать или AWS SES, чтобы отправлял приложение. Много сценариев. Мой пример для Matillion+Redshift;
А вот если гуглить похожий сценарий по Power BI, получается не так все просто. На словах просто, на деле нет. У нас это работает через Power BI Embedded. Там цены в месяц за среднюю машину под 3к$. К ней можно через API подключиться и она может все сделать, но embedded дорогой, потому что он для приложений, где может быть много пользователей, например личный кабинет. То есть это как из пушки по воробьям. С помощью Azure Data Factory мы запускаем весь pipeline, берем credentials из Azure Key Vault, через API Call аунтифицируемся, обновляем модель и скачиваем PDF. Там у товарища компонентов 10-15 pipeline. И куча сложностей с аунтификацией, поэтому он через Embedded зашел.
Может есть более простое решение?
Тема интеграции ETL и BI моя любимая! Так как нельзя доверять расписанию BI, так как оно сработает независимо от того, ETL готов или нет. Всегда одни и те же проблема. В 9 утра отчеты уже обновились, все ковыряются в данных и к обеду находят, что данные кривые - оказывается ETL упал ночью😵 Я настраивал так для Microstrategy и SAP BusinessObjects. И даже в tableau делал через Pentaho.
В Tableau я всегда использовал tabcmd (клиент для CLI). Мы можешь его установить на машину с ETL и дергать Tableau Server, как только ETL готов, если что-то сломалось, просто получим уведомление по email и в messenger. Есть еще библиотека для Python, делает тоже самое. В общем очень элегантно и работает безотказно. Можно еще добавить для Windows Febooti CLI email клиент, он будет отправлять отчеты, а можно и в AWS S3 складывать или AWS SES, чтобы отправлял приложение. Много сценариев. Мой пример для Matillion+Redshift;
А вот если гуглить похожий сценарий по Power BI, получается не так все просто. На словах просто, на деле нет. У нас это работает через Power BI Embedded. Там цены в месяц за среднюю машину под 3к$. К ней можно через API подключиться и она может все сделать, но embedded дорогой, потому что он для приложений, где может быть много пользователей, например личный кабинет. То есть это как из пушки по воробьям. С помощью Azure Data Factory мы запускаем весь pipeline, берем credentials из Azure Key Vault, через API Call аунтифицируемся, обновляем модель и скачиваем PDF. Там у товарища компонентов 10-15 pipeline. И куча сложностей с аунтификацией, поэтому он через Embedded зашел.
Может есть более простое решение?
Про Snowflake я писал не раз и даже общался с компаниями в Москве, кто хочет внедрять технологию. Приходили и рекрутеры, кто хочет специалистов по Snowflake. Так что наш следующий вебинар очень в тему. И он в тему модуля 6 #datalearn про современные аналитические DW. Я бы даже отнес его к Lakehouse.
https://youtu.be/XJa3gGWidg0
Из нашего slack:
Мальчишки, девчонки, а также их родители, про Snowflake историю в понедельник 8 февраля в 20:00 по мск послушать не хотите ли? Николай Голов подготовил отличный доклад. Ему есть чего рассказать и чему поучить!
Как всегда всем быть, те кто смотрит лекции будущие Олимпийские чемпионы в дата мире 😊
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В понедельник в 20:00 быть на вебинаре
И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
https://youtu.be/XJa3gGWidg0
Из нашего slack:
Мальчишки, девчонки, а также их родители, про Snowflake историю в понедельник 8 февраля в 20:00 по мск послушать не хотите ли? Николай Голов подготовил отличный доклад. Ему есть чего рассказать и чему поучить!
Как всегда всем быть, те кто смотрит лекции будущие Олимпийские чемпионы в дата мире 😊
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В понедельник в 20:00 быть на вебинаре
И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
YouTube
SNOWFLAKE ИЛИ КАК БД ВЫБИРАЛИ / НИКОЛАЙ ГОЛОВ / MANYCHAT
Ссылки от спикера:
https://habr.com/ru/company/manychat/blog/530054/
https://habr.com/ru/company/oleg-bunin/blog/514298/
https://www.youtube.com/watch?v=T7IHSwCNU2c&feature=emb_logo
https://habr.com/ru/company/manychat/blog/530054/
https://habr.com/ru/company/oleg-bunin/blog/514298/
https://www.youtube.com/watch?v=T7IHSwCNU2c&feature=emb_logo