Если вы совсем новичок и хотите работать с данными, то можно начать с простого - с Экселя. Вот и курс. Курсы на английском. Это хорошо, нам не нужно искать легких путей. Все термины по аналитике на английском, не обходите курсы на английском.
В Алексе мне часто приходиться првоодить собеседования для BI и Data Engineer. Я это очень не люблю. Собеседование занимает 1 час, потом еще надо писать подробный отчет, это еще 30 минут. Самое обидное в этой истории, что на эти вакансии я собеседую только специалистов из индии. Они классные ребята, они учатся программирования с детского садика, в их резюме можно найти все технологии мира и все ключевые слова по специальности, они знают все и ничего не знают. Например скоро буду собеседовать Top-Tier IT Consultant (Data Management Expert | Innovation Leader | Visualization Enthusiast), это я не придумал, а скопировал у него.
Меня больше интересует вопрос, что делают Канадцы и Американцы? Почему все Research Scientist/Data Science позиции занимают китайцы, а все BI/DE/BigData индусы. Конечно есть и местные ребята и из Европы из России и Украины, но это больше исключение из правил. Одно можно сказать точно, они могут хреначить круглосуточно (учиться, работать, карабкаться вверх). За счет этого они пробиваются вверх. Шансы у всех равны и возможности тоже, а вот мотивация разная. Если бы мне попался русскоговорящий кандидат, я бы наверно обрадовался; Другой вопрос, что собеседования в Амазон построены таким образом, что сразу собеседуют 5-6 человек и каждый отвечает за свою маленькую область.
Меня больше интересует вопрос, что делают Канадцы и Американцы? Почему все Research Scientist/Data Science позиции занимают китайцы, а все BI/DE/BigData индусы. Конечно есть и местные ребята и из Европы из России и Украины, но это больше исключение из правил. Одно можно сказать точно, они могут хреначить круглосуточно (учиться, работать, карабкаться вверх). За счет этого они пробиваются вверх. Шансы у всех равны и возможности тоже, а вот мотивация разная. Если бы мне попался русскоговорящий кандидат, я бы наверно обрадовался; Другой вопрос, что собеседования в Амазон построены таким образом, что сразу собеседуют 5-6 человек и каждый отвечает за свою маленькую область.
Отличный white paper - Google BigQuery экономически выгодное решение и стоимость TCO (Total Cost of Ownership - цена владения) 26-34% меньше, чем у аналогов. Конечно, тут и маркетинг, но в целом облачное хранилище дешевле и проще в эксплуатации.
Яндекс успешно развивает облако в России. Вот запись с последнего мероприятия Yandex Scale
YouTube
Yandex Scale. Красный зал
Yandex Scale - первая большая конференция Яндекс.Облака.
Трансляция осуществляется из трёх залов. Кроме Красного вы также можете посетить:
Синий зал - https://youtu.be/Hdc7UBRXBKU
Жёлтый зал - https://youtu.be/ICcZpw7o8RI
Ознакомиться с программой всех…
Трансляция осуществляется из трёх залов. Кроме Красного вы также можете посетить:
Синий зал - https://youtu.be/Hdc7UBRXBKU
Жёлтый зал - https://youtu.be/ICcZpw7o8RI
Ознакомиться с программой всех…
Чувак, который создавал Apache SuperSet (open source BI) и Apache Airflow (open-source ELT) создал новую компанию это коммерческая версия SuperSet. Должно быть, что-то дельное.
preset.io
Modern BI Powered by Open Source Apache Superset™
Powerful, easy to use data exploration and visualization platform, powered by open-source Apache Superset™. Modern business intelligence for your entire organization.
Завтра в Ванкувере выступаю на Табло Юзер группе. В Ванкувере есть офис Табло, но там разработка продукта именно. На картине одна из фич Snowflake - возможность писать запросы прям поверх semi structured файлов (Avro, Parquet, XML, JSON). Обычно, чтобы писать запросы к таким данным, нам нужно распарсить это все дело ETL/ELT и сохранить результат в DW или же мы будем использовать Hadoop+(SparkHive/Presto и тп) чтобы все это дело преобразовать, то есть целое решение Big Data надо построить. А у Snowflake есть тип данных Variant, он хранит такие файлы и можно писать запросы, как на картинке. Еще в Snowflake есть sample погоды, ну как sample 240 млн строк и 400Gb. В общем им я покажу Ванкувер. Ради интереса выбрал Россию, это Лето 2019 года, максимальная температура по городам. Кстати есть очень крутые кейсы когда открытые данные погоды используют для бизнес аналитики. Я о таком мечтал в 2011 году в Сбербанке на проекте Терадаты. Ну в общем там всем было на погоду ***😇
Подкаст про дата инжиниринг https://www.dataengineeringpodcast.com/kedro-data-pipeline-episode-100/
Data Engineering Podcast
Ship Faster With An Opinionated Data Pipeline Framework - Episode 100
Building an end-to-end pipeline for your machine learning projects is a complex task, made more difficult by the variety of ways that you can structure it. Kedro is a framework that provides an opinionated workflow that lets you focus on the parts that matter…
Табло выпустил Tableau Hyper API, как известно хайпер это поколоначная база данных и теперь у нас есть возможность писать к ней запросы и меня содержимое использую SQL.
Tableau
Tableau Hyper API
Documentation for the Tableau Hyper API
Вчера прошла в Ванкувере Tableau User Group, где я рассказал и показал как использовать Snowflake и Tableau. В целом не очень круто все прошло, так как у меня было не достаточно время подготовиться. Ну что есть, то есть. Презентацию не буду шарить, там ничего особенного, зато поделюсь насколько сложно добираться до Ванкувера одним днем. Я вышел из дома в 10 утра, а был дома в 1 ночи, чтобы провести 2 часа в Ванкувере. Вот как выглядит маршрут. Денег пока не заработал на самолет/вертолет (тут есть такая опция, стоит 150-200 долларов в один конец). А Автобусы и паром получается гдето до 45 за день. Но самое ужасное это время и кол-во автобусов.
Visual-vocabulary.pdf
3.9 MB
Если вы еще не распечатали А3 формат эту картинку, еще не все потеряно! Украшайте ваше помещение правильными картинами😏
Кстати смешно но факт! Главный инструмент для BI это калькулятор - все время нужно считать цифры и мтерики. А вот главные инструмент для Data Engineer это календарь! Все время ищу дау начала и конец нужной недели, проверяю кол-во дней в месяце и многое другое. Мой секрет data engineering, я все стараюсь делить на дни, потому что так удобней забирать данные из источника по дням, проверять кол-во дней, кол-во строк за день и тп. Можно дальше агрегировать по месяцам и неделям.