Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.99K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
А это CTO Teradata Stephen Brobst, супер крутой дядька, всегда в гавайских рубашках, легенда, один раз я был на его выступлении в Москве, есть еще порох в пороховницах, если есть возможность посмотрите его свежие выступления, всегда говорит про тренды в индустрии. В общем Терадата активно двинулась в облака, и теперь все желающие могут использовать Teradata Vantage - платформа аналитики, полюбому очень дорого.

Писал я тут в Канаде в Терадату, типа привет, мы тут такие классные, спецы по терадате, но она сказали, что не интересны мы им, да и вообще походу Терадата в Канаде не очень популярна. Но безусловно есть компании, знаю одну лично - компания лотереи в провинции Манитоба “Western Canada Lottery Corporation”, используют Teradata и BI Cognos. А вот компания, WholeFoods, которую приобрел Амазон, тоже на Teradata, но мигрируют на Redshift. В общем так и живем, все куда-то мигрируют, как птицы перелетные.🐔
подходит на все случаи жизни
DE book.pdf
272.8 KB
The Data Engineering Cookbook
- Голосовые помошники и умные колонки сейчас являются самый быстро растущей категорий устройств
- К 2022 году, 70% белых воротничков будут взаимодействовать к чат платформами
- +50% американцев общались с ботоми и голосовыми помошниками

Сердецем голосового помошника является Natural Language Processing. Natural Language Understanding (NLU) - это постобработка текста после спользования алгоритмов (NLP), которое использует Automatic Speech Recognition (ASR), чтобы выполнить правильное действие (intent). В Википедии, говориться, что первым использовал этот метод Даниэль Бобров в 1964 году в MIT, где писал свою Phd. Кстати Alexa NLU находится в Бостоне, поближе к наукоемким специалистам (MIT, Harward).

А вот Ted Talk, где затронуты интересные вопросы про взаимодействия человека и помощника. В целом 30% всех взаимодоействий, это наезд и издевательство на искуственным интелектом. Не говоря уже про склонение к насилию и другим фантазиям людей))
Отличная история для хэштега #fakeittillyoumakeit
Не нужно боятся роботизации, а вот алгоритмы, которые автоматизируют человеческий труд, это все они!
Survey Data Analysis.pdf
595.5 KB
Если вы работает с результатами опросов, эта методичка может быть вам полезна.
Сравнение классических аналитических MPP хранилищ данных. Даже цену за ТБ указали. Опубликовано в 2015 году! Сколько всего изменилось. В это время я первый раз попробовал Redshift и использовал его для маркетингового аналитики (с маркетингом тоже в первый раз работал, модель атрибуции, мобильные приложения и много прочего)
Безопасность данных это очень важно. Особенно, если вы используете данные персональные данные personally identifiable information (PII). По умолчания в Amazon Redshift нет встроенной функциональности для маскировки данных. В этой статье описано решение для и использование стороннего продукта для безопасности персональных данных personally identifiable information (PII) https://aws.amazon.com/blogs/big-data/protect-and-audit-pii-data-in-amazon-redshift-with-datasunrise-security/ Есть и другой вариант использовать hash и python UDF функции, чтобы обезличить ваши данные.
Azure сегодня презентовала новый продукт - Azure Synapse Analytics. В общем они решили очевидную проблему, объединили озеро данных Azure Data Lake и хранилище данных Azure SQL Data Warehouse. Все для нашего удобства. https://news.microsoft.com/innovation-stories/ignite-2019-azure-synapse
В Японии Data Science нет так популярно, как Arificial Intelligence
Бизнес Amazon, это без учета дочерних предприятий, таких как IMDB, Abebooks. Очень интересно узнать как делать с данными и аналитикой обстоят в Solar и Wind Farm
Сегодня выступал в школе, у них была ярмарка вакансий и я рассказывал про работу в Amazon и Alexa, взял даже сына (ему 7 лет), он показывал как он взаимодойствует с Alexa. 2 счастливчиков выиграли новые устройства, которых еще нет в Канаде. Сын пропустил школу, но явно узнал много нового и теперь сидит рисуют Alexa разные устройства, я его кстати везде беру на все мероприятия, это такое у нас детский MBA:)
В Штатах говорят про сильный спад Hadoop: Цитата CEO Snowflake "Slootman: "I've never seen something crater as fast as Hadoop in all my years in the business. We see whole companies like Cloudera, MapR just falling off a damn cliff. We haven't seen that in technology, it's usually a gradual decline. This is rapid decline."

И правда, Snowflake в себе совмещает озеро данных и хранилище. В Azure есть DataBricks (Spark) вместо HDInsight (Hadoop), в AWS есть Athena, Spectrum, Glue (with Spark), которое можно использовать вместо Elastic Map Reduce (Hadoop), и так же и в Google Cloud Platform. До этого я писал, что компания Datameer, тоже уходит от Hadoop как основы своего продукта.

Поэтому хорошо знать, что такое Hadoop и основные принципы, но лучше детально изучать Spark.
А говорят, что китайцы все копируют))