Кажется, что определений платформы данных не меньше, чем определений профессии “инженер данных”. В любом случае, это комплексное решение, объединяющее средства для поглощения, хранения, преобразования и анализа данных, а также для оркестрации потоков данных и др.
С точки зрения хранения, это обычно сочетание DL и DWH. Данные из различных источников загружаются в DL, структурируются и загружаются в DWH. А в обратном направлении в DL выгружаются архивные данные.
Пример
https://habr.com/ru/company/leroy_merlin/blog/561072/
С точки зрения хранения, это обычно сочетание DL и DWH. Данные из различных источников загружаются в DL, структурируются и загружаются в DWH. А в обратном направлении в DL выгружаются архивные данные.
Пример
https://habr.com/ru/company/leroy_merlin/blog/561072/
👍3
Переходим к видам систем, которые могут быть использованы как для организации промежуточного хранения на разных этапах движения данных, так и в качестве ядра корпоративной платформы данных.
Реляционные БД (PostgreSQL, MSSQL, Oracle и т. д.) по-прежнему остаются популярными в качестве основы для построения хранилищ данных, особенно небольших (примерно до 1ТБ).
Главный их плюс на текущий момент, как мне кажется, заключается в большом количестве условно доступных специалистов. При отстутствии дата-команды ответственность за аналитику перекладывается на DBA, которые просто рядом с основной БД создают еще одну и начинают туда перекладывать данные.
Главный минус тоже очевиден. С тяжелыми запросами, выбирающими большие объемы данных, могут возникнуть проблемы, даже если все и вся перекрыть индексами. Поэтому ведущие производители таких СУБД дополняют их средствами для поддержки подобных запросов, например, колоночные индексы в MSSQL.
Продолжение следует...
Реляционные БД (PostgreSQL, MSSQL, Oracle и т. д.) по-прежнему остаются популярными в качестве основы для построения хранилищ данных, особенно небольших (примерно до 1ТБ).
Главный их плюс на текущий момент, как мне кажется, заключается в большом количестве условно доступных специалистов. При отстутствии дата-команды ответственность за аналитику перекладывается на DBA, которые просто рядом с основной БД создают еще одну и начинают туда перекладывать данные.
Главный минус тоже очевиден. С тяжелыми запросами, выбирающими большие объемы данных, могут возникнуть проблемы, даже если все и вся перекрыть индексами. Поэтому ведущие производители таких СУБД дополняют их средствами для поддержки подобных запросов, например, колоночные индексы в MSSQL.
Продолжение следует...
👍3
Лирическое отступление - 2 или внутри инженера данных.
Мне всегда нравилось возиться с цифрами. В четвертом классе на вопрос: "Кем ты хочешь стать?" - я уверенно отвечал: “статистиком”. Примерно в то же время я "построил" свою первую платформу данных, когда мама попросила перенести на "холодное хранение" кучи номеров еженедельника "Футбол", захламлявших антресоли.
В качестве Object Storage я выбрал красную папку советского производства, в качестве ETL-инструмента – ножницы, для визуализации – зеленую школьную тетрадь в клетку (18 листов, Архангельский Целлюлозно-Бумажный Комбинат).
Я вырезал понравившиеся мне материалы из еженедельника и складывал их в папочку. А уже потом, когда первоначальная загрузка была завершена, приступил к анализу. Я рисовал в тетрадке таблицы лучших бомбардиров всех времен различных европейских футбольных турниров: Кубка Обладателей Кубков, Кубка Чемпионов, Кубка УЕФА. Используя придуманные мной алгоритмы, составлял символические сборные чемпионатов СССР по футболу. Такой вот data science, ага…
В общем, если уж хотите стать инженером данных, ищите мотивацию внутри себя. Ни деньги, ни технологии, ни хайп не сделают вас счастливее. А вот осознание того, что каждый день занимаешься любимым делом, сделает. А когда еще за это и деньги платят… 😀
Мне всегда нравилось возиться с цифрами. В четвертом классе на вопрос: "Кем ты хочешь стать?" - я уверенно отвечал: “статистиком”. Примерно в то же время я "построил" свою первую платформу данных, когда мама попросила перенести на "холодное хранение" кучи номеров еженедельника "Футбол", захламлявших антресоли.
В качестве Object Storage я выбрал красную папку советского производства, в качестве ETL-инструмента – ножницы, для визуализации – зеленую школьную тетрадь в клетку (18 листов, Архангельский Целлюлозно-Бумажный Комбинат).
Я вырезал понравившиеся мне материалы из еженедельника и складывал их в папочку. А уже потом, когда первоначальная загрузка была завершена, приступил к анализу. Я рисовал в тетрадке таблицы лучших бомбардиров всех времен различных европейских футбольных турниров: Кубка Обладателей Кубков, Кубка Чемпионов, Кубка УЕФА. Используя придуманные мной алгоритмы, составлял символические сборные чемпионатов СССР по футболу. Такой вот data science, ага…
В общем, если уж хотите стать инженером данных, ищите мотивацию внутри себя. Ни деньги, ни технологии, ни хайп не сделают вас счастливее. А вот осознание того, что каждый день занимаешься любимым делом, сделает. А когда еще за это и деньги платят… 😀
👍5😁2👏1
Очень люблю такие статьи. Все четко, по полочкам, по уму. Но не работает (в подавляющем большинстве случаев). Чтобы внедрить культуру данных, корпоративную культуру и прочие "над-культуры", должен появиться определенный уровень "просто-культуры". А пока этот уровень находится где-то в районе "Айзек Азимов за свою жизнь написал 500 книг, это ровно на 500 книг больше, чем прочитали мои родители", все попытки внедрения сродни попыткам измельчить жидкость без вкуса, цвета и запаха до размера молекулы продолговатым предметом в сосуде округлой формы.
Поэтому, условно говоря, сначала Чехов, а уж потом Клеппман...
P.S. Цитата про Айзека Азимова принадлежит доктору Шелдону Куперу в переводе "Кураж-Бамбей".
https://big-i.ru/innovatsii/tekhnologii/kak-sozdat-v-kompanii-kulturu-dannykh/
Поэтому, условно говоря, сначала Чехов, а уж потом Клеппман...
P.S. Цитата про Айзека Азимова принадлежит доктору Шелдону Куперу в переводе "Кураж-Бамбей".
https://big-i.ru/innovatsii/tekhnologii/kak-sozdat-v-kompanii-kulturu-dannykh/
big-i.ru
Как создать в компании культуру данных | Большие Идеи
Большие идеи
👍3
Forwarded from Мathshub
Вы узнаете:
➤ Чем отличаются дата-профессии
➤ Особенности профессии дата-инженера
➤ Понятия, используемые в работе и основные инструменты
Для кого вебинар?
После вебинара вы поймете специфику работы дата-инженера и узнаете основные инструменты, которые используют специалисты. Спикер расскажет о возможностях дата-профессий и особенностях входа в сферу.
Спикеры:
Андрей Ларионов
Диана Сафина — руководитель программ Mathshub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤🔥1
А вот еще одна интересная статья, косвенно подтверждающая основной тезис предпредыдущего поста. Если в 2023 году хранилища данных все еще пугают бизнес и нужны обоснования для их построения, то, кажется, история совершила очередной заход на круг из граблей.
Как в биатлоне, промахнулись и зашли на штрафные 150 метров...
https://habr.com/ru/post/721636/
Как в биатлоне, промахнулись и зашли на штрафные 150 метров...
https://habr.com/ru/post/721636/
Хабр
Хранилище данных пугает бизнес: проблемы DWH для бизнеса
Давным-давно стало очевидно, что хранилище данных вещь полезная, а часто – просто необходимая. Повышение эффективности принимаемых решений, контроль и оптимизация бизнес-процессов, создание цельной...
👍5
Кажется, что пора оторваться от высоких материй и вернуться к видам систем хранения.
Аналитические базы данных – это системы (обычно распределенные), предназначенные специально для поддержки OLAP-нагрузки. Для этого в них имеются всякие модные штуки, типа: колоночное хранение, приближенные вычисления и др.
Основные представители – мой любимый GreenPlum, нетормозящий ClickHouse, Vertica и т. п.
Аналитические базы данных – это системы (обычно распределенные), предназначенные специально для поддержки OLAP-нагрузки. Для этого в них имеются всякие модные штуки, типа: колоночное хранение, приближенные вычисления и др.
Основные представители – мой любимый GreenPlum, нетормозящий ClickHouse, Vertica и т. п.
👍3
Цитата дня:
"Когда я умру и отправлюсь в ад, дьявол сделает меня директором по маркетингу в компании по производству сладкой газировки. Я буду обязан продавать никому не нужный, абсолютно такой же, как у конкурентов, и не имеющий никаких очевидных достоинств продукт. И я буду конкурировать с другими продавцами такой же продукции в цене, сбыте, рекламе, раскрутке, и это будет для меня подлинный ад."
Ивон Шуинар.
P.S. Боже, я обещаю исправиться, быть хорошим мальчиком, только держи меня, пожалуйста, подальше от ChatGPT и не вводи в искушение...
"Когда я умру и отправлюсь в ад, дьявол сделает меня директором по маркетингу в компании по производству сладкой газировки. Я буду обязан продавать никому не нужный, абсолютно такой же, как у конкурентов, и не имеющий никаких очевидных достоинств продукт. И я буду конкурировать с другими продавцами такой же продукции в цене, сбыте, рекламе, раскрутке, и это будет для меня подлинный ад."
Ивон Шуинар.
P.S. Боже, я обещаю исправиться, быть хорошим мальчиком, только держи меня, пожалуйста, подальше от ChatGPT и не вводи в искушение...
😁5
Легенда инженерии данных Maxime Beauchemin в статье о будущем профессии (мой вольный перевод):
"Инженер данных становится хранителем дата-культуры. Он является "смотрящим", ответственным за обучение коллег передовым методам, эффективным способам работы с данными, моделированию данных, стандартам разработки и, полагаясь на качество данных и прозрачность процессов, следит, чтобы все относились к данным с одинаковым прилежанием"
То есть, выживут не те, кто научится при помощи ChatGPT строчить по 100к строк кода в наносекунду (хоть и говорят, что тараканы - самые живучие), а те, кто сможет выстраивать доверительные человеческие отношения с коллегами, будет им помогать и терпеливо обучать для достижения синергетического эффекта в средне- и долгосрочной перспективе.
https://www.montecarlodata.com/blog-the-future-of-the-data-engineer/
"Инженер данных становится хранителем дата-культуры. Он является "смотрящим", ответственным за обучение коллег передовым методам, эффективным способам работы с данными, моделированию данных, стандартам разработки и, полагаясь на качество данных и прозрачность процессов, следит, чтобы все относились к данным с одинаковым прилежанием"
То есть, выживут не те, кто научится при помощи ChatGPT строчить по 100к строк кода в наносекунду (хоть и говорят, что тараканы - самые живучие), а те, кто сможет выстраивать доверительные человеческие отношения с коллегами, будет им помогать и терпеливо обучать для достижения синергетического эффекта в средне- и долгосрочной перспективе.
https://www.montecarlodata.com/blog-the-future-of-the-data-engineer/
Monte Carlo Data
The Future Of Data Engineering As An Engineer | Monte Carlo
Is the data engineer still the "worst seat at the table?" Maxime Beauchemin, creator of Apache Airflow, weighs in on the future of data engineering.
👍2
Лирическое отступление №3.
Самая главная причина выгорания, на мой взгляд, заключается в том, что наши внутренние установки не совпадают с мотивацией, навязываемой извне, как-то: материальные блага, социальный статус, перспективы роста...
Рано или поздно такой конфликт "доведет до цугундера". Поэтому определение своей внутренней мотивации гораздо важнее изучения "правильных" технологий.
После долгих размышлений я пришел к выводу, что, помимо самих данных, меня вдохновляют люди. И всегда по итогам собеседования я выбирал именно тех, кто меня собеседовал, а не компании, технологии, деньги или перспективы.
Поэтому сейчас мне хочется сказать огромное спасибо всем, кто был или продолжает быть рядом со мной, кто помогал и обучал, мотивировал и вдохновлял, решал со мной вместе различные задачи и преодолевал сложные жизненные ситуации, бежал марафон и ходил на концерты, рушил догмы и строил светлое будущее…
Без вас моя жизнь была бы похожа на барьерный бег: короткий спринт от выгорания к выгоранию.
Самая главная причина выгорания, на мой взгляд, заключается в том, что наши внутренние установки не совпадают с мотивацией, навязываемой извне, как-то: материальные блага, социальный статус, перспективы роста...
Рано или поздно такой конфликт "доведет до цугундера". Поэтому определение своей внутренней мотивации гораздо важнее изучения "правильных" технологий.
После долгих размышлений я пришел к выводу, что, помимо самих данных, меня вдохновляют люди. И всегда по итогам собеседования я выбирал именно тех, кто меня собеседовал, а не компании, технологии, деньги или перспективы.
Поэтому сейчас мне хочется сказать огромное спасибо всем, кто был или продолжает быть рядом со мной, кто помогал и обучал, мотивировал и вдохновлял, решал со мной вместе различные задачи и преодолевал сложные жизненные ситуации, бежал марафон и ходил на концерты, рушил догмы и строил светлое будущее…
Без вас моя жизнь была бы похожа на барьерный бег: короткий спринт от выгорания к выгоранию.
👍15
Forwarded from Data & IT Career
SQL и хранилищам данных, полезные ссылки по теме:
🟡 PostgreSQL
🔘 Домашняя страница базы данных
🔘 Что такое PostgreSQL? (краткие сведения)
🔘 Документация к PostgreSQL 14.5 на русском языке
🔘 Курс молодого бойца PostgreSQL
🔘 Подборка статей
🔘 Язык SQL
🟢 Архитектура хранилищ данных
🔘 Хранилище данных: понятия
🔘 Архитектура хранилищ данных: традиционная и облачная
🔘 Что такое хранилище данных?
🔘 Публикации, рассказывающие о хранилищах данных, подборка Habr
🔘 Обзор гибких методологий проектирования DWH
🔘 Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud
🔘 Создание Data Lake и Warehouse на GCP
#sql #postgres #dwh #clickhouse #datalake
https://news.1rj.ru/str/data_engi/101
#sql #postgres #dwh #clickhouse #datalake
https://news.1rj.ru/str/data_engi/101
Please open Telegram to view this post
VIEW IN TELEGRAM
PostgreSQL
The world's most advanced open source database.
👍8
Продолжаем с хранением: Rowstore vs Columnstore.
Rowstore - данные хранятся в виде строк (все поля одной строки "уложены" друг за другом (ну, почти).
➕ Проще вставлять/изменять данные
➕ Подходят для выборки всех полей
➖С выборкой числа полей, отличного от "все", особенно на больших объемах, жди беды.
Columnstore - данные хранятся в виде колонок (строки одной колонки "уложены" друг за другом).
➕ Хорошо подходят для выборки небольшого числа полей
➕ Обычно занимает меньше места за счет сжатия
➖ Вставка, а, особенно изменение/удаление, могут стать причиной боли, сравнимой разве что с укусом "внезапно" взбесившегося бойцового пса из культового фильма "Trainspotting"
➖ Выборка числа полей, приближающегося к "все",- тоже удовольствие не из приятных.
Rowstore - данные хранятся в виде строк (все поля одной строки "уложены" друг за другом (ну, почти).
➕ Проще вставлять/изменять данные
➕ Подходят для выборки всех полей
➖С выборкой числа полей, отличного от "все", особенно на больших объемах, жди беды.
Columnstore - данные хранятся в виде колонок (строки одной колонки "уложены" друг за другом).
➕ Хорошо подходят для выборки небольшого числа полей
➕ Обычно занимает меньше места за счет сжатия
➖ Вставка, а, особенно изменение/удаление, могут стать причиной боли, сравнимой разве что с укусом "внезапно" взбесившегося бойцового пса из культового фильма "Trainspotting"
➖ Выборка числа полей, приближающегося к "все",- тоже удовольствие не из приятных.
👍4
Много ли человеку нужно для счастья?
Мне вот достаточно развернуть Apache Airflow в Яндекс.Облаке, запилить даг, собирающий данные из REST-апишки и сохраняющий их в Object Storage. А затем, откинувшись на мягкую спинку стула с бокалом белого вина из северных регионов Италии, смотреть на появляющиеся из ниоткуда зелененькие кружочки и квадратики, свидетельствующие об успешном выполнении.
Всем хорошего рабочего дня!😀
Мне вот достаточно развернуть Apache Airflow в Яндекс.Облаке, запилить даг, собирающий данные из REST-апишки и сохраняющий их в Object Storage. А затем, откинувшись на мягкую спинку стула с бокалом белого вина из северных регионов Италии, смотреть на появляющиеся из ниоткуда зелененькие кружочки и квадратики, свидетельствующие об успешном выполнении.
Всем хорошего рабочего дня!😀
👍8
Тут в одной запрещенной в РФ сети товарищ утверждает, что он книжку написал по dbt. Жду с нетерпением. Ибо так и не приучил себя за долгие годы обучаться при помощи иных способов, нежели чтение книг.
I’m thrilled to announce that Dustin Dorsey and myself are writing a book on dbt that is going to be published by Apress!(We're talking about the popular open-source data transformation tool, not the therapy practice 😉)
I’m thrilled to announce that Dustin Dorsey and myself are writing a book on dbt that is going to be published by Apress!(We're talking about the popular open-source data transformation tool, not the therapy practice 😉)
👍4
Я уже писал, что для меня очень важно получать удовольствие от того, чем я занимаюсь, чтобы моя работа имела смысл, чтоб меня окружали профессионалы, вместе с которыми можно расти и развиваться, создавать что-то новое…
И я безумно счастлив, что мне повезло быть частью такой команды. В Softline Digital собраны эксперты в различных областях: AI, ML, CV, IoT, Big Data, VR/AR.
Если интересно узнать, чем мы тут занимаемся или просто почитать про передовые решения, присоединяйтесь и давайте расти вместе!
И я безумно счастлив, что мне повезло быть частью такой команды. В Softline Digital собраны эксперты в различных областях: AI, ML, CV, IoT, Big Data, VR/AR.
Если интересно узнать, чем мы тут занимаемся или просто почитать про передовые решения, присоединяйтесь и давайте расти вместе!
Telegram
Softline Digital
Присоединяйся и знакомься с передовыми технологичными решениями в области AI, ML, LLM, CV, IoT.
Наш сайт: https://www.softline.digital/
Канал аналитики: t.me/researchsd
По всем вопросам: digital@softline.com
Наш сайт: https://www.softline.digital/
Канал аналитики: t.me/researchsd
По всем вопросам: digital@softline.com
Италия - топ😃
https://www.gazzetta.it/attualita/31-03-2023/chatgpt-a-rischio-in-italia-la-decisione-del-garante-della-privacy.shtml
https://www.gazzetta.it/attualita/31-03-2023/chatgpt-a-rischio-in-italia-la-decisione-del-garante-della-privacy.shtml
La Gazzetta dello Sport
Il Garante della Privacy blocca ChatGPT in Italia: "Dati personali a rischio". Cosa succederà?
Il Garante della Privacy contro ChatGPT e l'uso dei dati personali degli utenti. I dubbi sollevati e cosa potrebbe succedere alla piattaforma di OpenAI
🤨2🥴1
Оптимизируем NiFi Flow. Настройка Load Balancing, подходы к Scheduling и выбор метода merge https://habr.com/p/726616/
Habr
Оптимизируем NiFi Flow. Настройка Load Balancing, подходы к Scheduling и выбор метода merge
Если вы используете в своей работе NiFi, то наверняка не раз задумывались об оптимизации, а может быть, и делали ее. В этом посте я поделюсь своими наработками в области настроек NiFi, благодаря...
👍3