Переходим к видам систем, которые могут быть использованы как для организации промежуточного хранения на разных этапах движения данных, так и в качестве ядра корпоративной платформы данных.
Реляционные БД (PostgreSQL, MSSQL, Oracle и т. д.) по-прежнему остаются популярными в качестве основы для построения хранилищ данных, особенно небольших (примерно до 1ТБ).
Главный их плюс на текущий момент, как мне кажется, заключается в большом количестве условно доступных специалистов. При отстутствии дата-команды ответственность за аналитику перекладывается на DBA, которые просто рядом с основной БД создают еще одну и начинают туда перекладывать данные.
Главный минус тоже очевиден. С тяжелыми запросами, выбирающими большие объемы данных, могут возникнуть проблемы, даже если все и вся перекрыть индексами. Поэтому ведущие производители таких СУБД дополняют их средствами для поддержки подобных запросов, например, колоночные индексы в MSSQL.
Продолжение следует...
Реляционные БД (PostgreSQL, MSSQL, Oracle и т. д.) по-прежнему остаются популярными в качестве основы для построения хранилищ данных, особенно небольших (примерно до 1ТБ).
Главный их плюс на текущий момент, как мне кажется, заключается в большом количестве условно доступных специалистов. При отстутствии дата-команды ответственность за аналитику перекладывается на DBA, которые просто рядом с основной БД создают еще одну и начинают туда перекладывать данные.
Главный минус тоже очевиден. С тяжелыми запросами, выбирающими большие объемы данных, могут возникнуть проблемы, даже если все и вся перекрыть индексами. Поэтому ведущие производители таких СУБД дополняют их средствами для поддержки подобных запросов, например, колоночные индексы в MSSQL.
Продолжение следует...
👍3
Лирическое отступление - 2 или внутри инженера данных.
Мне всегда нравилось возиться с цифрами. В четвертом классе на вопрос: "Кем ты хочешь стать?" - я уверенно отвечал: “статистиком”. Примерно в то же время я "построил" свою первую платформу данных, когда мама попросила перенести на "холодное хранение" кучи номеров еженедельника "Футбол", захламлявших антресоли.
В качестве Object Storage я выбрал красную папку советского производства, в качестве ETL-инструмента – ножницы, для визуализации – зеленую школьную тетрадь в клетку (18 листов, Архангельский Целлюлозно-Бумажный Комбинат).
Я вырезал понравившиеся мне материалы из еженедельника и складывал их в папочку. А уже потом, когда первоначальная загрузка была завершена, приступил к анализу. Я рисовал в тетрадке таблицы лучших бомбардиров всех времен различных европейских футбольных турниров: Кубка Обладателей Кубков, Кубка Чемпионов, Кубка УЕФА. Используя придуманные мной алгоритмы, составлял символические сборные чемпионатов СССР по футболу. Такой вот data science, ага…
В общем, если уж хотите стать инженером данных, ищите мотивацию внутри себя. Ни деньги, ни технологии, ни хайп не сделают вас счастливее. А вот осознание того, что каждый день занимаешься любимым делом, сделает. А когда еще за это и деньги платят… 😀
Мне всегда нравилось возиться с цифрами. В четвертом классе на вопрос: "Кем ты хочешь стать?" - я уверенно отвечал: “статистиком”. Примерно в то же время я "построил" свою первую платформу данных, когда мама попросила перенести на "холодное хранение" кучи номеров еженедельника "Футбол", захламлявших антресоли.
В качестве Object Storage я выбрал красную папку советского производства, в качестве ETL-инструмента – ножницы, для визуализации – зеленую школьную тетрадь в клетку (18 листов, Архангельский Целлюлозно-Бумажный Комбинат).
Я вырезал понравившиеся мне материалы из еженедельника и складывал их в папочку. А уже потом, когда первоначальная загрузка была завершена, приступил к анализу. Я рисовал в тетрадке таблицы лучших бомбардиров всех времен различных европейских футбольных турниров: Кубка Обладателей Кубков, Кубка Чемпионов, Кубка УЕФА. Используя придуманные мной алгоритмы, составлял символические сборные чемпионатов СССР по футболу. Такой вот data science, ага…
В общем, если уж хотите стать инженером данных, ищите мотивацию внутри себя. Ни деньги, ни технологии, ни хайп не сделают вас счастливее. А вот осознание того, что каждый день занимаешься любимым делом, сделает. А когда еще за это и деньги платят… 😀
👍5😁2👏1
Очень люблю такие статьи. Все четко, по полочкам, по уму. Но не работает (в подавляющем большинстве случаев). Чтобы внедрить культуру данных, корпоративную культуру и прочие "над-культуры", должен появиться определенный уровень "просто-культуры". А пока этот уровень находится где-то в районе "Айзек Азимов за свою жизнь написал 500 книг, это ровно на 500 книг больше, чем прочитали мои родители", все попытки внедрения сродни попыткам измельчить жидкость без вкуса, цвета и запаха до размера молекулы продолговатым предметом в сосуде округлой формы.
Поэтому, условно говоря, сначала Чехов, а уж потом Клеппман...
P.S. Цитата про Айзека Азимова принадлежит доктору Шелдону Куперу в переводе "Кураж-Бамбей".
https://big-i.ru/innovatsii/tekhnologii/kak-sozdat-v-kompanii-kulturu-dannykh/
Поэтому, условно говоря, сначала Чехов, а уж потом Клеппман...
P.S. Цитата про Айзека Азимова принадлежит доктору Шелдону Куперу в переводе "Кураж-Бамбей".
https://big-i.ru/innovatsii/tekhnologii/kak-sozdat-v-kompanii-kulturu-dannykh/
big-i.ru
Как создать в компании культуру данных | Большие Идеи
Большие идеи
👍3
Forwarded from Мathshub
Вы узнаете:
➤ Чем отличаются дата-профессии
➤ Особенности профессии дата-инженера
➤ Понятия, используемые в работе и основные инструменты
Для кого вебинар?
После вебинара вы поймете специфику работы дата-инженера и узнаете основные инструменты, которые используют специалисты. Спикер расскажет о возможностях дата-профессий и особенностях входа в сферу.
Спикеры:
Андрей Ларионов
Диана Сафина — руководитель программ Mathshub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤🔥1
А вот еще одна интересная статья, косвенно подтверждающая основной тезис предпредыдущего поста. Если в 2023 году хранилища данных все еще пугают бизнес и нужны обоснования для их построения, то, кажется, история совершила очередной заход на круг из граблей.
Как в биатлоне, промахнулись и зашли на штрафные 150 метров...
https://habr.com/ru/post/721636/
Как в биатлоне, промахнулись и зашли на штрафные 150 метров...
https://habr.com/ru/post/721636/
Хабр
Хранилище данных пугает бизнес: проблемы DWH для бизнеса
Давным-давно стало очевидно, что хранилище данных вещь полезная, а часто – просто необходимая. Повышение эффективности принимаемых решений, контроль и оптимизация бизнес-процессов, создание цельной...
👍5
Кажется, что пора оторваться от высоких материй и вернуться к видам систем хранения.
Аналитические базы данных – это системы (обычно распределенные), предназначенные специально для поддержки OLAP-нагрузки. Для этого в них имеются всякие модные штуки, типа: колоночное хранение, приближенные вычисления и др.
Основные представители – мой любимый GreenPlum, нетормозящий ClickHouse, Vertica и т. п.
Аналитические базы данных – это системы (обычно распределенные), предназначенные специально для поддержки OLAP-нагрузки. Для этого в них имеются всякие модные штуки, типа: колоночное хранение, приближенные вычисления и др.
Основные представители – мой любимый GreenPlum, нетормозящий ClickHouse, Vertica и т. п.
👍3
Цитата дня:
"Когда я умру и отправлюсь в ад, дьявол сделает меня директором по маркетингу в компании по производству сладкой газировки. Я буду обязан продавать никому не нужный, абсолютно такой же, как у конкурентов, и не имеющий никаких очевидных достоинств продукт. И я буду конкурировать с другими продавцами такой же продукции в цене, сбыте, рекламе, раскрутке, и это будет для меня подлинный ад."
Ивон Шуинар.
P.S. Боже, я обещаю исправиться, быть хорошим мальчиком, только держи меня, пожалуйста, подальше от ChatGPT и не вводи в искушение...
"Когда я умру и отправлюсь в ад, дьявол сделает меня директором по маркетингу в компании по производству сладкой газировки. Я буду обязан продавать никому не нужный, абсолютно такой же, как у конкурентов, и не имеющий никаких очевидных достоинств продукт. И я буду конкурировать с другими продавцами такой же продукции в цене, сбыте, рекламе, раскрутке, и это будет для меня подлинный ад."
Ивон Шуинар.
P.S. Боже, я обещаю исправиться, быть хорошим мальчиком, только держи меня, пожалуйста, подальше от ChatGPT и не вводи в искушение...
😁5
Легенда инженерии данных Maxime Beauchemin в статье о будущем профессии (мой вольный перевод):
"Инженер данных становится хранителем дата-культуры. Он является "смотрящим", ответственным за обучение коллег передовым методам, эффективным способам работы с данными, моделированию данных, стандартам разработки и, полагаясь на качество данных и прозрачность процессов, следит, чтобы все относились к данным с одинаковым прилежанием"
То есть, выживут не те, кто научится при помощи ChatGPT строчить по 100к строк кода в наносекунду (хоть и говорят, что тараканы - самые живучие), а те, кто сможет выстраивать доверительные человеческие отношения с коллегами, будет им помогать и терпеливо обучать для достижения синергетического эффекта в средне- и долгосрочной перспективе.
https://www.montecarlodata.com/blog-the-future-of-the-data-engineer/
"Инженер данных становится хранителем дата-культуры. Он является "смотрящим", ответственным за обучение коллег передовым методам, эффективным способам работы с данными, моделированию данных, стандартам разработки и, полагаясь на качество данных и прозрачность процессов, следит, чтобы все относились к данным с одинаковым прилежанием"
То есть, выживут не те, кто научится при помощи ChatGPT строчить по 100к строк кода в наносекунду (хоть и говорят, что тараканы - самые живучие), а те, кто сможет выстраивать доверительные человеческие отношения с коллегами, будет им помогать и терпеливо обучать для достижения синергетического эффекта в средне- и долгосрочной перспективе.
https://www.montecarlodata.com/blog-the-future-of-the-data-engineer/
Monte Carlo Data
The Future Of Data Engineering As An Engineer | Monte Carlo
Is the data engineer still the "worst seat at the table?" Maxime Beauchemin, creator of Apache Airflow, weighs in on the future of data engineering.
👍2
Лирическое отступление №3.
Самая главная причина выгорания, на мой взгляд, заключается в том, что наши внутренние установки не совпадают с мотивацией, навязываемой извне, как-то: материальные блага, социальный статус, перспективы роста...
Рано или поздно такой конфликт "доведет до цугундера". Поэтому определение своей внутренней мотивации гораздо важнее изучения "правильных" технологий.
После долгих размышлений я пришел к выводу, что, помимо самих данных, меня вдохновляют люди. И всегда по итогам собеседования я выбирал именно тех, кто меня собеседовал, а не компании, технологии, деньги или перспективы.
Поэтому сейчас мне хочется сказать огромное спасибо всем, кто был или продолжает быть рядом со мной, кто помогал и обучал, мотивировал и вдохновлял, решал со мной вместе различные задачи и преодолевал сложные жизненные ситуации, бежал марафон и ходил на концерты, рушил догмы и строил светлое будущее…
Без вас моя жизнь была бы похожа на барьерный бег: короткий спринт от выгорания к выгоранию.
Самая главная причина выгорания, на мой взгляд, заключается в том, что наши внутренние установки не совпадают с мотивацией, навязываемой извне, как-то: материальные блага, социальный статус, перспективы роста...
Рано или поздно такой конфликт "доведет до цугундера". Поэтому определение своей внутренней мотивации гораздо важнее изучения "правильных" технологий.
После долгих размышлений я пришел к выводу, что, помимо самих данных, меня вдохновляют люди. И всегда по итогам собеседования я выбирал именно тех, кто меня собеседовал, а не компании, технологии, деньги или перспективы.
Поэтому сейчас мне хочется сказать огромное спасибо всем, кто был или продолжает быть рядом со мной, кто помогал и обучал, мотивировал и вдохновлял, решал со мной вместе различные задачи и преодолевал сложные жизненные ситуации, бежал марафон и ходил на концерты, рушил догмы и строил светлое будущее…
Без вас моя жизнь была бы похожа на барьерный бег: короткий спринт от выгорания к выгоранию.
👍15
Forwarded from Data & IT Career
SQL и хранилищам данных, полезные ссылки по теме:
🟡 PostgreSQL
🔘 Домашняя страница базы данных
🔘 Что такое PostgreSQL? (краткие сведения)
🔘 Документация к PostgreSQL 14.5 на русском языке
🔘 Курс молодого бойца PostgreSQL
🔘 Подборка статей
🔘 Язык SQL
🟢 Архитектура хранилищ данных
🔘 Хранилище данных: понятия
🔘 Архитектура хранилищ данных: традиционная и облачная
🔘 Что такое хранилище данных?
🔘 Публикации, рассказывающие о хранилищах данных, подборка Habr
🔘 Обзор гибких методологий проектирования DWH
🔘 Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud
🔘 Создание Data Lake и Warehouse на GCP
#sql #postgres #dwh #clickhouse #datalake
https://news.1rj.ru/str/data_engi/101
#sql #postgres #dwh #clickhouse #datalake
https://news.1rj.ru/str/data_engi/101
Please open Telegram to view this post
VIEW IN TELEGRAM
PostgreSQL
The world's most advanced open source database.
👍8
Продолжаем с хранением: Rowstore vs Columnstore.
Rowstore - данные хранятся в виде строк (все поля одной строки "уложены" друг за другом (ну, почти).
➕ Проще вставлять/изменять данные
➕ Подходят для выборки всех полей
➖С выборкой числа полей, отличного от "все", особенно на больших объемах, жди беды.
Columnstore - данные хранятся в виде колонок (строки одной колонки "уложены" друг за другом).
➕ Хорошо подходят для выборки небольшого числа полей
➕ Обычно занимает меньше места за счет сжатия
➖ Вставка, а, особенно изменение/удаление, могут стать причиной боли, сравнимой разве что с укусом "внезапно" взбесившегося бойцового пса из культового фильма "Trainspotting"
➖ Выборка числа полей, приближающегося к "все",- тоже удовольствие не из приятных.
Rowstore - данные хранятся в виде строк (все поля одной строки "уложены" друг за другом (ну, почти).
➕ Проще вставлять/изменять данные
➕ Подходят для выборки всех полей
➖С выборкой числа полей, отличного от "все", особенно на больших объемах, жди беды.
Columnstore - данные хранятся в виде колонок (строки одной колонки "уложены" друг за другом).
➕ Хорошо подходят для выборки небольшого числа полей
➕ Обычно занимает меньше места за счет сжатия
➖ Вставка, а, особенно изменение/удаление, могут стать причиной боли, сравнимой разве что с укусом "внезапно" взбесившегося бойцового пса из культового фильма "Trainspotting"
➖ Выборка числа полей, приближающегося к "все",- тоже удовольствие не из приятных.
👍4
Много ли человеку нужно для счастья?
Мне вот достаточно развернуть Apache Airflow в Яндекс.Облаке, запилить даг, собирающий данные из REST-апишки и сохраняющий их в Object Storage. А затем, откинувшись на мягкую спинку стула с бокалом белого вина из северных регионов Италии, смотреть на появляющиеся из ниоткуда зелененькие кружочки и квадратики, свидетельствующие об успешном выполнении.
Всем хорошего рабочего дня!😀
Мне вот достаточно развернуть Apache Airflow в Яндекс.Облаке, запилить даг, собирающий данные из REST-апишки и сохраняющий их в Object Storage. А затем, откинувшись на мягкую спинку стула с бокалом белого вина из северных регионов Италии, смотреть на появляющиеся из ниоткуда зелененькие кружочки и квадратики, свидетельствующие об успешном выполнении.
Всем хорошего рабочего дня!😀
👍8
Тут в одной запрещенной в РФ сети товарищ утверждает, что он книжку написал по dbt. Жду с нетерпением. Ибо так и не приучил себя за долгие годы обучаться при помощи иных способов, нежели чтение книг.
I’m thrilled to announce that Dustin Dorsey and myself are writing a book on dbt that is going to be published by Apress!(We're talking about the popular open-source data transformation tool, not the therapy practice 😉)
I’m thrilled to announce that Dustin Dorsey and myself are writing a book on dbt that is going to be published by Apress!(We're talking about the popular open-source data transformation tool, not the therapy practice 😉)
👍4
Я уже писал, что для меня очень важно получать удовольствие от того, чем я занимаюсь, чтобы моя работа имела смысл, чтоб меня окружали профессионалы, вместе с которыми можно расти и развиваться, создавать что-то новое…
И я безумно счастлив, что мне повезло быть частью такой команды. В Softline Digital собраны эксперты в различных областях: AI, ML, CV, IoT, Big Data, VR/AR.
Если интересно узнать, чем мы тут занимаемся или просто почитать про передовые решения, присоединяйтесь и давайте расти вместе!
И я безумно счастлив, что мне повезло быть частью такой команды. В Softline Digital собраны эксперты в различных областях: AI, ML, CV, IoT, Big Data, VR/AR.
Если интересно узнать, чем мы тут занимаемся или просто почитать про передовые решения, присоединяйтесь и давайте расти вместе!
Telegram
Softline Digital
Присоединяйся и знакомься с передовыми технологичными решениями в области AI, ML, LLM, CV, IoT.
Наш сайт: https://www.softline.digital/
Канал аналитики: t.me/researchsd
По всем вопросам: digital@softline.com
Наш сайт: https://www.softline.digital/
Канал аналитики: t.me/researchsd
По всем вопросам: digital@softline.com
Италия - топ😃
https://www.gazzetta.it/attualita/31-03-2023/chatgpt-a-rischio-in-italia-la-decisione-del-garante-della-privacy.shtml
https://www.gazzetta.it/attualita/31-03-2023/chatgpt-a-rischio-in-italia-la-decisione-del-garante-della-privacy.shtml
La Gazzetta dello Sport
Il Garante della Privacy blocca ChatGPT in Italia: "Dati personali a rischio". Cosa succederà?
Il Garante della Privacy contro ChatGPT e l'uso dei dati personali degli utenti. I dubbi sollevati e cosa potrebbe succedere alla piattaforma di OpenAI
🤨2🥴1
Оптимизируем NiFi Flow. Настройка Load Balancing, подходы к Scheduling и выбор метода merge https://habr.com/p/726616/
Habr
Оптимизируем NiFi Flow. Настройка Load Balancing, подходы к Scheduling и выбор метода merge
Если вы используете в своей работе NiFi, то наверняка не раз задумывались об оптимизации, а может быть, и делали ее. В этом посте я поделюсь своими наработками в области настроек NiFi, благодаря...
👍3
Я очень люблю читать, читаю много, иногда даже техническую литературу. Поэтому периодически буду оставлять свои рекомендации #напочитать, касающиеся тематики данного канала. Numero uno в данном списке пусть будет "97 things every Data Engineer should know".
Книга представляет собой сборник эссе на тему того, что каждый автор для себя считает важным в профессии, чем ему хочется поделиться с коллегами. Развлекательное чтиво на ночь, авторы ухитряются объяснять сложные вещи простым языком без помощи этих ваших “чатов гопоты”. Для опытных инженеров может показаться пустой тратой времени, разве что в английском попрактиковаться.
Мое любимое:
Chapter 84. Bob Geerdink - Tools Don’t Matter, Patterns and Practices Do.
Отличный совет для тех, кто не знает, как построить свое обучение.
Chapter 85. Ami Levin – What is Big Data?
Тут лучше дать слово автору (в моем вольном переводе)
"Гонка за "большими данными" напоминает преследование собственной тени. Это отвлекает организации от того, что реально необходимо для получения пользы от данных, подталкивает их на вложения в технологии для хранения и обработки, вместо улучшения качества данных и процесса принятия решений, что может быть достигнуто лишь благодаря знанию предметной области, умению строить модели данных, критическому мышлению и навыкам общения. Это требует обучения, практики и времени. Что не так легко и привлекательно, как фальшивое обещание "больших данных" стать "серебряной пулей", одним махом решающей все ваши проблемы."
Chapter 95 - Why Data Science Teams Need Generalists, Not Specialists.
Для меня инженер, утверждающий, что настоящим специалистом может быть признан только тот, кто познал Spark, Hadoop, Kafka или любую другую технологию, подобен футболисту, который умеет забивать голы только "в падении пяткой через себя". Да, красиво и эффектно, но побеждают чаще те, кто умеет лучше других использовать сложившиеся обстоятельства и протолкнуть мяч в ворота из любой позиции.
https://www.amazon.com/Things-Every-Data-Engineer-Should/dp/1492062413
Книга представляет собой сборник эссе на тему того, что каждый автор для себя считает важным в профессии, чем ему хочется поделиться с коллегами. Развлекательное чтиво на ночь, авторы ухитряются объяснять сложные вещи простым языком без помощи этих ваших “чатов гопоты”. Для опытных инженеров может показаться пустой тратой времени, разве что в английском попрактиковаться.
Мое любимое:
Chapter 84. Bob Geerdink - Tools Don’t Matter, Patterns and Practices Do.
Отличный совет для тех, кто не знает, как построить свое обучение.
Chapter 85. Ami Levin – What is Big Data?
Тут лучше дать слово автору (в моем вольном переводе)
"Гонка за "большими данными" напоминает преследование собственной тени. Это отвлекает организации от того, что реально необходимо для получения пользы от данных, подталкивает их на вложения в технологии для хранения и обработки, вместо улучшения качества данных и процесса принятия решений, что может быть достигнуто лишь благодаря знанию предметной области, умению строить модели данных, критическому мышлению и навыкам общения. Это требует обучения, практики и времени. Что не так легко и привлекательно, как фальшивое обещание "больших данных" стать "серебряной пулей", одним махом решающей все ваши проблемы."
Chapter 95 - Why Data Science Teams Need Generalists, Not Specialists.
Для меня инженер, утверждающий, что настоящим специалистом может быть признан только тот, кто познал Spark, Hadoop, Kafka или любую другую технологию, подобен футболисту, который умеет забивать голы только "в падении пяткой через себя". Да, красиво и эффектно, но побеждают чаще те, кто умеет лучше других использовать сложившиеся обстоятельства и протолкнуть мяч в ворота из любой позиции.
https://www.amazon.com/Things-Every-Data-Engineer-Should/dp/1492062413
👍9