Тут в одной запрещенной в РФ сети товарищ утверждает, что он книжку написал по dbt. Жду с нетерпением. Ибо так и не приучил себя за долгие годы обучаться при помощи иных способов, нежели чтение книг.
I’m thrilled to announce that Dustin Dorsey and myself are writing a book on dbt that is going to be published by Apress!(We're talking about the popular open-source data transformation tool, not the therapy practice 😉)
I’m thrilled to announce that Dustin Dorsey and myself are writing a book on dbt that is going to be published by Apress!(We're talking about the popular open-source data transformation tool, not the therapy practice 😉)
👍4
Я уже писал, что для меня очень важно получать удовольствие от того, чем я занимаюсь, чтобы моя работа имела смысл, чтоб меня окружали профессионалы, вместе с которыми можно расти и развиваться, создавать что-то новое…
И я безумно счастлив, что мне повезло быть частью такой команды. В Softline Digital собраны эксперты в различных областях: AI, ML, CV, IoT, Big Data, VR/AR.
Если интересно узнать, чем мы тут занимаемся или просто почитать про передовые решения, присоединяйтесь и давайте расти вместе!
И я безумно счастлив, что мне повезло быть частью такой команды. В Softline Digital собраны эксперты в различных областях: AI, ML, CV, IoT, Big Data, VR/AR.
Если интересно узнать, чем мы тут занимаемся или просто почитать про передовые решения, присоединяйтесь и давайте расти вместе!
Telegram
Softline Digital
Присоединяйся и знакомься с передовыми технологичными решениями в области AI, ML, LLM, CV, IoT.
Наш сайт: https://www.softline.digital/
Канал аналитики: t.me/researchsd
По всем вопросам: digital@softline.com
Наш сайт: https://www.softline.digital/
Канал аналитики: t.me/researchsd
По всем вопросам: digital@softline.com
Италия - топ😃
https://www.gazzetta.it/attualita/31-03-2023/chatgpt-a-rischio-in-italia-la-decisione-del-garante-della-privacy.shtml
https://www.gazzetta.it/attualita/31-03-2023/chatgpt-a-rischio-in-italia-la-decisione-del-garante-della-privacy.shtml
La Gazzetta dello Sport
Il Garante della Privacy blocca ChatGPT in Italia: "Dati personali a rischio". Cosa succederà?
Il Garante della Privacy contro ChatGPT e l'uso dei dati personali degli utenti. I dubbi sollevati e cosa potrebbe succedere alla piattaforma di OpenAI
🤨2🥴1
Оптимизируем NiFi Flow. Настройка Load Balancing, подходы к Scheduling и выбор метода merge https://habr.com/p/726616/
Habr
Оптимизируем NiFi Flow. Настройка Load Balancing, подходы к Scheduling и выбор метода merge
Если вы используете в своей работе NiFi, то наверняка не раз задумывались об оптимизации, а может быть, и делали ее. В этом посте я поделюсь своими наработками в области настроек NiFi, благодаря...
👍3
Я очень люблю читать, читаю много, иногда даже техническую литературу. Поэтому периодически буду оставлять свои рекомендации #напочитать, касающиеся тематики данного канала. Numero uno в данном списке пусть будет "97 things every Data Engineer should know".
Книга представляет собой сборник эссе на тему того, что каждый автор для себя считает важным в профессии, чем ему хочется поделиться с коллегами. Развлекательное чтиво на ночь, авторы ухитряются объяснять сложные вещи простым языком без помощи этих ваших “чатов гопоты”. Для опытных инженеров может показаться пустой тратой времени, разве что в английском попрактиковаться.
Мое любимое:
Chapter 84. Bob Geerdink - Tools Don’t Matter, Patterns and Practices Do.
Отличный совет для тех, кто не знает, как построить свое обучение.
Chapter 85. Ami Levin – What is Big Data?
Тут лучше дать слово автору (в моем вольном переводе)
"Гонка за "большими данными" напоминает преследование собственной тени. Это отвлекает организации от того, что реально необходимо для получения пользы от данных, подталкивает их на вложения в технологии для хранения и обработки, вместо улучшения качества данных и процесса принятия решений, что может быть достигнуто лишь благодаря знанию предметной области, умению строить модели данных, критическому мышлению и навыкам общения. Это требует обучения, практики и времени. Что не так легко и привлекательно, как фальшивое обещание "больших данных" стать "серебряной пулей", одним махом решающей все ваши проблемы."
Chapter 95 - Why Data Science Teams Need Generalists, Not Specialists.
Для меня инженер, утверждающий, что настоящим специалистом может быть признан только тот, кто познал Spark, Hadoop, Kafka или любую другую технологию, подобен футболисту, который умеет забивать голы только "в падении пяткой через себя". Да, красиво и эффектно, но побеждают чаще те, кто умеет лучше других использовать сложившиеся обстоятельства и протолкнуть мяч в ворота из любой позиции.
https://www.amazon.com/Things-Every-Data-Engineer-Should/dp/1492062413
Книга представляет собой сборник эссе на тему того, что каждый автор для себя считает важным в профессии, чем ему хочется поделиться с коллегами. Развлекательное чтиво на ночь, авторы ухитряются объяснять сложные вещи простым языком без помощи этих ваших “чатов гопоты”. Для опытных инженеров может показаться пустой тратой времени, разве что в английском попрактиковаться.
Мое любимое:
Chapter 84. Bob Geerdink - Tools Don’t Matter, Patterns and Practices Do.
Отличный совет для тех, кто не знает, как построить свое обучение.
Chapter 85. Ami Levin – What is Big Data?
Тут лучше дать слово автору (в моем вольном переводе)
"Гонка за "большими данными" напоминает преследование собственной тени. Это отвлекает организации от того, что реально необходимо для получения пользы от данных, подталкивает их на вложения в технологии для хранения и обработки, вместо улучшения качества данных и процесса принятия решений, что может быть достигнуто лишь благодаря знанию предметной области, умению строить модели данных, критическому мышлению и навыкам общения. Это требует обучения, практики и времени. Что не так легко и привлекательно, как фальшивое обещание "больших данных" стать "серебряной пулей", одним махом решающей все ваши проблемы."
Chapter 95 - Why Data Science Teams Need Generalists, Not Specialists.
Для меня инженер, утверждающий, что настоящим специалистом может быть признан только тот, кто познал Spark, Hadoop, Kafka или любую другую технологию, подобен футболисту, который умеет забивать голы только "в падении пяткой через себя". Да, красиво и эффектно, но побеждают чаще те, кто умеет лучше других использовать сложившиеся обстоятельства и протолкнуть мяч в ворота из любой позиции.
https://www.amazon.com/Things-Every-Data-Engineer-Should/dp/1492062413
👍9
Еще #напочитать - "Fundamentals of Data Engineering".
На мой взгляд, главная настольная книга инженера данных, первая книга, которую я бы хотел перевести на русский. Основное достоинство состоит в том, что авторы, переосмыслив годы развития профессии от ее корней до наших дней, обобщают накопленный опыт и приходят к простому и понятному, но вместе с тем и всеобъемлющему определению, из которого, в свою очередь, можно сделать логичный вывод:
Инженер данных – это не про технологии и даже не про объемы, это просто про перемещение данных из одной точки в другую.
Авторы проводят читателя через весь жизненный цикл данных от их появления в системе-источнике до превращения в красивые картинки и рекомендации для лиц, принимающих решения. И именно в этом контексте они объясняют функционал, поясняя, как инженер может быть полезен на данном конкретном этапе, с кем и как нужно выстраивать рабочие отношения, какие "подводные течения" его ожидают.
Новичкам эта книга поможет выстроить карьерный трек, опытным специалистам - систематизировать свои знания, а различного рода руководителям – понять своих инженеров.
https://www.oreilly.com/library/view/fundamentals-of-data/9781098108298/
На мой взгляд, главная настольная книга инженера данных, первая книга, которую я бы хотел перевести на русский. Основное достоинство состоит в том, что авторы, переосмыслив годы развития профессии от ее корней до наших дней, обобщают накопленный опыт и приходят к простому и понятному, но вместе с тем и всеобъемлющему определению, из которого, в свою очередь, можно сделать логичный вывод:
Инженер данных – это не про технологии и даже не про объемы, это просто про перемещение данных из одной точки в другую.
Авторы проводят читателя через весь жизненный цикл данных от их появления в системе-источнике до превращения в красивые картинки и рекомендации для лиц, принимающих решения. И именно в этом контексте они объясняют функционал, поясняя, как инженер может быть полезен на данном конкретном этапе, с кем и как нужно выстраивать рабочие отношения, какие "подводные течения" его ожидают.
Новичкам эта книга поможет выстроить карьерный трек, опытным специалистам - систематизировать свои знания, а различного рода руководителям – понять своих инженеров.
https://www.oreilly.com/library/view/fundamentals-of-data/9781098108298/
O’Reilly Online Learning
Fundamentals of Data Engineering
Data engineering has grown rapidly in the past decade, leaving many software engineers, data scientists, and analysts looking for a comprehensive view of this practice. With this... - Selection from Fundamentals of Data Engineering [Book]
👍4
The Next One
Главное, чего не понимают адепты секты "свидетелей новой прорывной технологии ChatGPT", состоит в том, что в человеческой истории все это уже было. И не раз. Значит, результат можно попробовать предсказать.
Сейчас все радуются, что стали "высокоэффективнее на 20 процентов", избавились от рутины, получили время на отдых, снова полюбили свою работу... Забывая, что для изучения данной технологии достаточно посмотреть часовое видео на YouTube. Это даже не Excel. Следовательно, новые возможности очень скоро станут доступны чуть менее, чем всем, превратившись в рутину.
Как с допингом в спорте. Кто-то один нашел неуловимую субстанцию, стал бить рекорды. Спустя время его раскусили, употребляют почти все, планка высокоэффективности загнана на новый уровень, который бывшему "рекордсмену" держать сложно.
И вот уже работа снова нелюбимая.
"Колеса Сансары другой оборот…" (ВИА "Элизиум")
P.S. Пинту пива тому, кто без поисковиков опознает товарища на фото.
Главное, чего не понимают адепты секты "свидетелей новой прорывной технологии ChatGPT", состоит в том, что в человеческой истории все это уже было. И не раз. Значит, результат можно попробовать предсказать.
Сейчас все радуются, что стали "высокоэффективнее на 20 процентов", избавились от рутины, получили время на отдых, снова полюбили свою работу... Забывая, что для изучения данной технологии достаточно посмотреть часовое видео на YouTube. Это даже не Excel. Следовательно, новые возможности очень скоро станут доступны чуть менее, чем всем, превратившись в рутину.
Как с допингом в спорте. Кто-то один нашел неуловимую субстанцию, стал бить рекорды. Спустя время его раскусили, употребляют почти все, планка высокоэффективности загнана на новый уровень, который бывшему "рекордсмену" держать сложно.
И вот уже работа снова нелюбимая.
"Колеса Сансары другой оборот…" (ВИА "Элизиум")
P.S. Пинту пива тому, кто без поисковиков опознает товарища на фото.
👍5
Forwarded from Softline Digital
Привет 🖐
Исходя из их популярности, вот несколько книг о программировании, которые могут оказаться для вас полезными:
👉 «Чистый код: руководство по Agile-мастерству разработки программного обеспечения» Роберта К. Мартина.
👉 «Прагматичный программист: от подмастерья до мастера» Эндрю Ханта и Дэвида Томаса.
👉 «Шаблоны проектирования: элементы многоразового объектно-ориентированного программного обеспечения» Эриха Гаммы, Ричарда Хелма, Ральфа Джонсона и Джона Влиссидеса.
👉 «Code Complete: Практическое руководство по созданию программного обеспечения» Стива МакКоннелла.
Эти книги содержат информацию о лучших практиках, шаблонах проектирования и принципах, которые помогут вам улучшить свои навыки программирования и создавать высококачественное программное обеспечение.
#книганавечер
Исходя из их популярности, вот несколько книг о программировании, которые могут оказаться для вас полезными:
👉 «Чистый код: руководство по Agile-мастерству разработки программного обеспечения» Роберта К. Мартина.
👉 «Прагматичный программист: от подмастерья до мастера» Эндрю Ханта и Дэвида Томаса.
👉 «Шаблоны проектирования: элементы многоразового объектно-ориентированного программного обеспечения» Эриха Гаммы, Ричарда Хелма, Ральфа Джонсона и Джона Влиссидеса.
👉 «Code Complete: Практическое руководство по созданию программного обеспечения» Стива МакКоннелла.
Эти книги содержат информацию о лучших практиках, шаблонах проектирования и принципах, которые помогут вам улучшить свои навыки программирования и создавать высококачественное программное обеспечение.
#книганавечер
👍7
Forwarded from Записная книжка аналитика
Запомните мудрость. То, что страшно релизнуть в пятницу вечером, релизить вообще нельзя.©
😁7👍3
Forwarded from Мathshub
Андрей — эксперт и преподаватель Mathshub. Более 15 лет работы с данными, архитектор аналитических систем с опытом в крупных компаниях — KupiVIP, Связной, Леруа Мерлен.
Приглашаем вас на встречу, где обсудим, как начинающим развиваться в сфере науки о данных. Спикер поделится своей историей, расскажет о различиях в дата-профессиях и самых необходимых навыках для любого дата-специалиста.
Когда: 12 июля в 19:00, в Telegram-канале Mathshub.
Пишите вопросы Андрею под этим постом ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Собственно то, чего уже давно пора было сделать. Немного переработанные материалы из канала про дата-профессии. Надеюсь, что я все-таки смогу завершить этот сериал😀
https://vc.ru/u/2214539-mathshub/798375-garri-potter-i-bolshie-dannye
https://vc.ru/u/2214539-mathshub/798375-garri-potter-i-bolshie-dannye
vc.ru
Гарри Поттер и большие данные — Mathshub на vc.ru
Привет! Я — Андрей Ларионов. Работаю с данными уже 20 лет. Начинал оператором БД, был аналитиком, а сейчас инженер и архитектор. Обожаю просто и понятно объяснять сложные вещи, используя аналогии из реальной жизни. Также я преподаю в школе Mathshub.Я написал…
🔥7
Дима Ибрагимов — топовый спец, прекрасно умеющий «готовить» такие популярные опенсорсные продукты, как NiFi или GreenPlum, да и не только их. Кроме того, он отличный докладчик и автор, настоящий дата-адвокат. Даже странно, что я пропустил его статью о мониторинге производительности GreenPlum.
Публикация не для новичков и даже не совсем для инженеров данных. Тем не менее, считаю, что в вакууме работать невозможно и время «чистых» специалистов прошло, как в футболе прошло время фланговых нападающих и плеймейкеров, а значит, погружение в смежные профессии хотя бы на базовом уровне сейчас — must have.
Статья для вас, если Вы хотите узнать
➖Что такое Observability-подход и как его применять при использовании GreenPlum
➖Какие метрики нужно отслеживать, чтобы SRE-инженер ночью спал спокойно, и какие средства для этого применяются
➖Какие алерты полезно реализовать
С нетерпением жду новых статей и докладов от Димы😃
Как следить за здоровьем GreenPlum
Публикация не для новичков и даже не совсем для инженеров данных. Тем не менее, считаю, что в вакууме работать невозможно и время «чистых» специалистов прошло, как в футболе прошло время фланговых нападающих и плеймейкеров, а значит, погружение в смежные профессии хотя бы на базовом уровне сейчас — must have.
Статья для вас, если Вы хотите узнать
➖Что такое Observability-подход и как его применять при использовании GreenPlum
➖Какие метрики нужно отслеживать, чтобы SRE-инженер ночью спал спокойно, и какие средства для этого применяются
➖Какие алерты полезно реализовать
С нетерпением жду новых статей и докладов от Димы😃
Как следить за здоровьем GreenPlum
Habr
Как следить за здоровьем GreenPlum
Так мы выглядим, когда лежит GP Привет! Меня зовут Дима Ибрагимов. Я отвечаю за развитие и стабильность платформы данных «Леруа Мерлен». В этом посте я расскажу о наработках по мониторингу нашей...
❤6👍2🔥1
«Если легок как дым, то таким и не нужен DataOps» (ВИА «АукцЫон»)
Я давно хотел разобраться с тем, что же из себя представляет DataOps, настолько, что эта тема, кажется, перестала быть актуальной в дата-мире. Опытные инженеры данных уже «любят, умеют, практикуют».
И вот, наконец-то, у меня руки дошли до книги «The DataOps CookBook». Начну с определения.
DataOps - автоматизированный, процессно-ориентированный подход, независимый от технологий, используемый аналитическими и дата-командами для улучшения качества и сокращения времени цикла аналитики данных.
Продолжение следует...
#DataOps
Я давно хотел разобраться с тем, что же из себя представляет DataOps, настолько, что эта тема, кажется, перестала быть актуальной в дата-мире. Опытные инженеры данных уже «любят, умеют, практикуют».
И вот, наконец-то, у меня руки дошли до книги «The DataOps CookBook». Начну с определения.
DataOps - автоматизированный, процессно-ориентированный подход, независимый от технологий, используемый аналитическими и дата-командами для улучшения качества и сокращения времени цикла аналитики данных.
Продолжение следует...
#DataOps
❤5👍2🤔1
Теперь о проблемах, которые был призван устранить DataOps
1️⃣ Требования постоянно меняются.
Пользователи не знают, чего хотят. Они не являются дата-экспертами. Они не понимают всех возможностей, пока Вы, как дата-специалист, им их не покажете.
Пользователи хотят «все и сразу». Когда у них возникает, какой-то вопрос, невозможно объяснить им, что «для ответа нужно подождать релиз, ближайший будет через 2 недели, при этом далеко не факт, что данная задача в него попадет».
Вопросы не закончатся никогда. Данные позволяют взглянуть на проблему под другим углом, а значит, приводят к появлению новых вопросов. И это абсолютно нормально. Вот только, если для решения даже самой простой задачи нужно подождать пару недель, а то и месяцев, отношения между дата-командой и пользователями начнут ухудшаться.
Знакомо?
Продолжение следует…
#DataOps
1️⃣ Требования постоянно меняются.
Пользователи не знают, чего хотят. Они не являются дата-экспертами. Они не понимают всех возможностей, пока Вы, как дата-специалист, им их не покажете.
Пользователи хотят «все и сразу». Когда у них возникает, какой-то вопрос, невозможно объяснить им, что «для ответа нужно подождать релиз, ближайший будет через 2 недели, при этом далеко не факт, что данная задача в него попадет».
Вопросы не закончатся никогда. Данные позволяют взглянуть на проблему под другим углом, а значит, приводят к появлению новых вопросов. И это абсолютно нормально. Вот только, если для решения даже самой простой задачи нужно подождать пару недель, а то и месяцев, отношения между дата-командой и пользователями начнут ухудшаться.
Знакомо?
Продолжение следует…
#DataOps
👍6🔥3
2️⃣ Данные хранятся в различных изолированных источниках, в разных форматах, часто содержат множество ошибок.
Подключение к источникам требует получения доступов, а у ребят из IT-служб задач хватает и без каких-то там аналитиков. Кроме того, для получения данных из разнообразных источников требуется большое количество специалистов, умеющих это делать.
Для разработчиков на первом месте стоит их продукт, у них есть задачи и им тоже нет дела до нужд аналитики. «Вот тебе подключение, чем отличается Orders от Orders_new или Orders1, сам разберешься. И вообще, это не моя работа...»
Кажется, что качество данных в источнике — забота команды источника, но см. абзац выше. Придется столкнуться с такими артефактами как: тестовые данные, ошибки ввода, результаты багов и т. д. Расстроенные некорректными данными пользователи отчетов придут к вам. Фразы типа «это все источник виноват», не вызовут у них сочувствия, даже не пытайтесь. Скорее наоборот, подобные попытки приведут к потере доверия.
Продолжение следует...
#DataOps
Подключение к источникам требует получения доступов, а у ребят из IT-служб задач хватает и без каких-то там аналитиков. Кроме того, для получения данных из разнообразных источников требуется большое количество специалистов, умеющих это делать.
Для разработчиков на первом месте стоит их продукт, у них есть задачи и им тоже нет дела до нужд аналитики. «Вот тебе подключение, чем отличается Orders от Orders_new или Orders1, сам разберешься. И вообще, это не моя работа...»
Кажется, что качество данных в источнике — забота команды источника, но см. абзац выше. Придется столкнуться с такими артефактами как: тестовые данные, ошибки ввода, результаты багов и т. д. Расстроенные некорректными данными пользователи отчетов придут к вам. Фразы типа «это все источник виноват», не вызовут у них сочувствия, даже не пытайтесь. Скорее наоборот, подобные попытки приведут к потере доверия.
Продолжение следует...
#DataOps
👍7❤1