https://dedp.online/about-this-book.html и https://practicaldatamodeling.substack.com/
С тем фактом, что теперь LLM у нас из каждого утюга, проблема нахождения нормальных материалов, статей, и новых годных книг (!) стала очень острой. Народ начал заниматься вот такой фигней: скармливать книжку в LLM, получать "переделанную" и продавать на Amazon! Тревожно настолько, что Amazon выставил лимит, что автор не может выставить на продажу больше 3 книг в день =)
Чтобы не бороться с кучей фейков, авторы стали использовать другие методы поставки контента. Например, выкладывать по главе своей книги каждые N недель, так сказать, делиться прогрессом по книге. А если вы хотите все сразу - вот ссылка купить.
Кто-то делает так с новой книгой, кто-то - уже с существующими.
Из подобных книг, которые мне попались Data Engineering Design Patterns (на автора наткнулся в LinkedIn) и автор Data Engineering Fundamentals (Joe Reis) пишет свою новую книгу Practical Data Modelling, выкладывая ее на Substack. Ссылки на обе книги - в начале поста.
@ohmydataengineer
С тем фактом, что теперь LLM у нас из каждого утюга, проблема нахождения нормальных материалов, статей, и новых годных книг (!) стала очень острой. Народ начал заниматься вот такой фигней: скармливать книжку в LLM, получать "переделанную" и продавать на Amazon! Тревожно настолько, что Amazon выставил лимит, что автор не может выставить на продажу больше 3 книг в день =)
Чтобы не бороться с кучей фейков, авторы стали использовать другие методы поставки контента. Например, выкладывать по главе своей книги каждые N недель, так сказать, делиться прогрессом по книге. А если вы хотите все сразу - вот ссылка купить.
Кто-то делает так с новой книгой, кто-то - уже с существующими.
Из подобных книг, которые мне попались Data Engineering Design Patterns (на автора наткнулся в LinkedIn) и автор Data Engineering Fundamentals (Joe Reis) пишет свою новую книгу Practical Data Modelling, выкладывая ее на Substack. Ссылки на обе книги - в начале поста.
@ohmydataengineer
👍14💩10❤3🔥1
https://databasedesignbook.com/ и https://minimalmodeling.substack.com/
После поста в понедельник со мной связался Алексей @squadette и рассказал, что он тоже пишет книгу про проектирование и моделирование данных.
Взглянув на материал, который он постит, мне показалось это достаточно релевантным и интересным (например, про про то, как множество объяснений джойнов сбивают людей с толку - https://minimalmodeling.substack.com/p/many-explanations-of-join-are-wrong), поэтому будет честным, что я поделюсь и этими ссылками ☺️
@ohmydataengineer
После поста в понедельник со мной связался Алексей @squadette и рассказал, что он тоже пишет книгу про проектирование и моделирование данных.
Взглянув на материал, который он постит, мне показалось это достаточно релевантным и интересным (например, про про то, как множество объяснений джойнов сбивают людей с толку - https://minimalmodeling.substack.com/p/many-explanations-of-join-are-wrong), поэтому будет честным, что я поделюсь и этими ссылками ☺️
@ohmydataengineer
Substack
Minimal Modeling | Alexey Makhotkin | Substack
Making sense of your database. Click to read Minimal Modeling, by Alexey Makhotkin, a Substack publication with hundreds of subscribers.
👍24💩2
Инженерные блоги
Несколько постов назад кидал ссылки на <Company Name> Engineering - блог компании про то, как они решают технические проблемы. Кажется, такие посты вам зашли, поэтому вот вам список таких блогов, чтобы вы сами могли следить за постами:
- Meta
- AWS
- Netflix
- LinkedIn
- Uber
- Quora (правда, ребята уже давно не пишут, если честно)
- Pinterest
- Lyft
- Twitter (тоже с приходом Маска перестали писать почти)
- Dropbox
- Spotify
- Github
- Instagram (еще одни забросили)
- Booking
- AirBnB
- Stripe
- Discord
- Microsoft
- Reddit
- Slack
- Cloudflare
И, конечно же, советую подписаться на наш технический блог - Gett Tech - мы там тоже пишем много разного про то, как мы работаем. Скоро и моя статья там будем!
@ohmydataengineer
Несколько постов назад кидал ссылки на <Company Name> Engineering - блог компании про то, как они решают технические проблемы. Кажется, такие посты вам зашли, поэтому вот вам список таких блогов, чтобы вы сами могли следить за постами:
- Meta
- AWS
- Netflix
- Uber
- Quora (правда, ребята уже давно не пишут, если честно)
- Lyft
- Twitter (тоже с приходом Маска перестали писать почти)
- Dropbox
- Spotify
- Github
- Instagram (еще одни забросили)
- Booking
- AirBnB
- Stripe
- Discord
- Microsoft
- Slack
- Cloudflare
И, конечно же, советую подписаться на наш технический блог - Gett Tech - мы там тоже пишем много разного про то, как мы работаем. Скоро и моя статья там будем!
@ohmydataengineer
🔥26💩8👍2❤1
Пятничное промо
Запросов на рекламу стало сильно больше и предложений на "взаимный пиар" тоже во много раз больше. Но большинство таких каналов, которые предлагают ВП - это какие-то бездушевные подборки материалов и оч коммерциализированные штуки. Промоутить такое мне не очень нравится, поэтому в большистве случаев я отказываю.
Конечно, и у больших блогов бывают исключения, или вот недавный пост от ребят с Data Coffee.
А вот маленькие блоги от коллег, поддержать их начинания - это с удовольствием, тут мне совершенно не жалко. По себе знаю, что это очень приятно , когда аудитория блога растет и люди комментят то, что ты постишь.
На неделе мне написала Айгуль @aigul_sea, попросила рассказать про ее небольшой блог дата инженеретта @data_engineerette. А почему бы и нет? Подкупил стиль написания материала, живой и непринужденный ☺️
За этот промо-пост уплочено 0 рублей, подписывайтесь на канал только если вам действительно это зайдет то, о чем пишет автор.
@ohmydataengineer
Запросов на рекламу стало сильно больше и предложений на "взаимный пиар" тоже во много раз больше. Но большинство таких каналов, которые предлагают ВП - это какие-то бездушевные подборки материалов и оч коммерциализированные штуки. Промоутить такое мне не очень нравится, поэтому в большистве случаев я отказываю.
Конечно, и у больших блогов бывают исключения, или вот недавный пост от ребят с Data Coffee.
А вот маленькие блоги от коллег, поддержать их начинания - это с удовольствием, тут мне совершенно не жалко. По себе знаю, что это очень приятно , когда аудитория блога растет и люди комментят то, что ты постишь.
На неделе мне написала Айгуль @aigul_sea, попросила рассказать про ее небольшой блог дата инженеретта @data_engineerette. А почему бы и нет? Подкупил стиль написания материала, живой и непринужденный ☺️
За этот промо-пост уплочено 0 рублей, подписывайтесь на канал только если вам действительно это зайдет то, о чем пишет автор.
@ohmydataengineer
👍20💩6❤2🔥1
https://twitter.com/TimMeggs/status/1749182862522306862
Как всегда, твиттер приносит что-то. И об это что-то разбиваются мои взгляды на индустрию 👷♂️
Хотя, конечно, я уже привык к тому, что Excel рулит миром, но в комментах и цитатах столько историй про компании из S&P500 и крупные банки и вот это все, где еще дофига всего написано на каком-нибудь Python2 или Delphi, а половина финансовой отчетности сводится руками через эксельки...
Интересные истории людей по ссылке выше.
@ohmydataengineer
Как всегда, твиттер приносит что-то. И об это что-то разбиваются мои взгляды на индустрию 👷♂️
Хотя, конечно, я уже привык к тому, что Excel рулит миром, но в комментах и цитатах столько историй про компании из S&P500 и крупные банки и вот это все, где еще дофига всего написано на каком-нибудь Python2 или Delphi, а половина финансовой отчетности сводится руками через эксельки...
Интересные истории людей по ссылке выше.
@ohmydataengineer
👍15💩4🔥3❤1
https://medium.com/@laurengreerbalik/the-modern-data-stack-through-the-gervais-principle-bfd4b4e33ac7
Статейке, на самом деле, 1.5 годика, но она капец какая актуальная.
Вообще, в целом, Лорен пишет прикольно и ее взгляды на текущие data problems совпадают с моими.
А в статье все как обычно: раздули штат data pushers из-за халявных денег, забросали проблемы ресурсами, а нормально кто делать будет?
@ohmydataengineer
Статейке, на самом деле, 1.5 годика, но она капец какая актуальная.
Вообще, в целом, Лорен пишет прикольно и ее взгляды на текущие data problems совпадают с моими.
А в статье все как обычно: раздули штат data pushers из-за халявных денег, забросали проблемы ресурсами, а нормально кто делать будет?
@ohmydataengineer
Medium
The Modern Data Stack Through ‘The Gervais Principle’
Data doesn’t move left-to-right in an organization, it moves through Losers, the Clueless, and Sociopaths.
💩9👍8🔥3❤1
https://hbr.org/2021/08/why-do-chief-data-officers-have-such-short-tenures
Кстати, в статье от вчера была прекрасная ссылка на HBR, в которой рассказывалось, почему CDO так долго не живут в компаниях: средний срок на должности от 18 до 30 месяцев (что для C-level, конечно же, плохая метка в CV).
А все потому же, что и выше: найм кучи людей для забрасывания проблем ресурсами, огромные счета за облака и сноуфлейки, потому что никто не думал про то, кто и как это будет использовать и так далее.
Индустрия изменилась, выживут только профессионалы.
@ohmydataengineer
Кстати, в статье от вчера была прекрасная ссылка на HBR, в которой рассказывалось, почему CDO так долго не живут в компаниях: средний срок на должности от 18 до 30 месяцев (что для C-level, конечно же, плохая метка в CV).
А все потому же, что и выше: найм кучи людей для забрасывания проблем ресурсами, огромные счета за облака и сноуфлейки, потому что никто не думал про то, кто и как это будет использовать и так далее.
Индустрия изменилась, выживут только профессионалы.
@ohmydataengineer
Harvard Business Review
Why Do Chief Data Officers Have Such Short Tenures?
The average CDO lasts just two and a half years.
💩8👍5❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Видосик с трансляции Чемпионата Мира по Excel ☺️
Напоминаю, что мы все умрем, а Excel будет править анализом данных.
Оцените уровень организации и трансляции: сцена, зрители, трансляция, запись нажатия клавиш, комментаторы...
(помнится, я когда-то уже постил, но там народ просто на созвоне сидел)
@ohmydataengineer
Напоминаю, что мы все умрем, а Excel будет править анализом данных.
Оцените уровень организации и трансляции: сцена, зрители, трансляция, запись нажатия клавиш, комментаторы...
(помнится, я когда-то уже постил, но там народ просто на созвоне сидел)
@ohmydataengineer
🔥20💩6👍5❤2
https://www.youtube.com/watch?v=OCClTPOEe5s
дата будни @data_days напомнили, что 3 месяца назад вышли видосы с BigData London! А я упустил этот момент?
Все видосы доступны по ссылке - https://www.youtube.com/playlist?list=PLTXbDbJIuCHaDStm7LrpjI7dqx1d4KKJF
@ohmydataengineer
дата будни @data_days напомнили, что 3 месяца назад вышли видосы с BigData London! А я упустил этот момент?
Все видосы доступны по ссылке - https://www.youtube.com/playlist?list=PLTXbDbJIuCHaDStm7LrpjI7dqx1d4KKJF
@ohmydataengineer
YouTube
Data Modeling is Dead! Long Live Data Modeling!
14:00 - 14:30
Y-AXIS KEYNOTE THEATRE
DATA MODELING IS DEAD! LONG LIVE DATA MODELING!
WEDNESDAY 20 SEPTEMBER 2023
SPEAKER: JOE REIS
Data modeling is on life support. Some say it’s dead. The traditional practices are increasingly ignored and forgotten. The…
Y-AXIS KEYNOTE THEATRE
DATA MODELING IS DEAD! LONG LIVE DATA MODELING!
WEDNESDAY 20 SEPTEMBER 2023
SPEAKER: JOE REIS
Data modeling is on life support. Some say it’s dead. The traditional practices are increasingly ignored and forgotten. The…
👍8💩4❤2👎1
Напоминаю, что поддержать автора сего канала, чтобы он меньше постил 💩 и больше 🔥 можно тут https://boosty.to/datapipeline, всего 100 рублей, зато как приятно!
А за символические 1000 рублей в месяц - можно даже получить менторскую сессию (1 сессия в месяц).
@ohmydataengineer и @career_works
А за символические 1000 рублей в месяц - можно даже получить менторскую сессию (1 сессия в месяц).
@ohmydataengineer и @career_works
💩38🔥12👍5❤1
Не устану повторять, что если ваш CTO / CDO смотрит в квадранты и хайп циклы Gartner, бегите подальше от него.
Абсолютно оторванная от реальности шляпа
@ohmydataengineer
Абсолютно оторванная от реальности шляпа
@ohmydataengineer
💩13🔥5🥱2
Пятничный юмор или как мы с командой пытались разобраться, откуда у нас данные в
@ohmydataengineer
fact_orders берутся 😂@ohmydataengineer
😢41👍10💩7🔥5
Forwarded from DataEng
Привет! В рамках возобновления работы над своим старым проектом по агрегации вакансий с удалённым форматом работы, я запустил отдельный телеграм-канал, где в автоматическом режиме публикуются вакансии из категории Data Engineering и DataOps: https://news.1rj.ru/str/dataeng_jobs
Попадают они туда в процессе сбора и анализа вакансий с различных профильных сайтов типа Хабр Карьера, VC, DevBy и т.д. Классифицируются они через API сервиса OpenAI, проще говоря GPT4.
Если вы в поиске работы, то моя инициатива вероятно поможет вам найти нужный оффер быстрее 🚀
Подписывайтесь
Попадают они туда в процессе сбора и анализа вакансий с различных профильных сайтов типа Хабр Карьера, VC, DevBy и т.д. Классифицируются они через API сервиса OpenAI, проще говоря GPT4.
Если вы в поиске работы, то моя инициатива вероятно поможет вам найти нужный оффер быстрее 🚀
Подписывайтесь
Telegram
Data Engineering & DataOps Jobs
data engineering & dataops jobs
💩17👍8🔥4❤2
https://www.bvp.com/atlas/what-founders-need-to-know-to-build-a-high-performing-data-team
Часть 1 хорошей статьи о построении дата команд. Из золотой коллекции цитат оттуда:
Оч важный вопрос, на который, по моему опыту, очень часто не могут ответить стейкхолдеры и те, кто просит эту фигню добавить.
Да и в целом, базовый совет тоже очень простой но эффективный:
@ohmydataengineer
Часть 1 хорошей статьи о построении дата команд. Из золотой коллекции цитат оттуда:
Once metrics are defined keep asking these two questions about each metric, and only investing in the ones that pass the test:
- Do others outside of the data team understand these metrics?
- Is the company actively working to impact these metrics for the better?
Оч важный вопрос, на который, по моему опыту, очень часто не могут ответить стейкхолдеры и те, кто просит эту фигню добавить.
Да и в целом, базовый совет тоже очень простой но эффективный:
Data should be Denoscriptive, Prenoscriptive and Predictive.
Denoscriptive - how is the business doing?
Prenoscriptive - What should the business be doing?
Predictive - How this feature may affect us, what to expect?
@ohmydataengineer
Bessemer Venture Partners
What founders need to know to build a high-performing data team
Shopify’s former Head of Data answers essential questions for founders about hiring, structuring, and measuring the impact of data teams.
👍15💩6❤2🔥1
Поговорим про экономную архитектуру
https://thefrugalarchitect.com/
У меня есть история, которую мы провернули за последние полгода и я этим оч доволен. Взяли и сделали новую архитектуру кластера и как работают ETL и всякие ML штуки. В итоге пожирает это в 10 раз меньше деняк, чем было раньше, работает в 2 раза быстрей. Осталось перенести пару нагрузок с последнего кластера и убить его к чертям тоже. Ах да, это все деплоится через Terraform и ArgoCD. И да, сделано за несколько месяцев 1.5 человеками, не девопсами, с минимальным знанием в начале.
(Половинка это я, ходил не мешал, только направлял и иногда писал малюсенький код)
Даже мем в эту честь сделала 😄
А потом нашел в интернете примерный список принципов, по которым, как оказалось, мы строили эту архитектуру. Вот же приятное совпадение 😄
Make Cost a Non-functional Requirement
Когда разрабатываем архитектуру - стоимость этой шняги тоже надо вкладывать в требования. Иначе получится ерундистика как на картинке выше.
Systems that Last Align Cost to Business
Подстраиваем архитектуру и ее стоимость под то, как чувствует себя бизнес.
Architecting is a Series of Trade-offs
Архитектурные решения это всегда компромисс. Всегда. Испытано на себе за последний год.
Unobserved Systems Lead to Unknown Costs.
Нет мониторинга - не знаешь что сколько стоит.
Cost Aware Architectures Implement Cost Controls.
Все можно затюнить. Вопрос в критичности, важности и $.
Cost Optimization is Incremental.
Постепенно, потихоньку, стабильно. Взяли, оптимизировали, пошли дальше.
Unchallenged Success Leads to Assumptions.
"Мы всегда так делали и это хорошо работало" - оч плохой паттерн. Он ведет к тому, что вы перестаете смотреть по сторонам и начинается this is the way - только один путь как правильно и это ваш.
@ohmydataengineer
https://thefrugalarchitect.com/
У меня есть история, которую мы провернули за последние полгода и я этим оч доволен. Взяли и сделали новую архитектуру кластера и как работают ETL и всякие ML штуки. В итоге пожирает это в 10 раз меньше деняк, чем было раньше, работает в 2 раза быстрей. Осталось перенести пару нагрузок с последнего кластера и убить его к чертям тоже. Ах да, это все деплоится через Terraform и ArgoCD. И да, сделано за несколько месяцев 1.5 человеками, не девопсами, с минимальным знанием в начале.
(Половинка это я, ходил не мешал, только направлял и иногда писал малюсенький код)
Даже мем в эту честь сделала 😄
А потом нашел в интернете примерный список принципов, по которым, как оказалось, мы строили эту архитектуру. Вот же приятное совпадение 😄
Make Cost a Non-functional Requirement
Когда разрабатываем архитектуру - стоимость этой шняги тоже надо вкладывать в требования. Иначе получится ерундистика как на картинке выше.
Systems that Last Align Cost to Business
Подстраиваем архитектуру и ее стоимость под то, как чувствует себя бизнес.
Architecting is a Series of Trade-offs
Архитектурные решения это всегда компромисс. Всегда. Испытано на себе за последний год.
Unobserved Systems Lead to Unknown Costs.
Нет мониторинга - не знаешь что сколько стоит.
Cost Aware Architectures Implement Cost Controls.
Все можно затюнить. Вопрос в критичности, важности и $.
Cost Optimization is Incremental.
Постепенно, потихоньку, стабильно. Взяли, оптимизировали, пошли дальше.
Unchallenged Success Leads to Assumptions.
"Мы всегда так делали и это хорошо работало" - оч плохой паттерн. Он ведет к тому, что вы перестаете смотреть по сторонам и начинается this is the way - только один путь как правильно и это ваш.
@ohmydataengineer
👍20🔥7💩3❤1
Datavox is a purpose-built Generative AI platform that converts unstructured data to structured data. Unstructured data represents more than 80% of all data available to companies. Because it’s unstructured, this data cannot be analyzed or measured, meaning 80% of all information has no voice. Until now.
Datavox is the first commercially available platform that solves this problem and gives you the incredible value found in this data. Not only does Datavox transform this data through our patented Textual ETL™, we provide industry-leading visualization and analysis tools to give you the deepest and most meaningful insights into what this data is saying to you.
@ohmydataengineer
Datavox is the first commercially available platform that solves this problem and gives you the incredible value found in this data. Not only does Datavox transform this data through our patented Textual ETL™, we provide industry-leading visualization and analysis tools to give you the deepest and most meaningful insights into what this data is saying to you.
@ohmydataengineer
💩11🔥5❤1👍1
Мои любимые картинки - Landscape. На этот раз - Data OSS 2024.
Ну что, что нибудь из этого попробуем в 2024? 😄
@ohmydataengineer
Ну что, что нибудь из этого попробуем в 2024? 😄
@ohmydataengineer
💩13👍9❤1🔥1