Не по сценарию…
Обычно по пятницам тут “Пятничный юмор”, но сегодня решил сделать исключение. Меня откровенно заколебало количества дико посредственного контента про LLM и ChatGPT,поэтому я решил написать свой курс, всего $9.99… Да оно просто заколебало =) Особенно миллиард одинаковых тредов в твиттере “Если вы не используете ChatGPT, вы умрете от голода. Вот как люди зарабатывают $150k в нано-секунду благодаря AI…”
Но, при всем при этом, ChatGPT, Copilot и немного Midjourney - осело в моей привычной рабочей рутине. Copilot помогает писать код, особенно бойлерплейт и тесты (главное, понимать, что он предлагает), а ChatGPT очень быстро помогает находить ответы на замороченные проблемы и дебажить. Тут, кстати, GitHub делал исследование по AI / LLM тулзам, которые разрабы используют в своей работе, а Венгр - обзор этого исследования.
В то, что LLM в ближайшее время заменит разрабов и SQL - не верю, до этого еще очень и очень далеко, но убежден на своем опыте, что эти штуки надо встраивать в рабочий процесс. Если вы еще пробовали - очень советую. А у Andrew Ng, основателя DeepLearning.AI и автора самого крутого и популярного курса по ML/DL, совместно с OpenAI (создателями ChatGPT) есть прекрасный и короткий курс (и бесплатный) про Prompt Engineering for Software Developers. Без серебрянных пуль и мега-секретов, базово, но полезно, особенно если с этим вы вообще не работали и не знаете, как это работает и как это использовать.
P.S. Вангую комментарий с болот про то, как чатгопота упрощает написание емейлов 🤪
@ohmydataengineer
Обычно по пятницам тут “Пятничный юмор”, но сегодня решил сделать исключение. Меня откровенно заколебало количества дико посредственного контента про LLM и ChatGPT,
Но, при всем при этом, ChatGPT, Copilot и немного Midjourney - осело в моей привычной рабочей рутине. Copilot помогает писать код, особенно бойлерплейт и тесты (главное, понимать, что он предлагает), а ChatGPT очень быстро помогает находить ответы на замороченные проблемы и дебажить. Тут, кстати, GitHub делал исследование по AI / LLM тулзам, которые разрабы используют в своей работе, а Венгр - обзор этого исследования.
В то, что LLM в ближайшее время заменит разрабов и SQL - не верю, до этого еще очень и очень далеко, но убежден на своем опыте, что эти штуки надо встраивать в рабочий процесс. Если вы еще пробовали - очень советую. А у Andrew Ng, основателя DeepLearning.AI и автора самого крутого и популярного курса по ML/DL, совместно с OpenAI (создателями ChatGPT) есть прекрасный и короткий курс (и бесплатный) про Prompt Engineering for Software Developers. Без серебрянных пуль и мега-секретов, базово, но полезно, особенно если с этим вы вообще не работали и не знаете, как это работает и как это использовать.
P.S. Вангую комментарий с болот про то, как чатгопота упрощает написание емейлов 🤪
@ohmydataengineer
The GitHub Blog
Survey reveals AI’s impact on the developer experience
We surveyed 500 U.S.-based developers at companies with 1,000-plus employees about developer productivity, collaboration, and AI.
🔥19❤3
Про оценку времени и Story Points
Я видел много разных Agile, но на текущем месте он очень удивительный:
- Дико криво настроенная Jira, которой каждый пользуется как хочет.
- Кто-то занимается Planning Poker и Sprint Sign Off, а кто-то оценивает в Story Points как - 1 рабочий день / 1 SP
- Команды работают в совершенно разном стиле, а эффективные менеджеры с удивительными тайтлами пытаются сделать Agile
Отчасти, конечно, это бубнеж старого деда 🤪, но я всегда пытаюсь делать в командах следующее: “Мы работаем по тому подходу, который нам удобен и дает максимальный комфорт и результат. Мы не проводим ритуалов ради ритуалов. Весь булшит каргокультный - на помойку!”
Иногда приходится активно спорить с менеджерами. И вот в рамках подготовки к очередному учению “как надо вести проекты по Agile“, посмотрел прекрасное видео #NoEstimates. Очень полезный взгляд со стороны на любые виды оценок по срокам исполнения.
Если оценка в разработке софта - уже сложно. То что можно говорить о работе с данными, где все еще более непредсказуемо?
https://www.youtube.com/watch?v=QVBlnCTu9Ms
@ohmydataengineer
Я видел много разных Agile, но на текущем месте он очень удивительный:
- Дико криво настроенная Jira, которой каждый пользуется как хочет.
- Кто-то занимается Planning Poker и Sprint Sign Off, а кто-то оценивает в Story Points как - 1 рабочий день / 1 SP
- Команды работают в совершенно разном стиле, а эффективные менеджеры с удивительными тайтлами пытаются сделать Agile
Отчасти, конечно, это бубнеж старого деда 🤪, но я всегда пытаюсь делать в командах следующее: “Мы работаем по тому подходу, который нам удобен и дает максимальный комфорт и результат. Мы не проводим ритуалов ради ритуалов. Весь булшит каргокультный - на помойку!”
Иногда приходится активно спорить с менеджерами. И вот в рамках подготовки к очередному учению “как надо вести проекты по Agile“, посмотрел прекрасное видео #NoEstimates. Очень полезный взгляд со стороны на любые виды оценок по срокам исполнения.
Если оценка в разработке софта - уже сложно. То что можно говорить о работе с данными, где все еще более непредсказуемо?
https://www.youtube.com/watch?v=QVBlnCTu9Ms
@ohmydataengineer
YouTube
#NoEstimates (Allen Holub)
This keynote presents my (and many other's) thinking about #NoEstimates. It argues that estimation is a bad thing, particularly in the Agile world, and presents ways to plan that don't involve estimation.
🔥8👍3
Снова не по плану
Да-да, я знаю, что вы ждете пятницы ради мемосов (только для этого канал и создавал), но сегодня снова не они. Какое-то время назад писал про ребят с платной подпиской про архитектуру (https://news.1rj.ru/str/ohmydataengineer/349). Сегодня хочу порекомендовать вамэтот уникальный пылесос Kirby… рассылку от Alex Xu и ByteByteGo. Книжка от Alex Xu - System Design Interview - очень крутая для расширения кругозора по дизайну систем и, в целом, для подготовки к этой секции интервью. Применима не только к Data Engineering, а в целом про Software Development.
Так вот у них есть рассылка платная, 100 евро в год, но очень хорошо поддерживает кругозор и дает базовые знания про дизайн приложений. Буквально последняя статья - про то, как работают индексы в базах данных. Не прям супер глубоко, но достаточно на хорошем уровне.
https://blog.bytebytego.com?r=rduua
(наглая реферальная ссылка выше, если вы оч жадный, можете скопировать и вставить без реф кода🤪)
@ohmydataengineer
Да-да, я знаю, что вы ждете пятницы ради мемосов (только для этого канал и создавал), но сегодня снова не они. Какое-то время назад писал про ребят с платной подпиской про архитектуру (https://news.1rj.ru/str/ohmydataengineer/349). Сегодня хочу порекомендовать вам
Так вот у них есть рассылка платная, 100 евро в год, но очень хорошо поддерживает кругозор и дает базовые знания про дизайн приложений. Буквально последняя статья - про то, как работают индексы в базах данных. Не прям супер глубоко, но достаточно на хорошем уровне.
https://blog.bytebytego.com?r=rduua
(наглая реферальная ссылка выше, если вы оч жадный, можете скопировать и вставить без реф кода🤪)
@ohmydataengineer
👍12💩3
Ходуб умер.
https://www.youtube.com/watch?v=dDaQCNFaYvI
Громкий заголовок про то, что “YTsaurus — это будущее DWH”, конечно, но куда без этого.
Про сам доклад мнение не могу сформировать: то ли ребята перегнули и изобрели свой велосипед ради велосипеда, то ли офигеть от масштабности проекта и уровня проработки и детализации как инструмента, так и хранилища и SLA в нем и поплакать надо сложностью своих проектов 🤪
@ohmydataengineer
https://www.youtube.com/watch?v=dDaQCNFaYvI
Громкий заголовок про то, что “YTsaurus — это будущее DWH”, конечно, но куда без этого.
Про сам доклад мнение не могу сформировать: то ли ребята перегнули и изобрели свой велосипед ради велосипеда, то ли офигеть от масштабности проекта и уровня проработки и детализации как инструмента, так и хранилища и SLA в нем и поплакать надо сложностью своих проектов 🤪
@ohmydataengineer
💩13🔥3👍2
SmartData, билеты, купончики, вот это все.
Конечно, как обычно, накидаете мне какашек, но я продолжу сотрудничать с ребятами из SmartData (и https://jugru.org/) потому что на данный момент они единственные, кто делает профессиональную конференцию в нашей области в РФ. 1-2 доклада про хранилища на Хайлоаде не считаются. Да и уровень организации всегда там очень хорош.
Список докладов очень даже хорош, будет оффлайн в Москве, приходите, это того стоит.
Программа конференции— на сайте.
P.S. как и договаривались про прозрачность всех постов в канале, за этот пост мной получено 0 рублей.
@ohmydataengineer
Конечно, как обычно, накидаете мне какашек, но я продолжу сотрудничать с ребятами из SmartData (и https://jugru.org/) потому что на данный момент они единственные, кто делает профессиональную конференцию в нашей области в РФ. 1-2 доклада про хранилища на Хайлоаде не считаются. Да и уровень организации всегда там очень хорош.
Список докладов очень даже хорош, будет оффлайн в Москве, приходите, это того стоит.
Программа конференции— на сайте.
P.S. как и договаривались про прозрачность всех постов в канале, за этот пост мной получено 0 рублей.
@ohmydataengineer
👍18💩5🥱4❤1
Гигачад или Лысый из Браззерс
Вот иногда смотришь доклад и думаешь: “Не, ну это какой-то космолет, чет тут очень много фантастики”. Такое ощущение возникает, когда разрыв между тобой, твоим проектом и проектом того презентующего слишком большой.
Но иногда ты смотришь и каждые 40 секунд останавливаешь запись с криком: “Да бля, у нас тоже самое!”. И ты понимаешь, что на деле у многих похожие проблемы и ты знаешь, что они решаются и в видосике тебе даже подсказывают что и как.
Сегодня как раз такой доклад Чада Сандерсона, очень клевый чел, промоутит Data Contracts подходы.
https://www.youtube.com/watch?v=qT-Atu9mfvM
@ohmydataengineer
Вот иногда смотришь доклад и думаешь: “Не, ну это какой-то космолет, чет тут очень много фантастики”. Такое ощущение возникает, когда разрыв между тобой, твоим проектом и проектом того презентующего слишком большой.
Но иногда ты смотришь и каждые 40 секунд останавливаешь запись с криком: “Да бля, у нас тоже самое!”. И ты понимаешь, что на деле у многих похожие проблемы и ты знаешь, что они решаются и в видосике тебе даже подсказывают что и как.
Сегодня как раз такой доклад Чада Сандерсона, очень клевый чел, промоутит Data Contracts подходы.
https://www.youtube.com/watch?v=qT-Atu9mfvM
@ohmydataengineer
YouTube
Data Contracts - Accountable Data Quality | Data Quality Camp
ABOUT THE TALK:
Data Contracts are a mechanism for driving accountability and data ownership between producers and consumers. Contracts are used to ensure production-grade data pipelines are treated as part of the product and have clear SLAs and ownership.…
Data Contracts are a mechanism for driving accountability and data ownership between producers and consumers. Contracts are used to ensure production-grade data pipelines are treated as part of the product and have clear SLAs and ownership.…
🔥10👍7
Хайп пройдет, фундаментальные знания останутся
https://blog.devgenius.io/elt-is-dead-and-etlt-will-be-the-end-of-modern-data-processing-architecture-154b87c1cce0
После очередной "прорывной и хайповой" статьи (по ссылке выше) о том, что ETL умер и теперь у нас будет EtLT захотелось немножко блевануть. Очень утомительно среди всего этого посредственного контента находить что-то полезное. В очередной раз кто-то придумал новую концепцию загрузки данных (спойлер, ничего нового, все тоже самое. Даже ETL / ELT это одно и то же в целом) и теперь задвигает про то, что в современных архитектурах будет вот так.
Ах, да, насыпали баззвордов "New Generation Big Data Federation Proliferation of AI Applications", удобрив сверху типичным карго-культом и, конечно же, джоб сесурити.
Появление Snowflake / Databriсks привело к тому, что народ решил снова забрасывать проблемы деньгами и мощностями, следовать концепции OBT (one big table) и не заморачиваться. А смысл? Это ведь потом не наши проблемы =)
Как видно уже сейчас, технологии цикличны и постепенно всего громче и громче слышны голоса про то, что вообще-то data modelling это важно. Особенно забавно это слышать от главных ифлюенсеров линкедина, которые сегодня говорят про то, что давайте все грузить в одну таблицу, а завтра - про то, как моделирование важно.
Короч, что я этим бубнежом хотел сказать: не гонитесь за хайпом, за очередным убийцей питона в Data Engineering, следующим Airflow и вот это все. Фундаментальные знания о передаче и хранении данных, системный дизайн на адекватном уровне - эти навыки вас прокормят до конца жизни.
P.S. В копилку к этому дерьму есть еще одно - Analytics Engineer. Смешали коня и носорога, получился фантастический единорог. Еще и нанимают на такие позиции, где требования, в целом те же, что и к Data Engineer. Название ради названия.🤢
Помните, какое-то время назад я делал презентацию про то, какие бывают data engineers. Я за базовый класс (Data Engineer, куда все эти DWH-разрабы, ETL-девелоперы и dbt-инженеры) входят и некий гибрид, вышедший из DE и DS под названием ML-engineer. Все остальное - от лукавого.
@ohmydataengineer
https://blog.devgenius.io/elt-is-dead-and-etlt-will-be-the-end-of-modern-data-processing-architecture-154b87c1cce0
После очередной "прорывной и хайповой" статьи (по ссылке выше) о том, что ETL умер и теперь у нас будет EtLT захотелось немножко блевануть. Очень утомительно среди всего этого посредственного контента находить что-то полезное. В очередной раз кто-то придумал новую концепцию загрузки данных (спойлер, ничего нового, все тоже самое. Даже ETL / ELT это одно и то же в целом) и теперь задвигает про то, что в современных архитектурах будет вот так.
Ах, да, насыпали баззвордов "New Generation Big Data Federation Proliferation of AI Applications", удобрив сверху типичным карго-культом и, конечно же, джоб сесурити.
Появление Snowflake / Databriсks привело к тому, что народ решил снова забрасывать проблемы деньгами и мощностями, следовать концепции OBT (one big table) и не заморачиваться. А смысл? Это ведь потом не наши проблемы =)
Как видно уже сейчас, технологии цикличны и постепенно всего громче и громче слышны голоса про то, что вообще-то data modelling это важно. Особенно забавно это слышать от главных ифлюенсеров линкедина, которые сегодня говорят про то, что давайте все грузить в одну таблицу, а завтра - про то, как моделирование важно.
Короч, что я этим бубнежом хотел сказать: не гонитесь за хайпом, за очередным убийцей питона в Data Engineering, следующим Airflow и вот это все. Фундаментальные знания о передаче и хранении данных, системный дизайн на адекватном уровне - эти навыки вас прокормят до конца жизни.
P.S. В копилку к этому дерьму есть еще одно - Analytics Engineer. Смешали коня и носорога, получился фантастический единорог. Еще и нанимают на такие позиции, где требования, в целом те же, что и к Data Engineer. Название ради названия.🤢
Помните, какое-то время назад я делал презентацию про то, какие бывают data engineers. Я за базовый класс (Data Engineer, куда все эти DWH-разрабы, ETL-девелоперы и dbt-инженеры) входят и некий гибрид, вышедший из DE и DS под названием ML-engineer. Все остальное - от лукавого.
@ohmydataengineer
Medium
ELT is dead, and EtLT will be the end of modern data processing architecture
When talking about data processing, people often abbreviate it as “ETL.” However, if we look closely, data processing has undergone several…
👍39🔥2💩2❤1
Контент одной картинкой!
Если вам придется когда-нибудь пояснять менеджерам и всяким CTO, почему Data Quality это важно, сохраните эту картинку на случай важных переговоров.
@ohmydataengineer
Если вам придется когда-нибудь пояснять менеджерам и всяким CTO, почему Data Quality это важно, сохраните эту картинку на случай важных переговоров.
@ohmydataengineer
❤14🥱9👍7
Forwarded from LEFT JOIN
This media is not supported in your browser
VIEW IN TELEGRAM
Но версии про аналитику нам пока не встретились, а когда мы не видим какого-то безумия, то обязательно должны его возглавить!
@leftjoin
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥47👍6💩2❤1👎1
Если вы в Израиле 🇮🇱 - приходите на митапчик, будет интересно!
Тем более, что он будет на английском =)
https://lnkd.in/d9chf623
@ohmydataengineer
Тем более, что он будет на английском =)
https://lnkd.in/d9chf623
@ohmydataengineer
❤11💩5
Опросы, опросы, опросы!
Я их читаю, чтобы вам не надо было тратить на это время! У Monte Carlo (это такая софтина для Data Quality и Data Observability) есть опрос по State of the Data за 2023 год.
Что они там нанаблюдали?
- Что DQ приносит больше всего пользы
(очевидно, мы же DQ решение продаем). Справедливости ради, у нас внутри по личным ощущениям те же лидеры топа: качество, коммуникация и документация.
- Денег на дата решения за последнее время стали тратить побольше.
А вот тут у нас наоборот, мы как продолжали не покупать SaaS для этого, так и не покупаем.
- Мое любимое - все команды считают свой ROI и только один герой опроса нет.
Удивительно, при этом, что один из самых главных жалобных аспектов это "Как нам донести ценность нашей команды?". Чет несовпадение какое-то...
Отчет можно найти у них на сайте за рабочий емейл, но, если честно, оно того не стоит. Инсайтов там нет.
@ohmydataengineer
Я их читаю, чтобы вам не надо было тратить на это время! У Monte Carlo (это такая софтина для Data Quality и Data Observability) есть опрос по State of the Data за 2023 год.
Что они там нанаблюдали?
- Что DQ приносит больше всего пользы
(очевидно, мы же DQ решение продаем). Справедливости ради, у нас внутри по личным ощущениям те же лидеры топа: качество, коммуникация и документация.
- Денег на дата решения за последнее время стали тратить побольше.
А вот тут у нас наоборот, мы как продолжали не покупать SaaS для этого, так и не покупаем.
- Мое любимое - все команды считают свой ROI и только один герой опроса нет.
Удивительно, при этом, что один из самых главных жалобных аспектов это "Как нам донести ценность нашей команды?". Чет несовпадение какое-то...
Отчет можно найти у них на сайте за рабочий емейл, но, если честно, оно того не стоит. Инсайтов там нет.
@ohmydataengineer
👍7💩4
Отдельный канал про карьеру
Я понял, что пришло время все-таки немного разделить каналы, ибо мне интересны две сферы, а смешивать их в одном канале не очень удобно для вас. В конце концов, вы приходите сюда почитать про data engineering и поставить 💩 под постами, про карьеру это не релевантно для вас.
Да и мне нужно отдельное место, чтобы продолжить рассказывать про свои консультации по карьере. Там парочка прикольных кейсов, в том числе один мой фейл: очень и очень долгий клиент, с которым пока не получается провернуть и достигнуть результата.
Встречайте: «Осторожно, ведутся карьерные работы!» или @career_works.
В канале буду постить про все, что связано с карьерой в IT: поиск, переговоры, зарплаты, софт-скиллы, вот это все.
Пара постов на скриншотах выше, подписываться вот тут —> @career_works
Я понял, что пришло время все-таки немного разделить каналы, ибо мне интересны две сферы, а смешивать их в одном канале не очень удобно для вас. В конце концов, вы приходите сюда почитать про data engineering и поставить 💩 под постами, про карьеру это не релевантно для вас.
Да и мне нужно отдельное место, чтобы продолжить рассказывать про свои консультации по карьере. Там парочка прикольных кейсов, в том числе один мой фейл: очень и очень долгий клиент, с которым пока не получается провернуть и достигнуть результата.
Встречайте: «Осторожно, ведутся карьерные работы!» или @career_works.
В канале буду постить про все, что связано с карьерой в IT: поиск, переговоры, зарплаты, софт-скиллы, вот это все.
Пара постов на скриншотах выше, подписываться вот тут —> @career_works
💩26👍3🔥2
Че там у инфлуенсеров
В комментах мне скажут, что у меня подгорает или что я завидую, что я использую тактики "зарубиться с кем-то публично, чтобы все шерили это! Накинь говна на вентиллятор!"
Я лишь нахожу это забавным, что ты можешь рассказывать своей аудитории, какой ты классный инженер, как твои курсы по DE тебе приносят денег больше, чем твой доход в FAANG и всякое такое, а потом просить JetBrains то ли о спонсорстве, то ли о бесплатных лицензиях ("Я бы снял видео...").
В общем, голая правда об инфлуенсерах. В большинстве случаев контент там на уровне "10 самых используемых выражений в SQL" или "15 AI инструментов, которые ускорят ваш пайплайн". Я уже как-то жаловался на это, что в потоке такого низкосортного контента все тяжелей и тяжелей находить интересные статьи, видео и инструменты.
P.S. ах, да, второй скриншот это ChatGPT коммент, очень популярная фигня сейчас в LinkedIn, все друг другу накручивают engagement rate и раскручивают свою "инфлуенсность". Это еще плюс-минус большой коммент, иногда просто без ChatGPT пишут всякие "I like your post!" и таких комментов 3-4 сотни!
В комментах мне скажут, что у меня подгорает или что я завидую, что я использую тактики "зарубиться с кем-то публично, чтобы все шерили это! Накинь говна на вентиллятор!"
Я лишь нахожу это забавным, что ты можешь рассказывать своей аудитории, какой ты классный инженер, как твои курсы по DE тебе приносят денег больше, чем твой доход в FAANG и всякое такое, а потом просить JetBrains то ли о спонсорстве, то ли о бесплатных лицензиях ("Я бы снял видео...").
В общем, голая правда об инфлуенсерах. В большинстве случаев контент там на уровне "10 самых используемых выражений в SQL" или "15 AI инструментов, которые ускорят ваш пайплайн". Я уже как-то жаловался на это, что в потоке такого низкосортного контента все тяжелей и тяжелей находить интересные статьи, видео и инструменты.
P.S. ах, да, второй скриншот это ChatGPT коммент, очень популярная фигня сейчас в LinkedIn, все друг другу накручивают engagement rate и раскручивают свою "инфлуенсность". Это еще плюс-минус большой коммент, иногда просто без ChatGPT пишут всякие "I like your post!" и таких комментов 3-4 сотни!
👍13🥱4💩2
Залип в этот Miro-борд, очень структурированный подход к потреблению и усвоению знаний. В этом случае хорошее пояснение про Data Mesh
не удивлен, что автор канала @datanature занимается визуализацией данных 😄
За эту "интеграцию" полученое 0 деняк, автор даже не знает, что я сделал этот пост.
не удивлен, что автор канала @datanature занимается визуализацией данных 😄
За эту "интеграцию" полученое 0 деняк, автор даже не знает, что я сделал этот пост.