Rumyantsev Feed – Telegram
Rumyantsev Feed
89 subscribers
45 photos
7 files
96 links
Пишу обо всём, что связано с данными. Иногда отклоняюсь от темы.

Связь: @jayrumi
LinkedIn: https://www.linkedin.com/in/evgeny-rumyantsev
Download Telegram
Если не знаете, какие сервисы GCP выбрать в качестве определённых элементов вашей аналитической data платформы - вот вам наглядное decision tree от Google. А здесь можно вкратце почитать про каждый из сервисов: https://cloud.google.com/blog/products/data-analytics/decision-tree-for-data-analytics-workloads-on-google-cloud.

#gcp
👍3
🐍 Python врывается в Excel!

Пока только в превью и только для участников программы Microsoft 365 Insiders.

Нововведение позиционируется, как дверь в мир "cleaning data, machine learning, predictive analytics, and more" с возможностью визуализации при помощи библиотек Matplotlib и seaborn. Под капотом Anaconda Distribution for Python, которая крутится в ажуре.

Не знаю, как на это реагировать и как воспринимать: как баг или как фичу 🤷 Но новость доставила 😁

Больше деталей в посте блога: https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439

#python #excel
🔥2😁1🌚1
Google анонсировал выход BigQuery Studio (пока в превью)

Но подойдём к этой новости с другой стороны. Оттолкнёмся от фразы из поста на замечательном канале Инжиниринг Данных: "Во-первых очевидно, что Snowflake и Databricks лидеры..."

И в самом деле, в последние пару-тройку лет очень много хайпа и движухи вокруг Snowflake и Databricks. Где-то хорошо работает маркетинг, а где-то действительно появляются интересные функционал и концепты. Но основная цель для обоих вендоров - вырастить экосистему вокруг их продуктов для создания end-to-end data solutions с аналитикой и AI на борту. Осталось только свою облачную инфраструктуру поднять, чтобы не зависеть от других cloud провайдеров. Но это не суть на данный момент.

Ещё в прошлом году на онлайн-конфе гугла я отметил для себя, что компания так же движется в сторону предоставления end-to-end решения для работы с данными. В этом посте делился краткой выжимкой одного из выступлений. И вот в канун начала нового учебного года Google в своём блоге рассказал о том, что выпустил BigQuery Studio, но пока не всем доступную. Если задуматься, оно к тому и шло: сперва появлялись отдельные сервисы (например, Dataplex), потом что-то из этих сервисов переезжало непосредственно на UI BigQuery (напримерб Lineage), затем появлялся новый функционал (например, Chart). А теперь (пока только для избранных) на едином интерфейсе будут доступны следующие фишки:

- Use SQL, Python, Spark or natural language directly within BigQuery and leverage those code assets easily across Vertex AI and other products for specialized workflows

- Extend software development best practices such as CI/CD, version history and source control to data assets, enabling better collaboration

- Uniformly enforce security policies and gain governance insights through data lineage, profiling and quality, right inside BigQuery

В статье можно более подробно почитать обо всём выше и посмотреть на гифки с примерами.

Я повторюсь снова о том, что GCP сильно недооценён с точки зрения работы с данными. И мне кажется, что он один из достойнейших конкурентов снежинки и кирпичиков, которого пока в должной мере нет в Data повестке.

Всем добра и спокойной ночи!

P.S. В силу жизненных обстоятельств крайне не хватает времени на то, чтобы писать здесь. Но делиться мыслями и новостями очень хочется, поэтому время от времени буду стараться радовать вас интересным контентом.

P.P.S. Огромное вам спасибо за то, что остаётесь рядом со мной 💕
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1🤝1
Здесь я в основном пишу (редко, но пишу!) о работе с данными. Но вот уже почти год, как, кроме прямых обязанностей Data Engineer'a, я выполняю роль проектного и ресурсного менеджера. Нет, я не стану писать о каких-то best practices и т.д., так как мне учиться и учиться в этом направлении прежде, чем смогу раздавать советы. Но, тем не менее, я хотел бы поделиться интересной находкой: принципы лидерства от Amazon. (И да, у Амазона есть AWS, а там целая экосистема для работы с данными, поэтому ооооооочень отдалённо, но темы дата инжиниринга этот пост всё же касается 😅)

Мне понравилась подача: краткие формулировки, за которыми скрываются очень важные и серьёзные фундаментальные вещи. Многое откликнулось, т.к. я стараюсь придерживаться тех же принципов. А есть моменты, над которыми мне стоит поработать.

Я считаю тему лидерства очень важной, поэтому стараюсь к ней относиться серьёзно. Лидер - это не про роль/позицию в компании, лидер - это больше про твоё отношение к тому, что ты делаешь, как ты делаешь, и с кем. И касается оно не только рабочих моментов, но и всей жизни в целом.

#leadership
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👍1🔥1🆒1
Каждый инженер в душе немного художник.

Но чтобы не тратить время на вырисовывание идеальных стрелок, квадратиков и прямоуголиников, можно взять такую замечательную питонячую библиотеку. А в довесок к педантически выверенным элементам мы получаем version control. Осталось дождаться эмбединга в Wiki/Notion/etc.

Diagram as a Code в действии!

#python #diagrams #design
❤‍🔥3👍2🆒1
А сегодня пост-новость-скриншот.

Не смог пройти мимо. В нынешних реалиях спарком пользоваться не приходится, но как я понимаю, что такое дефолтные значения!

Поздравляю всех Spark-юзеров с такой обновочкой!

#spark
❤‍🔥3🔥2👍1
Оставлю это здесь. Думаю, пригодится, как мне, так и вам!
📚 Что почитать сеньору для расширения кругозора

Список от Павла Вейника, архитектора-фаундера в Hard&Soft Skills:

▪️проникнуться, какие базы вообще есть.

▪️сайт Мартина Фаулера, в последнее время он много пишет про организацию разработки, а не только про архитектуру.

▪️сайт Мартина Клеппмана, он глубоко лезет в детали алгоритмов, иногда слишком академичен, хотя продакшн-опыт у него тоже есть. Если вы используете RedLock, то почитайте это. Кстати, RedisRaft ещё не production.

▪️если вы уверены, что ваша БД работает как надо, то попробуйте найти её анализ вот тут: возможно, окажется, что база наводит баги.

▪️есть ресурс, посвященный дизайну и истории различных систем, например этот. Осторожно, они недавно сменили дизайн, и сейчас там может быть криво.

▪️вот тут можно найти, какие стеки используются на проектах, а также отзывы о технологиях и инструментах.

👉 Текст целиком

🐽 Пишите в комментариях ресурсы, которые помогают проектировать системы вам!
31👍1
📱 Не пятница, но пост и не по теме.

Скрин о том, как оставаться политкорректным в эру огромного разнообразия гендерных полов и избежать судебных разбирательств по этому поводу. Не знаю, как в других соц. сетях, но у Linkedin'а так. Не her/his, a their. Уверен, что определить биологический пол - это как 2 байта передать, а вот дальше - уже сложнее, особенно, если человек себя никак нигде не обозначает.

Новый челендж для AI - автоматическое определение гендерного пола.

#offtop
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2👍1🔥1
Забавно видеть совет/предложение от Google воспользоваться контейнерами Cloud Run для загрузки данных в BigQuery, учитывая, что большинство интеграций у нас так и работают уже более полугода 🤭
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2🤨1🤓1
Знакомо, да? 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4👍1🤔1🌚1😨1
The four levels of data engineering

Я примерно такую концовку и ожидал (4-й уровень DE).

Но полностью согласен с Заком, что коммуникация (не только со стейкхолдерами) - наше всё. И ещё я бы добавил: умение быть вовлечённым и задавать правильные вопросы.

Помню это ощущение горячей молодой крови, когда ты готов делать неподъёмные задачи, закапываться в оптимизацию кода, читать и разбираться с нюансами имплементации и бест практисами для имплементаций именно на этом engine. А потом может оказаться так, что всё это и не нужно для бизнеса. Просто менеджер не уточнил всех требований или не объяснил кастомеру, в чём тот заблуждается, просто ты сам не попытался разобраться, а какую именно боль для бизнеса это решит и нужно ли решать эту боль прямо сейчас.

Время - самый ценный ресурс. А наша задача - понимать, как мы можем помогать бизнесу заработать, делая свою работу. И здесь без коммуникации уже никак.

P.S. Желаю спокойного и лёгкого понедельника!

#communication #мысливслух
❤‍🔥3👍2👏2🤣1
🧊 Только что узнал, что сегодня и завтра будет проходить Iceberg Summit 2024. Думаю, стоит обязательно сходить и послушать про разные кейсы. Особенно тем, кто работает с Data Lake и Data Lakehouse.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔2👀1🤝1
Наткнулся на статью о том, что Expedia начала тестить своего ИИ-ассистента для поиска и планирования путешествий. Космический корабль не создадут, но много вполне очевидных фишек добавят. Так же радует интеграция с различными сервисами для получения данных о погоде, рейсах, отзывов о различных заведениях в местах путешествий и т.д.

Но сама новость заставила задуматься о другом. Вспомнились времена работы в ЕРАМ в разрезе того, что на Expedia тогда работало много разных команд. Почему-то сама компания ассоциировалась с чем-то огромным и серьёзным. Сотни человек и десятки разных команд поддерживали и развивали инфраструктуру данных, проверяли гипотезы, внедряли алгоритмы для поиска оптимальных маршрутов для путешествий, комфортного размещения и много всего прочего. Десятки тысяч человеко-часов, миллионы долларов расходов на оплату труда. А сейчас (или в недалёком будущем) часть этого функционала можно выпилить и заменить несколькими модельками. Понятное дело, что и на подружить модельки между собой, и на дообучать их нужен ресурс, но не в том количестве, что раньше.

Прогресс безжалостен. История это прекрасно демонстрирует. Ещё 25 лет назад мы вызывали такси по таксофону через диспетчера (🤯 wtf?), а сегодня беспилотный современный электрокар приезжает за тобой после пары тычков пальцем в приложеньке Baidu на смартфоне (правда, в Китае) 😳.

И, возвращаясь к истории с модельками, сложно для себя решить: радоваться или грустить по этому поводу. Пока я на медиане между 2 этими измерениями.

#мысливслух
👍1🤔1
🔤🔤К слову о том, что AI заменит человека.

Безусловно, много чего в будущем и уже сейчас будет делигироваться различным AI солюшнам. И скорее всего такеи солюшны будут крутиться на железе облачных провайдеров. Конечно, что-то можно будет разворачивать в своих дата-центрах, что-то будет крутиться локально на машине человека-департамента. Но такая история больше про что-то небольшое с точки зрения разработки. Если говорить про глобальный продукт, который пользуют десятки миллионов юзеров, который должен приносить прибыль - с большего весь AI будет на стороне AWS/GCP/Azure.

Так к чему я веду? Представим, что в дата-центре клауд-провайдера пожар, или наводнее затопило тот же дата-центр, выкатили кривое обновление на уровне инфры (который сгенерил и протестил AI 😁) и так до бесконечности. В общем, пропал доступ к AI-функционалу и надолго. Спросить некого, потому что всё заэйаино. Остаются только человек и его инженерная смекалка.

P.S. Навеяно постом с одного замечательного канала, который ведёт Григорий Бакунов.

P.P.S. Тема холиварная, и много нюансов, к которым можно прикопаться. Но надеюсь, концептуально удалось донести свою мысль.

#мысливслух
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2👍1🤝1
А я вот не знаю, как относится к такой новости.

Первые мысли: это просто какой-то кринж, напоминающий идеи романа 1984. Получается, что контроль над вектором развития LLM-ок окажется в руках у корпораций и компаний поменьше, но бюджет которых позволяет закупиться оборудованием и нанять обслуживающий персонал для тренировки моделей. При этом, будет создан ещё и регулирующий орган со стороны государства, который осуществляет свой контроль над всем этим. Тут прям хочется процитировать Петлю Пристрастия "Почти что киберпанк".

С другой стороны, опенсорсные модели настолько расширяют горизонт действий для злоумышленников, что даже трудно представить. И с этой точки зрения очень-очень малое зерно рационализма в законе присутствует.

Но слабо верится, что закон принимается из гуманистических соображений. Имхо тут больше про деньги и власть.

Как-то так.

#ai #мысливслух
👍1🤔1😐1
И немного пятничного от Joe Reis.
Что правда, то правда 🏄‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1🤓1🤪1
Хороший лонгрид на случай, если непонятно, как скоротать воскресный вечер.

Данный рассказ написан в духе таких известных бизнес-романов, как “Пять пороков команды”, “Проект Феникс” и т.п.

Вы - новый Head of Data в небольшом mid-stage стартапе, который хочет быть стильным-модным-молодёжным со всеми этими нашими AI и data-driven штуками. Есть core data team, есть аналитики и дата-саентисты, занятые в разных департаментах (например, в маркетинге). Про хранилище данных “не, не слышали”. Имеется конфликт между дата-инженерами и аналитиками, и много всего разного, с чем мы сталкиваемся, как при работе с данными, так и при коммуникации (или её отсутствии) со стейкхолдерами и С-level. И вот имея такие вводные, нужно построить платформу с надёжными данными, наладить кросс-командную коммуникацию и начать с помощью данных приносить value компании.

И вот о том, как главный герой будет всё это крутить-вертеть и пойдёт повествование.

Понравилась подача. Весь экшен автор разносит по времени в стиле: сегодня такой-то день, были такие-то встречи, есть такие-то проблемы, а есть такие-то успехи. А после этого идёт разбор произошедшего с точки зрения процессов и организации работы.

В очередной раз прочитанное заставило задуматься, насколько важны коммуникации, понимание бизнеса и его драйверов, про трансформацию процессов, изменение подходов в работе и взаимодействие между командами. Автор напомнил, что не нужно бояться проверять гипотезы и экспериментировать. Никто же не мешает протестировать функционал/алгоритм/модель с помощью канареечного релиза, или использую небольшой датасет, или выкатив демо-проект для бизнес-юзеров и т.д.

Автору определённо респект. А вам приятного воскресного вечера.

#articlereview
🆒2👍1🤔1
Тот самый момент, когда тебе пишет в личку основатель одной из фундаментальных концепций построения Data Warehouse. Я понимаю, что это копипаста, отправленная аккаунт менеджером. Но всё равно приятно!

Инмон мне нравится своим непреодолимым желанием получать пользу именно из неструктурированных данных. Рад, что наконец-то он нашёл способ, как этого добиться.

Давайте пожелаем удачи Биллу с его новой компанией (я уверен, что он читает этот канал 😅)!
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3👍1🔥1🤓1