Нас скоро всех заменят 😄
https://twitter.com/raunakdoesdev/status/1769066769786757375
Если вы не поняли из скриншотов, Steven дал доступ к своему аккаунту софтинке по имени Devin (отсюда игра слов Steven + Devin -> Deven) и та успешна пофиксила баг, при этом после прочтения документации задала дополнительный вопрос поддержке =)
Про Devin интернет трещит уже неделю - https://www.cognition-labs.com/introducing-devin
@ohmydataengineer
(p.s. напомнило последний сезон The Silicon Valley и бота Гилфойла)
(p.s. 2: советую посмотреть вот это видео если вы вдруг начали переживать https://www.youtube.com/watch?v=80MPXoRHvK8 по этому поводу)
https://twitter.com/raunakdoesdev/status/1769066769786757375
Если вы не поняли из скриншотов, Steven дал доступ к своему аккаунту софтинке по имени Devin (отсюда игра слов Steven + Devin -> Deven) и та успешна пофиксила баг, при этом после прочтения документации задала дополнительный вопрос поддержке =)
Про Devin интернет трещит уже неделю - https://www.cognition-labs.com/introducing-devin
@ohmydataengineer
(p.s. напомнило последний сезон The Silicon Valley и бота Гилфойла)
(p.s. 2: советую посмотреть вот это видео если вы вдруг начали переживать https://www.youtube.com/watch?v=80MPXoRHvK8 по этому поводу)
💩7👍2❤1🔥1
https://www.youtube.com/watch?v=QSui0KQ2rE4
Пока гуглил по платформы для A/B тестов, наткнулся на вот такой хороший доклад от ребят из Flo про их Data Platform.
Оказалось оч полезно и ознакомительно
@ohmydataengineer
Пока гуглил по платформы для A/B тестов, наткнулся на вот такой хороший доклад от ребят из Flo про их Data Platform.
Оказалось оч полезно и ознакомительно
@ohmydataengineer
YouTube
Как во Flo разрабатывают собственную дата-платформу и внедряют Experiment Service
Команда Flo создаёт мобильное приложение № 1 в сфере женского здоровья. Приложением пользуются более 200 миллионов женщин по всему миру — во многом оно стало таким успешным благодаря развитой продуктовой и data-inspired культуре. Это было бы невозможно без…
🔥10💩2❤1👍1
https://boehs.org/node/everything-i-know-about-the-xz-backdoor
Всю прошлую неделю (и скорее всего, текущую тоже), Tech часть интернета будет бухтеть про XZ уязвимость, или, как ее прозвали "Бекдор для всего интернета". 2 года подготовки и ребятам почти удалось, но один из специалистов заметил проблемки с перформансом ssh (работал на 500 ms дольше), пошел разбираться и наткнулся на очень много интересного.
@ohmydataengineer
Всю прошлую неделю (и скорее всего, текущую тоже), Tech часть интернета будет бухтеть про XZ уязвимость, или, как ее прозвали "Бекдор для всего интернета". 2 года подготовки и ребятам почти удалось, но один из специалистов заметил проблемки с перформансом ssh (работал на 500 ms дольше), пошел разбираться и наткнулся на очень много интересного.
@ohmydataengineer
boehs.org
Everything I Know About the XZ Backdoor
Please note: This is being updated in real-time. The intent is to make sense of lots of simultaneous discoveries
💩7👍6❤4🔥1
https://mattturck.com/landscape/mad2024.pdf
Стабильный гость этого канала - MAD 2024 - Machine Learning, AI & Data Landscape.
@ohmydataengineer
Стабильный гость этого канала - MAD 2024 - Machine Learning, AI & Data Landscape.
@ohmydataengineer
💩19👍7🔥5❤1
https://clickhouse.com/blog/building-a-logging-platform-with-clickhouse-and-saving-millions-over-datadog
Занимательное чтиво про Кликхаус и как он используется для логов. Мяготка, с деталями и схемами.
Не без налета саморекламы, конечно 😂
@ohmydataengineer
Занимательное чтиво про Кликхаус и как он используется для логов. Мяготка, с деталями и схемами.
Не без налета саморекламы, конечно 😂
@ohmydataengineer
ClickHouse
How we Built a 19 PiB Logging Platform with ClickHouse and Saved Millions
In this blog post, we share our journey to build a ClickHouse-powered logging solution that today stores over 19 PiB of data (1.13 PiB compressed) in our AWS regions alone, and costs 200x less than Datadog.
💩7👍3❤1🔥1
https://www.astronomer.io/state-of-airflow/
Астрономер выкатил репорт про текущее состояние Airflow. Если кратко - все хорошо у него, по скорость развития и контрибьюшенов опережает Spark и Kafka.
Ссылку сначала увидел у @dataexplorers, а потом у себя в почте.
@ohmydataengineer
Астрономер выкатил репорт про текущее состояние Airflow. Если кратко - все хорошо у него, по скорость развития и контрибьюшенов опережает Spark и Kafka.
Ссылку сначала увидел у @dataexplorers, а потом у себя в почте.
@ohmydataengineer
❤12💩9👍3🔥3
Очень долго смеялся и плакал 😳
(ибо это все до боли знакомо)
(ибо это все до боли знакомо)
❤2💩2
https://medium.com/intuit-engineering/how-intuit-data-analysts-write-sql-2x-faster-with-internal-genai-tool-c3b9d482208a
В продолжении прошлого пятничного мема, количество платформ и сервисов, которые за денюжку, подключиться к DWH и делать там запросики - увеличилось в 10 раз. И стоит это много, а вот поднять простенький https://huggingface.co/tsdocode/text-to-sql и натравить на мету - не, спасибо.
В статье, кстати, описан второй подход и оч даже хорошие результаты.
@ohmydataengineer
В продолжении прошлого пятничного мема, количество платформ и сервисов, которые за денюжку, подключиться к DWH и делать там запросики - увеличилось в 10 раз. И стоит это много, а вот поднять простенький https://huggingface.co/tsdocode/text-to-sql и натравить на мету - не, спасибо.
В статье, кстати, описан второй подход и оч даже хорошие результаты.
@ohmydataengineer
Medium
How Intuit data analysts write SQL 2x faster with internal GenAI tool
Reporting on the productivity impact of SQL generation with generative AI.
👍6💩3
https://github.com/airbnb/chronon
Airbnb выложил в открытый доступ то ли фичастор, то ли аггрегатор семантического слоя, то ли что то для AI 😂
@ohmydataengineer
Airbnb выложил в открытый доступ то ли фичастор, то ли аггрегатор семантического слоя, то ли что то для AI 😂
Chronon is a platform that abstracts away the complexity of data computation and serving for AI/ML applications. Users define features as transformation of raw data, then Chronon can perform batch and streaming computation, scalable backfills, low-latency serving, guaranteed correctness and consistency, as well as a host of observability and monitoring tools.
It allows you to utilize all of the data within your organization, from batch tables, event streams or services to power your AI/ML projects, without needing to worry about all the complex orchestration that this would usually entail.
More information about Chronon can be found at chronon.ai.
@ohmydataengineer
GitHub
GitHub - airbnb/chronon: Chronon is a data platform for serving for AI/ML applications.
Chronon is a data platform for serving for AI/ML applications. - airbnb/chronon
💩8❤2🔥2👍1
Пятничный юмор!
Не постил ничего почти месяц. А вас стало только больше 😱
Пора возвращаться в ритм.
@ohmydataengineer
Не постил ничего почти месяц. А вас стало только больше 😱
Пора возвращаться в ритм.
@ohmydataengineer
🔥20😢11👍6❤4💩3
https://blog.picnic.nl/7-antifragile-principles-for-a-successful-data-warehouse-574b655f0bc6
В последнее время приходится много делать архитектурных задач, поэтому вытаскиваю из списка "Прочитать позже" всякие статейки про архитектуру и подходы в проектировании.
@ohmydataengineer
В последнее время приходится много делать архитектурных задач, поэтому вытаскиваю из списка "Прочитать позже" всякие статейки про архитектуру и подходы в проектировании.
@ohmydataengineer
Medium
7 Antifragile Principles for a Successful Data Warehouse
The best of two worlds — the structure and quality of a centralized data warehouse combined with the agility of antifragile processes
👍6🔥4❤3💩3
https://mattermost.com/blog/making-a-postgres-query-1000-times-faster/
Обычно мне кидают какашонков на то, что статьи оч поверхностные или, еще хуже, не релевантные.
Сегодня, надеюсь, не такая 😂
На деле, конечно, ничего необычного и без серебрянных пуль, просто было приятно и полезно читать ход чужих мыслей, когда люди дебажат долгие запросы.
@ohmydataengineer
Обычно мне кидают какашонков на то, что статьи оч поверхностные или, еще хуже, не релевантные.
Сегодня, надеюсь, не такая 😂
На деле, конечно, ничего необычного и без серебрянных пуль, просто было приятно и полезно читать ход чужих мыслей, когда люди дебажат долгие запросы.
@ohmydataengineer
Mattermost.com
Making a Postgres query 1,000 times faster
Learn how we discovered what was slowing down large database queries, and what we did to make Postgres queries 1000x faster.
👍15💩15
https://habr.com/ru/companies/lamoda/articles/810705/
К сожалению, в России инженерные блоги компаний ведутся на Хабре, а не на stand-alone ресурсах.
Однако это не мешает появлению там интересных статей с деталями и разборами.
Например, у Lamoda про Spark & Airflow.
@ohmydataengineer
К сожалению, в России инженерные блоги компаний ведутся на Хабре, а не на stand-alone ресурсах.
Однако это не мешает появлению там интересных статей с деталями и разборами.
Например, у Lamoda про Spark & Airflow.
@ohmydataengineer
Хабр
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...
👍9🔥4💩4👎1🥱1
https://www.thdpth.com/p/whats-wrong-with-bi
Достаточно простой, но очень верный текст про текущее состояние BI. Главные пункты из статьи:
- Self-serve это красивая идея с очень фиговой реализацией
- BI используется теми, кто умеет им пользоваться, а не теми, кто должен (привет, эксельки для C-level)
- BI это дашборды и репорты, а должно быть support in decision making. Дашборды ради дашбордов, минимальное понимание зачем появляется на экране та или иная метрика и что с ней делать, если она изменяется.
@ohmydataengineer
Достаточно простой, но очень верный текст про текущее состояние BI. Главные пункты из статьи:
- Self-serve это красивая идея с очень фиговой реализацией
- BI используется теми, кто умеет им пользоваться, а не теми, кто должен (привет, эксельки для C-level)
- BI это дашборды и репорты, а должно быть support in decision making. Дашборды ради дашбордов, минимальное понимание зачем появляется на экране та или иная метрика и что с ней делать, если она изменяется.
@ohmydataengineer
Thdpth
What’s Wrong with BI
What I think about - data, AI, business, cybersec, open source and more.
👍12🔥5❤2💩2😢1
https://tech.instacart.com/real-time-fraud-detection-with-yoda-and-clickhouse-bd08e9dbe3f4
Чем больше я смотрю и читаю про Clickhouse, тем больше я впечатляюсь его скоростью и работоспособностью прожевывать все и вся на гигантских объемах.
@ohmydataengineer
Чем больше я смотрю и читаю про Clickhouse, тем больше я впечатляюсь его скоростью и работоспособностью прожевывать все и вся на гигантских объемах.
@ohmydataengineer
Medium
Real-time Fraud Detection with Yoda and ClickHouse
Authors: Nick Shieh, Shen Zhu, Xiaobing Xia
💩12👍5🔥1
Пятничный юмор
Кажется, технические конференции и презентации свернули куда-то не туда.
Первое видео с презентации Canva, второе - Google I/O.
(дед кричит на облако: дурацкое GenZ)
@ohmydataengineer
Кажется, технические конференции и презентации свернули куда-то не туда.
Первое видео с презентации Canva, второе - Google I/O.
(дед кричит на облако: дурацкое GenZ)
@ohmydataengineer
💩10😢7❤2👎1
https://www.bbc.com/news/articles/c6ppv06e3n8o
Santander, Ticketmaster и еще у кучки других компаний украли данные из-за Snowflake. Последние, конечно, многое отрицают, но также есть и официальное заявление про всякое. https://medium.com/snowflake/detecting-and-preventing-unauthorized-user-access-d67be8bd66f6
Не говоря уже про то, что всем админам разослали уведомление про включение MFA.
P.S. Больше подробностей по ссылке тут https://doublepulsar.com/snowflake-at-central-of-worlds-largest-data-breach-939fc400912e
@ohmydataengineer
Santander, Ticketmaster и еще у кучки других компаний украли данные из-за Snowflake. Последние, конечно, многое отрицают, но также есть и официальное заявление про всякое. https://medium.com/snowflake/detecting-and-preventing-unauthorized-user-access-d67be8bd66f6
Не говоря уже про то, что всем админам разослали уведомление про включение MFA.
P.S. Больше подробностей по ссылке тут https://doublepulsar.com/snowflake-at-central-of-worlds-largest-data-breach-939fc400912e
@ohmydataengineer
Bbc
Santander staff and '30 million' customers hacked
Their data is being sold online by the same gang who this week claimed to have hacked Ticketmaster.
😢9💩4🥱2👍1