Data Internals – Telegram
Data Internals
227 subscribers
78 photos
16 videos
1 file
72 links
Канал профессиональной конференции по инженерии данных, базам данных, системам хранения и обработки данных

Сайт: datainternals.ru
Чат: t.me/dataengineershub
Download Telegram
«Любит не любит?»

Такими вопросами наш Программный комитет не задается. Этим людям интереснее: «Актуально не актуально?»

Ведь именно Программный комитет все эти месяцы отбирал для вас самые актуальные и востребованные доклады. И у них получилось! Остаться равнодушным к программе Data Internals X не сможет ни один специалист, работающий с базами данных.

Ознакомиться с расписанием конференции
Приобрести билеты на мероприятие
6👍2🔥2
О том, как приручить петабайты данных и найти призраков забытых таблиц 👀
Руководитель платформы данных в Циане Алёна Катренко делится своим опытом в статье на Habr

О важности Data Governance, выборе инструментов для управления метаданными и способах развития в быстро меняющейся сфере дата-инженерии.

Будет полезно тем, кто хочет разобраться в нюансах работы с данными, выбрать правильные инструменты и идти в ногу с новыми технологиями.

📃 Прочесть статью
4👍3
ТОП-5 докладов на Data Internals X
В программу конференции уже вошли самые лучшие и нужные для индустрии доклады. Но мы пошли дальше и составили для вас подборку из 5 докладов, от пользы которых захватывает дух!

Александр Зевайкин «Векторный поиск в YDB: опыт выбора и реализации»
Почему стоит посетить? Детальный разбор нескольких подходов к реализации векторного индекса в YDB, включая неудачные попытки HNSW и Random projections. Актуально для эпохи AI и RAG-систем.

Анна Мавлютова «Дата Контракты - как создать продукт с нуля, изменив мышление всей компании»
Почему стоит посетить? Эксперт из Т-Банка раскроет полный цикл создания внутреннего продукта Data Contracts за год — от идеи до масштабирования на десятки команд, показав как технические решения (GitOps, policy-as-code), так и стратегии изменения корпоративной культуры.

Сергей Волков «Все еще ходите за метриками в BI? Как мы экспериментировали с LLM и не пRAGадали»
Почему стоит посетить? Команда Сбера с масштабом 6 млрд событий в день покажет реальное решение проблемы поиска нужных метрик среди тысяч дашбордов через LLM-агентов — от концепции до внедрения в корпоративный мессенджер с GigaChat. Вы узнаете практические подходы к автоматизации работы с BI-системами и получите готовые решения для ускорения аналитической работы, которые можно адаптировать под свои задачи.

Александр Бергер «Data Quality как distributed-система: алерты, аномалии и автоматизация»
Почему стоит посетить? Современный подход к DQ с использованием LLM для автогенерации проверок и практические решения для enterprise-масштаба.

Алексей Захожий «Как мы решардим петабайтные кликхаузы в MyTracker: удаляй и властвуй»
Почему стоит посетить? Уникальная техника решардинга через DELETE вместо традиционного INSERT INTO SELECT. Опыт работы с десятками петабайт данных и неожиданное применение сэмплирования ClickHouse.

Поделитесь своей подборкой докладов, которых ждёте больше всего ❤️‍🔥

📎 Изучить полную программу конференции
🤍 Приобрести билеты на мероприятие
6🔥4❤‍🔥1
Глубина, недоступная на бизнес-ориентированных конференциях

В рамках секции “Системы хранения” ведущие эксперты из топовых IT-компаний поделятся реальными кейсами и подробно расскажут о самых эффективных подходах. Технический уровень докладов и их практическая польза изменят ваш взгляд на работу с системами хранения.

Константин Дорошенко “Доставка данных для ML в Kubernetes: от S3 до распределенных проектных хранилищ”

Доклад для тех, кто интересуется распределенным машинным обучением. Чтобы дорогие GPU не простаивали, Константин с командой придумали планировщик задач и слои кеширования в сторадже, которые позволяют им согласовать подготовку данных и запуск задач на обучение.

Дмитрий Листвин “Вы строите Lakehouse, а сторадж строит вам проблемы”

Честный отчет о том, как выжить и масштабироваться, когда сторадж стал узким горлышком всей аналитической платформы.

Концентрированный опыт и знания о том, как извлечь максимум производительности из Ceph и на практике добиться высокой пропускной способности HDD. Будет полезно тем, кто уже пользуется Ceph, и тем, кто только выбирает реализацию для S3.

Константин Неумоин “CSI-драйверы: подводные камни и архитектурные решения”

Этот доклад подойдет для тех, кто хочет понять, как CSI-драйверы влияют на стабильность PVC и монтирование томов. Константин поделится опытом разработки драйвера csi-scsi-generic, подходом к архитектуре драйвера, универсальность и расширяемость. А также проблемами, которые решала его команда: resize, multipath, очистка устройств.

📎 Изучить полную программу конференции
🤍 Приобрести билеты на мероприятие
🔥42👌1
Последнее повышение цен на билеты

Уже 23 сентября пройдёт профессиональная конференция по инженерии данных, базам данных и системам хранения
и обработки данных Data Internals X. Это не просто “профессиональный движ”, это по-настоящему хардкорная конференция, которая усилит ваши скиллы и даст ответ на большинство рабочих вопросов:

🎯 Глубина технических решений
Программа фокусируется на внутренних механизмах работы с данными — от разработки СУБД до оптимизации запросов и устойчивости к высоким нагрузкам. Это редкая возможность погрузиться в технические детали, которые обычно остаются за кадром.
🏭 Практический опыт масштабирования
Все доклады основаны на реальном опыте работы с петабайтными данными, высоконагруженными системами и решением production-задач в крупных компаниях (Яндекс, Сбер, VK, Т-Банк).
🔧 Импортозамещение и Open Source
Особый акцент на отечественные решения и open-source технологии, что критически важно в текущих реалиях.
🧠 Концентрированный опыт
30+ докладов за один день — максимальная плотность экспертных знаний и нетворкинга с 300+ участниками.

🤍 Приобрести билеты на мероприятие по выгодной цене можно до 31 августа (включительно)
1👍1🔥1
Мы начинаем работу над новым продуктом 🔥

В связи с этим приглашаем вас принять участие в опросе, который поможет нам лучше понять ваши потребности и сделать действительно нужный продукт для вас и про вас.

Для участия достаточно перейти по ссылке ниже и заполнить опрос (время заполнения 1-3 минуты)
🔗 https://anketolog.ru/rs/955741/ZAKMeTOs

Спасибо за ваше участие!
👍21
Как управлять масштабной инфраструктурой из 15 000 инстансов баз данных для 100 инженеров проектов? 🤔

В своей статье Tech Lead of DBA Core RnD компании Wildberries Андрей Аксенов делится опытом автоматизации раскатки, настройки и жизненного цикла БД с помощью Ansible, Tarantool и продуманной архитектуры.

Узнайте, как команда построила удобный конвейер с изолированными переменными, уменьшила порог входа для инженеров, внедрила систему тестирования ролей и настроила Cicd для надёжности и масштабируемости. Если вы работаете с большими инфраструктурами и стремитесь снизить когнитивную нагрузку команды, этот кейс станет отличным примером для вдохновения и практических идей!
2🔥2👍1
Data Internals X 2025 — это инвестиция в ваше техническое развитие и решение завтрашних проблем уже сегодня

Доклады, отобранные в программу, только подтверждают этот тезис. Каждое выступление наполнено техническими деталями, которые обычно остаются за кадром, а каждый спикер — настоящий эксперт в своей нише. Сегодня хотим поделиться анонсом сразу 9 докладов секции "Разработка СУБД".

Виталий Исаев «Многопоточное и/или консистентное чтение из реляционных источников данных в федеративных системах»
Будет полезно всем, кому интересно внутреннее устройство федеративных СУБД и движков обработки федеративных запросов, а также проблематика консолидации данных из разных источников.

Максим Маевский «DuckDB для работы с графами: форматы хранения графа в S3, расширение GraphAr и опыт разработки»
Будет полезно разработчикам ПО и аналитикам данных.

Дмитрий Попатов «Балансировка данных на кластерах OpenSearch: покоординатный спуск»
Будет полезно бэкенд-разработчикам, разработчикам баз данных и им сочувствующим.

Андрей Бородин «Managed Sharded PostgreSQL Service в Яндекс Облаке»
Будет полезно разработчикам и пользователям баз данных.

Алексей Лукьянчиков «Оптимальное вычисление выражений в аналитических запросах с использованием SIMD и JIT»
Будет полезно разработчикам движков SQL

Александр Календарев «Citus изнутри: как устроен шардинг»
Будет полезно архитекторам БД, администраторам PostgreSQL, программистам.

Дмитрий Еманов «Технология многоуровневого инкрементального резервирования и ее интеграция с ядром СУБД»
Будет полезно разработчикам СУБД, администраторам и пользователям СУБД, бэкенд-разработчикам.

Александр Зевайкин «Векторный поиск в YDB: опыт выбора и реализации»
Будет полезно разработчикам, лидам разработки, техническим менеджерам. Всем, кто решал, решает или интересуется задачами машинного обучения и построения больших распределенных баз данных.

Александра Латышева «Балансировка по нагрузке в динтаблицах YTsaurus»
Будет полезно разработчикам распределенных СУБД и продвинутым пользователям, которые сталкиваются с задачей утилизации железа в распределенных СУБД.

📎 Изучить полную программу конференции
🤍 Приобрести билеты на мероприятие
4🔥4🎉3
Онлайн или оффлайн, вот в чем вопрос? 🤔

🧡Для любителей живого общения, нетворкинга и движа личное участие в конференции будет лучшим решением. Вы сможете не только набраться знаний, но и получите возможность обзавестись знакомствами и подзарядиться энергией.

💜Для тех, кто не сможет приехать в Москву в эти даты, предлагаем присмотреться к онлайн-билету. Вы также получите новые знания и сможете задать все свои вопросы спикеру, но при этом вам даже не нужно вставать с кровати и выходить из дома.

📎 Ознакомиться с полной программой
💬 Приобрести билеты
5🔥2❤‍🔥1
📎 Александр Бергер — руководитель направления качества данных Wildberries & Russ — приглашает вас на Data Internals X и рассказывает о своем грядущем выступлении:

«Там я поделюсь опытом построения гибкой распределенной системы для обеспечения качества данных. Опыт, который можно смело перенимать и который актуален в современных реалиях. Расскажу также, как настроить процесс, чтобы эта система стала стройным иммунитетом для вашей экоструктуры и data-экосистемы»
4❤‍🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥32👌1
Прокачайте стек и сэкономьте до 30% — мультибилет на Data Internals X и HighLoad++ 🔥
Если вы работаете с базами данных, проектируете архитектуру высоконагруженных систем или оптимизируете производительность под капотом — этот формат для вас.

Мультибилет — это не просто проход на две конференции, это возможность:
🟣Расширить технический стек и прокачать уже имеющиеся hard-skills;
🟣Углубиться в реальные кейсы от лидеров индустрии и получить практические знания, которые можно применять в production уже на следующий день;
🟣Обменяться опытом с коллегами и обсудить проблемы, которые не гуглятся.

И, конечно, это шанс посетить сразу две технически насыщенные программы по выгодной стоимости:

🔴 Легендарная конференция HighLoad++ — для разработчиков высоконагруженных систем. На одной площадке соберутся сильнейшие разработчики highload-систем, чтобы обсудить самые актуальные темы индустрии, обменяться знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей, разобрать реальные кейсы с решением конкретных задач.

🔴Конференция нового формата Data Internals X — для всех тех, кто работает с базами данных. Хардкорное мероприятие с акцентом на технических инсайтах от создателей СУБД, практических решениях, оптимизации на уровне железа и реальном опыте импортозамещения.

Ваша выгода при покупке мультибилета — 34'000 ₽

Купить один билет и попасть сразу на две конференции

📍Встречаемся в Москве:
🟣23 сентября на Data Internals X
🟣6 и 7 ноября на HighLoad++
Please open Telegram to view this post
VIEW IN TELEGRAM
👏3👍2🔥21
🔥 Airflow без Python, Spark без Kubernetes, ревью без боли — всё это в одном месте.

23 сентября спикеры секции «Практические примеры внедрения» расскажут, как упростить жизнь дата-инженерам и аналитикам.

Михаил Зотов «Airflow еще доступнее: опыт self-service-оркестрации в Lemana Tech»

Доклад о том, как сделать Airflow удобным для аналитиков: типовые сценарии перевели в YAML-конфигурации, убрав необходимость базовых знаний Python.

Артемий Наумов «Ревью без боли: DataOps-подход к управлению изменениями в DWH»

В условиях Data Mesh, где нет централизованной команды инженеров данных и аналитиков, поддержание качества кода в распределенной среде стало ключевым вызовом. Артемий расскажет об опыте команды по оптимизации и улучшению платформы данных: как они внедрили статические и интеграционные тесты для SQL-кода и автоматизировали контроль за выполнением пользователями стандартов разработки.

Евгений Милин «Гибкая настройка параметров запуска Spark-приложений»

Евгений расскажет о методах настройки Spark-приложений для оптимизации ресурсов и повышения производительности на PROD. А также о ключевых параметрах конфигурации, на которые стоит обращать внимание, и на примерах из практики увидим реальные результаты.

Сергей Емельянов Мастер класс: «От события до дашборда в облаках: практика по созданию потоковой платформы на Kubernetes»

На этом мастер-классе мы уйдем от локальных скриптов и docker-compose и погрузимся в создание настоящего Cloud Native-пайплайна для аналитики в реальном времени. Используя Flink Kubernetes Operator, участники декларативно развернут и свяжут воедино весь стек: от Kafka-совместимого брокера до stateful-обработки на Apache Flink и сверхбыстрой визуализации в ClickHouse.

В результате: вы научитесь мыслить Kubernetes-нативными паттернами, управлять сложными data-приложениями как единым целым и строить системы, готовые к масштабированию и работе в реальном production.

Юрий Орлов «Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность»

Создание и управление конфигурациями Helm для приложений Spark в облачной инфраструктуре требуют значительных временных затрат и экспертизы в области эксплуатации систем. Команда Юрия автоматизировала развертывание Spark в облаке и создала клиент на Python, который полностью минимизирует знания в области DevOps и Kubernetes, необходимые для начала работы со Spark.

📎 Ознакомиться с полной программой
💬 Приобрести билеты
🔥31👍1