Базы данных | Access, SQL, Big Data – Telegram
Базы данных | Access, SQL, Big Data
30.7K subscribers
252 photos
98 videos
396 links
Всё о базах данных простым языком.

Сотрудничество: @max_excel

РКН: vk.cc/cHhG5h
Download Telegram
Как Figma удалось открыть себе путь к почти бесконечному масштабированию баз данных

С 2020 года стек баз данных Figma вырос почти в сотню раз. Это хорошая проблема, ведь она означает, что бизнес расширяется. Но в то же время она стала причиной технических сложностей. В течение последних четырёх лет они усиленно старались не отставать от прогресса и избегать потенциальных проблем, связанных с ростом.

Базы данных
This media is not supported in your browser
VIEW IN TELEGRAM
Функции SQL для даты и времени

В этом видеоуроке автор подробно разбирает функции SQL, необходимые для работы с датой и временем.

00:00 Вступление
00:27 Получение системной даты и времени (SYSDATE)
01:05 Преобразовать строку в дату (TO_DATE)
01:59 Получить последний день месяца (LAST_DAY)
02:28 Добавить N-ое количество месяцев (ADD_MONTHS)
02:57 Извлечь год, квартал, месяц (EXTRACT)
03:14 Получить первый день года, квартала, месяца или недели (TRUNC)

Смотреть это видео на youtube: youtu.be/_6XWUJ2zf8Y
Делаем резервное копирование кластера ClickHouse: простая инструкция

Документация ClickHouse по резервному копированию довольно небольшая и содержит инструкции по созданию резервных копий отдельной инсталляции СУБД. К сожалению, информации о том, как создавать резервные копии кластера, практически нет. Как и нет промышленного решения для управления бэкапом.

Базы данных
Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта.

Базы данных
Media is too big
VIEW IN TELEGRAM
Базы данных: SQL уроки для начинающих

В этом видеоуроке автор кратко проходится по теории реляционных баз данных и рассматривает язык запросов SQL на примере СУБД MySQL. Вы разберете основные конструкции языка и научитесь создавать и изменять таблицы и получать с них данные.

00:00 Введение
02:53 О реляционных БД
03:15 1 и 2 нормальные формы
04:50 Связи между таблицами
06:12 Начало работы с MySQL
06:47 SHOW, CREATE, DROP DATABASE
07:40 SHOW, CREATE TABLES
10:10 INSERT INTO
10:45 SELECT
11:40 DISTINCT
12:10 WHERE
13:07 AS
13:30 ORDER BY
14:40 UPDATE, SET
15:30 LIKE
18:10 Multiple INSERT
19:10 Объединение таблиц (JOINS)
22:04 Агрегатные функции
23:10 GROUP BY

Смотреть это видео на youtube: youtu.be/IK6e1SFCdow
Почему граф в RAG работает лучше, чем вы думаете… но не так, как вам рассказали

В RAG-решениях все чаще обращаются к графовым базам данных. В этой статье автор опишет своё мнение относительно того, в каких ситуациях графовые базы данных действительно оправданы в RAG, а в каких стоит остаться на традиционном векторном подходе.

Базы данных
Media is too big
VIEW IN TELEGRAM
СУБД ClickHouse: настоящее и будущее

В этом видео автор поделится основными принципами и целями развития ClickHouse, отличительными чертами и преимуществами системы, которые планируют развивать. Также автор рассмотрит недостатки и неудобства системы.

Помимо этого вы познакомитесь с некоторыми новыми возможностями ClickHouse, которые раньше сложно было даже представить.

Смотреть это видео на youtube: youtu.be/qeZOT8B8QiA
Как оптимизировать PostgreSQL и не лишиться сна

В работе автор часто сталкивается с вопросами производительности PostgreSQL, поэтому собрал практические советы для разработчиков, инженеров и архитекторов облачной инфраструктуры. В статье вы рассмотрите, как правильно использовать индексы, анализировать планы выполнения запросов и избегать типичных ошибок при проектировании схемы.

Базы данных
Оптимизация запросов в ClickHouse с помощью создания цепочки материализованных представлений

Материализованное представление - это специальный тип таблицы, содержащей результат выполнения запроса к исходным данным. Этот результат фактически представляет собой кэшированное представление данных из исходных таблиц.

Базы данных
После ухода зарубежных вендоров рынок СУБД в России стал меняться быстро и по всем фронтам. В интервью «Коду» Леонид Савченков из Yandex Cloud рассказывает, как в компании выстраивают платформу данных под эти реалии.

Ключевые фокусы — стабильность, масштабируемость и опора на open source. После закрытия Greenplum Яндекс поддерживает его последнюю открытую версию (v6) и параллельно развивает Cloudberry — активный форк в составе Apache Software Foundation.

Яндекс активно коммитит в Postgres и Clickhouse. Первым внедрил кворумную репликацию — ту самую, которую позже адаптировали AWS и Azure. Сейчас в разработке облачный сервис для шардированных инстансов Postgres.

На замену Greenplum приходит Cloudberry: проект развивается под крылом Apache, и Яндекс активно его коммитит.

Из свежего — BI-платформа DataLens получила редактор для визуализаций на JS и публичную галерею дашбордов. А YTsaurus теперь доступен как управляемый сервис — для тех, кто работает с эксабайтами.
Как пройти… к третьей нормальной форме?

В литературе описывается шесть или даже больше нормальных форм, однако в большинстве случаев достаточно доведения базы данных до третьей нормальной формы. Более того, в ряде случаев, если это даёт прирост производительности, допускается отступление и от этих требований — выполняется так называемая денормализация таблиц.

Базы данных
Media is too big
VIEW IN TELEGRAM
NoSQL простым языком: что это и зачем нужно?

NoSQL — тип баз данных, которые хранят данные в отличном от реляционных таблиц формате. Они узкоспециализированны для конкретных задач и нужны для улучшения производительности, масштабируемости и удобства в работе. В этом ролике автор подробно и наглядно разберёт данный тип БД.

Смотреть это видео на youtube: youtu.be/IBzTDkYNB7I
PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

Любой, кто хоть раз пытался «по-быстрому» проанализировать CSV-файл или прототип БД, сталкивался с выбором из неудобств: открывать в Excel, запускать Jupyter, возиться с pandas, или поднимать Postgres/ClickHouse ради пары запросов. Автору показалось странным, что до сих пор нет удобной zero-setup SQL-песочницы для локальных данных.

Базы данных
Консолидация баз данных: этапы, методы и примеры

Сейчас во всём мире объёмы данных растут с невероятной скоростью, и чтобы эффективно использовать их потенциал, требуется правильное хранение и управление информацией. Одним из наиболее эффективных способов решения этой проблемы является консолидация баз данных. В этой статье автор разберет, какую пользу может принести консолидация баз данных и как её провести на практике.

Базы данных
Реляционные vs Связанные данные

В этой статье автор разберет, что такое реляционная модель и связанные с ней SQL и реляционная алгебра. Вы рассмотрите примеры связанных данных из Викидата, а далее RDF, SPARQL и узнаете про Datalog и логическое представление данных. В конце статьи выводы — когда применять реляционную модель, а когда связно-логическую.

Базы данных
Media is too big
VIEW IN TELEGRAM
Иерархические (рекурсивные) запросы

При построении SQL-запросов иногда может потребоваться соединение таблицы с самой собой. Например, если таблица содержит список сотрудников с указанием должностной подчиненности, или филиалов и входящих в них под-филиалов, то можно вывести всю иерархию одним запросом, дописав всего лишь несколько слов. В этом видеоуроке автор подробно разбирает такие иерархические (рекурсивные) запросы.

Смотреть это видео на youtube: youtu.be/9_MuOe6KrmE
Как провести нагрузочное тестирование БД PostgreSQL и ничего не забыть

При нагрузочном тестировании баз данных PostgreSQL с использованием стандартного инструмента pgbench отсутствие фиксации деталей окружения (таких как конфигурация СУБД, характеристики сервера, версии ПО) часто приводит к нерепрезентативным результатам и необходимости повторных тестов. В этой статье рассматривается разработанный автором инструмент pg_perfbench, который призван решить эту проблему.

Базы данных
Шардирование баз данных и проектирование систем

Шардирование базы данных — это процесс её разделения на несколько машин, что способствует масштабируемости приложения. Механизм шардирования предполагает разбиение данных на два или более мелких фрагмента, называемых логическими шардами. Затем логические блоки распределяются по отдельным узлам базы данных, называемым физическими блоками, каждый из которых может содержать несколько логических блоков.

Базы данных
Как перейти с Oracle на PostgreSQL, используя Ora2Pg

В этой статье автор поговорит об актуальной задаче — миграции баз данных с Oracle на PostgreSQL с использованием Ora2Pg. Сейчас популярность PostgreSQL обоснована его мощностями и экономически выгодной альтернативы коммерческим решениям.

Базы данных
Media is too big
VIEW IN TELEGRAM
Теория баз данных

В этом видеоуроке автор подробно разбирает основы баз данных.

00:55 Содержание
01:59 БД и СУБД: MySQL vs PostgreSQL
03:58 Состав БД: индексы, транзакции, триггеры
07:10 SQL vs NoSQL
11:40 Типы данных
15:27 Как описывать поля в ТЗ
17:31 Типы связей
19:55 Выбор типа поля
24:00 Как описывать связи в ТЗ
27:17 Как проектировать связи в БД
30:34 Ключи Primary и Foreign
34:30 Нормализация
36:48 Лайфхаки
39:18 Миграции, сиды, дампы

Смотреть это видео на youtube: youtu.be/YdCGGBUCoDQ
PostgreSQL 16. Организация данных (часть 1)

Эта статья является объединением книги «PostgreSQL 16 изнутри» и официальной документации с рисунками автора, объясняющими написанное в более наглядном и простом варианте.

Базы данных