This media is not supported in your browser
VIEW IN TELEGRAM
Список с задачами для подготовки к SQL-интервью с различными базами данных:
1. [Database Basics](https://bit.ly/3zGK6S7)
2. [SQL Queries](https://bit.ly/3bGzN8r)
3. [MSSQL](https://bit.ly/3A5qIj0)
4. [MySQL](https://bit.ly/3bFkhtE)
5. [Postgres](https://bit.ly/3BOLLHP)
6. [Oracle](https://bit.ly/3zF2WsH)
👉 @SQLPortal | #ресурсы | дать буст
1. [Database Basics](https://bit.ly/3zGK6S7)
2. [SQL Queries](https://bit.ly/3bGzN8r)
3. [MSSQL](https://bit.ly/3A5qIj0)
4. [MySQL](https://bit.ly/3bFkhtE)
5. [Postgres](https://bit.ly/3BOLLHP)
6. [Oracle](https://bit.ly/3zF2WsH)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥2❤1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
8 ключевых структур данных, которые обеспечивают работу современных баз данных:
В их числе Skip List, Hash Index, SSTable, LSM Tree, B-деревья, Инвертированные индексы, Суффиксные деревья и R-деревья.
Эти структуры помогают эффективно управлять хранением данных, их извлечением и выполнением сложных запросов в таких системах, как Redis, MySQL, Cassandra и других.
📹 Cмотреть: тык
👉 @SQLPortal | #курсы
В их числе Skip List, Hash Index, SSTable, LSM Tree, B-деревья, Инвертированные индексы, Суффиксные деревья и R-деревья.
Эти структуры помогают эффективно управлять хранением данных, их извлечением и выполнением сложных запросов в таких системах, как Redis, MySQL, Cassandra и других.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2
12 техник очистки данных, которые вы должны знать:
🟡 Фильтрация данных – удаление нерелевантных или ненужных данных, чтобы уменьшить шум и сосредоточиться на важной информации.
🟡 Удаление дубликатов – устранение повторяющихся записей для обеспечения уникальности каждого элемента данных.
🟡 Импутация данных – замена пропущенных или пустых значений на предполагаемые, чтобы сохранить целостность данных.
🟡 Стандартизация данных – приведение данных к общему формату для упрощения сравнения и анализа.
🟡 Преобразование данных – изменение существующих данных для их адаптации к анализу или моделированию.
🟡 Обнаружение выбросов – выявление и обработка значений, которые сильно отклоняются от основной массы данных.
🟡 Проверка данных – проверка соответствия данных установленным правилам и исправление несоответствий.
🟡 Кодирование данных – преобразование категориальных данных в числовой формат для совместимости с алгоритмами машинного обучения.
🟡 Агрегация данных – группировка данных по категориям, времени или другим критериям для получения обобщённой статистики.
🟡 Сэмплирование данных – выборка репрезентативного подмножества данных для анализа, сохраняя целостность выборки.
🟡 Очистка данных – применение различных техник для обеспечения точности, полноты и соответствия стандартам.
🟡 Профилирование данных – глубокий анализ данных для изучения их структуры, характеристик и качества.
👉 @SQLPortal | #ресурсы | дать буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤3
Обработка дубликатов в SQL
Ребята, давайте разберемся, как работать с дубликатами в данных — это важный навык для получения чистых и точных результатов!
Чтобы выявить дубликаты, используйте
Этот запрос показывает все повторяющиеся имена в таблице Employees.
Чтобы удалить дубликаты, используйте
Этот запрос возвращает уникальные комбинации имени и отдела.
👉 @SQLPortal | #ресурсы | дать буст
Ребята, давайте разберемся, как работать с дубликатами в данных — это важный навык для получения чистых и точных результатов!
Чтобы выявить дубликаты, используйте
GROUP BY с HAVING:SELECT name, COUNT(*) AS count
FROM Employees
GROUP BY name
HAVING COUNT(*) > 1;
Этот запрос показывает все повторяющиеся имена в таблице Employees.
Чтобы удалить дубликаты, используйте
DISTINCT:SELECT DISTINCT name, department
FROM Employees;
Этот запрос возвращает уникальные комбинации имени и отдела.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3
SQL Представления (Views)
Давайте упростим работу со сложными запросами, используя представления
Представление — это виртуальная таблица, созданная на основе запроса. Вместо того чтобы каждый раз писать один и тот же запрос, вы можете создать представление и использовать его как таблицу.
Пример:
В данном случае мы создаем представление под названием HighEarners, чтобы отобрать сотрудников с зарплатой выше 50,000.
😢 Задание для вас: Если у вас есть таблица Sales, какое представление вы бы создали, чтобы найти регионы с продажами выше 100,000
👉 @SQLPortal | #ресурсы | дать буст
Давайте упростим работу со сложными запросами, используя представления
Представление — это виртуальная таблица, созданная на основе запроса. Вместо того чтобы каждый раз писать один и тот же запрос, вы можете создать представление и использовать его как таблицу.
Пример:
CREATE VIEW HighEarners AS
SELECT name, salary
FROM Employees
WHERE salary > 50000;
SELECT * FROM HighEarners;
В данном случае мы создаем представление под названием HighEarners, чтобы отобрать сотрудников с зарплатой выше 50,000.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤1🔥1
Кардинальность относится к количеству уникальных значений в столбце по отношению к общему числу строк в таблице 😮
• Высокая кардинальность означает, что столбец имеет много уникальных значений. • Низкая кардинальность означает, что столбец имеет мало уникальных значений.
Когда вы создаёте индекс на столбце с низкой кардинальностью, это часто неэффективно, потому что:
🍩 Низкая кардинальность означает, что каждое проиндексированное значение указывает на много строк, что уменьшает способность индекса сузить область поиска. 🍩 Поддержка индекса требует дополнительное место и время на обновление. Для столбцов с низкой кардинальностью эти затраты могут перевесить выгоду. 🍩 Оптимизаторы запросов баз данных умны; они знают статистику столбцов, включая кардинальность. Когда они обнаруживают индекс с низкой кардинальностью, они часто игнорируют его и выполняют полное сканирование таблицы.
👇 Пример
Предположим таблицу "Employees" с 1 миллионом записей:
Рассмотрим индексацию различных столбцов:
• ID: Высокая кардинальность (1 миллион уникальных значений). Индекс здесь будет очень эффективным.
• Name: Высокая кардинальность (много уникальных имен). Индекс может быть полезен для поиска.
• Department: Средняя кардинальность (10-20 уникальных значений). Индекс иногда может быть полезен, но менее эффективен, чем для EmployeeID или Name.
• Gender: Очень низкая кардинальность (2-3 уникальных значения). Оптимизатор запросов вероятно игнорирует индекс.
Когда стоит рассмотреть индексацию столбца с низкой кардинальностью?🤔
Есть сценарии, когда индексация столбца с низкой кардинальностью может быть полезной.
Например, комбинирование столбцов с низкой и высокой кардинальностью может быть эффективным.
👉 @SQLPortal | #ресурсы | дать буст
• Высокая кардинальность означает, что столбец имеет много уникальных значений. • Низкая кардинальность означает, что столбец имеет мало уникальных значений.
Когда вы создаёте индекс на столбце с низкой кардинальностью, это часто неэффективно, потому что:
Предположим таблицу "Employees" с 1 миллионом записей:
Рассмотрим индексацию различных столбцов:
• ID: Высокая кардинальность (1 миллион уникальных значений). Индекс здесь будет очень эффективным.
• Name: Высокая кардинальность (много уникальных имен). Индекс может быть полезен для поиска.
• Department: Средняя кардинальность (10-20 уникальных значений). Индекс иногда может быть полезен, но менее эффективен, чем для EmployeeID или Name.
• Gender: Очень низкая кардинальность (2-3 уникальных значения). Оптимизатор запросов вероятно игнорирует индекс.
Когда стоит рассмотреть индексацию столбца с низкой кардинальностью?
Есть сценарии, когда индексация столбца с низкой кардинальностью может быть полезной.
Например, комбинирование столбцов с низкой и высокой кардинальностью может быть эффективным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥3
SQL-кальмар: выживут только мастера запросов 😐
Нашёл годноту — SQL Squid Game
9 уровней, растущая сложность, а заодно — отличная прокачка навыков. Не уверены в силах? На сайте есть 33 урока, чтобы подтянуть SQL перед стартом
Готовы принять вызов? Тогда вперёд: https://datalemur.com/sql-game
👉 @SQLPortal | #ресурсы | дать буст
Нашёл годноту — SQL Squid Game
Вы — новоиспечённый дата-сайентист в загадочной организации. Ваш босс, Фронтмен, требует от вас решения бизнес-задач с помощью SQL. Не справитесь —☠️
9 уровней, растущая сложность, а заодно — отличная прокачка навыков. Не уверены в силах? На сайте есть 33 урока, чтобы подтянуть SQL перед стартом
Готовы принять вызов? Тогда вперёд: https://datalemur.com/sql-game
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍3
Давно не было шпаргалок по MongoDB, исправляемся 😅
🟣 Работа с базами данных
🟣 Работа со строками
🟣 Работа с документами
🟣 Запрос данных из документов
🟣 Изменение данных в документах
🟣 Поиск
👉 @SQLPortal | #ресурсы | дать буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍7🔥4🌚1
Порядок выполнения простого SQL-запроса
График подробно показывает шаги выполнения запроса и разницу между порядком написания (coding order) и порядком выполнения (execution order) SQL-команд.
👉 @SQLPortal | #ресурсы | дать буст
График подробно показывает шаги выполнения запроса и разницу между порядком написания (coding order) и порядком выполнения (execution order) SQL-команд.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1🤯1
Подзапросы – запросы внутри запросов
Подзапросы – это запросы, вложенные в другой запрос. Они особенно полезны для извлечения сложных данных.
Пример:
Этот запрос извлекает имена студентов, возраст которых больше среднего.
Подзапросы помогают разбить сложные задачи на более простые и управляемые части.
😒 Задание для вас:
Как, используя таблицу Employees, найти сотрудников, зарабатывающих больше среднего уровня зарплат?
👉 @SQLPortal | #ресурсы | дать буст
Подзапросы – это запросы, вложенные в другой запрос. Они особенно полезны для извлечения сложных данных.
Пример:
SELECT name
FROM Students
WHERE age > (SELECT AVG(age) FROM Students);
Этот запрос извлекает имена студентов, возраст которых больше среднего.
Подзапросы помогают разбить сложные задачи на более простые и управляемые части.
Как, используя таблицу Employees, найти сотрудников, зарабатывающих больше среднего уровня зарплат?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥5