NEW BOT Телеграм, страница

дата инженеретта

🤭Вредные советы

Недавно ходила на сходку ODS (Open Data Science) и познакомилась с одним дата аналитиком. В общих чертах состоялся такой диалог:

- Чем вы занимаетесь?
- Шатаю таблички.
- И каким образом?
- Да просто select *, и все)

Так вот этот пост про do и don'ts в сфере работы с данными:

1️⃣ Всегда делайте SELECT *, а не только нужные поля - вдруг они пригодятся в будущем? И никаких LIMIT - мы не хотим делать выводы на крошечной выборке

2️⃣ Никогда не навешивайте индексы, они просто забивают память

3️⃣ Добавляйте как можно больше джойнов в один запрос - надо экономить место

4️⃣ Никогда не проверяйте, какие типы данных сопоставляются в ON, WHERE и т.д. - лучше сделайте побыстрее и идите отдыхать

5️⃣ Считайте агрегации несколько раз вместо использования cte или temp табличек - это чисто синтаксический сахар

6️⃣ Cross join - наше все

7️⃣ Вставляйте как можно больше OR, не пытайтесь заменить на IN, UNION и т.д.

8️⃣ Если нужен DISTINCT, он должен быть в каждом подзапросе - для нашей 200% уверенности

9️⃣ Навешивайте на фильтруемые поля кучу функций - UPPER, LOWER, LEFT, RIGHT... Ну а

WHERE UPPER(name) LIKE '_Mary%'

- вообще песня!
_ ⏩1 символ
%⏩0 или много символов

🔟 Чем больше подзапросов - тем выше ваша зарплата💵

Please open Telegram to view this post

VIEW IN TELEGRAM

😁29🔥4👌1

2.36K views09:52

дата инженеретта

Выберите ВСЕ работающие варианты сортировки по убыванию в спарке:

Anonymous Poll

54%

df.sort(F.col('id').desc())

65%

df.orderBy(F.col('id').desc())

16%

df.sort('id'.desc())

22%

df.orderBy('id'.desc())

59%

df.sort(F.col('id'), ascending=False)

54%

df.orderBy(F.col('id'), ascending=False)

41%

df.sort('id', ascending=False)

57%

df.orderBy('id', ascending=False)

41%

df.sort(F.desc('id'))

43%

df.orderBy(F.desc('id'))

👀3🔥1

37 voters1.15K views05:51

дата инженеретта

💡

Сортировка в Spark

💡

Правильные ответы - все, кроме

'id'.desc()

sort vs orderBy - что вам больше нравится, никакой разницы

Способов тоже много на ваш выбор:

1️⃣

F.col().desc()

Через метод столбца. Мы можем навесить функцию только на объект типа колонка, на обычную строку - нет:

df.orderBy(F.col('id').desc())

2️⃣

ascending=False

Через свойство, в сортировке - строка или колонка:

df.orderBy('id', ascending=False)
df.orderBy(F.col('id'), ascending=False)

3️⃣

F.desc()

Через функцию, аргумент - строка или колонка:

df.orderBy(F.desc('id'))
df.orderBy(F.desc(F.col('id')))

4️⃣

spark.sql

Для особо ленивых)

spark.sql('select * from my_table order by id desc')

#spark

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤1👌1💯1

1.88K views09:59

дата инженеретта

Всем привет!

Кажется, у нас набралось достаточно данных для анализа моих любимых подписчиков, поэтому предлагаю потыкать)

Сколько у вас опыта работы ✨в сфере данных✨?

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K viewsedited 18:07

дата инженеретта

Сколько у вас опыта работы?

Anonymous Poll

420 voters1.82K views18:07

дата инженеретта

Как уменьшить размер бд?

💿На одном проекте в разгар сезона часто не хватало места на диске, чтобы создать новую базу данных. В таких крайних случаях можно сжать существующие (редко используемые) базы командой:

DBCC SHRINKDATABASE([db_name], 0);  
GO

Диалект - MS SQL Server.
Вторым аргументом указывается процент свободного места для бд в диапазоне 0-100. Чем его больше, тем быстрее происходит вставка данных, есть запас для изменения структуры и наполнения полей и т.д.

➡️Операция сжатия на больших объемах:
- супер долго выполняется
- снижает эффективность индексов и производительность (т.к. под капотом страницы с данными перемещаются)

✏️Но если в бд не пишется много данных или вообще не пишется, а дела с местом на диске прямо критичны, то это как вариант.

#sql_tips

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1🤔1🤡1

1.3K views16:27

дата инженеретта

Про SQL Wildcards

Я решила поэкспериментировать с форматом и посмотреть, что из этого выйдет)

⭐Все знают про %, но про остальные я думала, что они существуют в регулярках в программировании, но никак не в эскуэль.

Пока не увидела в коде запросов, например:

--эквивалентны
and Action_Code like 'K[HS]'

and Action_Code = 'KH' or Action_Code = 'KS'

--тоже эквивалентны
and Assignment_Value like '%CRE[12]%'

and Assignment_Value like '%CRE1%' or Assignment_Value like '%CRE2%'

Для любителей почитать вот ссылки на оф. доки:
Postgres
MS SQL Server
MySQL

#sql_tips

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥30⚡2👨‍💻2💯1

1.95K views05:46

дата инженеретта

count(), F.count(), F.countDistinct(), distinct()

В спарке есть несколько функций count, которые меня вначале путали, и тут я хочу расставить все точки над i.

1️⃣

count() - это действие
Оно запустит весь пайплайн расчетов и выведет на экран одно число - количество строк в датафрейме:

df.count()

Также можно использовать в агрегации, но нельзя поменять название столбца (будет count):

df.groupBy('category')
  .count()
  .orderBy('count')
  .show()

2️⃣

F.count() - это трансформация, агрегирующая функция

df.select(F.count('id')).show()

В отличие от первого способа в агрегации можно поменять название столбца:

df.groupBy('category')
  .agg(F.count('id').alias('cnt'))
  .orderBy('cnt')
  .show()

Отличия count() и F.count():

# результат - датафрейм с одной ячейкой
df1.select(F.count('id')).show()
# +---------+
# |count(id)|
# +---------+
# |        3|
# +---------+

# результат - число
df1.select('id').count()
# 3

3️⃣

F.countDistinct() - тоже агрегирующая функция

df.select(F.countDistinct('id')).show()

Тут вариант агрегации только один, потому что df.countDistinct() не существует:

df.groupBy('category')
  .agg(F.countDistinct('id'))
  .show()

При этом в спарке есть еще функция distinct(), которая тоже вносит некую путаницу.

Отличия distinct().count() и F.countDistinct():

# результат - датафрейм с одной ячейкой
df1.select(F.countDistinct('id')).show()
# +------------------+
# |count(DISTINCT id)|
# +------------------+
# |                 2|
# +------------------+

# результат - число
df1.select('id').distinct().count()
# 2

#spark

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥5🌚1

1.03K views11:33

дата инженеретта

Как из деления int/int получить double?

🤓Вам нужно что-то посчитать: поделить одно количество на другое и округлить результат до 2х знаков после запятой.

Так как количество - это целое число, если написать просто count1/count2, то в результате мы получим тоже целое число: 15/26 = 0. А мы хотим 0.57692307692307692308 - вот оно самое.

✨Поэтому умножаем на 1.0, и вуаля✨

SELECT round(count1 * 1.0 / count2, 2)
FROM test

#sql_tips

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤3🌚2

1.03K views12:03

дата инженеретта

✨

День демо✨

Сегодня у нас прошло очередное демо трайба!

🏫Вкратце о структуре

Команда ➡️ Кластер ➡️ Трайб

В кластере несколько команд, а в трайбе несколько кластеров (всего где-то 15 команд +-).

Что было?

🎙Спикеры из команд рассказывали про итоги первого квартала 2024 года, какие мы молодцы, что получилось, что не получилось, какие планы на следующие периоды. Кейсы, графики и цифры, Цифры, ЦИФРЫ...

⌨️В перерыве работали тестовые стенды, где можно было сходить к нашим коллегам, пощупать их продукты и понять, чем они вообще занимаются)

Ну, и вкусный фуршетик🍿

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤3😁2🆒1

1.12K views16:07

About

Blog

Apps

Platform