Я впервые про эту фишку узнал в 2013 году. Как сейчас помню, коллега так делала. Уверяла, что их на предыдущей работе DBA заставляли так писать, дескать запросы быстрее работают. Сути она не знала, на плане разницы не было. Чуть позже я услышал версию, что в ранних версиях MS баг был, Merge Join на неравенствах не работал, а 1=1 равенство добавляло и некоторые запросы действительно ускорялись. Баг починили, а привычка осталась. Про то, что так удобнее условия закомментить, я додумался значительно позднее😀
https://news.1rj.ru/str/rockyourdata/4325
https://news.1rj.ru/str/rockyourdata/4325
Telegram
Инжиниринг Данных
Самый популярный hint в SQL 1=1
Когда только начинал, никак не мог понять зачем. Оказывается все просто, можно убирать и добавлять условия и не нужно переживать за лишний AND.
Когда только начинал, никак не мог понять зачем. Оказывается все просто, можно убирать и добавлять условия и не нужно переживать за лишний AND.
👍3😁1
Светлой памяти Майкла Гэмбона... Это ж надо было так совпасть.
https://vc.ru/u/2214539-mathshub/856411-garri-potter-i-inzhenery-dannyh
https://vc.ru/u/2214539-mathshub/856411-garri-potter-i-inzhenery-dannyh
vc.ru
Гарри Поттер и инженеры данных — Mathshub на vc.ru
Представьте себе такую ситуацию: устрашающего вида колдун стоит перед кассой в баре «Кабанья голова» в Хогсмиде и заказывает свой любимый огневиски. В это же время в Лондоне в Министерстве Магии один из его сотрудников, вероятно это был Перси Уизли, захотел…
🔥2
#немогумолчать
Это просто невероятные ощущения, когда тебе в рассылке приходит твоя же статья😁
Всех с пятницей!
Это просто невероятные ощущения, когда тебе в рассылке приходит твоя же статья😁
Всех с пятницей!
👍5🔥5😁1
Data-driven "Милан"
Билли Бин и манибол в "Милане" - однозначно новость года для меня из мира данных. Хочется понаблюдать, что из этого получится, жаль, что времени не хватает матчи смотреть. Европейский футбол пока достаточно прохладно относится к продвинутым данным, предпочитая надеяться на "чуечку", и автор в статье объясняет почему.
Поработать в спорте - моя детская мечта, с которой и началось увлечение данными. Вот только ФКСМ пока молчит... А, судя по летним трансферам и последним результатам, дата-офис им крайне необходим😁
https://www.sports.ru/tribuna/blogs/kleshchonok/3171782.html
Билли Бин и манибол в "Милане" - однозначно новость года для меня из мира данных. Хочется понаблюдать, что из этого получится, жаль, что времени не хватает матчи смотреть. Европейский футбол пока достаточно прохладно относится к продвинутым данным, предпочитая надеяться на "чуечку", и автор в статье объясняет почему.
Поработать в спорте - моя детская мечта, с которой и началось увлечение данными. Вот только ФКСМ пока молчит... А, судя по летним трансферам и последним результатам, дата-офис им крайне необходим😁
https://www.sports.ru/tribuna/blogs/kleshchonok/3171782.html
Sports.ru
Отказ от Мальдини и Тонали – это отказ от развития в суперклуб. Куда катится «Милан»?
Андрей Клещенок – о плюсах и минусах миланского разворота.
👍2
Вот еще интересная статья о том, как data-driven подход (не только он, конечно) помог превратить неудачника четвертого дивизиона в крепкий клуб английской премьер-лиги.
С детства за Брайтон😁
https://www.sports.ru/tribuna/blogs/knedlikyapivo/3195611.html
С детства за Брайтон😁
https://www.sports.ru/tribuna/blogs/knedlikyapivo/3195611.html
Sports.ru
«Брайтон» – самый умный клуб мира. И сейчас вы зауважаете его еще сильнее
Любовь Курчавова – с секретами успеха.
👍4
Forwarded from 5 minutes of data
Подъехал "убийца DBT"
Встречаем SQL Mesh
SQLMesh можно использовать через CLI/ноутбук или в веб-IDE с открытым исходным кодом.
SQLMesh создает эффективные среды разработки и промежуточного хранения с помощью «Виртуальных витрин данных» с использованием представлений,
что позволяет вам плавно откатывать или накатывать изменения!
С помощью простой замены указателя вы можете перенести свои «промежуточные» данные в рабочую среду.
Это означает, что вы получаете неограниченные среды copy-on-write при записи,
которые делают исследование данных и предварительный просмотр изменений дешевыми, простыми и безопасными.
Основной концепцией SQLMesh является идея виртуальных сред данных,
которые представляют собой набор представлений в схеме,
указывающих на материализованные таблицы, хранящиеся в отдельной схеме
Некоторые другие ключевые особенности:
- Автоматическое создание DAG путем семантического анализа и понимания сценариев SQL или Python.
- Модульные и интеграционные тесты CI-Runnable с возможностью преобразования в DuckDB.
- Обнаружение и согласование изменений на уровне столбца
- Нативная интеграция с Airflow
- Импортируйте существующий проект DBT и запустите его в среде выполнения SQLMesh(в превью)
Выглядит достаточно интересно
Встречаем SQL Mesh
SQLMesh можно использовать через CLI/ноутбук или в веб-IDE с открытым исходным кодом.
SQLMesh создает эффективные среды разработки и промежуточного хранения с помощью «Виртуальных витрин данных» с использованием представлений,
что позволяет вам плавно откатывать или накатывать изменения!
С помощью простой замены указателя вы можете перенести свои «промежуточные» данные в рабочую среду.
Это означает, что вы получаете неограниченные среды copy-on-write при записи,
которые делают исследование данных и предварительный просмотр изменений дешевыми, простыми и безопасными.
Основной концепцией SQLMesh является идея виртуальных сред данных,
которые представляют собой набор представлений в схеме,
указывающих на материализованные таблицы, хранящиеся в отдельной схеме
Некоторые другие ключевые особенности:
- Автоматическое создание DAG путем семантического анализа и понимания сценариев SQL или Python.
- Модульные и интеграционные тесты CI-Runnable с возможностью преобразования в DuckDB.
- Обнаружение и согласование изменений на уровне столбца
- Нативная интеграция с Airflow
- Импортируйте существующий проект DBT и запустите его в среде выполнения SQLMesh(в превью)
Выглядит достаточно интересно
👍6👏2🤔2
Forwarded from 5 minutes of data
Подъехала новая архитектура ELTP.
Extract, Load, Transform, and Publish.
Этап publish похож на Reverse ETL, но как пишет автор статьи, вы не понимаете - это другое.
All Reverse ETL destinations are Publish-type destinations, but not all Publish destinations are Reverse ETL.
Сама статья в блоге Airbyte.
Похоже теперь каждая компания хочешь придумать модный buzz word, как DBT делают с modern data stack.
И потом продвигать новую концепцию на всех конференциях.
Extract, Load, Transform, and Publish.
Этап publish похож на Reverse ETL, но как пишет автор статьи, вы не понимаете - это другое.
All Reverse ETL destinations are Publish-type destinations, but not all Publish destinations are Reverse ETL.
Сама статья в блоге Airbyte.
Похоже теперь каждая компания хочешь придумать модный buzz word, как DBT делают с modern data stack.
И потом продвигать новую концепцию на всех конференциях.
👍2🤯1
Решил воспоследовать примеру кумиров из ВИА Бони Нем и объявить прощальный тур. Последняя возможность послушать "Гарри Поттер и большие данные" в авторском исполнении. Такие вот "Поминки по дата-инжинирингу", только без Федорова и Волохонского...
https://news.1rj.ru/str/mathshubedu_ru/987
https://news.1rj.ru/str/mathshubedu_ru/987
Telegram
Мathshub
Вам письмо из Хогвартса 🦉
В мире IT столько возможностей, что даже магия больше не под запретом. Ловите письмо с волшебными новостями: Mathshub объединились с Хогвартсом, открыли факультет дата-профессий и устраивают День открытых дверей. Вы приглашены!…
В мире IT столько возможностей, что даже магия больше не под запретом. Ловите письмо с волшебными новостями: Mathshub объединились с Хогвартсом, открыли факультет дата-профессий и устраивают День открытых дверей. Вы приглашены!…
👍3🔥1
Forwarded from Мathshub
Мы задумались — а какие дата-профессии выбрали бы персонажи Поттерианы? Делимся нашими предположениями, а вы в комментариях можете написать свои →
Если вы не успели присоединиться, приходите на повтор встречи по ссылке, начнем в 19:00.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Data Governance для чайников
ТОП-20 лучших статей про данные 2023
Уважаемый ресурс Dataversity подвел итоги года и опубликовал ТОП-20 самых читаемых и востребованных статей, которые вызвали на их канале в течение года наибольший интерес. Пробежавшись по списку глазами, можно без труда понять к каким ключевым темам информационное сообщество обращалось снова и снова.
Смотреть список статей
Уважаемый ресурс Dataversity подвел итоги года и опубликовал ТОП-20 самых читаемых и востребованных статей, которые вызвали на их канале в течение года наибольший интерес. Пробежавшись по списку глазами, можно без труда понять к каким ключевым темам информационное сообщество обращалось снова и снова.
Смотреть список статей
🔥6
Forwarded from DataJourney
Есть две вещи, которые чрезвычайно важны в изучении программирования:
- практика;
- способность искать информацию самостоятельно.
В случае с изучением SQL я рекомендую использовать ресурс https://sql-ex.ru
Задачи с сайта sql-ex и будут использованы в качестве практической части повествования. Использовать сайт можно даже с телефона, так что если вы можете читать этот текст, то вам для начала изучения не нужно больше ничего кроме желания.
#sql
- практика;
- способность искать информацию самостоятельно.
В случае с изучением SQL я рекомендую использовать ресурс https://sql-ex.ru
Задачи с сайта sql-ex и будут использованы в качестве практической части повествования. Использовать сайт можно даже с телефона, так что если вы можете читать этот текст, то вам для начала изучения не нужно больше ничего кроме желания.
#sql
sql-ex.ru
SQL exercises
SQL remote education. Interactive exercises on SQL statements: SELECT,INSERT,UPDATE,DELETE
👍4
Forwarded from DataJourney
Одним из первых ликбезов по устройству компьютеров, который потребуется для рассказа про типы данных, - это представление данных в памяти. Очень сильно упрощая, компьютер умеет работать только с нулями и единицами. Каждая такая ячейка, в которой хранится 0 или 1 называется бит. Именно в количестве бит в секунду, например, измеряется скорость передачи данных (по сети интернет или же между жестким диском и оперативной памятью). И если математика в общем была готова к таком повороту (тут надо гуглить "основание системы счисления") и сравнительно легко мы смогли хранить и оперировать числами в памяти компьютера, то вот с остальными данными все сложней. Разберем как же хранятся те или иные вещи в памяти.
Числа
Набрав некоторое количество бит можно сохранить в них число в двоичной системе счисления. Например, десятичное число "64" потребует 7 ячеек и будет записано в виде: "1000000". Таким образом, от того, сколько бит выделено, зависит то, какое число максимум мы можем сохранить. В контексте типов данных мы можем сказать, что под каждое значение с тем или иным типом выделяется определенное количество ячеек. Например, тип данных Integer, который был использован в предыдущем посте для хранения идентификатора фрукта, под собой содержит 32 бита (ячейки) и в него может поместиться максимум десятичное число 2 147 483 647.
Слова (строки, буквы)
Символы, же хранятся в виде некоей таблицы, где каждой букве или символу сопоставляется число - номер в этой таблице символов. Таблиц символов великое множество и гуглятся они по словам "кодировка" или "таблица символов".
Например, слово "шум" в разных кодировках будет сохранено по разному:
- UTF-8: "209, 136", "209, 131", "208, 188"
- ISO-8859-5: "232", "227", "220"
Таким образом, для хранения слов нам нужно гораздо больше ячеек, а для работы со словами гораздо больше памяти и более производительные процессоры. Это как раз и объясняет почему вчера компьютеры еле-еле умели считать, а сегодня уже генерируют тексты почти как человек. Вопрос как раз в вычислительных мощностях.
В прошлом посте для хранения наименования фрукта fruit_name был выбран тип данных varchar(50). Это значит, предполагается хранить слова, состоящие не больше чем из 50 символов, где на каждый символ приходится 1 байт, то есть 50 байт максимум или не больше 400 бит (ячеек). При этом, если слово, которое мы храним, будет требовать меньше символов, то памяти оно займет меньше - ровно столько, сколько символов-байт потребовалось.
Даты
.... продолжение следует
Числа
Набрав некоторое количество бит можно сохранить в них число в двоичной системе счисления. Например, десятичное число "64" потребует 7 ячеек и будет записано в виде: "1000000". Таким образом, от того, сколько бит выделено, зависит то, какое число максимум мы можем сохранить. В контексте типов данных мы можем сказать, что под каждое значение с тем или иным типом выделяется определенное количество ячеек. Например, тип данных Integer, который был использован в предыдущем посте для хранения идентификатора фрукта, под собой содержит 32 бита (ячейки) и в него может поместиться максимум десятичное число 2 147 483 647.
Слова (строки, буквы)
Символы, же хранятся в виде некоей таблицы, где каждой букве или символу сопоставляется число - номер в этой таблице символов. Таблиц символов великое множество и гуглятся они по словам "кодировка" или "таблица символов".
Например, слово "шум" в разных кодировках будет сохранено по разному:
- UTF-8: "209, 136", "209, 131", "208, 188"
- ISO-8859-5: "232", "227", "220"
Таким образом, для хранения слов нам нужно гораздо больше ячеек, а для работы со словами гораздо больше памяти и более производительные процессоры. Это как раз и объясняет почему вчера компьютеры еле-еле умели считать, а сегодня уже генерируют тексты почти как человек. Вопрос как раз в вычислительных мощностях.
В прошлом посте для хранения наименования фрукта fruit_name был выбран тип данных varchar(50). Это значит, предполагается хранить слова, состоящие не больше чем из 50 символов, где на каждый символ приходится 1 байт, то есть 50 байт максимум или не больше 400 бит (ячеек). При этом, если слово, которое мы храним, будет требовать меньше символов, то памяти оно займет меньше - ровно столько, сколько символов-байт потребовалось.
Даты
.... продолжение следует
👍6