There will be no singularity – Telegram
There will be no singularity
1.99K subscribers
248 photos
15 videos
5 files
995 links
Smartface, technologies and decay
@antonrevyako
Download Telegram
Недавно вы единодушно проголосовали за то, чтобы я начал публиковать правила анализатора с разбором кейсов (https://news.1rj.ru/str/nosingularity/415)

Пока я не сформулировал с чего начать. И дело не в самих правилах, с ними проблем нет. Хочется как-то структурно подойти к этим публикациям. Может быть сначала есть смысл рассказать про некоторые внутренние процессы, происходящие в базе, для большего погружения в проблему?
С другой стороны давят Даннинг с Крюгером, нашептывая "ты балбес, иди в сорцах поковыряйся" :)

Пока я собираюсь с мыслями, предлагаю всем интересующимся заглянуть в доку
https://github.com/antonrevyako/useful-links/blob/master/opensource-sql-tools.md

Например, там есть ссылки на реализацию mysql на go и репозиторий, где пытаются повторить postgres на go from the scratch.

Так же на глаза попался твиттер-тред (брррр) от Oracle Developer Advocate for SQL, где он рассказывает про различные проблемы, встречающиеся в запросах
https://twitter.com/ChrisRSaxon/status/1256233845642452994

Часть рекомендаций там с оракловским колоритом, но все равно может пригодиться.
Например, в pg есть такая бага, что count(*) работает на 10% медленнее, чем count(1). В оракле такой баги нет.

Давайте пока разберу одно правило из первых рекомендаций треда.

select * from ... where anything = NULL

ALWAYS returns no rows

Казалось бы, такое правило нужно только джунам. Кто не знает, что нельзя сравнивать с NULL'ом?

Если будет существовать правило, автоматом проверяющее на подобные вещи, то, во-первых, джун сможет за джуновскую зарплату не допускать ошибок, которые не допускают синьоры.

Во-вторых, такой же эффект будет наблюдаться при сравнении с колонкой или выражением, которое может принимать значение NULL.

Пример:
WHERE a < b + 1
,
где b может быть NULL

Отдельный вопрос сможет ли разработчик всегда понять, что b может принимать 'значения' NULL или нет, но конкретно тут, возможно, хотелось бы трактовать NULL как 0.

Пример:
WHERE a = 'string' || b 

Казалось бы,
'string' || b 
должен быть равен
'string'
, если b IS NULL.
Но фокус в том, что любые выражения с NULL дают NULL...

В этом случае стоит использовать CONCAT, который трактует NULL-значения как пустую строку.

Все ли об этом знают?
Бот криво парсит такие сообщения, потэтому голосуем тут
Как-то давно (лет 5 назад), досталась мне база одного билетного агенства, которую надо было привести в порядок.

Но проблема лежала не в плоскости архитектуры, а в плоскости контента.

На одно и то же мероприятие билеты продают разные ресселеры. Одни и те же места у них называются по-разному и стоят по разному. На фестивали билеты могут быть описаны как «вип на первый день с парковкой в крыле b, на остальные без парковки». Есть опечатки.

Группировки ни по событиям, ни по продавцам не было.

Каких-то понятных ML инструментов тогда не было, поэтому я запасся энергетиком и загнал все в postgres.

За неделю я отнормализовал процентов 80 контента.

Пофиксил опечатки (выбираются самые популярные слова, самые редкие, считается
расстояние Левенштейна, для редких слов с ld меньше 3 делается замена на частые).

Разделил что мог на группы - стало понятно что в билет включена парковка, на сколько дней действует и тд.

Узнал много нового о делении концертных площадок на куски, их названия и ценообразование.

Что могу сказать... FTS (full text search) у postgres отличный :)
Но его мне все-равно не хватило.

Пришлось написать около 200 regexp’ов, которые парсили всю базу для подготовки текста под FTS.
Возможно, не последнюю роль тут сыграли 4 банки энергетика в день, но где-то на 150 regexp’е мне показалось, что я могу видеть время...

Причем до этого момента я был с regexp’ами на ВЫ. Я знал, что на regexp разговаривают перловики, и один знакомый сисадмин.
Все мои эксперименты выглядели как копипаста с http://php.spb.ru/php/regexp.html (алярм, БИТАЯ КОДИРОВКА!) с небольшими правками.

Это сейчас все знают про regex101.com, а тогда никто не знал :)

Короче, с того момента я regexp не боюсь :) Ими очень удобно парсить всякое, в том числе прям в IDE. Все IDE поддерживают поиск с regexp.

Есть, конечно, совершенно неподходящее приложение этого инструмента - например, парсинг сорцов. Вот знаменитый топик на SO про парсинг html:

https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags

Сорцы парсят совершенно другим способом. За час можно разобраться с этим проектом? там все максимально понятно, даже если js не ваш родной язык:

https://github.com/jamiebuilds/the-super-tiny-compiler

Но в моем анализаторе все-равно нашлось место регуляркам. С их помощью я очищаю DDL от команд, которые есть в psql, но которые не понимает AST-парсер.

Поэтому анализатору можно скармливать файлы с многострочными каментами и с коммандами вида
\c dbname

Но я, собственно, чего начал то...

Show HN принес такой проект:
RegEx for Regular Folk

https://refrf.shreyasminocha.me/

Все доступным языком, с хорошими примерами.

Btw, вы видели полный regexp валидатор для email?

https://stackoverflow.com/questions/20771794/mailrfc822address-regex

PS: хотел было изобрести reactions с regexp, так этот бот не пропустит :(
Сегодня про музло :)

Есть такие песни, которые независимо от настроения можно крутить на репите.
Для меня одна из таких - Nena - 99 Luftballons
https://www.youtube.com/watch?v=idZ6_aRoiJQ

На нее сделано куча ремиксов в разных жанрах, но сегодня ютуб подбросил карантинное видео от олдовой ска-панк группы Goldfinger
https://www.youtube.com/watch?v=idZ6_aRoiJQ
Это, как мне кажется, один из лучших вариантов.

Есть еще неплохой от известного меттал-ковериста Leo Moracchioli
https://www.youtube.com/watch?v=Wr-ywwsjXW8

Его одного, кстати, можно слушать без перерыва и не надоедает :)
Итальянец из Норвегии, он рубит на всех инструментах один и иногда делает фиты.
Вот, например, Africa
https://www.youtube.com/watch?v=MH9FyLsfDzw

или Despacito
https://www.youtube.com/watch?v=hcQyFtHMfbs
Новая серия Рик и Морти это прям пост-пост мета-мета :)
Поезд, который ездит по кругу, безумный машинист, бессмысленная концовка - там прекрасно все :)

Комбо имени Баадера - Майнхоф настигло меня из-за того, что буквально вчера я посмотрел фильм с бессмысленной концовкой про поезд с безумным машинистом, который ездит по кругу.

Фильм 2013 года, производства Южной Кореи и Чехии, со слоганом «2031 год. Новый ледниковый период. Последнее пристанище человечества — поезд»

(●__●)

Звучит так, как будто не стоит... НО!
Крис Эванс (капитан америка)
Тильда Суинтон
Элисон Пилл (сериалы newsroom и devs)
Эд Харрис (сериал Мир Дикого Запада и еще 173 фильма)
Джон Хёрт (Меланхолия, Догвилль, Гарри Поттер и еще 288 фильмов)

НО! Не стоит :)

Snowpiercer - Сквозь снег
https://www.kinopoisk.ru/film/566283/vk/1/
Тема, которую я благополучно прослоупочил - нелепые факапы в разработке.
https://vc.ru/life/124730-tred-razrabotchiki-vspominayut-nelepye-oshibki-v-svoey-rabote

Давно хотел рассказать свою историю, произошедшую почти 20 лет назад.

1/2
Работал я тогда в одном маленьком региональном операторе начальником отдела биллинга.
Ситуация там была интересная - биллинг на протяжении многих лет писала команда из 10 человек. Потом сотового оператора продали TELE2, а команда разработки отделилась и осталась в другой компании, занимающейся продажей интернета.

Поддерживать биллинг сотового оператора силами сторонней компании не виделось учредителям возможным, поэтому решили нанять для этого отдельного человека на переходный период, пока TELE2 не запустит свои мощности.

Как мне стало видеться спустя годы, директор отделившейся компании и по совместительству главный разработчик биллинга, решил провернуть схему как показывают в современных отечественных сериалах типа "мылодрама" или "последний министр".

Он нанял меня на должность начальника биллинга :)
Моя практика SQL на тот момент была ограничена созданием каталога для интернет магазина на Mysql.
Еще я слышал о том, что существуют join'ы ...

Передача биллинга происходила так: я пришел в кабинет к разработчикам (который располагался на том же этаже, что и сотовый оператор) и спросил как будет происходить процесс передачи.
Один из разрабов встал, подошел к стене, выдернул из одного из системников все провода и вручил мне его руки.

Биллинг представлял собой системник high tower с windows NT (или 2000, не помню точно) на борту и сервером MSSQL со всей бизнес-логикой, написанной на хранимках.

Я бегом добежал до своего кабинета и воткнул все все в сеть.

Не помню подробностей как я все это запускал. Видимо, мозг блокирует эти воспоминания :)

Long story short, я немного разобрался как там все устроено.
Бэк, в лучших традициях oracle-style разработки был полностью на MSSQL. Фронтом выступали приложухи, написанные на Visual Fox Pro.
На них работали все отделы - абонентский, бухгалтерия, саппорт и все остальные.

Одна из главных магий этой системы был процесс генерации "книги продаж" для бухгалтеров.
Он должен был запускаться ровно один раз в месяц, в 00:00 первого числа, откатить назад было невозможно, как оно работает - не знал никто.
Внутри процедура генерации занимала экранов 200 T-SQL, кода, который вызывал несметное количество других процедур, часть из которых была зашифрована.
Да, в MSSQL можно шифровать процедуры :)

Смеркалось... Второй из сотрудников нашего немногочисленного отдела случайно запустил эту процедуру в середине месяца. Бэкапов никто не делал...

Следующие пару дней прошли в консультациях на тему "как быть".
В базе была большая таблица, где были записаны все услуги всех абонентов с датами начала и конца биллинг периода.

Один из разработчиков биллинга предложил обнулить конец биллинг периода.
Вечером я сделал UPDATE tbl SET date_end = NULL и ушел домой. Бэкапов по-прежнему никто не делал...

Утром около кабинета стояла делегация почти из всех отделов. Практически с вилами.
Но я был готов, т.к. за несколько минут до этого мне позвонил начальник коммутатора и спросил, не знаю ли я что случилось.
В полночь на коммутатор свалилось 100500 тасков по отключению ВСЕХ абонентов.

Это был старый аналоговый оператор с такими огромными лопатами, а онлайн биллинг тогда был, кажется, только у МТС.
Онлайн - это когда тебя могут прервать в середине разговора, если кончились деньги.
Тут же пересчет балансов происходил в полночь и практически не было абонентов с предоплатой.
2/2
Отдельного упоминания заслуживает коммутатор. Когда его купили в Израиле 1992 году он был уже сильно б/у. Там его просто списали и продавали за очень небольшие деньги.
В него вставлялись такие платы расширения, на которых было по несколько десятков процессоров Z-80. Это процессоры, на которых работал мой первый компьютер spectrum zx-48. 48 - это количество килобайт оперативной памяти. Он подключался к телевизору и грузился с кассет.

Короче, я понял того разработчика не так. Он хотел сказать, что нужно откатить date_end к предыдущим значениям, а не обнулить.
От того, что я обнулил, система пересчитала все услуги с начала времен до наступившей полночи. У каждого абонента образовалось по несколько миллионов в минусе на балансе и биллинг отправил команды на отключение.
К тому моменту оператор работал уже 10 лет и им пользовались все - от бандитов до губернатора.

Кончилось тем, что мы нашли самый подходящий бэкап недельной давности и восстановились из него. Абонентский отдел еще долгое время меня недолюбливал, т.к. им пришлось вводить все руками за прошедшую неделю заново.

И да, в анализаторе (holistic.dev) будет notice, когда в запросе будет встречаться конструкция UPDATE SET field = NULL :)
Еще одна короткая история про бэкапы.
Был у нас (уже не в сотовом операторе) сисадмин. Каноничный такой. Свитер, борода, регэкспы. Сидел под какой-то самопальной сборкой какой-то только красноглазиком известной BSD или чего у них там обычно бывает.

Так вот, бэкапы он делал. Но делал на тот же самый сервер, который и надо было бэкапить.
Комичность ситуации стала ясна когда хотсер всем дц ушел в даун...
Я, блин, тут не могу собраться и концепцию серии постов про правила придумать, а у людей вот такой инфоповод:

Today, we're proud to announce improved charts and a new date picker on pganalyze! We're now treating date range selection as a first-class concept to help you better monitor your Postgres databases.

Дейт-пикер у них, сцк, новый :)
Когда вам начинает казаться, что вы немного перебарщиваете со своим pet-project, посомтрите на это...
Forwarded from UX Live 🔥
Как же это круто сделали https://poolside.fm/ Обожаю сайты, которые уходят целиком в концепцию своей задачи (даже правый клик и Format C пасхалки есть).
Иногда мне кажется, что dhh гнет свою линию по одной причине. Ему страшно признаться, что все это время он троллил сообщество своим пет-проджектом.


https://twitter.com/dhh/status/1258074299337826304
О как... оказалось автора я от греха забанил в твиттере, чтоб не слышать его истерических воплей в ленте...
Короткий тред про то, что если вам не нравится electron, то можно вспомнить, что есть еще qt... (маты, 18+)

https://twitter.com/codbasters/status/1253669191309316096
От нескольких человек слышал рекомендацию, что мне стоит заопенсорсить мой анализатор (holistic.dev) и зарабатывать на саппорте для enterprise.

У меня на этот счет несколько другое мнение. Мне кажется, что схема с OSS не сработает с инструментами для улучшения качества ПО.

Что можно предложить в качестве платных опций?
- Несколько платных правил? Через месяц эти правила воспроизведут в OSS версии и смысла в них не будет.

- Saas-версию? Этот класс ПО не требует какого-то специального обслуживания (бэкапы, настройка), поэтому даже предпочтительнее иметь on-premise версию, чем SaaS.

- Сделать лицензию, чтоб ее не могли использовать облачные провайдеры в managed версиях бесплатно, как mongodb? 100 индусов за полгода перепишет все на java и в этой лицензии не будет никакого смысла.

- Другое? Напишите в чат, пожалуйста, если есть идеи.

Особенно непонятно это все выглядит на фоне существующих продуктов (открытых и коммерческих) в той же предметной области.

Если в области статического анализа для c/ c++/ c#/ java идет месилово, да и то коммерческие продукты как-то ухитряются существовать, то в области sql-анализа тишь да гладь.
Собираю тут полезные ссылки в этой области, ознакомьтесь, если интересно:
https://github.com/antonrevyako/useful-links/blob/master/opensource-sql-tools.md

И там все печально.

Я постоянно просматриваю много проектов, связанных с SQL. По понятной причине меня интересуют части, связанные с парсингом различных SQL - диалектов.
Абсолютно все проекты построены на кривых костылях. Они даже не пытаются сделать что-то приличное.
Все делают вид, что работают со всеми основными базами pg/mysql/mssql/oracle. Достичь они это пытаются, сделав парсер некого обобщенного SQL - диалекта,
который работает везде. Если попытаться использовать какой-то специфичный синтаксис - все рушится.

Например, свежий OSS-убийца DataGrip - beekeeper studio:
https://github.com/beekeeper-studio/beekeeper-studio

Без выбора базы автодополнение SELECT * FROM выглядит как список всех известных токенов (ALTER, AND, AS...), а при SELECT * FROM public. автодополнение не появляется.
И есть подозрение, что лучше тут ничего не будет, т.к. ноги растут из пакета https://github.com/maxcnunes/sql-query-identifier, который не обновлялся уже 3 года.

Или вот, vitess.io - a database clustering system for horizontal scaling of MySQL. Тулза на go, все по уму.
Они заморочились и сделали свой AST парсер, который собирается из самописной грамматики. Можно попробовать собрать:
https://github.com/vitessio/vitess/tree/master/go/vt/sqlparser

И что? Грамматика описана криво даже для версии 5.7
Например, в ней важен порядок DEFAULT и NOT NULL в CREATE TABLE, а в оригинальной MySQL - нет.
Новый синтаксис 8.0 не поддерживается совсем.
В прошедшем декабре CNCF объявила vitess достаточно зрелым для использования в production.

Вот такая ситуация с этими вашими OSS.

А что там у коммерческих продуктов?

Про drawsql.app (mysql/pg/mssql) и моего единственного конкурента я уже бугуртил тут
https://news.1rj.ru/str/nosingularity/424

Так, что у нас там дальше... dbdiagram.io (mysql/pg/ror)
Не понимает половины ALTER, совсем не понимает CREATE FUNCTION, CREATE EXTENSION и тд.

Если вы можете порекомендовать какой-то продукт или сервис, связанный с SQL, на который стоит обратить внимание, напишите, пожалуйста.

Почему все более или менее прилично у DateGrip? Они разрабатывают свой универсальный парсер грамматики:
https://github.com/JetBrains/Grammar-Kit
Специфичную для разных баз грамматику они пишут руками.

Справедливости ради, holistic.dev не начался бы, если бы не было OSS AST-парсера для postgresql.
Но на данный момент в этом парсере реализована поддержка специфичного синтаксиса postgresql только до 10 версии.

Поэтому нам пришлось самостоятельно выковыривать парсер из postgresql 13. В ближайшем большом релизе мы его выкатим.
Похожим образом приходится действовать с mysql и clickhouse.

Найти подходящий AST парсер - это процентов 5 всей работы.

Вы бы стали опенсорсить остальные 95%?