Как-то давно (лет 5 назад), досталась мне база одного билетного агенства, которую надо было привести в порядок.
Но проблема лежала не в плоскости архитектуры, а в плоскости контента.
На одно и то же мероприятие билеты продают разные ресселеры. Одни и те же места у них называются по-разному и стоят по разному. На фестивали билеты могут быть описаны как «вип на первый день с парковкой в крыле b, на остальные без парковки». Есть опечатки.
Группировки ни по событиям, ни по продавцам не было.
Каких-то понятных ML инструментов тогда не было, поэтому я запасся энергетиком и загнал все в postgres.
За неделю я отнормализовал процентов 80 контента.
Пофиксил опечатки (выбираются самые популярные слова, самые редкие, считается
расстояние Левенштейна, для редких слов с ld меньше 3 делается замена на частые).
Разделил что мог на группы - стало понятно что в билет включена парковка, на сколько дней действует и тд.
Узнал много нового о делении концертных площадок на куски, их названия и ценообразование.
Что могу сказать... FTS (full text search) у postgres отличный :)
Но его мне все-равно не хватило.
Пришлось написать около 200 regexp’ов, которые парсили всю базу для подготовки текста под FTS.
Возможно, не последнюю роль тут сыграли 4 банки энергетика в день, но где-то на 150 regexp’е мне показалось, что я могу видеть время...
Причем до этого момента я был с regexp’ами на ВЫ. Я знал, что на regexp разговаривают перловики, и один знакомый сисадмин.
Все мои эксперименты выглядели как копипаста с http://php.spb.ru/php/regexp.html (алярм, БИТАЯ КОДИРОВКА!) с небольшими правками.
Это сейчас все знают про regex101.com, а тогда никто не знал :)
Короче, с того момента я regexp не боюсь :) Ими очень удобно парсить всякое, в том числе прям в IDE. Все IDE поддерживают поиск с regexp.
Есть, конечно, совершенно неподходящее приложение этого инструмента - например, парсинг сорцов. Вот знаменитый топик на SO про парсинг html:
https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags
Сорцы парсят совершенно другим способом. За час можно разобраться с этим проектом? там все максимально понятно, даже если js не ваш родной язык:
https://github.com/jamiebuilds/the-super-tiny-compiler
Но в моем анализаторе все-равно нашлось место регуляркам. С их помощью я очищаю DDL от команд, которые есть в psql, но которые не понимает AST-парсер.
Поэтому анализатору можно скармливать файлы с многострочными каментами и с коммандами вида
\c dbname
Но я, собственно, чего начал то...
Show HN принес такой проект:
RegEx for Regular Folk
https://refrf.shreyasminocha.me/
Все доступным языком, с хорошими примерами.
Btw, вы видели полный regexp валидатор для email?
https://stackoverflow.com/questions/20771794/mailrfc822address-regex
PS: хотел было изобрести reactions с regexp, так этот бот не пропустит :(
Но проблема лежала не в плоскости архитектуры, а в плоскости контента.
На одно и то же мероприятие билеты продают разные ресселеры. Одни и те же места у них называются по-разному и стоят по разному. На фестивали билеты могут быть описаны как «вип на первый день с парковкой в крыле b, на остальные без парковки». Есть опечатки.
Группировки ни по событиям, ни по продавцам не было.
Каких-то понятных ML инструментов тогда не было, поэтому я запасся энергетиком и загнал все в postgres.
За неделю я отнормализовал процентов 80 контента.
Пофиксил опечатки (выбираются самые популярные слова, самые редкие, считается
расстояние Левенштейна, для редких слов с ld меньше 3 делается замена на частые).
Разделил что мог на группы - стало понятно что в билет включена парковка, на сколько дней действует и тд.
Узнал много нового о делении концертных площадок на куски, их названия и ценообразование.
Что могу сказать... FTS (full text search) у postgres отличный :)
Но его мне все-равно не хватило.
Пришлось написать около 200 regexp’ов, которые парсили всю базу для подготовки текста под FTS.
Возможно, не последнюю роль тут сыграли 4 банки энергетика в день, но где-то на 150 regexp’е мне показалось, что я могу видеть время...
Причем до этого момента я был с regexp’ами на ВЫ. Я знал, что на regexp разговаривают перловики, и один знакомый сисадмин.
Все мои эксперименты выглядели как копипаста с http://php.spb.ru/php/regexp.html (алярм, БИТАЯ КОДИРОВКА!) с небольшими правками.
Это сейчас все знают про regex101.com, а тогда никто не знал :)
Короче, с того момента я regexp не боюсь :) Ими очень удобно парсить всякое, в том числе прям в IDE. Все IDE поддерживают поиск с regexp.
Есть, конечно, совершенно неподходящее приложение этого инструмента - например, парсинг сорцов. Вот знаменитый топик на SO про парсинг html:
https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags
Сорцы парсят совершенно другим способом. За час можно разобраться с этим проектом? там все максимально понятно, даже если js не ваш родной язык:
https://github.com/jamiebuilds/the-super-tiny-compiler
Но в моем анализаторе все-равно нашлось место регуляркам. С их помощью я очищаю DDL от команд, которые есть в psql, но которые не понимает AST-парсер.
Поэтому анализатору можно скармливать файлы с многострочными каментами и с коммандами вида
\c dbname
Но я, собственно, чего начал то...
Show HN принес такой проект:
RegEx for Regular Folk
https://refrf.shreyasminocha.me/
Все доступным языком, с хорошими примерами.
Btw, вы видели полный regexp валидатор для email?
https://stackoverflow.com/questions/20771794/mailrfc822address-regex
PS: хотел было изобрести reactions с regexp, так этот бот не пропустит :(
Сегодня про музло :)
Есть такие песни, которые независимо от настроения можно крутить на репите.
Для меня одна из таких - Nena - 99 Luftballons
https://www.youtube.com/watch?v=idZ6_aRoiJQ
На нее сделано куча ремиксов в разных жанрах, но сегодня ютуб подбросил карантинное видео от олдовой ска-панк группы Goldfinger
https://www.youtube.com/watch?v=idZ6_aRoiJQ
Это, как мне кажется, один из лучших вариантов.
Есть еще неплохой от известного меттал-ковериста Leo Moracchioli
https://www.youtube.com/watch?v=Wr-ywwsjXW8
Его одного, кстати, можно слушать без перерыва и не надоедает :)
Итальянец из Норвегии, он рубит на всех инструментах один и иногда делает фиты.
Вот, например, Africa
https://www.youtube.com/watch?v=MH9FyLsfDzw
или Despacito
https://www.youtube.com/watch?v=hcQyFtHMfbs
Есть такие песни, которые независимо от настроения можно крутить на репите.
Для меня одна из таких - Nena - 99 Luftballons
https://www.youtube.com/watch?v=idZ6_aRoiJQ
На нее сделано куча ремиксов в разных жанрах, но сегодня ютуб подбросил карантинное видео от олдовой ска-панк группы Goldfinger
https://www.youtube.com/watch?v=idZ6_aRoiJQ
Это, как мне кажется, один из лучших вариантов.
Есть еще неплохой от известного меттал-ковериста Leo Moracchioli
https://www.youtube.com/watch?v=Wr-ywwsjXW8
Его одного, кстати, можно слушать без перерыва и не надоедает :)
Итальянец из Норвегии, он рубит на всех инструментах один и иногда делает фиты.
Вот, например, Africa
https://www.youtube.com/watch?v=MH9FyLsfDzw
или Despacito
https://www.youtube.com/watch?v=hcQyFtHMfbs
YouTube
Nena - 99 Luftballons (Clip)
Новая серия Рик и Морти это прям пост-пост мета-мета :)
Поезд, который ездит по кругу, безумный машинист, бессмысленная концовка - там прекрасно все :)
Комбо имени Баадера - Майнхоф настигло меня из-за того, что буквально вчера я посмотрел фильм с бессмысленной концовкой про поезд с безумным машинистом, который ездит по кругу.
Фильм 2013 года, производства Южной Кореи и Чехии, со слоганом «2031 год. Новый ледниковый период. Последнее пристанище человечества — поезд»
(●__●)
Звучит так, как будто не стоит... НО!
Крис Эванс (капитан америка)
Тильда Суинтон
Элисон Пилл (сериалы newsroom и devs)
Эд Харрис (сериал Мир Дикого Запада и еще 173 фильма)
Джон Хёрт (Меланхолия, Догвилль, Гарри Поттер и еще 288 фильмов)
НО! Не стоит :)
Snowpiercer - Сквозь снег
https://www.kinopoisk.ru/film/566283/vk/1/
Поезд, который ездит по кругу, безумный машинист, бессмысленная концовка - там прекрасно все :)
Комбо имени Баадера - Майнхоф настигло меня из-за того, что буквально вчера я посмотрел фильм с бессмысленной концовкой про поезд с безумным машинистом, который ездит по кругу.
Фильм 2013 года, производства Южной Кореи и Чехии, со слоганом «2031 год. Новый ледниковый период. Последнее пристанище человечества — поезд»
(●__●)
Звучит так, как будто не стоит... НО!
Крис Эванс (капитан америка)
Тильда Суинтон
Элисон Пилл (сериалы newsroom и devs)
Эд Харрис (сериал Мир Дикого Запада и еще 173 фильма)
Джон Хёрт (Меланхолия, Догвилль, Гарри Поттер и еще 288 фильмов)
НО! Не стоит :)
Snowpiercer - Сквозь снег
https://www.kinopoisk.ru/film/566283/vk/1/
Про проблемы gram и libra есть старый мультик от студии 420 (с матами, 18+)
https://youtu.be/1ZPLPD9yvnY
https://youtu.be/1ZPLPD9yvnY
YouTube
MMs02ep14 Про бабло [18+]
Легендарное возвращение #YOBATORG: http://yobatorg.to420.org
Ссылка на песню про 50 болгарских копеек: https://www.youtube.com/watch?v=fOMAgkySw1g
Ссылка на песню про 50 болгарских копеек: https://www.youtube.com/watch?v=fOMAgkySw1g
Тема, которую я благополучно прослоупочил - нелепые факапы в разработке.
https://vc.ru/life/124730-tred-razrabotchiki-vspominayut-nelepye-oshibki-v-svoey-rabote
Давно хотел рассказать свою историю, произошедшую почти 20 лет назад.
1/2
Работал я тогда в одном маленьком региональном операторе начальником отдела биллинга.
Ситуация там была интересная - биллинг на протяжении многих лет писала команда из 10 человек. Потом сотового оператора продали TELE2, а команда разработки отделилась и осталась в другой компании, занимающейся продажей интернета.
Поддерживать биллинг сотового оператора силами сторонней компании не виделось учредителям возможным, поэтому решили нанять для этого отдельного человека на переходный период, пока TELE2 не запустит свои мощности.
Как мне стало видеться спустя годы, директор отделившейся компании и по совместительству главный разработчик биллинга, решил провернуть схему как показывают в современных отечественных сериалах типа "мылодрама" или "последний министр".
Он нанял меня на должность начальника биллинга :)
Моя практика SQL на тот момент была ограничена созданием каталога для интернет магазина на Mysql.
Еще я слышал о том, что существуют join'ы ...
Передача биллинга происходила так: я пришел в кабинет к разработчикам (который располагался на том же этаже, что и сотовый оператор) и спросил как будет происходить процесс передачи.
Один из разрабов встал, подошел к стене, выдернул из одного из системников все провода и вручил мне его руки.
Биллинг представлял собой системник high tower с windows NT (или 2000, не помню точно) на борту и сервером MSSQL со всей бизнес-логикой, написанной на хранимках.
Я бегом добежал до своего кабинета и воткнул все все в сеть.
Не помню подробностей как я все это запускал. Видимо, мозг блокирует эти воспоминания :)
Long story short, я немного разобрался как там все устроено.
Бэк, в лучших традициях oracle-style разработки был полностью на MSSQL. Фронтом выступали приложухи, написанные на Visual Fox Pro.
На них работали все отделы - абонентский, бухгалтерия, саппорт и все остальные.
Одна из главных магий этой системы был процесс генерации "книги продаж" для бухгалтеров.
Он должен был запускаться ровно один раз в месяц, в 00:00 первого числа, откатить назад было невозможно, как оно работает - не знал никто.
Внутри процедура генерации занимала экранов 200 T-SQL, кода, который вызывал несметное количество других процедур, часть из которых была зашифрована.
Да, в MSSQL можно шифровать процедуры :)
Смеркалось... Второй из сотрудников нашего немногочисленного отдела случайно запустил эту процедуру в середине месяца. Бэкапов никто не делал...
Следующие пару дней прошли в консультациях на тему "как быть".
В базе была большая таблица, где были записаны все услуги всех абонентов с датами начала и конца биллинг периода.
Один из разработчиков биллинга предложил обнулить конец биллинг периода.
Вечером я сделал UPDATE tbl SET date_end = NULL и ушел домой. Бэкапов по-прежнему никто не делал...
Утром около кабинета стояла делегация почти из всех отделов. Практически с вилами.
Но я был готов, т.к. за несколько минут до этого мне позвонил начальник коммутатора и спросил, не знаю ли я что случилось.
В полночь на коммутатор свалилось 100500 тасков по отключению ВСЕХ абонентов.
Это был старый аналоговый оператор с такими огромными лопатами, а онлайн биллинг тогда был, кажется, только у МТС.
Онлайн - это когда тебя могут прервать в середине разговора, если кончились деньги.
Тут же пересчет балансов происходил в полночь и практически не было абонентов с предоплатой.
https://vc.ru/life/124730-tred-razrabotchiki-vspominayut-nelepye-oshibki-v-svoey-rabote
Давно хотел рассказать свою историю, произошедшую почти 20 лет назад.
1/2
Работал я тогда в одном маленьком региональном операторе начальником отдела биллинга.
Ситуация там была интересная - биллинг на протяжении многих лет писала команда из 10 человек. Потом сотового оператора продали TELE2, а команда разработки отделилась и осталась в другой компании, занимающейся продажей интернета.
Поддерживать биллинг сотового оператора силами сторонней компании не виделось учредителям возможным, поэтому решили нанять для этого отдельного человека на переходный период, пока TELE2 не запустит свои мощности.
Как мне стало видеться спустя годы, директор отделившейся компании и по совместительству главный разработчик биллинга, решил провернуть схему как показывают в современных отечественных сериалах типа "мылодрама" или "последний министр".
Он нанял меня на должность начальника биллинга :)
Моя практика SQL на тот момент была ограничена созданием каталога для интернет магазина на Mysql.
Еще я слышал о том, что существуют join'ы ...
Передача биллинга происходила так: я пришел в кабинет к разработчикам (который располагался на том же этаже, что и сотовый оператор) и спросил как будет происходить процесс передачи.
Один из разрабов встал, подошел к стене, выдернул из одного из системников все провода и вручил мне его руки.
Биллинг представлял собой системник high tower с windows NT (или 2000, не помню точно) на борту и сервером MSSQL со всей бизнес-логикой, написанной на хранимках.
Я бегом добежал до своего кабинета и воткнул все все в сеть.
Не помню подробностей как я все это запускал. Видимо, мозг блокирует эти воспоминания :)
Long story short, я немного разобрался как там все устроено.
Бэк, в лучших традициях oracle-style разработки был полностью на MSSQL. Фронтом выступали приложухи, написанные на Visual Fox Pro.
На них работали все отделы - абонентский, бухгалтерия, саппорт и все остальные.
Одна из главных магий этой системы был процесс генерации "книги продаж" для бухгалтеров.
Он должен был запускаться ровно один раз в месяц, в 00:00 первого числа, откатить назад было невозможно, как оно работает - не знал никто.
Внутри процедура генерации занимала экранов 200 T-SQL, кода, который вызывал несметное количество других процедур, часть из которых была зашифрована.
Да, в MSSQL можно шифровать процедуры :)
Смеркалось... Второй из сотрудников нашего немногочисленного отдела случайно запустил эту процедуру в середине месяца. Бэкапов никто не делал...
Следующие пару дней прошли в консультациях на тему "как быть".
В базе была большая таблица, где были записаны все услуги всех абонентов с датами начала и конца биллинг периода.
Один из разработчиков биллинга предложил обнулить конец биллинг периода.
Вечером я сделал UPDATE tbl SET date_end = NULL и ушел домой. Бэкапов по-прежнему никто не делал...
Утром около кабинета стояла делегация почти из всех отделов. Практически с вилами.
Но я был готов, т.к. за несколько минут до этого мне позвонил начальник коммутатора и спросил, не знаю ли я что случилось.
В полночь на коммутатор свалилось 100500 тасков по отключению ВСЕХ абонентов.
Это был старый аналоговый оператор с такими огромными лопатами, а онлайн биллинг тогда был, кажется, только у МТС.
Онлайн - это когда тебя могут прервать в середине разговора, если кончились деньги.
Тут же пересчет балансов происходил в полночь и практически не было абонентов с предоплатой.
2/2
Отдельного упоминания заслуживает коммутатор. Когда его купили в Израиле 1992 году он был уже сильно б/у. Там его просто списали и продавали за очень небольшие деньги.
В него вставлялись такие платы расширения, на которых было по несколько десятков процессоров Z-80. Это процессоры, на которых работал мой первый компьютер spectrum zx-48. 48 - это количество килобайт оперативной памяти. Он подключался к телевизору и грузился с кассет.
Короче, я понял того разработчика не так. Он хотел сказать, что нужно откатить date_end к предыдущим значениям, а не обнулить.
От того, что я обнулил, система пересчитала все услуги с начала времен до наступившей полночи. У каждого абонента образовалось по несколько миллионов в минусе на балансе и биллинг отправил команды на отключение.
К тому моменту оператор работал уже 10 лет и им пользовались все - от бандитов до губернатора.
Кончилось тем, что мы нашли самый подходящий бэкап недельной давности и восстановились из него. Абонентский отдел еще долгое время меня недолюбливал, т.к. им пришлось вводить все руками за прошедшую неделю заново.
И да, в анализаторе (holistic.dev) будет notice, когда в запросе будет встречаться конструкция UPDATE SET field = NULL :)
Отдельного упоминания заслуживает коммутатор. Когда его купили в Израиле 1992 году он был уже сильно б/у. Там его просто списали и продавали за очень небольшие деньги.
В него вставлялись такие платы расширения, на которых было по несколько десятков процессоров Z-80. Это процессоры, на которых работал мой первый компьютер spectrum zx-48. 48 - это количество килобайт оперативной памяти. Он подключался к телевизору и грузился с кассет.
Короче, я понял того разработчика не так. Он хотел сказать, что нужно откатить date_end к предыдущим значениям, а не обнулить.
От того, что я обнулил, система пересчитала все услуги с начала времен до наступившей полночи. У каждого абонента образовалось по несколько миллионов в минусе на балансе и биллинг отправил команды на отключение.
К тому моменту оператор работал уже 10 лет и им пользовались все - от бандитов до губернатора.
Кончилось тем, что мы нашли самый подходящий бэкап недельной давности и восстановились из него. Абонентский отдел еще долгое время меня недолюбливал, т.к. им пришлось вводить все руками за прошедшую неделю заново.
И да, в анализаторе (holistic.dev) будет notice, когда в запросе будет встречаться конструкция UPDATE SET field = NULL :)
Reactions collector for https://news.1rj.ru/str/nosingularity/437
Еще одна короткая история про бэкапы.
Был у нас (уже не в сотовом операторе) сисадмин. Каноничный такой. Свитер, борода, регэкспы. Сидел под какой-то самопальной сборкой какой-то только красноглазиком известной BSD или чего у них там обычно бывает.
Так вот, бэкапы он делал. Но делал на тот же самый сервер, который и надо было бэкапить.
Комичность ситуации стала ясна когда хотсер всем дц ушел в даун...
Был у нас (уже не в сотовом операторе) сисадмин. Каноничный такой. Свитер, борода, регэкспы. Сидел под какой-то самопальной сборкой какой-то только красноглазиком известной BSD или чего у них там обычно бывает.
Так вот, бэкапы он делал. Но делал на тот же самый сервер, который и надо было бэкапить.
Комичность ситуации стала ясна когда хотсер всем дц ушел в даун...
Я, блин, тут не могу собраться и концепцию серии постов про правила придумать, а у людей вот такой инфоповод:
Today, we're proud to announce improved charts and a new date picker on pganalyze! We're now treating date range selection as a first-class concept to help you better monitor your Postgres databases.
Дейт-пикер у них, сцк, новый :)
Today, we're proud to announce improved charts and a new date picker on pganalyze! We're now treating date range selection as a first-class concept to help you better monitor your Postgres databases.
Дейт-пикер у них, сцк, новый :)
There will be no singularity
Новая серия Рик и Морти это прям пост-пост мета-мета :) Поезд, который ездит по кругу, безумный машинист, бессмысленная концовка - там прекрасно все :) Комбо имени Баадера - Майнхоф настигло меня из-за того, что буквально вчера я посмотрел фильм с бессмысленной…
Telegram
Kedr to Earth
Отличный разбор нового эпизода Rick and Morty, который весь построен на концепциях киноведения и сценарной драматургии. Кратко: сценаристы деконструировали свой собственный сериал (инструкция по сборке нормальной серии прилагается, если у вас есть стоп-кадр).…
Когда вам начинает казаться, что вы немного перебарщиваете со своим pet-project, посомтрите на это...
Forwarded from UX Live 🔥
Как же это круто сделали https://poolside.fm/ Обожаю сайты, которые уходят целиком в концепцию своей задачи (даже правый клик и Format C пасхалки есть).
Иногда мне кажется, что dhh гнет свою линию по одной причине. Ему страшно признаться, что все это время он троллил сообщество своим пет-проджектом.
https://twitter.com/dhh/status/1258074299337826304
https://twitter.com/dhh/status/1258074299337826304
Twitter
DHH
Is this really what modern web app development looks like to people these days? We truly are living through the dark ages. The boiler plating, the low-level distractions, the raw pool handling + sql, the configuration situps. Lordy.
О как... оказалось автора я от греха забанил в твиттере, чтоб не слышать его истерических воплей в ленте...
Короткий тред про то, что если вам не нравится electron, то можно вспомнить, что есть еще qt... (маты, 18+)
https://twitter.com/codbasters/status/1253669191309316096
https://twitter.com/codbasters/status/1253669191309316096
Forwarded from Reddit
This media is not supported in your browser
VIEW IN TELEGRAM
r/ #gaming
Кодзима всё знал!
Кодзима всё знал!
От нескольких человек слышал рекомендацию, что мне стоит заопенсорсить мой анализатор (holistic.dev) и зарабатывать на саппорте для enterprise.
У меня на этот счет несколько другое мнение. Мне кажется, что схема с OSS не сработает с инструментами для улучшения качества ПО.
Что можно предложить в качестве платных опций?
- Несколько платных правил? Через месяц эти правила воспроизведут в OSS версии и смысла в них не будет.
- Saas-версию? Этот класс ПО не требует какого-то специального обслуживания (бэкапы, настройка), поэтому даже предпочтительнее иметь on-premise версию, чем SaaS.
- Сделать лицензию, чтоб ее не могли использовать облачные провайдеры в managed версиях бесплатно, как mongodb? 100 индусов за полгода перепишет все на java и в этой лицензии не будет никакого смысла.
- Другое? Напишите в чат, пожалуйста, если есть идеи.
Особенно непонятно это все выглядит на фоне существующих продуктов (открытых и коммерческих) в той же предметной области.
Если в области статического анализа для c/ c++/ c#/ java идет месилово, да и то коммерческие продукты как-то ухитряются существовать, то в области sql-анализа тишь да гладь.
Собираю тут полезные ссылки в этой области, ознакомьтесь, если интересно:
https://github.com/antonrevyako/useful-links/blob/master/opensource-sql-tools.md
И там все печально.
Я постоянно просматриваю много проектов, связанных с SQL. По понятной причине меня интересуют части, связанные с парсингом различных SQL - диалектов.
Абсолютно все проекты построены на кривых костылях. Они даже не пытаются сделать что-то приличное.
Все делают вид, что работают со всеми основными базами pg/mysql/mssql/oracle. Достичь они это пытаются, сделав парсер некого обобщенного SQL - диалекта,
который работает везде. Если попытаться использовать какой-то специфичный синтаксис - все рушится.
Например, свежий OSS-убийца DataGrip - beekeeper studio:
https://github.com/beekeeper-studio/beekeeper-studio
Без выбора базы автодополнение SELECT * FROM выглядит как список всех известных токенов (ALTER, AND, AS...), а при SELECT * FROM public. автодополнение не появляется.
И есть подозрение, что лучше тут ничего не будет, т.к. ноги растут из пакета https://github.com/maxcnunes/sql-query-identifier, который не обновлялся уже 3 года.
Или вот, vitess.io - a database clustering system for horizontal scaling of MySQL. Тулза на go, все по уму.
Они заморочились и сделали свой AST парсер, который собирается из самописной грамматики. Можно попробовать собрать:
https://github.com/vitessio/vitess/tree/master/go/vt/sqlparser
И что? Грамматика описана криво даже для версии 5.7
Например, в ней важен порядок DEFAULT и NOT NULL в CREATE TABLE, а в оригинальной MySQL - нет.
Новый синтаксис 8.0 не поддерживается совсем.
В прошедшем декабре CNCF объявила vitess достаточно зрелым для использования в production.
Вот такая ситуация с этими вашими OSS.
А что там у коммерческих продуктов?
Про drawsql.app (mysql/pg/mssql) и моего единственного конкурента я уже бугуртил тут
https://news.1rj.ru/str/nosingularity/424
Так, что у нас там дальше... dbdiagram.io (mysql/pg/ror)
Не понимает половины ALTER, совсем не понимает CREATE FUNCTION, CREATE EXTENSION и тд.
Если вы можете порекомендовать какой-то продукт или сервис, связанный с SQL, на который стоит обратить внимание, напишите, пожалуйста.
Почему все более или менее прилично у DateGrip? Они разрабатывают свой универсальный парсер грамматики:
https://github.com/JetBrains/Grammar-Kit
Специфичную для разных баз грамматику они пишут руками.
Справедливости ради, holistic.dev не начался бы, если бы не было OSS AST-парсера для postgresql.
Но на данный момент в этом парсере реализована поддержка специфичного синтаксиса postgresql только до 10 версии.
Поэтому нам пришлось самостоятельно выковыривать парсер из postgresql 13. В ближайшем большом релизе мы его выкатим.
Похожим образом приходится действовать с mysql и clickhouse.
Найти подходящий AST парсер - это процентов 5 всей работы.
Вы бы стали опенсорсить остальные 95%?
У меня на этот счет несколько другое мнение. Мне кажется, что схема с OSS не сработает с инструментами для улучшения качества ПО.
Что можно предложить в качестве платных опций?
- Несколько платных правил? Через месяц эти правила воспроизведут в OSS версии и смысла в них не будет.
- Saas-версию? Этот класс ПО не требует какого-то специального обслуживания (бэкапы, настройка), поэтому даже предпочтительнее иметь on-premise версию, чем SaaS.
- Сделать лицензию, чтоб ее не могли использовать облачные провайдеры в managed версиях бесплатно, как mongodb? 100 индусов за полгода перепишет все на java и в этой лицензии не будет никакого смысла.
- Другое? Напишите в чат, пожалуйста, если есть идеи.
Особенно непонятно это все выглядит на фоне существующих продуктов (открытых и коммерческих) в той же предметной области.
Если в области статического анализа для c/ c++/ c#/ java идет месилово, да и то коммерческие продукты как-то ухитряются существовать, то в области sql-анализа тишь да гладь.
Собираю тут полезные ссылки в этой области, ознакомьтесь, если интересно:
https://github.com/antonrevyako/useful-links/blob/master/opensource-sql-tools.md
И там все печально.
Я постоянно просматриваю много проектов, связанных с SQL. По понятной причине меня интересуют части, связанные с парсингом различных SQL - диалектов.
Абсолютно все проекты построены на кривых костылях. Они даже не пытаются сделать что-то приличное.
Все делают вид, что работают со всеми основными базами pg/mysql/mssql/oracle. Достичь они это пытаются, сделав парсер некого обобщенного SQL - диалекта,
который работает везде. Если попытаться использовать какой-то специфичный синтаксис - все рушится.
Например, свежий OSS-убийца DataGrip - beekeeper studio:
https://github.com/beekeeper-studio/beekeeper-studio
Без выбора базы автодополнение SELECT * FROM выглядит как список всех известных токенов (ALTER, AND, AS...), а при SELECT * FROM public. автодополнение не появляется.
И есть подозрение, что лучше тут ничего не будет, т.к. ноги растут из пакета https://github.com/maxcnunes/sql-query-identifier, который не обновлялся уже 3 года.
Или вот, vitess.io - a database clustering system for horizontal scaling of MySQL. Тулза на go, все по уму.
Они заморочились и сделали свой AST парсер, который собирается из самописной грамматики. Можно попробовать собрать:
https://github.com/vitessio/vitess/tree/master/go/vt/sqlparser
И что? Грамматика описана криво даже для версии 5.7
Например, в ней важен порядок DEFAULT и NOT NULL в CREATE TABLE, а в оригинальной MySQL - нет.
Новый синтаксис 8.0 не поддерживается совсем.
В прошедшем декабре CNCF объявила vitess достаточно зрелым для использования в production.
Вот такая ситуация с этими вашими OSS.
А что там у коммерческих продуктов?
Про drawsql.app (mysql/pg/mssql) и моего единственного конкурента я уже бугуртил тут
https://news.1rj.ru/str/nosingularity/424
Так, что у нас там дальше... dbdiagram.io (mysql/pg/ror)
Не понимает половины ALTER, совсем не понимает CREATE FUNCTION, CREATE EXTENSION и тд.
Если вы можете порекомендовать какой-то продукт или сервис, связанный с SQL, на который стоит обратить внимание, напишите, пожалуйста.
Почему все более или менее прилично у DateGrip? Они разрабатывают свой универсальный парсер грамматики:
https://github.com/JetBrains/Grammar-Kit
Специфичную для разных баз грамматику они пишут руками.
Справедливости ради, holistic.dev не начался бы, если бы не было OSS AST-парсера для postgresql.
Но на данный момент в этом парсере реализована поддержка специфичного синтаксиса postgresql только до 10 версии.
Поэтому нам пришлось самостоятельно выковыривать парсер из postgresql 13. В ближайшем большом релизе мы его выкатим.
Похожим образом приходится действовать с mysql и clickhouse.
Найти подходящий AST парсер - это процентов 5 всей работы.
Вы бы стали опенсорсить остальные 95%?
А вы пользуетесь визуализаторами схемы базы? Если да, то какими?
Anonymous Poll
8%
Да, платным standalone
0%
Да, платным SaaS
22%
Да, бесплатным
72%
Нет