Vitaliy Zarubin | @keygenqt – Telegram
Vitaliy Zarubin | @keygenqt
463 subscribers
1.04K photos
276 videos
3 files
548 links
Привет! Я инженер-программист компании ОМП. За свою карьеру я сменил много платформ и языков, и продолжаю учить новые. На канале рассказываю о своей работе и моих pet-проектах.
Download Telegram
Vitaliy Zarubin | @keygenqt
Нотификации в Aurora Bot есть. Если будут изменения в репозиториях, бот должен нас уведомить. Но он не умеет говорить. А что Aurora Bot должен говорить? Я думаю про ОС Аврора… про погоду можно поговорить с Алисой, например. Но, чтобы он заговорил про ОС Аврору…
#fyi Зачем писать книги и статьи, когда можно писать dataset? =) Первые 20 вопросов получили ответы. Нужно было раньше заводить такую базу, она была бы уже не маленькая: задали вопрос, ответил и сразу зафиксировал. Ну лучше поздно, чем никогда.
🔥7🤡1
#fyi Немного дополню про dataset. Может ли его написать 1 человек? Нет. Нет такой задачи - написать миллионы вопросов, на них ответить и при этом поддерживать актуальность. Идея в другом. Такая база нужна, а ее нет. И как-то нужно ее создать. Для этого можно написать парсеры, которые свистнут с сайтов инфу (не забывайте, что есть лицензии — и их нужно соблюдать, а не нарушать закон) и соберут что-то похожее на dataset, но, как вы понимаете, на сайтах нет вопросов. И качество такой базы сомнительно в задаче ботов отвечать на вопросы.

Идея следующая: я создаю базовый dataset с помощью или без, это не столь важно — это посильная ноша, хотя я и люблю больше писать код. В Aurora Bot добавляю фичу с лексическим и семантическим поиском, который работает с этой базой. Если поступает вопрос, на который нет ответа, он адресуется пользователям бота, и каждый из сообщества может на него ответить или отключить эти уведомления. Эти данные аккумулируются и попадают в репозиторий с dataset-ом. Для устранения проблемы с актуальностью можно ввести систему оценок, и ответ, получивший плохой бал, может пойти на повторный круг ответов. В такой схеме нужна модерация, пока сообщество не большое, их нужно немного. Модераторов тоже можно выбирать из сообщества со временем роста пользователей и роста базы. Все просто - рост открытой базы напрямую зависит от сообщества.

Если чего-то очень хочется, я обычно не жду, что кто-то за меня это сделает. Можно просто брать и делать, параллельно сталкиваясь с новыми технологиями, и изучать их.
👍11🔥2🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
#fun Поправь мр, ну пожалуйста...
🤣15👍1
+ Scripts for dataset
🔥10
Двигаем дальше, а то что не двигается, двигаем и двигаем дальше.
🔥7
Лет ~10 назад мы писали онлайн-магазин. За данные там отвечал Elasticsearch - векторная база данных, намучилась мы тогда знатно... Теперь Elasticsearch нельзя назвать open-source, но есть OpenSearch - форк Elasticsearch с открытой лицензией. Выглядит не плохо, использую OpenSearch в Aurora Bot.
🔥6👍3👏1
Актуальные данные dataset-а можно получить в ветке dump. FYI.

https://github.com/keygenqt/aurora-dataset/tree/dump
🔥5
#fun В лесу часто можно встретить свистокрыла-всезнающего. Эту птицу легко обнаружить, прислушавшись к характерному свисту, по делу и нет. В связи с деятельностью человека их зона обитания сужается и они не стесняются захватывать чужие жилища в старых деревьях, неуклюже подделывая вокализацию птиц захваченных дупл.

п.с. Берегите свои дупла, граждане птицы!
😁14
Aurora Bot стал чуток умнее 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
56👍8🔥2
#fyi Итак, с форматированием вопрос решен. Формат сообщений dataset переехал на html. В Telegram формат сообщений не совсем markdown, не совсем html. А еще markdown проблемный формат в Telegram — допустить ошибку там проще простого и сообщение просто не отправится, с html это сделать будет сложнее. Я выбрал общепринятые теги, из которых можно будет получить необходимые данные на любой случай. Есть небольшая кастомизация, которая упрощает переносы в тексте, но при необходимости ее легко можно превратить в каноничный html c <br/>. Теперь можно смело заполнять dataset. Еще один вопрос закрыт. Aurora Bot в разработке, вообще это план 2025, но он доступен, уже умеет уведомлять об обновлениях репозитория https://gitlab.com/omprussia и отвечать на вопросы. Над точностью ответов еще предстоит поработать, но и стандартный поиск OpenSearch вполне неплох.

Посмотреть на демо-сообщение можно в боте, написав:
Демонстрационное_сообщение_с_набором_доступных_элементов.
1🔥9
Media is too big
VIEW IN TELEGRAM
#see Aurora Bot. Deep links.
fyi: понял в чем проблема у клиента telegram-web с копированием ссылки из заголовка. Убрал логику с дополнительным отображением линки.
▶️ RUTUBE
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Первая тысяча 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉7😱2👌2
This media is not supported in your browser
VIEW IN TELEGRAM
#fun С++ разработчик проходит собеседование.
😁18🔥3🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Aurora Bot теперь предоставляет выбор ответа из вариантов, что позволит пользователю точнее попадать в цель. Диплинки теперь не оставляют за собой след, кто не заметил - он был в виде тега /start. И появилось меню, пока там только About Aurora Bot.
🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
Добавил ключи в dataset и помучил чуток поиск Aurora Bot. Стало получше. Но это не конец, релевантность поиска это не хухры-мухры. =)
🔥4
#fun Хотел порадоваться что пятница в 23:20...
😁5
#fyi Мой pet-проект Aurora CLI/Toolbox/Dataset/Bot/etc... постепенно начинает превращаться в отдельную экосистему. Ок, я придумал ей название: Aurora COS. Можете COS переводить, как Because или Community Open-Source. Общее название есть, есть понимание, что это хотя и самодостаточные, но не разрозненные проекты, у них всех есть общая цель.
https://aurora-bot.keygenqt.com
1🔥17😁2
#fyi Теперь в dataset можно добавлять изображение к данным. Текст с изображением должен быть не больше 1024 символов, без изображения - может достигать 4096.

👉 validate.py подскажет об ошибках.
👉
hash.py создаст хеш для назвния.

🔗 Демонстрационное сообщение.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6😁3
Мне нравится, а вам? Если кто-то хотел помочь, но не знал как - го помогать пилить Dataset. А если нет 🤷‍♂️, ну тогда какие вопросы... ждите когда кто-то что-то сделает за вас 😉
🔥9👌3
📊 Data Set for Aurora OS
Name            Ru       En 
+---------------+--------+--
FAQ 100 0
Publications 1 1
----------------------------
Authors 2 1
Lines of code 1554 64
----------------------------
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
#faq Сколько бы вы хотели подписчиков на своём канале?

У Гегеля есть закон перехода количественных изменений в качественные. Я бы хотел, чтобы этот закон работал.
👍9🔥2