Если сам себя не похвалишь... это за тебя сделает ИИ!!(Спасибо SUNO AI за песню🤩 ) Вот ссылка, если вам тоже хочется, чтобы про вас спели:
https://suno.com/🤩
https://suno.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
Suno
Suno | AI Music
Create stunning original music for free in seconds using AI. Make your own masterpieces, share with friends, and discover music from artists worldwide.
🔥8❤1
Media is too big
VIEW IN TELEGRAM
Я торопыга🤪 Так спешила продемонстрировать работу новой функции отображения правил проверки ЦИМ в Подсистеме требований NSR Specification, что снимала ролик на одном дубле и забыла попрощаться🧑🚀 Надеюсь, вы простите эту оплошность!
Самое главное: в скором будущем мы сможем начать публиковать базы профилей проверок ЦИМ для наших пользователей!🔥
Самое главное: в скором будущем мы сможем начать публиковать базы профилей проверок ЦИМ для наших пользователей!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥8👍6
Рубрика: NSR любит усложнять🔥
📍 ЗАДАЧА:
Подготовить векторную базу фрагментов из пользовательских документов. Это нужно для реализации RAG-системы — движка, на котором будет работать наш QA-чат (мы уже активно его готовим к релизу).
🟡 🟡 🟡
Зачем❔
Чтобы чат мог не просто «искать по PDF-ке», а по-настоящему понимать документы, анализировать их, отвечать на вопросы, выявлять противоречия, несоответствия и прочие радости технической документации.
Кажется, всё уже придумали: передал документ в LLM — и готово.
❕ Но, как обычно, не всё так просто.
Сегодня активно обсуждается end-to-end подход: загружаем в мультимодальную языковую модель весь PDF целиком, и она сама всё делает — определяет, где заголовки, где таблицы, где просто текст, и возвращает идеально структурированный результат✔️
Звучит как магия🔶
А по сути:
➡️ один пайплайн,
➡️ минимум ручной настройки,
➡️ гибкость под любые форматы.
📎 Но реальность вносит коррективы:
➡️ стоит дорого,
➡️ работает медленно,
➡️ не всегда понятно, что модель сделала внутри (а сделала ли?),
➡️ и, самое неприятное — возможны «галлюцинации»: модель может сгенерировать текст, которого в документе никогда не было. Даже если очень попросить — не делать🙃
Такой подход действительно выглядит как самое очевидное и желанное решение.
❕ Но внедрять его в прод — рискованно. Особенно если важна точность.
⚫️ ⚫️ ⚫️
Поэтому вот другие, не менее крутые (а местами и надёжнее) варианты извлечения данных из PDF⬇️ :
1️⃣ ▶️ Извлечение текстового слоя (GetText)
Если в PDF документе текст сохранён как текст, а не как изображение, его можно извлекать напрямую — символы, строки, абзацы.
➕ высокая точность, «чистый» текст, без искажений и опечаток.
➖ структура PDF может быть нестандартной — текст часто хранится как фрагменты с координатами, а не логически связанные абзацы. В итоге порядок строк может нарушаться. Метод неприменим к сканированным страницам✉️
2️⃣ ▶️ OCR (оптическое распознавание символов)
Если PDF — это скан или изображение, каждую страницу можно конвертировать в картинку (например, PNG) и передать в OCR✔️
На выходе — текст с координатами. Но возможны искажения, «битые» токены, проблемы с кодировкой.
Для повышения читаемости можно дополнительно применять языковые модели👤
3️⃣ ▶️ OCR + LLM
Сочетание OCR и LLM позволяет восстановить логическую структуру текста — используя координаты и контекст, модель делает текст более читаемым и структурированным.
➖ Но есть недостатки:
⏹️ повышенная нагрузка на вычисления,
⏹️ увеличение времени обработки,
⏹️ и опять же — риск генерации лишнего текста (галлюцинации).
4️⃣ ▶️ Гибридный подход (GetText + OCR + LLM)
Наиболее сбалансированное решение:
✔️ если в документе есть текстовый слой — используем GetText,
✔️ если это скан — подключаем OCR,
✔️ затем применяем LLM для очистки и структурирования результата.
📍 Вывод
По хорошему нам надо заморочиться и реализовать интерактивный сервис распознания, где, в зависимости от документа можно выбирать сценарий парсинга текста✨
Мы, как пионеры, не боимся трудностей, сами их находим и с честью преодолеваем🔥
Подготовить векторную базу фрагментов из пользовательских документов. Это нужно для реализации RAG-системы — движка, на котором будет работать наш QA-чат (мы уже активно его готовим к релизу).
Зачем
Чтобы чат мог не просто «искать по PDF-ке», а по-настоящему понимать документы, анализировать их, отвечать на вопросы, выявлять противоречия, несоответствия и прочие радости технической документации.
Кажется, всё уже придумали: передал документ в LLM — и готово.
Сегодня активно обсуждается end-to-end подход: загружаем в мультимодальную языковую модель весь PDF целиком, и она сама всё делает — определяет, где заголовки, где таблицы, где просто текст, и возвращает идеально структурированный результат
Звучит как магия
А по сути:
Такой подход действительно выглядит как самое очевидное и желанное решение.
Поэтому вот другие, не менее крутые (а местами и надёжнее) варианты извлечения данных из PDF
Если в PDF документе текст сохранён как текст, а не как изображение, его можно извлекать напрямую — символы, строки, абзацы.
Если PDF — это скан или изображение, каждую страницу можно конвертировать в картинку (например, PNG) и передать в OCR
На выходе — текст с координатами. Но возможны искажения, «битые» токены, проблемы с кодировкой.
Для повышения читаемости можно дополнительно применять языковые модели
Сочетание OCR и LLM позволяет восстановить логическую структуру текста — используя координаты и контекст, модель делает текст более читаемым и структурированным.
Наиболее сбалансированное решение:
По хорошему нам надо заморочиться и реализовать интерактивный сервис распознания, где, в зависимости от документа можно выбирать сценарий парсинга текста
Мы, как пионеры, не боимся трудностей, сами их находим и с честью преодолеваем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👏3❤2🥰1
Зачем он нужен
Чтобы LLM при обработке запроса пользователя смогла задать уточняющие вопросы и найти более подходящие фрагменты требований для ответа
Это тоже осознанно сделано из экономии ресурсов: сейчас ограничено одним уточняющим ответом от LLM
Но в перспективе можно будет расширить: например, до 3–5 шагов, а может и вовсе без ограничений
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥5👏3😁1
Media is too big
VIEW IN TELEGRAM
Давайте смотреть правде в глаза: мы занимаемся разработкой решения, пока не имеющего аналогов. И, соответственно, сталкиваемся с необходимостью доказывать свою эффективность.
Поэтому, нам надо показывать и доказывать
Спасибо коллегам!
Подобных пилотных проектов мы провели уже больше десяти. Каждый раз рождались на свет новые фичи.
И ... каждый раз нам казалось, что мы готовы к промышленной эксплуатации.
Наивные мы.
Итак, к делу.
Решено было использовать только его и не добавлять новых атрибутов (обычно мы добавляем характеристики элементам, значения которых задаём на основе визуального осмотра, расчёта на основе других значений или запрашиваем информацию у Заказчика)
И вот, счастливый финал, мы показываем коллегам из РЖД результаты наших экспериментов...
нормативное требование устанавливает минимальное расстояние между осями трубопроводов, а CADLIB МиА измеряет расстояние между стенками труб. В самом требовании этот нюанс прямым текстом не озвучен.
Но, специалисты то знают!
В общем, нужно пересчитать.
О, счастье, у нас получилось и это
С костылями и молитвами (ибо прямого указания нет).
Но, получилось!
В, общем, смотрите видео:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👏5❤4
Нам невероятно приятно получить такой комментарий от коллег ☺️
Гуменюк Алексей. Заместитель начальника Центра компетенций по внедрению технологии информационного моделирования ОАО "РЖД":
"Когда на первой встрече нам продемонстрировали возможности разрабатываемой системы, мы не поверили своим глазам, это какое-то «шаманство», не иначе. И мы ушли думать какую задачку можно скормить этой «машине». Вскоре вернулись с небольшим ТЗ, моделями и выдержками из нормативной документации, дополнили устными комментариями, чего бы хотелось видеть по итогу и разошлись. Спустя несколько недель коллеги вернулись с отчетной презентацией и… И снова «шаманство», но уже с нашими моделями и под наши задачи.
Несмотря на то, что программа в активной стадии разработки, уже сейчас видны перспективы автоматизации проверки цифровых информационных моделей. Коллеги прекрасно справились с поставленными задачами и даже решили задачу со звездочкой. Понятно, что для того чтобы машина заработала в полную силу нужны качественные, выполненные по EIR модели и максимально полный каталог машиночитаемых требований. Но это только начало и дальше будет больше.
В целом и общем идея о проверки ЦИМ при помощи машиночитаемых требований лежит на поверхности, но вот реализовать ее, задачка не из лёгких. И можно с уверенностью сказать, что NSR Specification идут впереди проторивая эту непростую дорогу. А с такой командой профессионалов, которые любят и горят своим делом результат однозначно не за горами."
Гуменюк Алексей. Заместитель начальника Центра компетенций по внедрению технологии информационного моделирования ОАО "РЖД":
"Когда на первой встрече нам продемонстрировали возможности разрабатываемой системы, мы не поверили своим глазам, это какое-то «шаманство», не иначе. И мы ушли думать какую задачку можно скормить этой «машине». Вскоре вернулись с небольшим ТЗ, моделями и выдержками из нормативной документации, дополнили устными комментариями, чего бы хотелось видеть по итогу и разошлись. Спустя несколько недель коллеги вернулись с отчетной презентацией и… И снова «шаманство», но уже с нашими моделями и под наши задачи.
Несмотря на то, что программа в активной стадии разработки, уже сейчас видны перспективы автоматизации проверки цифровых информационных моделей. Коллеги прекрасно справились с поставленными задачами и даже решили задачу со звездочкой. Понятно, что для того чтобы машина заработала в полную силу нужны качественные, выполненные по EIR модели и максимально полный каталог машиночитаемых требований. Но это только начало и дальше будет больше.
В целом и общем идея о проверки ЦИМ при помощи машиночитаемых требований лежит на поверхности, но вот реализовать ее, задачка не из лёгких. И можно с уверенностью сказать, что NSR Specification идут впереди проторивая эту непростую дорогу. А с такой командой профессионалов, которые любят и горят своим делом результат однозначно не за горами."
🔥23🥰3👏2❤1🏆1
В этом видео:
00:30 - процесс цифровизации стандартов проектирования
01:40 - перевод документов в машиночитаемый вид (модуль семантической разметки)
02:27 - база машиночитаемых требований
03:48 - почему нужно проверять ЦИМ, а не чертежи
05:00 - как выглядят машиночитаемые требования
05:28 - как создавать машиночитаемые требования
06:28 - модуль семантического анализа от nanoSoft
06:57 - настройка правил на основе результатов семантического анализа
09:42 - анализ модели на основании правил
11:09 - требования к BIM-агрегаторам, выполняющим проверку
12:06 - панель проверки моделей в nanoCAD
12:55 - предпосылки разработки инструментов
14:04 - анализ технических текстов с помощью ИИ
16:25 - схема связи модулей NSR Specification
#BIMПросвет #BIMПросветAI #BIMSupport #AI #AIBIM #ИИ #ИИТИМ #нанософт
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15❤4🥰3
Два года мы собирались с мыслями, чтобы наконец-то опубликовать статью о работе Модуля семантического анализа NSR Specification, который преобразовывает нормативные требования в вид правил проверки ЦИМ (настоящий машинопонимаемый вид).
Спешим поделиться❤️
https://habr.com/ru/companies/nanosoft/articles/936874/
Спешим поделиться
https://habr.com/ru/companies/nanosoft/articles/936874/
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Безумству храбрых… Как заставить ИИ понимать нормативные требования для проверки ЦИМ
Сгенерировано AI Прошло целых два года, как команда NSR Specification твердо пообещала добиться автоматизации экспертизы цифровых информационных моделей (ЦИМ) за счет создания машинопонимаемых...
🔥16❤9👏3❤🔥2👍2🏆2🤝2
This media is not supported in your browser
VIEW IN TELEGRAM
Заработала новая фича в NSR Модуль семантического анализа (это сервис для перевода текста требований в правила проверки ЦИМ)🎆
Теперь у нас есть подсказки кодов Классификатора Строительной Информации от ИИ (работает BERT подобная модель)🎊
Мы, уже набили много шишек с КСИ🤪 , поэтому разграничили наборы классификационных таблиц для привязки к компонентам типа object/subject (используем все таблицы из категории Результат в паре с характеристикой Код класса/ Код типа класса) и к компонентам типа property/ feature (для них только коды из таблицы Prp).
В общем, смотрите сами⬆️
P.S. До релиза остался всего месяц🚀
Теперь у нас есть подсказки кодов Классификатора Строительной Информации от ИИ (работает BERT подобная модель)
Мы, уже набили много шишек с КСИ
В общем, смотрите сами
P.S. До релиза остался всего месяц
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍8👏6🥰3❤1
Команда NSR Specification активно готовит к релизу NSR Модуль семантического поиска - QA-чат для автоматизации анализа нормативных и технических текстов с помощью ИИ.❤️
Нам важно знать ваше мнение.🧑🚀
Какой формат работы предпочтителен для вашей компании?
Онлайн доступ / Локальная установка?
*Прежде всего, нам надо понять, какой будет спрос на онлайн доступ в человеко-клиентах. От этого зависит потребность в GPU и серверном оборудовании, необходимом для обеспечения комфортной работы пользователей.👩🚀
**Опрос проводим вот тут: https://ai.nanocad.ru/ в формате предзаказа. Пусть вас это не смущает, заявка ни к чему не обязывает.
Нам важно знать ваше мнение.
Какой формат работы предпочтителен для вашей компании?
Онлайн доступ / Локальная установка?
*Прежде всего, нам надо понять, какой будет спрос на онлайн доступ в человеко-клиентах. От этого зависит потребность в GPU и серверном оборудовании, необходимом для обеспечения комфортной работы пользователей.
**Опрос проводим вот тут: https://ai.nanocad.ru/ в формате предзаказа. Пусть вас это не смущает, заявка ни к чему не обязывает.
Please open Telegram to view this post
VIEW IN TELEGRAM
ai.nanocad.ru
NSR Модуль семантического поиска
QA-чат для автоматизации анализа технических и нормативных текстов с помощью технологии Искусственный Интеллект
🔥12👏4❤🔥3❤2🤝2👍1
Сам себя не похвалишь - это сделает за тебя искусственный разум👽
Попросили DeepSeek почитать нашу статью https://habr.com/ru/companies/nanosoft/articles/936874/ и ответить, есть ли аналоги в мире.
Приятненько!👩🚀 Самое то, чтобы получить заряд для начала трудовой недели!
Попросили DeepSeek почитать нашу статью https://habr.com/ru/companies/nanosoft/articles/936874/ и ответить, есть ли аналоги в мире.
Приятненько!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥8❤3😁2🏆2
Media is too big
VIEW IN TELEGRAM
Недавно столкнулись с тем, что проектные документы со штампами неожиданно превращались в таблицу, и парсер не понимал текст
Но благодаря возможности предварительного просмотра наши внимательные глаза всё заметили
Теперь документ превращается из запутанной «каши таблиц» в читаемый, структурированный текст, готовый к анализу ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4🔥4👏1🏆1🤝1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20🥰4🤝3
Media is too big
VIEW IN TELEGRAM
В NSR Specification появились:
В коротком видео вы увидите, как они работают вместе с другими инструментами NSR — и почему это реально меняет подход к проектированию
А если хотите узнать больше — читайте новость и подключайтесь к нашему прямому эфиру
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍7❤5🥰2
Команда NSR Specification будет ждать ВАС 16 октября на секции Технологии ИИ и SMART-стандарты в рамках конференции Сила Платформы!
базовый билет обойдется вам всего в 500 руб. вместо
Please open Telegram to view this post
VIEW IN TELEGRAM
platforma.nanocad.ru
СИЛА ПЛАТФОРМЫ 2025
Ключевой форум о проектировании и цифровизации в сфере строительства
🔥11❤6🥰4
This media is not supported in your browser
VIEW IN TELEGRAM
🔥15❤6👏4