Система по распознаванию чертежей для бюро строительной экспертизы | Технологика
Июль 2022

Система по распознаванию чертежей для бюро строительной экспертизы

Система по распознаванию чертежей для бюро строительной экспертизы
Наш клиент занимается оценкой строительства и отделки зданий, а также подготовкой смет. Анализ чертежей зданий и их обсчёт отнимает очень большое время у персонала, поэтому мы разработали для клиента систему по распознаванию pdf-файлов с чертежами и автоматическим формированием смет в excel-формате.

Бизнес-логика

Чтобы точно подготовить оценку работ и смету, из плана здания необходимо получить следующую информацию об объекте:

  • Определить тип здания – это офисное здание, торговый центр, квартира или что-то другое.
  • Определить тип чертежа – это электрическая проводка, проводка труб, структурный чертеж с перечислением материалов или что-то другое.
  • Извлечь данные о масштабе.
  • Определить на плане специальные символы, такие как двери, окна, элементы санузлов.

Каждый проект является уникальным, разрабатывается разными подрядчиками на основе различного ПО, поэтому документация не стандартизована:

  • Все pdf-файлы по-разному форматированы;
  • Некоторые планы нарисованы от руки;
  • При разработке планов применяется большое количество шрифтов и специальных символов.

Готовые решения для распознавания символов не справлялись с должным уровнем погрешности, либо вовсе не могли справиться, поскольку символы, которые было необходимо распознать, представляли собой математические операторы, сокращения и аббревиатуры, а с такими символами аппарат OCR справляется плохо.

Распознавание типа плана помещений

Первым шагом при анализе любого PDF-файла с планом этажа является определение местоположения плана этажа на странице. Мы разработали модель машинного обучения сегментации, которая автоматически определяет местоположение чертежа. Система также предоставляет пользователям возможность самостоятельно выделять план этажа.

Система определяет тип и масштаб технического рисунка, а также автоматически формирует оглавление, облегчая навигацию по большим многостраничным документам.

Распознавание объектов на плане

Еще одна важная задача, которую мы должны были решить, —  это обнаружение различных объектов, присутствующих на поэтажных планах, таких как двери, окна, различные типы стен и т.д., помеченных специальными метками.

Поскольку алгоритмы OpenCV не очень хорошо подходят для анализа простых черно-белых геометрических фигур, мы применили глубокое обучение для повышения точности и исключения ложных срабатываний.

Для начала пользователь выделяет метку, которую необходимо обнаружить, по одной для каждой группы объектов. После этого начинается обработка, и технический рисунок анализируется моделью распознавания объектов. Результаты следующие:

  1. все соответствующие метки распознаны и подсчитаны
  2. все стены, окна и двери распознаны и разделены на группы в соответствии с их свойствами
  3. план помещения разделяется на комнаты, которые подсчитываются
  4. подсчитывается общая площадь плана помещения
  5. подсчитывается общая длина стен.

Пользователь может вручную просмотреть результаты распознавания и исправить все ошибки.

Обнаружение специальных символов

Пользователи могут выделить любой символ на чертеже, а система обнаружит и подсчитает остальные такие же символы. К таким символам относятся метки объектов, например, метки стен, описывающие тип стены.

Специальные символы группируются по типам и могут быть автоматически связаны с электронными таблицами с данными по каждому символу.

Сметы из pdf в формат Excel

Часто вместе с чертежом планировки идёт список всех дверей и окон. На языке оригинала это называется ёмким словосочетанием door and window schedule. Это список всех типов дверей и окон, которые встречаются в проекте.

Поэтому первоначальная задача – перевести для расчёта сметы все эти объекты в формат Excel, далее можно будет добавить нужные размерности стен, пола и потолка, чтобы получить финальную смету.

Существует ряд инструментов и решений, которые могут переводить pdf-таблицы в таблицы формата Excel, но такие решения плохо работают со сложными таблицами, в которых есть объединенные ячейки и разделение на страницы:

Объединенные ячейки часто некорректно разделяются на несколько ячеек. Также, когда таблица разделяется на несколько листов, колонки не совпадают между собой, что ведет к некорректному переносу данных, особенно когда текст переносится по строкам.

Мы разработали подсистему, которая сканирует pdf-таблицу и переводит ее в Excel формат без изменения оригинальной структуры таблицы и с сохранением целостности данных.

Богатый функциями пользовательский интерфейс

Система представляет собой комплексное решение для работы с документами для архитектурных агентств: она позволяет хранить, обрабатывать и редактировать чертежи, создавать комплексные отчеты и экспортировать данные.

Пользователи могут легко перемещаться по многостраничным документам, используя автоматически созданную структуру документа, изменять, какие объекты должны быть обнаружены и подсчитаны, редактировать ошибки обнаружения, создавать пользовательские метки и настраивать отчеты.

В системе предусмотрена автоматическая генерация отчетов для извлечения данных из архитектурных чертежей для дальнейшего анализа. Отчеты содержат большое количество данных и включают расчеты основных величин, таких как общая длина и площадь стен, площадь помещений, толщина стен и т. д.

Бизнес-процесс

  1. Пользователь загружает pdf-файл с чертежом планировки
  2. Система определяет тип здания и тип чертежа, а также масштаб и отсекает чертеж.
  3. Пользователь исправляет ошибки, если те имеются, выделяет объекты, которые необходимо посчитать и жмет «Далее».
  4. Система занимается распознаванием стен, считает выделенные объекты и выдает Excel-файл со сметой и предварительной оценкой работ.

Задача по распознаванию чертежей и переводу их в электронную таблицу - это сложная задача и качество сильно зависит от входящего документа. Автоматизировать эту работу на 100% не получится в ближайшем будущем, человеческий труд так или иначе будет задействован, однако разработанный способ заметно сокращает ручную оценщика на 70-80%.

Результаты

Наша система представляет собой комплексное решение для архитектурных агентств, позволяющее автоматически обрабатывать архитектурные чертежи любой сложности и в короткие сроки готовить смету. Она сокращает ручной труд и значительно ускоряет расчет смет. Система обладает высокой гибкостью и может быть настроена на анализ любого PDF-документа и извлечение необходимой информации.

Она уже внедрена в рабочий процесс нескольких агентств и получила огромное количество положительных отзывов. Мы продолжаем совершенствовать и расширять систему, добавляя новые функции и внедряя новые технологии искусственного интеллекта для решения более сложных задач обработки документов.

другие наши проекты

Обработка судебных документов при помощи ChatGPT-4

Обработка судебных документов при помощи ChatGPT-4

Парсер данных для маркетплейсов

Парсер данных для маркетплейсов

Приложение для обработки резюме на базе LLM для кадрового агентства

Приложение для обработки резюме на базе LLM для кадрового агентства

Распознавание диалоговых пузырей на рисунках манги

Распознавание диалоговых пузырей на рисунках манги

Сервис для обнаружения лесных пожаров

Сервис для обнаружения лесных пожаров

Система оцифровки газет

Система оцифровки газет

Давайте найдем решение для вашего бизнеса!

Давайте найдем решение для вашего бизнеса!

Пожалуйста, заполните 'Имя'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Пожалуйста, заполните 'Сообщение'

Пожалуйста, заполните 'Имя и фамилия'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Выберите файл
Пожалуйста, выберите файл 'Резюме'
Выберите файл
Пожалуйста, прикрепите файл 'Код / ТЗ'