Наш клиент – крупная компания по сканированию и оцифровке документов, расположенная в Европе, которая искала способ улучшить и расширить масштабы своей работы по сканированию газет.
Клиент обратился к нам с задачей создать приложение для интеллектуальной обработки и оцифровки газет. Задача оцифровки газеты является наиболее сложной для OCR, поскольку газеты имеют сложную структуру, в них статьи располагаются в нескольких колонках, начинаются и заканчиваются в произвольных местах, часто разделены изображениями и рекламой.
Мы начали с анализа газетных страниц, чтобы получить четкое представление о структуре страницы и статьи. В ходе этого анализа мы обнаружили, что многие исторические газеты имеют физические повреждения, такие как коробление бумаги, царапины или выцветшие чернила. Это заставило нас разработать модуль предварительной обработки для повышения качества отсканированных газетных страниц.
Этот модуль удаляет искривления бумаги, вызванные старостью или влажностью, удаляет пыль и царапины, а также заполняет буквы и символы, выцветшие со временем.
Некоторые мелкие символы, такие как знаки препинания, и двоеточие над гласными, теряются при распознавании текста, особенно если исходный материал находится не в лучшем состоянии. Поэтому мы приложили дополнительные усилия для сохранения этих символов во время предварительной обработки.
Следующей задачей было обнаружение различных статей и их типов. Газетные статьи трудно или даже невозможно точно определить стандартными OCR-решениями из-за их сложной структуры и огромной вариативности форматирования.
Наше приложение обнаруживает текстовые блоки, принадлежащие к одной статье, на всей странице и собирает их в правильном порядке в статью. Включая заголовки, подзаголовки, иллюстрации, указание авторства и любые другие элементы, которые являются частью одной статьи. Для каждой обнаруженной статьи наша система определяет ее тип, например, редакционная статья, реклама, некролог и т.д.
Нам удалось достичь 98-99% качества распознавания, что делает нашу систему надежным решением для оцифровки газет любого периода времени и издательства.
Наша система оцифровки газет успешно используется для создания высококачественных цифровых копий исторических и современных газет и помогла нашему клиенту развить свой бизнес и стать одной из ведущих компаний по оцифровке документов в Европе.