Система оцифровки газет
Апрель 2023

Система оцифровки газет

Система оцифровки газет
Направления
Приложение для оцифровки газет для европейского агентства по сканированию документов. Обнаружение статей, охватывающих несколько колонок, извлечение текста и определение типа статьи.

Задача

Наш клиент  крупная компания по сканированию и оцифровке документов, расположенная в Европе, которая искала способ улучшить и расширить масштабы своей работы по сканированию газет.

Клиент обратился к нам с задачей создать приложение для интеллектуальной обработки и оцифровки газет. Задача оцифровки газеты является наиболее сложной для OCR, поскольку газеты имеют сложную структуру, в них статьи располагаются в нескольких колонках, начинаются и заканчиваются в произвольных местах, часто разделены изображениями и рекламой.

Решение

Мы начали с анализа газетных страниц, чтобы получить четкое представление о структуре страницы и статьи. В ходе этого анализа мы обнаружили, что многие исторические газеты имеют физические повреждения, такие как коробление бумаги, царапины или выцветшие чернила. Это заставило нас разработать модуль предварительной обработки для повышения качества отсканированных газетных страниц.

Предварительная обработка газет

Этот модуль удаляет искривления бумаги, вызванные старостью или влажностью, удаляет пыль и царапины, а также заполняет буквы и символы, выцветшие со временем.

Некоторые мелкие символы, такие как знаки препинания, и двоеточие над гласными, теряются при распознавании текста, особенно если исходный материал находится не в лучшем состоянии. Поэтому мы приложили дополнительные усилия для сохранения этих символов во время предварительной обработки.

Извлечение газетных статей

Следующей задачей было обнаружение различных статей и их типов. Газетные статьи трудно или даже невозможно точно определить стандартными OCR-решениями из-за их сложной структуры и огромной вариативности форматирования.

Наше приложение обнаруживает текстовые блоки, принадлежащие к одной статье, на всей странице и собирает их в правильном порядке в статью. Включая заголовки, подзаголовки, иллюстрации, указание авторства и любые другие элементы, которые являются частью одной статьи. Для каждой обнаруженной статьи наша система определяет ее тип, например, редакционная статья, реклама, некролог и т.д.

Визуальный редактор

Все связи между блоками статей представлены визуально и могут быть отредактированы вручную с помощью визуального редактора. Пользователь может щелкнуть на любой элемент газетной страницы и переназначить его принадлежность к статье, изменить порядок блоков и типы статей.

Качество распознавания

Нам удалось достичь 98-99% качества распознавания, что делает нашу систему надежным решением для оцифровки газет любого периода времени и издательства.

Результаты

Наша система оцифровки газет успешно используется для создания высококачественных цифровых копий исторических и современных газет и помогла нашему клиенту развить свой бизнес и стать одной из ведущих компаний по оцифровке документов в Европе.

другие наши проекты

Приложение для обработки резюме на базе LLM для кадрового агентства

Приложение для обработки резюме на базе LLM для кадрового агентства

Приложение для извлечения данных из страховых заявлений

Приложение для извлечения данных из страховых заявлений

Распознавание диалоговых пузырей на рисунках манги

Распознавание диалоговых пузырей на рисунках манги

Система по распознаванию чертежей для бюро строительной экспертизы

Система по распознаванию чертежей для бюро строительной экспертизы

Давайте найдем решение для вашего бизнеса!

Давайте найдем решение для вашего бизнеса!

Пожалуйста, заполните 'Имя'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Пожалуйста, заполните 'Сообщение'

Пожалуйста, заполните 'Имя и фамилия'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Выберите файл
Пожалуйста, выберите файл 'Резюме'
Выберите файл
Пожалуйста, прикрепите файл 'Код / ТЗ'