Клиент - компания, которая помогает юридическим фирмам вести судебное делопроизводство и автоматизирует работу с большим потоком документов: ведет календари событий и задачи, организовывает хранение информации о клиентах и материалах юрфирм, автоматизирует и форматирует документы.
Через сотрудников ежемесячно проходит более 40 тысяч документов и все они обрабатываются вручную: сотрудники находят в документах ключевые даты по делам, составляют из них таймлайн дел, заносят это в CRM и СЭД. Помимо дат необходимо найти информацию про юрисдикцию дела, версию документа, номер дела.
В дополнение к поиску текстовых данных, сотрудникам необходимо определить, заверен ли документ подписью судьи, и если да, верифицировать её на подлинность. Если документ не заверен нужной подписью, такой документ не нужно обрабатывать и заносить в CRM. Такие документы попадают на другой вид обработки и контроля.
Мы разбили решение данной задачи на несколько этапов:
Клиент обладает облачным хранилищем на платформе Azure, в котором мы смогли настроить все доступы до сервисов OpenAI.
Для поиска подписи и её верификации мы использовали GPT-4 with Vision. GPT-4 with Vision позволяет GPT-4 анализировать входные изображения, а также сравнивать их между собой.
Имея эталонные изображения подписей судей, мы оцениваем подписи в конце документа и отсеиваем те, которые не имеют подписи или заверены кем-то другим.
Поскольку клиент помогает вести судебное делопроизводство, очень важно иметь представление обо всех важных датах по каждому процессу. Эти даты указываются в документах, а также сопровождаются заметками о том, что необходимо сделать. Например, провести экспертизу, отправить результаты экспертизы или явиться на повторное слушание.
Задачу по поиску дат мы решаем также при помощи GPT-4. Эта модель отлично справляется с задачами такого рода. Единственное ограничение - длина текста. Поэтому мы обратились к оптимизированной модели GPT-4-32k, которая умеет работать с большей длинной контекста и лучше понимать большие тексты.
Если в загруженных pdf-файлах текста мало, значит он состоит из изображений. В таких случаях наш алгоритм применяет модель OCR. Мы выбрали модель PaddleOCR, которая распознает текст с высокой точностью для нескольких языков.
Когда у компании большой документооборот, среди "рабочих" документов могут попадаться "не рабочие" документы. Такие документы не нужно отправлять в базу данных, поэтому мы дополнительно проводим классификацию документов: судебный документ или несудебный документ.
Для решения данной задачи мы применяем MLPClassifier.
Сотрудники клиента вносят руками данные в CRM систему, что можно заменить на автоматический импорт данных. Поэтому все данные собираются в формат JSON.
Разработанное решение экономит до 40% рабочего времени всех юристов, которые ведут делопроизводство и документооборот юридических клиентов заказчика.