Ноябрь 2023

Обработка судебных документов при помощи ChatGPT-4

Направления

AI
Cloud

Технологии

Внедрили модель искусственного интеллекта на основе языковой модели последнего поколения ChatGPT-4 32k, которая вытаскивает из судебных документов необходимые клиенту данные, сократив трудозатраты сотрудников на 40%.

Бизнес-логика

Клиент - компания, которая помогает юридическим фирмам вести судебное делопроизводство и автоматизирует работу с большим потоком документов: ведет календари событий и задачи, организовывает хранение информации о клиентах и материалах юрфирм, автоматизирует и форматирует документы.

Через сотрудников ежемесячно проходит более 40 тысяч документов и все они обрабатываются вручную: сотрудники находят в документах ключевые даты по делам, составляют из них таймлайн дел, заносят это в CRM и СЭД. Помимо дат необходимо найти информацию про юрисдикцию дела, версию документа, номер дела.

В дополнение к поиску текстовых данных, сотрудникам необходимо определить, заверен ли документ подписью судьи, и если да, верифицировать её на подлинность. Если документ не заверен нужной подписью, такой документ не нужно обрабатывать и заносить в CRM. Такие документы попадают на другой вид обработки и контроля.

Решение

Мы разбили решение данной задачи на несколько этапов:

Поиск и верификация подписи, поскольку без подписи документ не обрабатывается далее.
Поиск важных для клиента атрибутов в тексте: все даты и действия, которые с ними связаны, юрисдикцию, тип документа, номер дела.
Передача данных в CRM систему клиента в подходящем виде.

Клиент обладает облачным хранилищем на платформе Azure, в котором мы смогли настроить все доступы до сервисов OpenAI.

Поиск подписи и верификация

Для поиска подписи и её верификации мы использовали GPT-4 with Vision. GPT-4 with Vision позволяет GPT-4 анализировать входные изображения, а также сравнивать их между собой.

Имея эталонные изображения подписей судей, мы оцениваем подписи в конце документа и отсеиваем те, которые не имеют подписи или заверены кем-то другим.

Поиск текстовых данных

Поскольку клиент помогает вести судебное делопроизводство, очень важно иметь представление обо всех важных датах по каждому процессу. Эти даты указываются в документах, а также сопровождаются заметками о том, что необходимо сделать. Например, провести экспертизу, отправить результаты экспертизы или явиться на повторное слушание.

Задачу по поиску дат мы решаем также при помощи GPT-4. Эта модель отлично справляется с задачами такого рода. Единственное ограничение - длина текста. Поэтому мы обратились к оптимизированной модели GPT-4-32k, которая умеет работать с большей длинной контекста и лучше понимать большие тексты.

Если текстовых данных мало

Если в загруженных pdf-файлах текста мало, значит он состоит из изображений. В таких случаях наш алгоритм применяет модель OCR. Мы выбрали модель PaddleOCR, которая распознает текст с высокой точностью для нескольких языков.

Классификация документов

Когда у компании большой документооборот, среди "рабочих" документов могут попадаться "не рабочие" документы. Такие документы не нужно отправлять в базу данных, поэтому мы дополнительно проводим классификацию документов: судебный документ или несудебный документ.

Для решения данной задачи мы применяем MLPClassifier.

Передача данных клиенту

Сотрудники клиента вносят руками данные в CRM систему, что можно заменить на автоматический импорт данных. Поэтому все данные собираются в формат JSON.