Перевод технической документации на китайском языке с использованием ИИ | Технологика
Январь 2025

Перевод технической документации на китайском языке с использованием ИИ

Перевод  технической документации на китайском языке с использованием ИИ
Направления
Разработали решение для перевода технической документации на базе ИИ для крупной китайской компании, производящей оборудование для электростанций. Перевод осуществляется с китайского на английский с сохранением структуры документа.

Бизнес-логика

Клиент - крупная китайская компания, занимающаяся производством оборудования для электростанций. Производство в Китае, но оборудование поставляется по всему миру. Поэтому перед заказчиком встала задача перевода технической документации на международный английский язык. Переводить её силами переводчиков оказалось дорого и долго, учитывая большую номенклатуру производства.

Основная задача проекта — автоматизация процесса перевода с китайского на английский язык с сохранением структуры документа и обработкой текстов на схемах и изображениях. Такое решение позволяет значительно сократить время и затраты на перевод.

Решение

Данный проект отличается одной важной особенностью. Заказчику было необходимо конфиденциальное решение, которое не будет отправлять закрытые данные третьим лицам или языковым моделям для обучения на открытых данных.

Для выполнения данного условия мы обратились к связке двух решений Azure Intelligence и GPT-4o. Ведь и Azure и GPT-4 имеют гибкие настройки безопасности: предоставляют корпоративным клиентам специальные условия, гарантируя, что данные не будут использоваться для улучшения и обучения моделей или передаваться третьим лицам.

Алгоритм работы ии-решения включает следующие этапы:

  1. Извлечение структуры документа.
  2. Перевод текстов через GPT-4o.
  3. Обработка изображений с извлечением текстов.
  4. Перевод текстов на изображениях и их замена на переведенные версии.
  5. Финальная сборка и сохранение в формате PDF.
Перевод текстов

Тексты в документации присутствуют в различных форматах: в виде абзацев текста, в заголовках, колонтитулах и в таблицах. Со всеми этими элементами работает GPT-4o.

Мы применяли следующий алгоритм для работы с ними:

  1. Извлекаем тексты с сохранением исходной структуры
  2. Применяем GPT-4o для перевода текста
  3. Удаляем оригинальные тексты и помещаем на их место переведенные с оригинальным форматированием с применением python-docx

Отдельным вызовом для нас стал контроль объема текста, поскольку китайский и английский языки сильно различаются и длина фраз может значительно отличаться. Чтобы решить данную проблему мы адаптировали изначальную структуру документа, в зависимости от полученных объемов переведенного текста.

Также для точности перевода заказчик предоставил нам глоссарий, что позволило сильно улучшить качество переведенных текстов.

Обработка изображений

Поскольку изображения и схемы тоже содержат текстовые данные, нельзя их обойти стороной, создавая новую документацию для другого рынка сбыта. Мы применяли Azure Intelligence для распознавания текстов на изображениях.

Алгоритм работы с изображениями был следующим:

  1. Извлекаем тексты с сохранением исходной структуры
  2. Достаем из документа изображения
  3. Отправляем изображения в Azure Intelligence для распознавания текста
  4. Далее распознанные тексты отправляем в GPT-4o для перевода

Заменяем тексты на картинках на переведенные версии, учитывая доступное пространство для текста - Azure Document Intelligence при распознавании текстов возвращает не только текст, но и координаты этого текста на изображении. Таким образом мы можем поместить переведенный текст в тот же bounding box.

После того как изображения готовы, также как и текст, сохраняем новую версию документации в формате pdf

Отдельного внимания проблема объема текста заслуживает в отношении изображений, так как в этом случае мы не могли просто адаптировать структуру документа. Для корректного вида изображений мы видоизменяли сам текст (включая шрифты, размер шрифтов и положение текста). Данный алгоритм позволил нам достичь хорошего качества, не меняя структуру изображений.

Результаты

Уже на стадии тестового прототипа мы достигли впечатляющих результатов. Разработанный прототип был представлен заказчику, который отметил высокое качество перевода и сохранение структуры документации.

Стоимость перевода составила всего $0,03 за страницу, что делает решение экономически эффективным и освобождает для клиента большую часть бюджета, заложенную на перевод.

другие наши проекты

Распознавание диалоговых пузырей на рисунках манги

Распознавание диалоговых пузырей на рисунках манги

Обработка судебных документов при помощи ChatGPT-4

Обработка судебных документов при помощи ChatGPT-4

Система оцифровки газет

Система оцифровки газет

AI-ассистент для анализа спортивной статистики и ставок

AI-ассистент для анализа спортивной статистики и ставок

Платформа анализа медицинской экспертизы на основе ИИ для помощи в судебных делах

Платформа анализа медицинской экспертизы на основе ИИ для помощи в судебных делах

AI-обработка документов для коллекторского агентства

AI-обработка документов для коллекторского агентства

AI-платформа для анализа лекций в университете

AI-платформа для анализа лекций в университете

Извлечение данных из американских медицинских карт

Извлечение данных из американских медицинских карт

Давайте найдем решение для вашего бизнеса!

Давайте найдем решение для вашего бизнеса!

Пожалуйста, заполните 'Имя'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Пожалуйста, заполните 'Сообщение'

Пожалуйста, заполните 'Имя и фамилия'
Пожалуйста, заполните 'Телефон'
Пожалуйста, заполните 'Емейл'
Выберите файл
Пожалуйста, выберите файл 'Резюме'
Выберите файл
Пожалуйста, прикрепите файл 'Код / ТЗ'