Перед нами поставили задачу разработать систему, которая бы по изображению подбирала подпись к этому изображению. Текст-описание должен не просто совпадать с контентом, изображенным на картинке, но также должен быть неотличим от текста, который бы написал человек.
Именно "человечность" текста была важной характеристикой описания фотографий, поскольку пользователи соц.сетей легко отличают тексты, написанные нейронной сетью.
Разработанная нами модель генерирует "человечные" описания, за счёт их тональности и грамматической структуры. Также наша модель наполняет сгенерированные описание эмодзи и хештегами, чтобы еще больше имитировать тексты, которые люди пишут под своими фотографиями в соц. сетях.
Кстати, наша модель даже совершает такие же ошибки, которые часто совершают люди. Например, в текстах есть опечатки или использование неправильных терминов вместо других слов.
Набор данных для тренировки нейронной сети содержал множество разнообразных постов, в том числе посты с ошибками. Поэтому обученная модель и научилась время от времени совершать ошибки.