Google открыла инструмент для «умного» описания изображений

Поисковый гигант предоставил исходный код модели Show and Tell для своей открытой системы машинного обучения TensorFlow. Она может просматривать картинку и генерировать текстовые описания, точно передающие, что на ней изображено.

На тестах по классификации изображений ImageNet, Show and Tell продемонстрировала выдающийся в своей категории уровень точности – 93,9%. Это лучше, чем у прежней итерации системы, занявшей первое место на конкурсе по описанию картинок Common Objects in Context (COCO) 2015, организованном Microsoft Research.

Опубликованные исходники включают в себя улучшенную модель зрения. Она позволяет распознавать различные объекты и таким образом генерировать лучшие описания. Она идентифицирует не только собаку и траву, но также цвет этой травы и другие важные для контекста подробности.

image1_google_0.jpg

При этом, Show and Tell не выбирает из библиотеки предварительно составленные описания, а генерирует полностью оригинальные подписи на естественном языке, используя концепции, подчерпнутые из похожих сцен в процессе обучения.

Разработчики Google позиционируют этот инструмент как средство помощи для людей с дефектами зрения, упрощающее им работу с Интернетом. Аналогичным образом, компания Facebook применяет техники машинного зрения, чтобы описывать изображения для слепых.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (5 votes)
Источник(и):

ko.com.ua