Google открыла инструмент для «умного» описания изображений
Поисковый гигант предоставил исходный код модели Show and Tell для своей открытой системы машинного обучения TensorFlow. Она может просматривать картинку и генерировать текстовые описания, точно передающие, что на ней изображено.
На тестах по классификации изображений ImageNet, Show and Tell продемонстрировала выдающийся в своей категории уровень точности – 93,9%. Это лучше, чем у прежней итерации системы, занявшей первое место на конкурсе по описанию картинок Common Objects in Context (COCO) 2015, организованном Microsoft Research.
Опубликованные исходники включают в себя улучшенную модель зрения. Она позволяет распознавать различные объекты и таким образом генерировать лучшие описания. Она идентифицирует не только собаку и траву, но также цвет этой травы и другие важные для контекста подробности.
При этом, Show and Tell не выбирает из библиотеки предварительно составленные описания, а генерирует полностью оригинальные подписи на естественном языке, используя концепции, подчерпнутые из похожих сцен в процессе обучения.
Разработчики Google позиционируют этот инструмент как средство помощи для людей с дефектами зрения, упрощающее им работу с Интернетом. Аналогичным образом, компания Facebook применяет техники машинного зрения, чтобы описывать изображения для слепых.
- Источник(и):
- Войдите на сайт для отправки комментариев