Машины уже опережают людей в тестах на чтение; но понимают ли они прочитанное?

Инструмент под названием BERT способен обогнать людей в тестах на чтение и понимание. Однако он же демонстрирует, какой путь ещё нужно пройти ИИ.

Осенью 2017 года Сэм Боумен, вычислительный лингвист из Нью-Йоркского университета, решил, что компьютеры до сих пор ещё не очень хорошо понимают текст. Конечно, они достаточно неплохо научились симулировать это понимание в определённых узких областях, вроде автоматических переводов или анализа чувств (к примеру, определять, является ли предложение «грубым или милым», как он сказал). Однако Боумен хотел получить измеримое свидетельство: настоящее понимание написанного, изложенное человеческим языком. И он придумал тест.

В работе от апреля 2018 года, написанной совместно с коллегам из Вашингтонского университета и DeepMind, компании, принадлежащей Google и занимающейся искусственным интеллектом, Боумен представил набор из девяти задач на понимание прочитанного для компьютеров под общим названием GLUE (General Language Understanding Evaluation) [оценка понимания обобщенного языка].

Тест был разработан как «достаточно показательный пример того, что исследовательское сообщество считает интересными задачами», сказал Боумен, но так, чтобы быть «простым для людей».

К примеру, в одной задаче задаётся вопрос об истинности предложения, которую нужно оценить на основе информации из предыдущего предложения. Если вы можете сказать, что из сообщения «президент Трамп приземлился в Ираке, начав свой семидневный визит» следует, что «президент Трамп находится с визитом за границей», вы проходите тест.

Машины его провалили. Даже передовые нейросети набрали не более 69 из 100 очков суммарно по всем тестам – тройку с минусом. Боумен с коллегами не были удивлены. Нейросети – многослойные конструкции с вычислительными связями, грубо напоминающие работу нейронов в мозгу млекопитающих – показывают неплохие результаты в области «обработки естественных языков» [Natural Language Processing, NLP], но исследователи не были уверены, что эти системы обучаются чему-то серьёзному о самом языке. И GLUE доказывает это.

«Ранние результаты показывают, что прохождение тестов GLUE выходит за пределы возможностей существующих моделей и методов», — писали Боумен с соавторами.

Но их оценка прожила недолго. В октябре 2018 Google представил новый метод, BERT (Bidirectional Encoder Representations from Transformers) [двунаправленные презентации кодировщика для трансформеров]. Он получил в GLUE оценку в 80.5. Машины всего за шесть месяцев перепрыгнули с тройки с минусом до четвёрки с минусом в этом новом тесте, измеряющем реальное понимание машинами естественного языка.

«Это было ощущение ’вот чёрт’, — вспоминает Боумен, выразив это более цветастым словом. – Это сообщение было встречено сообществом с недоверием. BERT получал во многих тестах оценки близкие к тому, что мы считали максимумом возможного».

И действительно, до появления BERT в тесте GLUE даже не было приведено оценок человеческих достижений, чтобы было с чем сравнивать. Когда Боумен и один из его аспирантов добавили их в GLUE в феврале 2019 года, они продержались всего несколько месяцев, а, потом модель на основе BERT от Microsoft побила и их.

На момент написания данной статьи практически все первые места в тестах GLUE заняты системами, включающими, расширяющими или оптимизирующими модель BERT. Пять из них превосходят по способностям людей.

Но значит ли это, что ИИ начинает понимать наш язык, или он просто учится обыгрывать наши системы? После того, как нейросети на базе BERT взяли тесты типа GLUE штурмом, появились новые методы оценки, считающие, судя по всему, эти NLP-системы компьютерными версиями «умного Ганса» – лошади, жившей в начале XX века, якобы бывшей достаточно умной для того, чтобы производить арифметические вычисления в уме, но на самом деле считывавшей бессознательные знаки, подаваемые ей её владельцем.

«Мы знаем, что находимся где-то в серой зоне между пониманием языка в очень скучном и узком смысле, и созданием ИИ, — сказал Боумен. – В целом реакцию специалистов можно было описать так: Как это произошло? Что это значит? Что нам теперь делать?»

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр