Введение или о каком ИИ я говорю

Автор: Kilorad. В первую очередь меня интересует универсальный ИИ как машина достижения сложных целей. То есть некий программно-аппаратный комплекс, которому можно сказать: сделай самолёт, который будет стоить 100$, летать на 1000 километров со скоростью 800 км/ч и перевозить 5 человек. Или так: вылечи человека такого-то от рака на терминальной стадии.

ИИ должен с такими задачами уметь справляться, если это вообще физически возможно. А если невозможно, то достигать результата, максимально похожего на заданный.

На данный момент я вижу два пути, как получить универсальный ИИ.

Первый путь – это системы, подобные reinforcement learning. Они подключаются в сенсорам и исполнительным механизмам некоего робота, и ещё у них есть сигнал награды. Reinforcement learning (далее RL) действует так, чтобы получать в среднем как можно больше награды. И канал вознаграждения – это основной способ сообщить ИИ, чего мы от него хотим.

Второй путь – это системы, подобные GPT-3, генераторы текстов. О них скажу всего пару слов. Они берут начало текста и продлевают – так, чтобы выглядело связно. Часто эти тексты звучат глубоко и здорово, но… Если вы спросите GPT-3 “почему астрология – это самообман” – он подробно это аргументирует. А если спросить его же “почему астрология – это реально эффективная практика” – наш продлеватель текстов опять же, подробно аргументирует. На вопрос “эффективна ли астрология?” GPT-3 ответит, исходя из контекста. Эти особенности не позволяют просто в лоб применять GPT-3 и его аналоги для создания хороших планов.

Проблемы с Reinforcement Learning и подобными системами

Я бы разделил проблемы на две большие группы.

Первая группа – это проблемы, которые RL в принципе мог бы решить, если бы у него было больше данных, больше вычислительных мощностей, более ёмкие буферы данных и нейросети.

Вторая группа – это проблемы с написанием ТЗ. В голове задание звучит хорошо, но записать его в виде правила выдачи подкреплений не выходит.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

Хабр