Новый метод может ускорить обучение языковых моделей ИИ в 300 раз

Исследователи из ETH Zurich разработали новую технику, которая может значительно повысить скорость работы нейронных сетей. Они продемонстрировали, что изменение процесса вывода может радикально сократить вычислительные требования.

Это достигается путем замены традиционных слоев прямого распространения на так называемые быстрые слои прямого распространения, использующие условное умножение матриц. Эксперименты с моделью BERT показали сокращение вычислений на более чем 99%. Этот подход может применяться к другим языковым моделям, таким как GPT-3, и обеспечить более быструю и эффективную обработку запросов. Быстрое внедрение метода уравняет шансы между компаниями, имеющими почти неограниченный доступ к вычислительным ресурсам, и ограниченными в них.

Трансформеры — нейронные сети, используемые в моделях LLM, состоят из различных слоев, включая слои внимания и прямого распространения. Последние составляют значительную часть параметров модели и требуют больших вычислительных ресурсов из-за необходимости вычисления произведения всех нейронов и входных измерений. Исследователи представили статью, которая показывает, что не все нейроны в слоях прямого распространения должны быть активными во время процесса вывода для каждого входного значения. Вместо этого, они предлагают использовать «быстрые слои прямого распространения» (FFF) в качестве замены для традиционных слоев прямого распространения.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (2 votes)
Источник(и):

ХайТек+