Суперкомпьютер Titan не может выйти на полную мощность из-за проблем с его материнскими платами

Самый быстрый в мире на сегодняшний день суперкомпьютер Cray XK47 «Titan», находящийся в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), никак не может пройти программу завершающих испытаний и выйти на полную мощность из-за проблем с его материнскими платами.

Как ни странно, но эта проблема заключается в переизбытке золота, нанесенного в качестве покрытия на некоторые контакты разъемов материнских плат, что является причиной того, что пока суперкомпьютер не может использовать при работе мощность и возможности графических процессоров Nvidia Kepler.

К этому случаю как нельзя подходит поговорка, в которой утверждается, что и кашу маслом можно испортить.

Суперкомпьютер Titan был впервые включен в октябре месяце прошлого года, после чего он занял первую позицию в рейтинге Top500, в рейтинге самых быстрых суперкомпьютеров в мире. Однако этап завершающих испытаний и ввода суперкомпьютера в эксплуатацию, по сообщениям представителей лаборатории Ок-Ридж, так и не был завершен из-за неустойчивой работы системы. На данный момент времени срок окончания этапа тестирования сдвинут до конца апреля текущего года, т.е. на четыре месяца позже срока, запланированного изначально.

Первые проблемы с работой суперкомпьютера Titan были обнаружены в феврале месяце этого года, когда система не прошла испытания на стабильность работы, успешно пройдя всего 92 процента от программы испытаний. Этого оказалось недостаточно для достижения порогового значения в 95 процентов, который является минимально допустимым порогом стабильности работы системы.

Расследование причин, повлекших за собой нестабильность работы, указало на разъемные соединители материнских плат и некоторые из 200 стоек суперкомпьютера были отключены и отправлены их производителю, компании Cray для устранения неисправности. В настоящее время специалисты компании Cray заняты установкой на материнские платы новых соединителей и переделывают в среднем по 24 стойки в неделю.

Следует заметить, что именно эти вышеупомянутые соединители стали причиной невозможности обмена данными между центральными процессорами и графическими процессорами, которые обеспечивают большую часть вычислительной мощности суперкомпьютера Titan.

Золотое покрытие контактов разъемов используется для предохранения этих контактов от окисления. Но если золото смешивается с припоем, в котором содержится свинец и олово, то при совпадении некоторых условий получается весьма хрупкое соединение и контакт в этом месте через некоторое время теряет свое качество. На материнских платах суперкомпьютера Titan расположено около 20 тысяч таких разъемных соединителей, соединяющих центральные и графические процессоры, в каждом из которых есть около сотни контактов, каждый из которых потенциально может стать причиной неисправности.

Согласно данным рейтинга Top500, суперкомпьютер Titan построен на основе 16-ядерных процессоров AMD Opteron, работающих на тактовой частоте 2.2 ГГц, объединенных с графическими процессорами Nvidia K20X Kepler.

Из-за проблем с соединителями сейчас суперкомпьютер из всех своих 560640 процессорных ядер не может использовать 261632 ядер графических процессоров, на долю которых приходится 90 процентов его вычислительной мощности.

Согласно планам, устранение проблем с разъемными соединителями закончится к концу апреля, после чего начнется этап повторного окончательного тестирования, который будет проводиться в течение двух недель.

Учитывая то, что суперкомпьютер Titan и в прошлый раз добрался почти вплотную до требуемых отметок, кажется вероятным, что система успешно пройдет все тесты и выйдет на полную мощность.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (3 votes)
Источник(и):

1 .slashdot.org

2.dailytechinfo.org