Статус работы InfiniBand на узлах
2020-11-21
Последнее изменение страницы: 25.11.2020
Текущий статус обновления InfiniBand #
На кластере установлен коммутатор InfiniBand Mellanox MSB7800 с поддержкой скорости EDR 100Гбит/с.
На узлах cl1n005–cl1n010 и cl1n017–cl1n030 установлены новые адаптеры Mellanox ConnectX-5 с поддержкой EDR 100Гбит/с.
На узлах cl1n001–cl1n004, cl1n011–cl1n016 стоят старые адаптеры Mellanox ConnectX-3 с поддержкой QDR 40Гбит/с.
Система очередей перенастроена таким образом, чтобы в первую очередь использовать узлы с новыми адаптерами. Вы также можете явно задать список узлов, на которых вы хотите запустить свою задачу, с помощью параметра -w
, например, для запуска на 4 узлах cl1n005–cl1n008:
sbatch -p x12core -w cl1n[005-008] --nodes=4 --ntasks-per-node=24 ...
Известные проблемы #
На узле cl1n001 замечено снижение скорости работы InfiniBand в 4 раза (скорость SDR вместо QDR). В системе очередей этому узлу временно назначен самый низкий приоритет.Проблема с узлом cl1n001 решена 25.11.2020.- При запуске MPI-задач на смешанном наборе узлов (ConnectX-3 и ConnectX-5) могут возникать ошибки, связанные с несовместимостью протоколов. Для Intel MPI последних версий может помочь следующая переменная окружения:
export UCX_TLS=ud,sm,self
Информация на этой странице будет обновляться.