Статус работы InfiniBand на узлах

Статус работы InfiniBand на узлах

2020-11-21
Последнее изменение страницы: 25.11.2020

Текущий статус обновления InfiniBand #

На кластере установлен коммутатор InfiniBand Mellanox MSB7800 с поддержкой скорости EDR 100Гбит/с.

На узлах cl1n005–cl1n010 и cl1n017–cl1n030 установлены новые адаптеры Mellanox ConnectX-5 с поддержкой EDR 100Гбит/с.

На узлах cl1n001–cl1n004, cl1n011–cl1n016 стоят старые адаптеры Mellanox ConnectX-3 с поддержкой QDR 40Гбит/с.

Система очередей перенастроена таким образом, чтобы в первую очередь использовать узлы с новыми адаптерами. Вы также можете явно задать список узлов, на которых вы хотите запустить свою задачу, с помощью параметра -w, например, для запуска на 4 узлах cl1n005–cl1n008:

sbatch -p x12core -w cl1n[005-008] --nodes=4 --ntasks-per-node=24 ...

Известные проблемы #

  1. На узле cl1n001 замечено снижение скорости работы InfiniBand в 4 раза (скорость SDR вместо QDR). В системе очередей этому узлу временно назначен самый низкий приоритет. Проблема с узлом cl1n001 решена 25.11.2020.
  2. При запуске MPI-задач на смешанном наборе узлов (ConnectX-3 и ConnectX-5) могут возникать ошибки, связанные с несовместимостью протоколов. Для Intel MPI последних версий может помочь следующая переменная окружения:
export UCX_TLS=ud,sm,self
Информация на этой странице будет обновляться.