分布式#

进程间通信#

init_process_group(n_devices, rank, *[, ...])

启动 cupyx.distributed 并获取一个通信器。

NCCLBackend(n_devices, rank[, host, port, ...])

使用 NVIDIA NCCL 进行通信的接口。

分布式到设备上的 ndarray#

distributed_array(array, index_map[, mode])

从给定数据创建分布式数组。

DistributedArray(self, shape, dtype, chunks_map)

跨多个 CUDA 设备分布的多维数组。

make_2d_index_map(i_partitions, ...)

为具有指定分块的二维矩阵创建 index_map

matmul(a, b[, out])

分布式数组之间的矩阵乘法。