5.3。内存管理

原文： http://numba.pydata.org/numba-doc/latest/roc/memory.html

5.3.1。数据传输

尽管 Numba 可以自动将 NumPy 阵列传输到设备，但只有在内核完成时始终将设备内存传输回主机，它才能保守。为避免不必要的只读数组传输，您可以使用以下 API 手动控制传输：

numba.roc.device_array(shape, dtype=np.float, strides=None, order='C')

分配一个空设备 ndarray。与numpy.empty()类似。

numba.roc.device_array_like(ary)

使用数组中的信息调用 roc.devicearray（）。

numba.roc.to_device(obj, context, copy=True, to=None)

将 numpy ndarray 或结构化标量分配并传输到设备。

要将 host-＆gt;设备复制为 numpy 数组：

ary = numpy.arange(10)
d_ary = roc.to_device(ary)

得到的d_ary是DeviceNDArray。

要复制 device-＆gt;主机：

hary = d_ary.copy_to_host()

要将 device-＆gt;主机复制到现有数组：

ary = numpy.empty(shape=d_ary.shape, dtype=d_ary.dtype)
d_ary.copy_to_host(ary)

5.3.1.1。设备阵列

设备阵列引用具有以下方法。这些方法将在主机代码中调用，而不是在 ROC-jitted 函数中调用。

class numba.roc.hsadrv.devicearray.DeviceNDArray(shape, strides, dtype, dgpu_data=None)

on-dGPU 阵列类型

copy_to_host(ary=None, stream=None)

如果ary为None，则将self复制到ary或创建新的 Numpy ndarray。

传输是同步的：复制完成后函数返回。

始终返回主机阵列。

例：

import numpy as np
from numba import hsa

arr = np.arange(1000)
d_arr = hsa.to_device(arr)

my_kernel[100, 100](d_arr)

result_array = d_arr.copy_to_host()

is_c_contiguous()

如果数组是 C-contiguous，则返回 true。

is_f_contiguous()

如果数组是 Fortran-contiguous，则返回 true。

ravel(order='C')

在不改变其内容的情况下展平阵列，类似于 numpy.ndarray.ravel() 。

reshape(*newshape, **kws)

与 numpy.ndarray.reshape() 类似，重塑阵列而不改变其内容。例：

d_arr = d_arr.reshape(20, 50, order='F')

5.3.1.2。数据注册

CPU 和 GPU 不共享相同的主内存，但是，建议将内存分配注册到 HSA 运行时作为性能优化提示。

roc.register(*arrays)

注册每个给定的数组。该函数可以在 with-context 中用于自动注销：

array_a = numpy.arange(10)
array_b = numpy.arange(10)
with roc.register(array_a, array_b):
    some_hsa_code(array_a, array_b)

roc.deregister(*arrays)

取消注册每个给定的数组

5.3.2。流

numba.roc.stream()

ROC 流具有以下方法：

class numba.roc.hsadrv.driver.Stream

异步 API 的异步流

auto_synchronize()

一个上下文管理器，它等待此流中的所有命令执行并在退出上下文时提交任何挂起的内存传输。

synchronize()

同步流。

5.3.3。共享内存和线程同步

必要时，可以在设备上分配有限数量的共享内存，以加快对数据的访问。该存储器将在属于给定组的所有工作项之间共享（即，可读和可写），并且具有比常规设备存储器更快的访问时间。它还允许工作项在给定的解决方案上进行合作。您可以将其视为手动管理的数据缓存。

与传统的动态内存管理不同，内存在内核持续时间内分配一次。

numba.roc.shared.array(shape, type)

在设备上分配给定 _ 形状 _ 和 _ 类型 _ 的共享数组。必须在设备上调用此函数（即，从内核或设备函数）。 shape 是整数或表示数组维度的整数元组。 _ 类型 _ 是需要存储在数组中的元素的 Numba 类型。

可以像任何普通设备阵列一样读取和写入返回的类似阵列的对象（例如通过索引）。

一个常见的模式是让每个工作项填充共享数组中的一个元素，然后等待所有工作项完成使用：func：.barrier。

numba.roc.barrier(scope)

scope参数指定同步级别。将scope设置为roc.CLK_GLOBAL_MEM_FENCE或roc.CLK_LOCAL_MEM_FENCE，以分别在访问全局内存或本地内存时同步工作组中的所有工作项。

numba.roc.wavebarrier()

跨波前创建执行屏障以强制同步点。

也可以看看

矩阵乘法示例。

我们一直在努力

apachecn/AiLearning