我正在研究Cheng的CUDA C编程,并遇到了这段代码:
void sumMatrixOnHost (float *A,float *B,float *C,const int nx,const int ny) {
float *ia = A;
float *ib = B;
float *ic = C;
for (int iy=0; iy<ny; iy++) {
for (int ix=0; ix<nx; ix++) {
ic[ix] = ia[ix] + ib[ix];
}
ia += nx; ib += nx; ic += nx;
}
}
这是用于矩阵加法,从而矩阵以行主格式存储。
据我了解,内部for循环在一行上进行迭代并执行元素添加,然后使用外部for循环将指针递增到下一行的开始。
为什么这种方法比在整个矩阵上使用指针更好,即
for (int i=0; i<ny*nx; i++) {
ic[i] = ia[i] + ib[i];
}
或双重for循环,即
for (int iy=0; iy<ny; iy++) {
for (int ix=0; ix<nx; ix++) {
ic[iy*nx+ix] = ia[iy*nx+ix] + ib[iy*nx+ix];
}
}
这与编译器如何对其进行优化有关?