Lorenz示例中的odeint和VecCL在不同的设备上产生了不同的结果
Lorenz example with odeint and VexCL yielding different results on different devices
更新:
我在其他系统中运行过这个例子。在Intel i7-3630QM、Intel HD4000和Radeon HD 7630M上,所有结果都是相同的。对于i7-4700MQ/4800MQ,当使用OpenCL或64位gcc与32位gcc时,CPU的结果不同。这是默认情况下使用SSE的64位gcc和OpenCl以及使用387数学的32位gcc的结果,当设置mfpmath=387时,至少64位gcc产生相同的结果。所以我必须读更多的书,并用x86浮点进行实验。谢谢大家的回答。
我已经在不同的OpenCL设备上运行了"编程CUDA和OpenCL:使用现代C++库的案例研究"中的Lorenz系统示例,每个系统都得到了不同的结果:
-
Quadro K1100M(NVIDIA CUDA(
R=>x y z
0.100000=>-0.000000-0.000000000000
5.644444=>-3.519254-3.519250 4.644452
11.188890=>5.212534 5.212530 10.188904
16.773334=>6.477303 6.477297 15.73333322.277779=>3.178553 2.579687 17.946903
27.822224=>5.008720 7.753564 16.377680
33.366669=>-13.381100-15.252210 36.107887
38.911114=>4.256534 6.813675 23.838787
44.455555=>-11.083726 0.691549 53.632290
50.000000=>-8.624105-15.728293 32.516193 -
Intel(R(HD Graphics 4600(Intel(R(OpenCL(
R=>x y z
0.100000=>-0.000000-0.000000000000
5.644444=>-3.519253-3.519250 4.644451
11.188890=>5.212531 5.212538 10.188890
16.773334=>6.477320 6.477326 15.73333922.277779=>7.246771 7.398651 20.735369
27.822224=>-6.295782-10.615027 14.646572
33.366669=>-4.132523-7.773201 14.292910
38.911114=>14.183139 19.582197 37.943520
44.455555=>-3.129006 7.564254 45.736408
50.000000=>-9.146419-17.006729 32.976696 -
英特尔(R(酷睿(TM(i7-4800MQ CPU@2.70GHz
R=>x y z
0.100000=>-0.000000-0.000000000000
5.644444=>-3.519254-3.519251 4.644453
11.188890=>5.212513 5.212507 10.188900
16.773334=>6.477303 6.477296 15.73333222.277779=>-8.295195-8.198518 22.271002
27.822224=>-4.329878-4.022876 22.573458
33.366669=>9.702943 3.997370 38.659538
38.911114=>16.105495 14.401397 48.537579
44.455555=>-12.551083-9.239071 49.378693
50.000000=>7.377638 3.447747 47.542763
正如你所看到的,这三种设备在R=16.773334的值上达成一致,然后开始发散。
我已经在没有VecCL的情况下用odeint运行了相同的区域,并在CPU运行时获得了接近OpenCL结果的结果:
香草提取物:
R => x y z
16.733334 => 6.47731 6.47731 15.7333
22.277779 => -8.55303 -6.72512 24.7049
27.822224 => 3.88874 3.72254 21.8227
示例代码可在此处找到:https://github.com/ddemidov/gpgpu_with_modern_cpp/blob/master/src/lorenz_ensemble/vexcl_lorenz_ensemble.cpp
我不确定我在这里看到了什么?由于CPU结果彼此非常接近,这看起来像是GPU的问题,但由于我是一个OpenCL新手,我需要一些指针来找到导致这种情况的根本原因。
您必须了解GPU的精度低于CPU。这是常见的,因为GPU是为游戏设计的,其中精确值不是设计目标。
通常GPU的精度是32位。而CPU内部具有48或64位的精度数学,即使结果被切割为32位存储。
您正在运行的操作在很大程度上取决于这些微小的差异,为每个设备创建不同的结果。例如,这种操作也会根据准确性产生非常不同的结果:
a=1/(b-c);
a=1/(b-c); //b = 1.00001, c = 1.00002 -> a = -100000
a=1/(b-c); //b = 1.0000098, c = 1.000021 -> a = -89285.71428
在你自己的结果中,你可以看到每个设备的不同,即使是低R值:
5.644444 => -3.519254 -3.519250 4.644452
5.644444 => -3.519253 -3.519250 4.644451
5.644444 => -3.519254 -3.519251 4.644453
然而,您声明"对于低值,结果与R=16
一致,然后开始发散"。好吧,这取决于,因为它们并不完全相等,即使对于R=5.64
也是如此。
我创建了一个stackoverflow-23805423分支来测试这一点。以下是不同设备的输出。请注意,CPU和AMD GPU都具有一致的结果。英伟达GPU也有一致的结果,只是结果不同。这个问题似乎与NVIDIA GPU(sm_13(上的IEEE-754标准有关
```
1. Intel(R) Core(TM) i7 CPU 920 @ 2.67GHz (Intel(R) OpenCL)
R = {
0: 5.000000e+00 1.000000e+01 1.500000e+01 2.000000e+01 2.500000e+01
5: 3.000000e+01 3.500000e+01 4.000000e+01 4.500000e+01 5.000000e+01
}
X = {
0: ( -3.265986e+00 -3.265986e+00 4.000000e+00) ( 4.898979e+00 4.898979e+00 9.000000e+00)
2: ( 6.110101e+00 6.110101e+00 1.400000e+01) ( -7.118047e+00 -7.118044e+00 1.900000e+01)
4: ( 9.392907e-01 1.679711e+00 1.455276e+01) ( 5.351486e+00 1.051580e+01 9.403333e+00)
6: ( -1.287673e+01 -2.096754e+01 2.790419e+01) ( -6.555650e-01 -2.142401e+00 2.721632e+01)
8: ( 2.711249e+00 2.540842e+00 3.259012e+01) ( -4.936437e+00 8.534876e-02 4.604861e+01)
}
1. Intel(R) Core(TM) i5-3570K CPU @ 3.40GHz (AMD Accelerated Parallel Processing)
R = {
0: 5.000000e+00 1.000000e+01 1.500000e+01 2.000000e+01 2.500000e+01
5: 3.000000e+01 3.500000e+01 4.000000e+01 4.500000e+01 5.000000e+01
}
X = {
0: ( -3.265986e+00 -3.265986e+00 4.000000e+00) ( 4.898979e+00 4.898979e+00 9.000000e+00)
2: ( 6.110101e+00 6.110101e+00 1.400000e+01) ( -7.118047e+00 -7.118044e+00 1.900000e+01)
4: ( 9.392907e-01 1.679711e+00 1.455276e+01) ( 5.351486e+00 1.051580e+01 9.403333e+00)
6: ( -1.287673e+01 -2.096754e+01 2.790419e+01) ( -6.555650e-01 -2.142401e+00 2.721632e+01)
8: ( 2.711249e+00 2.540842e+00 3.259012e+01) ( -4.936437e+00 8.534876e-02 4.604861e+01)
}
1. Capeverde (AMD Accelerated Parallel Processing)
R = {
0: 5.000000e+00 1.000000e+01 1.500000e+01 2.000000e+01 2.500000e+01
5: 3.000000e+01 3.500000e+01 4.000000e+01 4.500000e+01 5.000000e+01
}
X = {
0: ( -3.265986e+00 -3.265986e+00 4.000000e+00) ( 4.898979e+00 4.898979e+00 9.000000e+00)
2: ( 6.110101e+00 6.110101e+00 1.400000e+01) ( -7.118047e+00 -7.118044e+00 1.900000e+01)
4: ( 9.392907e-01 1.679711e+00 1.455276e+01) ( 5.351486e+00 1.051580e+01 9.403333e+00)
6: ( -1.287673e+01 -2.096754e+01 2.790419e+01) ( -6.555650e-01 -2.142401e+00 2.721632e+01)
8: ( 2.711249e+00 2.540842e+00 3.259012e+01) ( -4.936437e+00 8.534876e-02 4.604861e+01)
}
1. Tesla C1060 (NVIDIA CUDA)
R = {
0: 5.000000e+00 1.000000e+01 1.500000e+01 2.000000e+01 2.500000e+01
5: 3.000000e+01 3.500000e+01 4.000000e+01 4.500000e+01 5.000000e+01
}
X = {
0: ( -3.265986e+00 -3.265986e+00 4.000000e+00) ( 4.898979e+00 4.898979e+00 9.000000e+00)
2: ( 6.110101e+00 6.110101e+00 1.400000e+01) ( -7.118047e+00 -7.118044e+00 1.900000e+01)
4: ( 7.636878e+00 2.252859e+00 2.964935e+01) ( 1.373357e+01 8.995382e+00 3.998563e+01)
6: ( 7.163476e+00 8.802735e+00 2.839662e+01) ( -5.536365e+00 -5.997181e+00 3.191463e+01)
8: ( -2.762679e+00 -5.167883e+00 2.324565e+01) ( 2.776211e+00 4.734162e+00 2.949507e+01)
}
1. Tesla K20c (NVIDIA CUDA)
R = {
0: 5.000000e+00 1.000000e+01 1.500000e+01 2.000000e+01 2.500000e+01
5: 3.000000e+01 3.500000e+01 4.000000e+01 4.500000e+01 5.000000e+01
}
X = {
0: ( -3.265986e+00 -3.265986e+00 4.000000e+00) ( 4.898979e+00 4.898979e+00 9.000000e+00)
2: ( 6.110101e+00 6.110101e+00 1.400000e+01) ( -7.118047e+00 -7.118044e+00 1.900000e+01)
4: ( 7.636878e+00 2.252859e+00 2.964935e+01) ( 1.373357e+01 8.995382e+00 3.998563e+01)
6: ( 7.163476e+00 8.802735e+00 2.839662e+01) ( -5.536365e+00 -5.997181e+00 3.191463e+01)
8: ( -2.762679e+00 -5.167883e+00 2.324565e+01) ( 2.776211e+00 4.734162e+00 2.949507e+01)
}
1. Tesla K40c (NVIDIA CUDA)
R = {
0: 5.000000e+00 1.000000e+01 1.500000e+01 2.000000e+01 2.500000e+01
5: 3.000000e+01 3.500000e+01 4.000000e+01 4.500000e+01 5.000000e+01
}
X = {
0: ( -3.265986e+00 -3.265986e+00 4.000000e+00) ( 4.898979e+00 4.898979e+00 9.000000e+00)
2: ( 6.110101e+00 6.110101e+00 1.400000e+01) ( -7.118047e+00 -7.118044e+00 1.900000e+01)
4: ( 7.636878e+00 2.252859e+00 2.964935e+01) ( 1.373357e+01 8.995382e+00 3.998563e+01)
6: ( 7.163476e+00 8.802735e+00 2.839662e+01) ( -5.536365e+00 -5.997181e+00 3.191463e+01)
8: ( -2.762679e+00 -5.167883e+00 2.324565e+01) ( 2.776211e+00 4.734162e+00 2.949507e+01)
}
```
- 使用取消引用的指针的多态性会产生意外的结果.为什么?
- 尝试将字符串/字符转换为整数会产生意外结果
- 为什么在递归中使用循环会产生意想不到的结果?
- 如何从递归函数中完全返回,该函数给出了每个函数结果的累积相加?
- 程序未产生预期的结果
- Lower_bound给出了其他结果
- C++ 犰狳库中的sort_index()函数给出了错误的结果
- Clang 给了我符号更改的警告,但代码仍然产生正确的输出
- 为什么第二个代码给出了预期的结果,而第一个代码却没有?
- imshow() 在 C++ 年使用 OpenCV 3.2 产生了奇怪的结果
- 这种方法是否对分支的预测产生了影响
- 奇怪的结果减少了
- 为什么这个C++程序的输出在cmd中产生了巨大的混乱
- 为什么比较两个字符串的结果遗漏了最后匹配的字符串
- C++程序产生了许多错误
- gluLookAt似乎产生了错误的观点,OpenGL
- zlib compress() 产生了可怕的压缩率
- 我的弹射器游戏产生了不正确的距离
- 我的c++程序读取一个矩阵并打印出非零的数字,这产生了一个运行时错误
- Lorenz示例中的odeint和VecCL在不同的设备上产生了不同的结果