为什么C++可执行文件在与较新的libstdc++.so链接时运行得更快?

Why is C++ executable running so much faster when linked against newer libstdc++.so?

本文关键字:运行 链接 so libstdc++ 可执行文件 C++ 为什么      更新时间:2023-10-16

我有一个项目(代码在这里(,我在其中运行基准测试来比较计算点积的不同方法(朴素方法、特征库、SIMD 实现等(的性能。我正在一个新的 Centos 7.6 虚拟机上进行测试。我注意到,当我使用不同版本的libstdc++.so.6时,我得到的性能明显不同。

当我启动一个新的 Centos 7.6 实例时,默认C++标准库是libstdc++.so.6.0.19。当我运行我的基准测试可执行文件(链接到此版本的libstdc++(时,输出如下:

Naive Implementation, 1000000 iterations: 1448.74 ns average time
Optimized Implementation, 1000000 iterations: 1094.2 ns average time
AVX2 implementation, 1000000 iterations: 1069.57 ns average time
Eigen Implementation, 1000000 iterations: 1027.21 ns average time
AVX & FMA implementation 1, 1000000 iterations: 1028.68 ns average time
AVX & FMA implementation 2, 1000000 iterations: 1021.26 ns average time

如果我下载libstdc++.so.6.0.26并将符号链接libstdc++.so.6更改为指向这个较新的库并重新运行可执行文件(不重新编译或更改任何其他内容(,结果如下:

Naive Implementation, 1000000 iterations: 297.981 ns average time
Optimized Implementation, 1000000 iterations: 156.649 ns average time
AVX2 implementation, 1000000 iterations: 131.577 ns average time
Eigen Implementation, 1000000 iterations: 92.9909 ns average time
AVX & FMA implementation 1, 1000000 iterations: 78.136 ns average time
AVX & FMA implementation 2, 1000000 iterations: 80.0832 ns average time

为什么速度有如此显着的提高(某些实现速度快 10 倍(?

由于我的用例,我可能需要针对libstdc++.so.6.0.19进行链接。在使用旧版本的libstdc++时,我可以在我的代码中/在我这边做些什么来查看这些速度改进吗?

编辑: 我创建了一个最小可重现的示例。

main.cpp

#include <iostream>
#include <vector>
#include <cstring>
#include <chrono>
#include <cmath>
#include <iostream>
typedef std::chrono::high_resolution_clock Clock;
const size_t SIZE_FLOAT = 512;
double computeDotProductOptomized(const std::vector<uint8_t>& v1, const std::vector<uint8_t>& v2);
void generateNormalizedData(std::vector<uint8_t>& v);
int main() {
// Seed for random number
srand (time(nullptr));
std::vector<uint8_t> v1;
std::vector<uint8_t> v2;
generateNormalizedData(v1);
generateNormalizedData(v2);
const size_t numIterations = 10000000;
double totalTime = 0.0;
for (size_t i = 0; i < numIterations; ++i) {
auto t1 = Clock::now(); 
auto similarity = computeDotProductOptomized(v1, v2);
auto t2 = Clock::now();
totalTime += std::chrono::duration_cast<std::chrono::nanoseconds>(t2 - t1).count();
}
std::cout << "Average Time Taken: " << totalTime / numIterations << 'n';
return 0;
}
double computeDotProductOptomized(const std::vector<uint8_t>& v1, const std::vector<uint8_t>& v2) {
const auto *x = reinterpret_cast<const float*>(v1.data());
const auto *y = reinterpret_cast<const float*>(v2.data());
double similarity = 0;
for (size_t i = 0; i < SIZE_FLOAT; ++i) {
similarity += *(x + i) * *(y + i);
}
return similarity;
}
void generateNormalizedData(std::vector<uint8_t>& v) {
std::vector<float> vFloat(SIZE_FLOAT);
v.resize(SIZE_FLOAT * sizeof(float));
for(float & i : vFloat) {
i = static_cast <float> (rand()) / static_cast <float> (RAND_MAX);
}
// Normalize the vector
float mod = 0.0;
for (float i : vFloat) {
mod += i * i;
}
float mag = std::sqrt(mod);
if (mag == 0) {
throw std::logic_error("The input vector is a zero vector");
}
for (float & i : vFloat) {
i /= mag;
}
memcpy(v.data(), vFloat.data(), v.size());
}

CMakeLists.txt

cmake_minimum_required(VERSION 3.14)
project(dot-prod-benchmark-min-reproducible-example C CXX)
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fPIC -Ofast -ffast-math -march=broadwell")
set(CMAKE_BUILD_TYPE Release)
set(CMAKE_CXX_STANDARD 14)
add_executable(benchmark main.cpp)

编译于centos-release-7-6.1810.2.el7.centos.x86_64上,使用cmake version 3.16.2gcc (GCC) 7.3.1 20180303Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz, 4 个虚拟处理器

使用libstdc++.so.6.0.19:平均使用时间:1279.41 使用libstdc++.20.6.0.26:平均使用时间:168.219

rustyx 是正确的。正是在循环中使用auto t1 = Clock::now();导致了性能不佳。一旦我将时间移到循环之外(时间,总花费的时间(,那么它们运行的速度就一样快:

const size_t numIterations = 10000000;
auto t1 = Clock::now(); 
for (size_t i = 0; i < numIterations; ++i) {
auto similarity = computeDotProductOptomized(v1, v2);
}
auto t2 = Clock::now();
std::cout << "Total Time Taken: " << std::chrono::duration_cast<std::chrono::milliseconds>(t2 - t1).count() << " msn";

您的旧libstdc++.so来自GCC 4.8,在该版本中,Clock::now()调用直接对内核进行系统调用以获取当前时间。

这比在libc中使用clock_gettime函数要慢得多,后者从内核的vDSO库获取结果,而不是进行系统调用。这就是较新的libstdc++.so正在做的事情。

不幸的是,GCC 4.8.x 是在 Glibc 在没有链接到librt.so的情况下提供clock_gettime函数之前发布的,因此 CentOS 7 中的libstdc++.so不知道它可以使用 Glibc 中的clock_gettime而不是直接的系统调用。在构建GCC 4.8.x时可以使用一个配置选项,告诉它在libc.so中查找该函数,但是CentOS 7编译器没有启用该选项。我认为在不使用不同的libstdc++.so库的情况下没有任何方法可以解决这个问题。