多核加速优化实现

水灵

当 CPU 需要读取某个数据的时候，先从 CPU 的缓存中查找，如果找到了就立即读取发送给 CPU，否则就会从相对速度比较慢的内存中去读取。

CPU 对内存的读取是以块为单位，也就是说 CPU 一次会读取这个内存地址所在的整个内存块的数据，后续的计算中对这块内存任何数据的访问都可以直接在 CPU 缓存中读取。这种读取机制会让 CPU 命中 cache 的概率非常高，大多数 CPU 可以在缓存中找到90%的数据，也就是只有10%的读取会穿透缓存，需要访问内存，这种机制会极大的减少对内存的访问，从而加速计算的读取。

比较新的CPU都有四级缓存，一级被称为L1缓存，二级被称为L2缓存，三级被称为L3缓存，四级被称为L4缓存。，读取数据的时候也是依照上面的顺序依次检测，找到了就立即读取发送给CPU，没找到就穿透到下一级缓存。

最早太空竞赛的时候默认的 Lotus 代码没有多核计算加速，那会类似 7F32 这种主频很高，但是核数少的 AMD CPU 对于 PC1 计算确实有投入产出的优势。

SDR 多核加速原理：首先，多个线程用 parent node 里面的的数据预先填充 buffer, 并完成部分 sha2.compress256 hash 计算，主要实现代码在 multi.create_label_runner 函数中。

然后，在 multi.create_layer_labels 函数的主线程空间里面进行主要的 sha2.compress256 hash 计算。
最后，在 multi.create_label_encoding 里面的主线程把计算后的数据写入到磁盘。

当然缓存空间最大的是 L3 缓存，通常我们也以 L3 缓存的共享核心作为一组来分别绑定到不同的计算线程。

多核加速优化实现

西南地区IT社群(QQ)