0. 前言
在 GPGPU-Sim 跑一些比较大的 benchmark, 或者想要同时跑很多组 benchmark 的时候,在自己的电脑上跑,或者在虚拟机上运行的话速度肯定达不到要求,会成为工作中瓶颈。因此了解一下如何在服务器上跑 simulation, 以及如何提高运行 benchmark 的速度。
1. GPGPU-Sim 运行机制
首先要理解 application 是如何运行在 real machine 以及 GPGPU-Sim 上的,他们的区别在哪里?这里以 CUDA 代码为例。
GPGPU-Sim_vs_Real_Machine
1.1 Real Machine
CUDA application 分为 host code and device code, 使用 nvcc 编译 .cu 代码时, 会将 host code 和 device code 分开。device code 被编译为 .ptx 文件,再通过 ptxas 编译为 cubin.bin 文件。host code, libcuda.a, cubin.bin 文件由 C/C++编译器编译了解生成可执行文件。
如何运行 CUDA application? 调用 libcuda 内的接口以在 GPU 上运行 device code.
1.2 GPGPU-Sim
编译 GPGPU-Sim 会生成自己的 libcuda.so 库文件,通过 ldd Your_application
可以看到 libcudart.so.4.2 链接到模拟器的这个库文件。该库文件实现了 CUDA Runtime 函数库内大部分函数的重定义。
如何运行 CUDA application? 通过 libcuda 调用 GPGPU-Sim 内的模拟接口,实现在 GPGPU-Sim 上运行 CUDA appliaction.
1.3 主要区别
Reference
https://blog.csdn.net/litdaguang/article/details/50002325 GPGPU-Sim(番外)-如何加快GPGPU-Sim的运行速度
https://blog.csdn.net/litdaguang/article/details/50012775 GPGPU-Sim(番外)-GPGPU-Sim的模拟机制
https://www.findhao.net/easycoding/2404 在docker里跑gpgpusim