各位大神,我使用CCS5.5 + 仿真器验证C6655的矩阵相乘A*B=C的性能,矩阵A、B、C都是1024×1024,使用的是DSPLib的DSPF_sp_mat_mul函数,得到的GFLOPS为0.1,与理论上线值 20 GFLOPS 相差甚远,求各位大神指点一下。
Allen35065:
因为你用的内存很大,需要考虑内存冲突的问题,如果放在DDR内,是不是打开了Cache以及相关内存的Cache属性。
很多时候受限的是DDR的读写效率。
liu liu13:
回复 Allen35065:
你好,的确是Cache没有开,用仿真器的gel文件,怎么打开Cache呢???谢谢!!!