cache性能评估PPT文档格式.pptx
- 文档编号:14281605
- 上传时间:2022-10-21
- 格式:PPTX
- 页数:19
- 大小:204.16KB
cache性能评估PPT文档格式.pptx
《cache性能评估PPT文档格式.pptx》由会员分享,可在线阅读,更多相关《cache性能评估PPT文档格式.pptx(19页珍藏版)》请在冰豆网上搜索。
方案1:
分立cache设计,指令和数据cache独立,分别为16KB;
方案2:
指令和数据cache合并,总共为32KB;
这里的load和store操作命中时额外地需要一个时钟周期,因为只有一个cache端口满足请求。
假定cache命中需要1个周期,缺失代价为100个周期;
并且假设36%的存储器访问为数据访问。
其中下图显示每一千条指令发生的缺失次数:
每一千条指令的缺失率,首先计算缺失率,缺失率的定义:
每条指令的缺失次数/每条指令的内存访问此处;
或1000条指令的缺失次数/1000条指令的内存访问次数;
16KB指令cache,其缺失率可以表示为:
缺失率的计算,16KB数据cache,其缺失率表示为:
一体32KBcache的缺失率可以表示为:
分立cache总的缺失率,分立cache的缺失率由指令和数据两部分构成:
一体cache的缺失率:
平均存储器访存时间,那么对于分立cache:
那么对于一体cache:
存储器访问时间和处理器性能,能够用cache缺失引起的平均存储器访问时间来预测处理器性能呢?
1.其他原因也可引起停顿;
2.取决于cpu的类型,如果是乱序就不行了;
为了预测,我们作两个假设:
1.忽略其他引起停顿的原因;
2.假设cpu是顺序运行的;
CPU时间的定义,那么cpu时间的公式:
案例,假设某顺序执行的处理器,其平均缺失率为2%,平均每条指令要访问存储器1.5次,cache缺失代价为100个周期;
此处将cache命中时间包含在cpu执行时间内,cpu理想的cpi为1.0。
比较cache的存在与否,对于性能的影响。
我们首先对原来的cpu时间进行简单的变换:
将题目中的参数依次代入,得到:
从上述的结果可见,在cache的情况下,cpi为4.0;
如果没有cache,又考虑存储访问时间的话:
cpi增加到1.0+100*1.5即为151,即为带有cache系统的40倍。
结论:
cache对于低cpi和高时钟频率的cpu的性能影响尤其重要;
最小平均访问时间=性能最好?
我们在设计系统时,是不是该以最小化平均存储器访问时间为目的呢?
很有道理,但是也有例外。
比如下面的例子:
假定cache为理想状态,cpi为2.0,时钟周期时间为1.0ns,平均每条指令访问存储器1.5次;
另外由于增加组相联后,增加cache访问的复杂性,因此2路组相联的命中时间扩展为原来的1.25倍;
两个cache的容量都是64KB,块容量为64字节,一个cache采用直接映射,另一个cache采用2路组相联映射;
命中时间均为1个时钟周期,并且假定直接映射和2路组相联的cache缺失率分别为1.4%和1.0%;
两者的缺失代价都为75ns;
根据平均存访问时间:
平均存储访问时间=命中时间+缺失率缺失代价可以得到直接映射和2路组相联的平均存储访问时间:
可见2路组相联的内存访问性能更好。
那内存访问性能好,是否意味着cpu的性能好呢?
回到之前的cpu性能公式:
适应本题给出的参数,需要对上述表达式作必要的变换:
用75ns代替上述公式中的(缺失代价时钟周期数),则采用不同的cache组织路数:
从上面的数据,我们可以得到2路组相联的处理器性能反而不如直接映射。
性能的考察最终还是得从cpu时间入手。
考虑乱序的情况,之前考虑的处理器都是顺序执行的,这里我们考虑乱序执行的情况。
乱序执行的特点:
即使当前的指令因存储延迟而停顿,后面的指令还是能够继续执行。
此处,我们就需要对之前的公式进行修正:
重复之前的例子,假设现在的缺失代价为75ns,并且其中30%是重叠的,也就是说平均CPU存储器停顿时间现在为52.5ns。
乱序处理器(OOO)的处理器的平均存储访问时间是:
OOO处理器的性能为:
由此可见,乱序处理器因为能够重叠30%的缺失代价,速度能快一点。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- cache 性能 评估