主流手机CPU和GPU解析.docx
- 文档编号:30718958
- 上传时间:2023-08-19
- 格式:DOCX
- 页数:29
- 大小:1.52MB
主流手机CPU和GPU解析.docx
《主流手机CPU和GPU解析.docx》由会员分享,可在线阅读,更多相关《主流手机CPU和GPU解析.docx(29页珍藏版)》请在冰豆网上搜索。
主流手机CPU和GPU解析
[评测]德州仪器最强,英伟达次之,三星兼容性最差,高通最垃圾
德州仪器,面积最大,处理器,兼容性,发热量
首先是cpu部分,先发一组数据,芯片面积:
猎户座4210-118mm2,
a5-110mm2,
tegra3-89mm2,
ti4430-69mm2,
tegra2-49mm2。
猎户座的芯片面积最大,三星shi一样的soc能力比苹果强不了多少。
芯片面积大带来的后果就是发热量非常不好控制,所以gs2区有很多人反应发热过高就是这个道理。
就连四核的tegra3都会比猎户座好一些。
ti4430排名第三,tegra2的芯片面积最小,因而发热量最小。
发热看完了看性能,正常来讲,芯片面积越大,性能越强。
由于这几片处理器的cpu部分都是购买的armv7cortaxA9架构的授权,因此cpu架构基本是一致的,不同之处在于tegra2的内存通道控制器的位宽只有32bit,而且阉割了neon加速模块,所以在某些方面,例如软解flash和视频性能不强。
其他几款cpu都拥有neon,内存位宽都为64bit(双通道和单通道的区别不是很大)(tegra3还是32bit,不过支持ddr3内存),因而在flash和视频的支持上更好。
所以从解flash的体验上来看,四核带neon,外加3.1/2.4系统gpu硬解的tegra3最强,猎户座和ti4430的效能不相伯仲。
视频解码上由于猎户座和ti4430解码时调用的都是neon,解码能力不会有太大区别。
所以说到最后ti4430和猎户座的体验基本不相上下,一样非常流畅。
不过ti4430的芯片面积比猎户座小太多了。
因此发热量比起猎户座也会好很多。
所以论cpu的综合素质,ti4430在双核a9里面是最优秀的,没有之一。
再看gpu,ti4430使用的是超频版的sgx540,将原来的运行频率从200mhz提升至300mhz,当然性能提升没那么夸张,只有50%左右,不过已经强过了gefoceulp了。
powervr的gpu胜在兼容性最强,除了nv独占的游戏,所有的游戏都少不了它的数据包。
而gs2上的mali400,虽然比超频版sgx540的性能还要强上大概50%,但是其支持的贴图格式单一,并且不兼容许多主流特效,造成了兼容性非常差,强大的性能反倒是转变成了发热量,并变成了累赘。
所以在gpu上,ti4430在双核中也是综合素质最高的仅输于四核的tegra3。
由于高通的8260集成了基带芯片,所以封装面积达到了出奇的196mm2。
不过CPU面积大概和TI4430差不多大。
由于蝎子核心的同频效能不如cortaxA9核心,再加上由总线结构链接双核,以及每颗单独的256K二级缓存(双核A9统一是共享1M的)。
所以除了对数据流处理的方面(例如上网速度)稍快,其他的方面同双核A9有着较大差距,主要体现在通用上。
但由于其集成了neon,解flash能力和tegra2差不多,稍强一点点(流畅播优酷高清)。
视频解码能力和tegra2也差不多,只是支持hp的1080P,不过同样对mkv封装格式无力。
再说GPU部分,这代的adreno220的性能还是非常强劲的,但是由于HTC使用了坑爹的qHD分辨率,导致GPU在渲染时要多渲染35%的像素,拖慢了adreno220的表现,所以在游戏测试中输给了2X。
不过adreno220经过几代的发展,兼容性还是不错的。
综合看以上的情况,德州仪器的处理器最强,英伟达次之,,三星处理器兼容性最差,而高通8260毫无疑问是最杯具的双核。
---------------------------------------------------------
过时手机CPU:
目前市场上过时手机的Android手机使用的几大类CPU和不外乎三星的S5PC110(下面简称C110),Ti的OMAP3430(36X0),高通的Snapdragon8X50(MSM7230/MSM8225)。
Ti的OMAP3430(L164KB,L2256KB,支持256MDDR)是业界第一个运用ARM7instructionset(ARM7指令集)的CPU,Ti叫它为CortexA8(Ti完全采用ARM公司提供的构架,没有修改,所以推出产品的速度很快),正因为是第一个采用新构架的CPU,所以性能比原先的ARM11构架的U提高很多,一般认为同频下ARM7性能是ARM11的200%(顺便对诺基亚目前的旗舰机还在使用600M左右的ARM11构架的烂U表示无力,另外HTC早期的G1,G2,G3这些也使用ARM11构架的CPU)。
也正因为OMAP3430推出的时间早,所以就目前而言,已经有些跟不上主流了,问问使用MS的童鞋在升级到Android2.2之后在播放Flash遇到的问题就知道了,3430CPU最高就支持256M,不是Moto吝啬,没当初给你上个512M RAM。
OMAP36X0(支持512MDDR2)和OMAP3430的区别,就在于前者采用45NM制程,后者用的65NM制程,两个的构架都是CortexA8,并没有区别。
先进的制程带来的优点就是更高的频率和更小的耗电和发热。
不过说到频率又要说Ti和Moto的不厚道了,Milestone2和Droid2采用的OMAP3630,设计频率是800M,硬是给超频到1G在卖,Droid2国际版采用的OMAP3640设计频率1G,也给超频到1.2G卖。
虽说CPU这类产品本来就存在超频的余地,不过不按设计频率卖,总是让人不舒服的。
OMAP3430和后面的OMAP36X0都集成了SGX530的显示核心,不过因为CortexA8在65NM时代,并控制不了功耗问题,所以Ti在控制OMAP3430频率的同时,无耻的把SGX530的频率也降低了(SGX530设计频率是200Mhz,OMAP3430里面的SGX530频率只有110Mhz),这个也是为什么MS游戏跑不过3GS的原因之一,虽然两者的CPU硬件构架和规格都类似。
另外雪上加霜的是Moto在采用OMAP3430的时候,阉割了视频硬加速模块C64x+DSP,导致的后果就是MS在播放视频的问题极度不给力,不要说720P,连高码率的480P在默认频率下都难以承受,因为MS没有完整的视频硬解芯片,要软解,一软解,默认频率又不够了。
其实原本的OMAP3430在有完整的C64x+DSP的情况下,解720P视频是毫无压力,另外更加可悲的Milestone2和DroidX之类的OMAP3630同样被阉割了DSP模块,视频同样需要软解。
至于传说中MS游戏不错,这个是因为早期的游戏全部移植自IPhone平台,而IPhone硬件平台用的就是PowerVR (IPhone3G用的MBX-Lite,3GS用的SGX530,IPhone4用的SGX535),占了天大的便宜。
不过随着采用高通CPU的机器越来越多,这个优势越来越不明显(两者显示核心的对比后面说)。
接下来就是三星的C110(45NML164KB,L2512KB,支持512MDDR2),此CPU是目前CortexA8构架中最强的CPU,没有之一,采用这个CPU的有三星自家的i9000,和传魅族M9。
C110同样采用CortexA8的构架,只是修改了芯片内部的核心的排布,减少了面积(苹果IPhone4用的A4构架和C110差不多,但是简化了不需要的组件,另外把二级缓存提高到了640KB,提高了性能和减少了功耗)。
另外C110集成了SGX540,而且木有阉割DSP模块,I9000播放720P之类的视频是毫无压力、魅族前身就是做多媒体的同样无压力(自家做硬件就是好,成本节省很多啊,估计Moto阉割硬解模块也是成本的问题,顺便提一下,MS的FM模块也被Moto阉割了,缺少开关电路,所以不要奢望MS能用FM了)。
所以下次不要再出现啥MS性能杀i9000、M9之类的笑话了,就算是MS的哥哥Milestone2遇到I9000也是手下败将。
最后就是手机通讯和芯片业的地霸高通了,为啥叫地霸,因为人家手握CDMA,WCDMA专利,只要手机厂家生产了手机,就需要向高通缴费(就连国内忽悠的极度厉害的TD-SCDMA,也要乖乖的向高通交钱)。
Snapdragon8X50是高通出品基于ARM7构架,重新设计的CPU,实际性能比同频的CortexA8微高,一般认为在5%左右。
而且其功耗和发热控制的很好,1G的8250相当于600M的OMAP3430,当然因为重新设计控制功耗,Snapdragon8X50面世要比3430晚了半年多,直接导致了江湖上出现3430**高通全家的传言(当然这个流言目前还有一定程度上存在)。
实际情况是Snapdragon8X50(65NML164KBL2640KB支持512MDDR),视频解码方面,内置DSP,支持720P的H.264硬解,其他格式没开放codec,同样需要软解码。
但是因为默认频率高,所以软解480P之类的视频毫无压力。
另外Snapdragon8X50集成Adreno200,但是因为地霸高通同样没有给出codec,所以游戏厂家优化比较困难,不过目前高通意识到这个问题,已经逐步开放了Adreno的开发文档,当然这里面有因为WP7统一采用高通平台的原因,微软的影响力那是极度给力的。
可以预见以后,高通平台的游戏优化会越来越给力,而且目前高通版的游戏也已经出现了不少。
MSM7230/MSM8225(45NML164KBL2640KB支持768MDDR2)是高通的升级U,类似于Ti的OMAP3630,不过比Ti厚道显示核心升级了,内置Adreno205显示加速核心。
至于坚持TiU性能好的,可以去看看DesireZ和MS2的测试成绩,800M的MSM7230已经干翻1GOMAP3630了,更不要说DesireHD和mytouch4G这种1GMSM8225出马。
另外同时代Ti的U能支持RAM总是那么可怜,最高只能支持512M的OMAP36X0在Android3.0时代会不会和现在的MSOMAP3430一样蛋疼呢。
最后给出上面涉及的图形芯片的处理能力:
SGX530多边形生成率为1400万多边形/秒,像素填充率1.25亿/秒(因为OMAP3430的SGX530降频到110M),所以MS的处理能力只有770万,像素填充率6875万/秒.
Adreno200多边形生成率为2200万多边形/秒,像素填充率1.3亿/秒.
SGX535多边形生成率为2800万多边形/秒,像素填充率1.25亿/秒.
SGX540多边形生成率为2800万多边形/秒,像素填充率2.5亿/秒.
Adreno205多边形生成率为4100万多边形/秒,像素填充率2.45亿/秒.
因为目前的手机虽然已经有了硬加速的显示核心,但是没有显存的(发热和功耗控制不了),需要共享系统RAM,所以会严重依赖RAM的速度,这也是为啥MS超频之后能同时拉高显示核心的分数,虽然使用相同的显示核心,Milestone2比MS给力,就是因为Milestone2用的DDR2(另外Milestone2的SGX530恢复到200Mhz的默认频率).
顺便给个掌机对比下PSP多边形生成率为3300万多边形/秒,像素填充率6.64亿/秒.(就因为PSP集成了4M的RERAM超高速缓存用着显存,所以目前游戏方面,手机完全不能比)。
-----------------------------------------------------------
-----------------------------------------------------------
-----------------------------------------------------------
-----------------------------------------------------------
全球多媒体与通讯晶片厂商ImaginationTechnologies科技公司,日前(2010年12月)宣布推出了旗下高性能绘图核心POWERVRSGX554,此完全多处理器矽智财(IP)将可供内嵌设计与行动应用。
此POWERVRSGX554产品可以设置成一款高性能的八管线单核心,或设定成二至十六核心(十六至一二八管线)的多重处理器(MP:
multiprocessor)。
这次推出的POWERVRSGX554系Imagination公司旗下POWERVRSeries5XT系列产品家族的新成员,其使命是要为行动与嵌入式绘图应用带来更上一层楼的境界。
SGX554提供了完全支援DirectX9FeatureLevel3功能层级三的能力,并对此具备了最高的硬体加速性能,使得此产品非常适合运用在平板型电脑、运算装置,以及智慧型手机等领域。
SGX554不仅传承了POWERVRSGX核心的所有功能与优点,更造就了业界重视的每平方厘米性能表现(performancepermm2)以及每毫瓦性能表现(performancepermW)等新指标。
该公司行销副总裁TonyKing-Smith指出:
「此新推出的POWERVRSeries5XT系列产品成员矽智财核心将可提供新层次的嵌入式绘图功能,SGX554将可让那些对於功耗和成本锱铢必较的嵌入式应用提升至更为豁达的境界。
而透过我们所提供之无懈可击的应用程式介面(API),将可达成跨平台的支援,不论是各种常见的嵌入式作业系统还是桌上型产品的作业系统都是如此。
附带一提的是,我们已经在DX9等级的产品上连续出货达三年了,出货量可说是以百万来计算,因此,SGX554将可延用我们在过去以来对於DX9驱动程式。
这对於客户厂商来说,不仅能享受到更高的性能,还可以省去许多开发上的困扰。
」
此外,SGX554还提供了早已是桌上型产品市场的业界共识的OpenGL2.1(包括整合了DRI2、EXA,以及支援DRM的X11)、OpenGLES1.1与2.0、OpenVG1.1和OpenCL1.1EmbeddedProfile嵌入式规格等,对当今任何行动或嵌入式核心来说,此产品具备了最广泛的应用程式介面支援。
至於在软体方面,POWERVRSGX的软体堆叠(softwarestacks)业已通过严苛的Khronos和Microsoft微软遵循测试(conformancetests),可确保产品在开发过程中能得以快速推出,并且能兼容并蓄地畅游在最广泛的嵌入式和桌上型作业系统环境中。
举凡Linux、Android、MeeGo、Palm的WebOS、Nokia的Maemo和Symbian、WindowsMobile、Samsung的Bada,甚至是当今其他的作业系统之软体设定,都能让POWERVRSGX彰显其强大的功能。
本产品隶属於POWERVRSGXSeries5XT绘图处理器(GPU:
GraphicsProcessingUnit)矽智财核心家族,其功能诉求就是建立在过去以来具有显著性能且非常成功的Series5架构上,这也是早已应用在许多领域的SGX矽智财核心家族。
所有的Series5XTSGX核心都是立基於第二代通用可阶层化渲染引擎(USSE2:
second-generationUniversalScalableShaderEngine),比起前一代的Series5USSE渲染引擎,将可提供更为显著的处理吞吐能力,同时还拥有了更具架构延伸性的能力,不论是单核心还是可阶层化多重处理(MP)的解决方案,都以满足低功耗的二维与三维(2D、3D),甚至是一般用途(GP-GPU)的绘图处理要求。
-----------------------------------------------------------
-----------------------------------------------------------
-----------------------------------------------------------
显卡了解Tegra2的GeforceULP以及SGXSeries5系列构架的基本特点,并且进行了采用上述构架的iPad,iPad2以及Xoom三者的基本3D性能测试,相信大家对这两款构架的基本3D性能和特点已经有了一个大致的概念。
本期探索与发现节目中,我们除了要深入GeforceULP和SGXSeries5的构架细节,了解他们的弱点和缺陷,针对3D及flash性能等其他移动设备敏感应用进行讨论之外,还会根据这些细节深入的探讨一些关于他们背后更加核心的问题,比如说——伴随着iPad2的发布,我们是不是正在踏进另外一个比特效画质更加惊悚的无底陷阱呢?
绑好你的安全带吧,请相信我,这又将是一次头脑风暴般的阅读之旅。
●我能搞定Flash硬解……么?
Flash拥有占用空间小、因为面向对象编程而产生的极大的使用便利性以及广泛的浏览器支持度等特点,因此被广泛的使用在在线播放器,嵌入式网页广告以及动画播放领域。
现代网页上大量采用Flash动画,有时一个网页上甚至可能会同时出现大大小小十几个Flash窗口。
FlashPlayer软件
由于Flash大量采用Vector(向量数据)进行图像处理,因此对硬件的运算能力,尤其是向量吞吐能力有不小的压迫。
acfun或者bilibili之类在线视频类网站所播放的视频允许通过Flash加载玩家评论,实现与视频同步播放的“弹幕”效果,这类对向量操作使用到极致的Flash应用经常会将台式电脑的CPU,甚至是I7都“逼疯掉”,难怪有好事的玩家会将很多弹幕密集的bilibili视频作为测试CPU性能的一种手段。
bilibili截取下来的弹幕
这种对向量性能的压榨即便放在桌面平台的通用处理器上都已经难以承受了,如果把它交给需要时刻注意功耗问题而不得不牺牲性能的SoCCPU,这可以说根本就是一个不可能完成的任务。
因此,摆在手机及平板电脑面前唯一的选择,就是放弃通用性的原则,将这些向量运算任务交给专门的单元来完成。
●Tegra2的软肋
采用Tegra2的诸多手机及平板电脑刚出现的时候,最让用户关心的便是这些平板电脑的Flash硬件加速性能。
从NVIDIA公布的构架细节来看,Tegra2是拥有硬件加速Flash的能力的,异构设计的GeforceULP将传统桌面Geforce构架的ROP单元进行了拆解,从中分离出了独立的可编程混合单元PBU(ProgrammableBlendUnit),通过他来完成硬件Flash加速的工作。
由于安卓系统运行在JAVADalvik虚拟机环境下,NVIDIA甚至利用JAVADalvik先天的多线程优势为Flash应用开辟了独立的线程,这样GeforceULP的异构构架可以更好的配合CPU,充分发挥并行处理能力。
Tegra2的硬件Flash加速
然而,在实际应用过程中,大部分用户发现使用Tegra2的手机和平板电脑产品都没有达到NVIDIA官方宣称的流畅无压力的硬解Flash水平,某些场合下Tegra2平台的手机似乎可以完美流畅播放甚至是bilibili弹幕级得Flash应用,但大多数时候采用Tegra2的手机和平板电脑在遇到多Flash应用时或多或少的都会存在拖帧等不流畅的问题。
这是为什么呢?
答案其实并不复杂——因为Flashplayer10需要处理器提供支持neon指令集。
含有neon指令集的A8处理器
neon指令集是ARM构架下的一组SIMD浮点指令集,主要用于Vector指令的并行吞吐及加速执行,简单地说neon就是ARMCPU的SSE指令集。
根据Adobe及NVIDIA公布的细节,Flash的硬件加速需要CPU对Vector指令进行吞吐以及解析,在完成编码、滤镜、对象以及材质确定等基本风格处理之后才能交由GeforceULP进行处理。
如果没有neon指令集的加速,ARMCPU以纯通用处理的形式完成上述指令的吞吐不仅极其缓慢,而且会极大地增加系统的功耗。
Tegra2的Flash处理流程
不巧,Tegra2构架的CortexA9处理器,忘记把neon指令集带在身上了。
FlashPlayer10.2的要求
失去了neon指令集的支持,不仅Flash的硬解会受到影响,其他需要大量Vector吞吐的场合,比如高清视频的播放等都会受到极大地影响,这使得GeforceULP的异构设计所产生的优势被极大的削弱甚至完全抵消。
PBU可以高效同时低耗的解决Flash加速问题,VDP和VEP芯片也可以很好的完成视频加速,但如果没有neon指令集,这些单元的特性基本上都无法得到完全的发挥。
而一般用户并不知道也无需知道这些细节,他们只会埋怨NVIDIA没有提供最为优秀的产品,这使得GeforceULP乃至整个Tegra2构架的最终性能都蒙上了一层阴影, ●Imagination虽好,但光有“想象力”还不够
neon指令集的缺失让GeforceULP的最终性能受到了很大的影响,那么作为竞争对手的SGXSeries5系列构架就完美无瑕无懈可击了么?
显然不是。
作为GPU构架,SGXSeries5系列的缺陷不仅比GeforceULP更加致命,而且甚至还可能会导致一场波及整个手机及平板电脑界得巨大灾厄。
Zculling过程
这还不是最恐怖的事情,更加惊悚的是,SGXSeries5系列的缺陷,竟然就是PowerVR构架最引以为傲的技术特色——TBDR。
TBDR技术说明
TBDR全称Tile-basedDeferredRendering,它是PowerVR独特的TBR技术的一种延伸实现手段。
TBR/TBDR通过将每一帧画面划分成多个矩形区域,并对区域内的所有像素分别进行Z值检查,在任务进入渲染阶段之前就将被遮挡的不可见像素剔除掉。
由于在渲染之前进行Z-culling操作,这种充满想象力的做法极大地,甚至可以说海量的削减了最终被渲染像素的数量,不仅大幅降低了系统对像素的处理压力,更极大的节约了显存带宽及空间的开销。
TBR技术对显存的节约
●优秀的差劲技术
也许屏幕前的你可能会问我——这不是个好技术么?
又是削减工作压力又是降低显存开销的,你怎么危言耸听说它是个致命缺陷啊?
对于常规的光栅化过程来说,TBR/TBDR会带来诸多的问题。
包括深度检查耗损、频繁的Z读取、Tiles划分带来的纹理重复读取、多边形数量上升之后的scenebuffer溢出等等。
ZOccalusion检测软件——VillageMark
尽管TBDR不再像传统的TBR那样需要通过CPU来进行Z值检查,但是TBDR过程需要对画面内所有的像素进行一次“额外”的load过程,这个过程本身无
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主流 手机 CPU GPU 解析