网站公告列表

  没有公告

加入收藏
设为首页
联系本站
您现在的位置: AnalogCN安诺电子 >> 文章 >> 独家资料 >> 文章正文
  [组图]ADSP TSl01S DSP简介         ★★★ 【字体:
ADSP TSl01S DSP简介
作者:admin    文章来源:本站原创    点击数:    更新时间:2007-7-23    

 

 

    2001年末,ADI公司推出了高性能数字信号处理器ADSP TS101S,它成为新一代浮点

DSP产品的标志。

    ADSP TS101S的主要性能有以下几点:

    ·指令执行速度300 MHz,指令周期3.3 lls。

    ·片内有容量为6 Mbit的SRAM,并分为3个模块,每个模块都有单独的地址总线和数据总线相连,可以同时进行访问。核内有双运算模块,每个运算模块都包含1个算术逻辑单元(ALU)、1个乘法器、1个移位器和1个寄存器组。核内有双整数ALU,提供数据寻址和指针操作功能。

    ·I/0部分含14个直接内存访问(DMA)通道、4个链路口、1个SDRAM控制器等,片上仲裁系统还可以构成8个DSP共享总线无缝连接的多DSP系统。

    ·ADSP TS101S有3套独立的地址总线和数据总线。内部数据总线宽度扩展为128位,外部数据总线宽度扩展为64位。

    图1.1为ADSP TS101S的结构框图。

 

    其片内结构的功能模块主要包括:

    ·双运算模块,每个模块包含ALU、乘法器、64位移位器和32字的寄存器组及相关的数据对齐缓冲器(DAB);

    ·双整数AIJU(IALU),每个IALU有独立的31个字的寄存器组用于数据寻址;

    ·1个有指令对齐缓冲器(IAB),分支目标缓冲器(BTB)和中断控制器的程序控制器;

    ·3条相互独立的128位宽度的内部数据总线,每条连接3个2 Mbit内部存储器块中的1个;

    ·片内SRAM(6 Mbit);

    ·1个提供与主机处理器、多处理器空间、片外存储器映射外设、外部SRAM和SDRAM相连的外部端口;

    ·1个14通道DMA控制器;

    ·4个链路口;

    ·2个64位定时器;

·1个I—EE—E 1149.1兼容动态联合测试(Joint Test Action Group,JTAG)接口,用于在线仿真。

TigerSHARC DSP使用静态超标量体系结构,其内核能通过2个运算单元同时执行1—4条32位指令。由于DSP在运行期间并不重新排列指令顺序,用户需要在运行周期以前选择哪几条指令并行执行,故程序指令执行的顺序是静态的。除了少数例外,指令行中无论包含1条、2条、3条还是4条32位指令,ADSP TSl01S皆使用一个周期执行完毕。为了优化DSP程序的执行,程序员必须遵从指令并行执行规则。总的来说,DSP能否在单周期完成并行执行,依赖于每条指令行资源和指令中使用的源和目标寄存器。程序员能够直接控制3个内核模块——IALU、运算模块和程序控制器。在大多数情况下,ADSP TSl01S具有一个两周期完全互锁的指令流水线,因此,在任何情况下,当一个运算结果对于另一个操作来说是不能使用的时候,DSP会自动地插入一个或多个延迟周期。使用独立指令高效地编程,能够去除大部分的运算和内存传输依赖。另外,ADSP TSl01S通过两种方法来支持单指令多数据操作(SIMD)运算模块和SIMD运算。程序员能够使两个运算模块操作相同的数据(广播发布)或不同的数据(合并发布)。另外,每个运算模块能同时执行4个16位或8个8位SIMD运算。

    ADSP TSl01S的主要优点是:

    ·提供高性能静态超标量DSP操作,专门优化适用于通信和大的需要多DSP的应用;

    ·杰出的DSP算法和I/O性能表现;

    ·DMA控制器支持14个DMA通道,可完成片内存储器、片外存储器、存储器映射外

    设、链路口、主机处理器与其他(多处理器)DSP间的低开销传输;

    ·非常灵活的指令集和支持高级语言的DSP结构便于DSP编程;

    ·可扩展的多处理器系统仅需较低通信开销。

    ADSP TSl01S的综合处理能力较SHARC系列的ADSP21060系列提高了很多,例如:它的峰值运算能力达1 600 MFLOPS,1024点复数FFI'仅需32.78¨s,外部总线的数据传输速率达800 MB/s。每个链路口的数据传输速率达250 MB/s。估计,一片ADSP TSl01S的处理能力相当于8—10片ADSP21060。TigerSHARC汇编语言的代数风格与原来SHARC DSP的汇编编程风格十分相似,汇编代码也易于阅读和编写,并且像c语言一样用分号来表示指令的结束。SHARC系列DSP的循环是用专门的循环指令来处理的,能实现零开销循环。TigerSHARC系列DSP中,循环中没有DO UNTIL结构;相反,除了第一次循环和最后一次循环外,循环的分支目标缓冲(BTB)为循环体中的所有指令提供了零开销的循环。对于简单的循环,使用两个自动的循环计数器就能实现。两个计算块能提供早期的SHARC系列DSP两倍的浮点数乘法效率。处理时钟由40 MHz变到300 MHz,总的处理速度性能比SHARC系列处理器提高约12倍。与其他公司生产的同档次DSP比较可知,ADSP TSl01S也是一个综合性能更为优异、性价比更高的产品。

    1.ADSP TSl01S与TMS32006416比较

    1fI公司和ADI公司是DSP芯片的两大主要供货商,也代表了DSP领域的最高技术。TMS320处理器主要基于VLIW(超长指令字)结构,而TigerSHARC系列DSP在结构设计时更强调系统的平衡性。表1.1给出了ADI与TI公司性能基本相当的DSP的部分性能比较。可以看出,如果看一片DSP的某些运算能力的话,ADSP TSl01S显然不如TMS320C6416。但是ADSP TSl01S具备浮点功能,这对于一些数据动态范围大,或者要求软件开发周期较短的应用来说比较有用。从存储器方面看,两者差不多,都有较大的片内存储器和丰富的外接存储器接口。从多片互联来看,ADSP TSl01S有很大的优势,它除了有完善的总线仲裁机制外还有4个链路口。可以用各种拓扑结构连接DSP,满足一些大运算量的要求。另外它提供的Flag

信号对于测试非常方便。尽管r11的DSP也可以互联,但是机制比较复杂。

 

    串口对于通信领域的应用来说非常重要,ADSP TSl01S没有集成串口,应该说这是一个

遗憾。而TMS320C6416集成了3个多通道串口。对指令系统而言,ADSP TSl01S的指令容易学习记忆,1fI的DSP指令比较难以掌握。

    2.ADSP TSl01S与PowerPC比较

    目前已有的处理器在结构上有很大的差别,且应用于不同场合的高性能计算。Tiger—SHARC DSP代表了DSP的传统应用,延迟小,采用DMA引擎,主要针对嵌入式实时应用,如雷达、声呐、无线通信和图像处理。与此相反,PowerPC处理器采用IuSC,主要应用于苹果计算机的高性能G4工作站,由于其很高的时钟率和功能强大的AltiVec向量处理引擎,它在某些嵌入式信号处理应用中也取得了较大的成功。

    显然,采用AltiVec核的G4 PowerPC有更高的时钟频率,如表1.2所示,PowerPC的时钟频率是ADSP TSl01S时钟频率的3.3倍。当然,ADI公司随后发布的ADSP TS201S和ADSPTS202S也采用了更高的时钟频率。

    在每个周期中,AltiVec核对由4个分离的32位数据元素组成的128位向量执行一条单指令,这也就是所谓的SIMD结构。当对向量执行乘累加(MAC)指令时,能到达峰值处理能力,对于1GI-lz的lVlPC7455,每周期产生8个浮点操作,峰值处理能力达8 000 MFLOPS(每秒执行百万次浮点操作数)。此外,AltiVec每周期可以执行8个整数操作,达8 000MOPS(每秒百万次操作)的峰值整数性能。

    与之相对应,TigerSHARC lISP有两个独立的32位处理器核,或者多指令多数据流MIMD)结构。每个处理单元都能在单周期执行一次乘法,以及加法,对于300 MHz的ADSP TSl01S。每个周期能产生6个FLOP,峰值处理器能力到达1 800 MFLOPS。当执行16位整数运算时,TigerSHARC能够将两个独立的32位计算单元分成两个16位的SIMD单元,这样,每个周期每个SIMD单元都可以对两个操作数进行操作,总共每周期可以实现12次操作,实现其超标量结构。此外,TigerSHARC还有另外两个16位的整数引擎,每周期能实现12个以上的操作,因此,TigerSHARC每个周期可以实现24个整数操作,共7 200 MOPS。

    由于大部分信号处理应用都是受到数据输入/输出处理流的限制,而不是处理器的数据

处理能力的限制,这样,充分理解处理器的I/O能力和向量处理器传输数据的能力,就显

得十分重要。衡量这种关系的一个重要指标就是I/O带宽与处理性能比(BPR),即处理器

的峰值I/O带宽(MB/s)除以处理器的峰值处理能力。对于连续信号处理结构,1 BPR(1B/FLOP)意味着对于处理器执行的每个浮点操作,处理器可以从片内/外移动一个字节。如果BPR比较高或者小于1B/FLOP,表示该处理器结构更适合数据移动,而不是连续的信号处理。 PowerPC处理器支持缓冲的共享存储器结构,有较高的处理带宽。然而,所有的处理器I/O都必须流经MPC核控制芯片之间的64位系统总线。对于MPC7410,流经任意一个节点的峰值I/O带宽是1 000 MB/s,而MPC7544是1 064 MB/s,如表1.2所示。AltiVec功能强大,然而这么高的I/O带宽仍然赶不上处理器核。MPC7544的峰值处理能力达8 000 MFLOPS,然而它只能移动1 064 MB/s的数据,其BPR只有0.13 B/FLOP,这就说明该结构不具备平衡的I/O处理能力。因此,PowerPC对于块数据处理(例如相对低速的数据流计算)十分有效,但对于连续的信号处理(高速数据流,少量计算)就不是很有效。

    TigerSHARC为多种信号处理设计,提供了64位的共享系统总线和4个链路口。数据在

外部总线上的传输率可以到达800 MB/s。此外,数据也可以通过链路口传输,每个链路口

的传输率到达250 MB/s。整个TigerSHARC芯片的I/O带宽到达1 800 MB/s。TigerSHARC的BPR是1.0 B/FLOP,表示该芯片有一个平衡的结构,适用于连续的信号处理。1024点复数FFT运行时间是最普遍使用的性能指标,通常用于评估处理器的信号处理性能,如表1.3所示。采用这个指标,是因为它易于量化,且FFT是普遍的信号处理算法,在很多领域中都使用,它能评估处理器的数据处理能力和数据传输I/O能力。

 

    由于PowerPC有高的时钟频率,其1 024点复数FFT的性能指标更高。然而,Tiger.

SHARC在实现完美的信号处理算法时更有效。这是因为它移动数据的能力很好,具有平衡

性,能在单周期内执行蝶形运算。AltiVec核时钟比TigerSHARC处理器快3.3倍,但在实现1024点复数FFT时,只快2.4倍。因为TigerSHARC能在9 750个周期能完成1 024点复数FFT计算,而PowerPC需要13 000个周期。因此,在处理1024点复数肿时,TigerSHARC

的处理效率比PowerPC高33%。实际应用时,数据必须首先输入,然后处理,最后输出,通常希望能同时进行。在连续的1024点复数FFT中,处理器应尽可能在每秒进行更多次1 024点复数FFT。连续的复数FFT通常用于频谱分析,脉冲压缩和频域滤波。

    每个1024点复数FFT需要8 KB的数据输入和8 KB的数据输出,总共16 KB的数据流。

通过将I/O处理器的带宽与1024点复数FFT的性能指标进行比较,就能确定处理器是否受

到带宽和处理性能的限制。

    PowerPC有很高的时钟频率和功能更强大的处理器,更适合于后端数据处理。对于连续

的实时信号处理,比如图像、雷达、声呐、信息情报和其他需要高速数据吞吐率的应用,

TigerSHARC能动态超过PowerPC,是更好的选择。

文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    最新热点 最新推荐 相关文章
    前置放大器在移动医疗服务系
    便携式多通道大容量生理信号
    防腐监测仪的设计与应用
    基于AD1674的酶标仪的设计
    基于C/S模式的JRTPLIB库的测
    ffmpeg与jrtplib相结合应用
    blackfin模拟摄像头驱动中的
    可编程逻辑在数字信号处理系
    发现VDSP4.5一个BUG:单步调
    VDSP5.0双核工程下sml3中的变
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    版权所有:AnalogCN安诺电子 湘ICP备06016315号