高效基带信号处理系统和方法

xiaoxiao2020-10-23  13

高效基带信号处理系统和方法
【专利说明】
[0001] 本申请要求2012年12月11日递交的发明名称为"高效基带信号处理系统和方 法"的第13/711,325号美国非临时专利申请案的在先申请优先权,该在先申请的内容W引 用的方式并入本文。
技术领域
[0002] 本发明通常设及通信系统,尤其设及一种高效基带信号处理系统和方法。
【背景技术】
[0003] 大体来说,业界对于无线基带信号处理的广泛实践基于该样一个认识;尽管定点 算法设计过程是枯燥并且耗时的工作,通常需要相当一部分的研发(R&D)时间和资金投 入,而浮点计算则不需要,但是与定点运算相比,浮点运算的建立没那么经济合算并且运行 功效低。
[0004] 无线通信如今已经成为每个人日常生活的一部分。无线射频链路将手机与蜂窝网 络连接起来,蜂窝网络又与互联网相连,为人们提供基本的语音通信W及各种其他业务,例 如短信、电子邮件、互联网访问W及其他业务应用。典型的移动手机应用的无线覆盖范围从 小的小区应用的几百米到农村地区的宏小区应用的10公里之间变化。人们在家里使用无 线局域网,即"WiFi",WiFi使得笔记本电脑和智能手机等便携式计算设备无缝地接入互联 网。WiFi的覆盖范围最多至一百米。藍牙是另一种流行的无线技术,具有更小的覆盖范围, 最多只能至10米。藍牙最初旨在替代有线电缆。如今,藍牙技术广泛应用于手机,用于在 手机听筒与附近的手机之间建立无线连接。
[0005] 该些处于无线链路每一侧的无线通信系统,无论其覆盖范围大小,具有至少一根 发射机天线和至少一根接收机天线。通常采用的天线配置包括接收机分集(两根或两根W 上接收天线)、发射机波束成形(两根或两根W上发射天线)和MIMO(多输入多输出)(多 根发射机和接收机天线)。
[0006] 在移动手机通信中,通信链路的一侧为移动台,而另一侧为基站。在基于GSM 的3GPP系列标准中,GMSK(2G)和邸GE(2. 5G)都采用接收机天线分集,而WCDMA(3G)和 LTE(4G)采用波束成形和/或MIMO。GMSK/邸GE-般设及时分多址(TDMA)(物理层链路) 技术,WCDMA采用码分多址(CDMA)技术,而LTE的下行链路采用正交频分多址接入((FDMA) 技术,上行链路则采用单信道频分多址(SC-抑MA)技术。该=种不同的物理链路技术分别 需要=种截然不同的基带信号处理技术。

【发明内容】

[0007] 根据一个实施例,提供了一种通信设备中进行数字基带信号处理的方法。该方法 包括;使用第一浮点处理单元进行基带信号处理过程的多天线检测部分,W及使用半精度 浮点处理单元进行该基带信号处理过程的所有其他部分。该第一浮点处理单元的位宽大于 该半精度浮点处理单元的位宽。
[000引根据另一实施例,一种装置包括数字信号处理器,用于:使用第一浮点处理单元进 行基带信号处理过程的多天线检测部分,W及使用半精度浮点处理单元进行该基带信号处 理过程的所有其他部分。该第一浮点处理单元的位宽大于该半精度浮点处理单元的位宽。
[0009] 根据又一实施例,一种通信设备包括数字信号处理器,用于;使用第一浮点处理单 元进行基带信号处理过程的多天线检测部分,W及使用半精度浮点处理单元进行该基带信 号处理过程的所有其他部分。该第一浮点处理单元的位宽大于该半精度浮点处理单元的位 宽。
【附图说明】
[0010] 为了更完整地理解本发明及其优点,现在参考W下结合附图进行的描述,相同的 数字表示相同的对象,其中:
[0011] 图1示出了可W由根据本公开的高效基带信号处理系统实现的示例性通信系统;
[0012] 图2示出了根据本公开某些实施例的包括图1中基带处理子系统的若干组件的例 子;
[0013] 图3A、图3B和图3C示出了根据本公开实施例的分别实现增强型数据GSM演进 (邸GE)、码分多址接入(WCDMA)和长期演进(LT巧技术的示例性基带信号处理子系统;
[0014] 图4A、图4B和图4C示出了根据本公开实施例的分别实现邸GE、WCDMA和LTE技 术的接收机中的示例性基带信号处理子系统;
[0015] 图5示出了根据本公开实施例的用于进行基带处理的示例性片上系统(SoC);
[0016] 图6A和图6B分别示出了本公开实施例可W采用的16位半精度浮点格式和28位 浮点格式;
[0017] 图7示出了根据本公开实施例的可W供图5中的SoC用于处理一个或多个输入的 基带流的示例性流程;
[001引图8示出了根据本公开实施例的示例性累积架构;
[0019] 图9示出了根据本公开实施例的用于实现可变精度浮点计算的示例性流程;
[0020] 图10示出了根据本公开实施例的用于执行多天线检测过程中各种计算步骤的示 例性流程图1000。
【具体实施方式】
[0021] W下讨论的图1至10W及该专利文档中的各种实施例仅用于通过举例说明的方 式描述本发明的原理,而不应W任何方式理解为对本发明范围的限制。本领域技术人员可 W理解的是,本发明的原理可W通过任何一种设置合理的设备或系统实现。
[0022] 图1示出了可W由根据本公开的高效基带信号处理系统实现的示例性通信系统 100。W下描述可W参考符合一个或多个通信规范/标准的通信系统。但是,该基带信号处 理系统可W由任何合适类型的发送和接收数字格式的数据的通信系统来实现。
[002引通信系统100包括RF子系统102,其中,RF子系统102包括带有发射机路径和接 收机路径的收发器。RF子系统102也可称为"RF前端"。RF前端102的发射机部分接收基 带信号处理子系统104生成的数字基带信号,将该信号升频,并通过一根或多根天线108将 其作为RF信号(例如,在RF载波中)发送。接收机部分通过所述一根或多根天线110接 收RF信号并将该RF信号降频为数字基带信号,W供基带信号处理子系统104进行后续处 理。
[0024] 虽然从物理或逻辑上看,数模转换器值A0112和模数转换器(AD0114为RF前端 102的一部分,但可替代地,DAC112和ADC114可W看作是基带信号处理子系统104的一 部分。
[0025] 链路/应用子系统106包括媒体访问控制(MediaAccessControl,MAC)处理系 统116。MAC处理系统116负责将用户信息(数据)流组合为用于RF传输的报文,W及从 接收到的数据流中为每个用户提取信息流。应用处理系统118与用户应用(比如通信系统 100中的多媒体处理)相关。
[0026] 通信系统100可移动/固定用户站或者基站的形式实现。在接收机路径上, 射频子系统(RF前端)将射频(R巧信号从载频降频至基带;在发射机路径上,RF子系统将 基带信号转换为载波频率进行RF传输。基带子系统通常称为该通信系统的"物理层"。多 访问控制(MAC)子系统负责将用户信息流组合为用于RF传输的报文,W及从接收到的数据 流中为每个用户提取信息流。应用处理与用户应用(例如多媒体处理)相关。
[0027] 根据本公开某些实施例,基带信号处理子系统104包括片上系统(SoC) 120,该片 上系统120用于为接收到和/或已发送的信号进行基带信号处理过程。下面将详细介绍该 SoC120的细节。
[002引图2示出了根据本公开某些实施例的包括图1中基带处理子系统104的若干组件 的例子。具体地,图2中的基带处理子系统104包括基带处理组件202和前向纠错(阳C) 组件204。传输路径中的阳C组件204进行信道编码,将冗余比特引入用户信息比特流,并 在接收机路径上进行信道解码,使用冗余比特来纠正移动信道产生的误码。传输路径中的 基带信号处理组件202的作用是从已编码的比特流中生成用于RF传输的基带信号。接收 机路径中的基带信号处理组件202的作用是从接收到的基带信号中恢复传输的比特流。
[0029] 基带信号处理组件202的传统实现方式是采用定点计算,该些定点计算在数字信 号处理系统(比如数字信号处理器值SP))内的软件(SW)中进行和/或在通常称作硬件加 速器(HAC)的硬件应用专用集成电路(ASIC)中进行。该一做法为业界广泛采用的原因是 人们相信与定点实现方式相比,通过浮点实现基带信号处理的方式更加复杂(设计和制造 没那么经济合算)且功效低。
[0030] 在微处理器、DSP和HAC等数字处理器中进行基本数字数值运算和扩展数字数值 运算的逻辑元件有加法器、乘法器等等。扩展运算包括平方根、除法等需要大量数字处理的 运算,因此复杂程度高。数字处理器的整体性能通常取决于其包含的逻辑元件的速度和能 效。
[0031] 加法器和乘法器等的设计很大程度上取决于它们所运算的数字的格式表示方式。 微处理器和DSP等的成本与实现其包括的逻辑元件所需要的娃片面积大体上成正比。为最 终成品提供具有竞争力的设计时,需要考虑的一个重要因素是提升进行数值运算所需的速 度。此处采用的数字的浮点表示方式能够对数值运算的速度W及实现方式所需娃片面积具 有实质性的影响。根据某些实施例,相对于传统的定点处理系统,SoC120可 W通过与基带 信号处理组件202关联的浮点处理提供相对更加高效的处理。
[0032] 图3A、图3B和图3C示出了根据本公开实施例的分别实现增强型数据GSM演进 (邸GE)、码分多址接入(WCDMA)和长期演进(LTC)技术的示例性基带信号处理子系统300、 310和320。根据3GPP规范/标准,该些基带信号处理子系统的传输的实现相比接收的实现 相对简单。但是,出于各种权衡考虑因素,链的不同部分可通过不同的软件(SW)/硬件(HW) 分区实现。为了遵循无线电频谱规范/标准并提高RF传输的功率放大器的效率,基带信号 处理还可W包括邸GE和LTE无线传输中的预失真处理。
[0033] 关于图3C,接收一个或多个数据流并在一个或多个扰码块322中进行加扰;调制 该数据并在一个或多个映射块324中进行映射,并通过层映射块326进行层映射。应当理 解的是,该些过程一般由链路/应用子系统106执行。基带信号处理系统328接收该已加 扰和映射的数据。
[0034] 在基带信号处理系统328内,通过预编码块330对接收到的数据进行预编码,通过 一个或多个RE映射单元332进行RE映射,W及通过一个或多个快速傅里叶逆变换(IFFT) 块334进行转换W生成数字基带信号。该生成的基带信号然后被转发到RF前端进行RF传 输。可W理解的是,生成基带信号的基带信号处理可W通过上述SoC120执行。
[0035] 图4A、图4B和图4C示出了根据本公开实施例的分别实现邸GE、WCDMA和LTE的 接收机中的示例性基带信号处理子系统400、410和420。与传输过程不同,无线接收机产品 最重要的特点是该些无线接收机包括移动/固定用户站。通常情况下,研发(R&D)投资中 重要的一部分就是基带接收机的设计和算法,对整个RF系统的RF链路性能、软件和硬件的 复杂度W及软件开发与维护的成本起到最终决定作用。
[0036] 关于图4A,实现邸GE解码过程的基带信号处理子系统400包括均衡器系数计算块 402,其中,该均衡器系数计算块402可W用于多天线配置或者提供基于单时隙自适应的多 用户信道承载语音业务(VAM0巧协议,其中,VAM0S协议可W需要比半精度浮点处理器提供 的精度更高的精度。因此,在某些实施例中,具有大于16位的精度的浮点处理单元可W用 于执行下面详细描述的多天线检测。
[0037] 特别是关于图4C,基带信号处理子系统422从RF前端接收一个或多个流。对接收 到的信号进行各种处理,包括采用CP去除块424进行的循环前缀(CP)去除处理W及通过 DC去除块426进行的直流分量去除处理。然后,采用FFT块428进行快速傅里叶变换(FFT) 处理W及通过信道估计块430进行信道估计处理W生成已恢复的数字基带信号。
[003引进一步地,链路/应用子系统106对已恢复的数字基带信号进行处理,其中,链路 /应用子系统106可W包括MIM0解码块432、符号处理块434、比特处理块436W及重构造 块438,W便恢复底层传输的数字数据。特别地,MIM0解码过程432可W实现多天线检测过 程,其中,多天线检测过程可W需要比半精度浮点处理器提供的精度更高的精度。因此,可 W采用具有大于16位的精度的浮点处理单元进行多天线检测处理。下面将详细描述该多 天线检测处理。
[0039] 在大部分情况下,无线蜂窝网络(比如邸GE、WCDMA、LTE、通用移动电话系统 ("UMTS")、全球移动通信系统("GSM")W及其他无线和有线通信系统)中使用的基带调 制解调器巧片的设计采用定点数表示方式。无论对于通过灵活性低的硬件娃电路实现基带 算法的HAC电路,还是对于包括并允许软件可编程的DSP,情况都是如此。目前市场上大部 分的基带信号专用DSP内核都采用定点运算W达到必要的性能要求,比如达到无线链路性 能要求。一般来说,对于高效的基带信号处理,传统的浮点数格式太过复杂,因此会引入更 多的口w及功耗。
[0040] 即使在支持多模式操作的传统系统中,该些系统通常情况下还是将基带信号处理 分成使用HAC的硬件实现方式或者DSP中的软件实现方式。不管是硬件实现方式还是软件 实现方式,业界普遍的做法是通过使用定点计算来实现基带信号处理算法。该是由于人们 普遍认为假设浮点包括32位的单精度浮点,浮点实现起来更加复杂(例如,建立成本高且 运行功效低)。该一观点促进了定点DSP处理器或者定点HAC的开发W及在片上系统(SoC) 中进行无线基带处理的使用。正是由于该个原因,几乎所有的基带信号处理算法都为定点 处理而设计。基于定点的单一处理算法设计是一项特殊的技术,需要在产品研发过程中耗 费时间并且进行枯燥乏味的尝试。W下一般性地描述了开发定点基带信号处理算法的设计 流程。
[0041] 对于在DSP中(例如,通过软件)实现的基带信号处理算法,市场上的定点DSP通 常W16位计算单元进行设计。当需要更高的精度时,将两个或两个W上的16位计算单元 合并成一个更高精度的计算单元。为适应信号变化,需要动态检查变量W找到该些变量的 前导最高有效位(MSB)在16位寄存器中的位置,并且对寄存器中变量的比特进行必要的移 位W确保该些比特最好地利用16位寄存器。为了节约在线检查的成本,MSB位置经常通过 算法分析确定,因此该种方法不如在线检查理想。有了算法预测的MSB位置,在定点算法设 计中采用溢出保护的饱和处理。因为是人为处理,实际上难W在计算的每一步都能最优化 地使用16位寄存器和计算。因此,定点设计存在大约0. 5-1. 0地的损耗是正常现象或者是 不可避免的。为了减少该损失,采用精细粒度的移位/饱和运算,但DSP的效率会降低。移 位/饱和运算不仅会增加处理的负担,而且会打破计算通道,因而严重影响DSP功效和DSP 性能。因此,必须在无线电性能损失和DSP性能损失之间进行权衡。
[0042] 对于HAC中实现的基带信号处理算法,为每一步计算的变量分配位宽都必须谨慎 设计。为了更好地利用分配的比特W及避免发生溢出,移位/饱和处理还用在了硬件设计 中。它与DSP中的软件实现方式的主要区别是利用了更加精细的粒度控制的位宽分配。但 是,该样还是不能实现最优化的功效而且也会造成RF链路性能损失。
[0043] 由于对提高数据速率的需求的激增W及昂贵的获取带宽价格,多天线技术应运而 生,例如,WCDMA和LTE中提高频谱效率(例如,更多比特/赫兹)的MIM0技术。然而,MIM0 要求设及更加动态的范围和精度的计算。人们已经感觉该一对动态范围和精度的额外要求 让使用定点DSP的效率严重降低。为了适应该些新要求,几家生产商将若干定点16位计算 单元合并成单精度(即32位)浮点计算单元,为无线基带处理开发出了现有技术定点DSP 内核的扩展。但是,该些系统全部都很复杂、成本高,而且没有考虑目前使用的不同射频技 术。
[0044] 由于更多的不同的无线链路技术同时应用在本领域中,就需要各种基带信号处理 方法和系统/装置来减少运营商侧的运营成本W及降低厂商侧的开发成本。另外,还需要 基带信号处理平台,能够为2G、3G或者4G射频技术提供软件配置,甚至可能同时兼容该S 代技术。
[0045] 图5示出了根据本公开实施例的用于进行基带处理的示例性片上系统(SoC) 500。 图5所示SoC500的实施例仅用于举例说明。SoC500的其他实施例可在不脱离本公开范 围的情况下使用。
[0046] SoC500包括DSP内核502和ASIC内核504。该DSP内核502包括用于存储数据 的层1 (L1)数据存储器506a,W及用于存储程序指令的L1程序存储器50化。在DSP内核 502内,存在非常长指令字(VLIW)处理器单元508 (用虚线所示)。化IM处理器单元508 包括一个或多个标量寄存器510、一个或多个单指令多数据(SIMD)寄存器512W及一个 或多个地址寄存器514,化IM处理器508还包括一个或多个定点(FX巧标量算术逻辑单元 (ALU)516、多个浮点(FLP)SIMDALU518W及一个或多个加载/存储(Ld/St)单元520。该 些单元之间通过一个或多个总线522和524进行通信禪合和相互连接。应当理解的是,FXP 标量ALU516通常进行整数参数计算而且通常不用于基带信号数据处理。另一方面,多个 浮点ALU518共同进行基带信号数据处理。
[0047] 浮点ALU516通常包括多个半精度(即16位)浮点处理单元,其中,该多个半精度 浮点处理单元可W相互独立运作或者可W合并成具有超过16位粒度的浮点处理单元。例 如,两个或者两个W上半精度处理单元可化合并形成单精度(例如,32位)浮点处理单元。 在本公开特定实施例中,两个或两个W上的16位浮点ALU可W合并起来,生成能够实现28 位浮点ALU的浮点ALU。
[0048] 发明人发现28位浮点ALU为关键的基带处理步骤,例如WCDMA和LTE基带处理中 实现的多天线检测W及邸GE基带处理中实现的均衡器系数计算,提供足够的精度。
[0049] 因此,根据一个实施例,DSP内核508可W执行多天线检测处理和/或使用由两个 或两个W上半精度ALU518合并形成的单个28位处理单元执行均衡器系数计算,并且使用 相互独立的半精度ALU518执行所有其他基 带处理。在其他实施例中,两个或两个W上半 精度ALU可化合并形成具有任意程度的精度的单个浮点ALU,例如精度少于28位或大于28 位的浮点单个ALU。另外,其他实施例可W包括单独配置的半精度浮ALUW及精度大于该半 精度ALU的其他浮点ALU。
[0化0] 本公开挑战传统观点,介绍了实现无线基带信号处理的一套基于浮点运算的技 术,实现了功率的显著降低W及循环效率的显著提高,并且缩短了设计时间。本公开描述的 技术可W建立成本低、运行功效高,并且RF链路性能不会或者很少产生损耗。下面将具体 描述该几项新技术,包括;(1)通过浮点运算DSP进行的无线基带信号处理设计流程;(2) 用于无线基带信号处理的基于浮点运算的DSP架构;(3)通过浮点运算进行基带信号处理 的设计流程。
[0化1] 发明人发现除了在接收机基带信号处理中与多天线检测相关的矩阵元素计算和 矩阵求逆需要更精确的浮点计算(例如,精度大于16位)外,所有基站基带信号处理都能 够使用16位浮点计算执行,并且能够提供可接受程度的操作特征。因此,在那些情况中提 出了更高准确性(例如,大于16位的精度)的浮点计算单元。
[0化2] 概括地,本公开提出并描述了一种通信设备,该通信设备具有包括16位浮点计算 单元(例如,16位ALU)的基于DSP的基带信号处理系统。换句话说,使用至多16位的浮点 计算来执行基带信号处理。在该通信设备实现多天线检测(例如,MIM0)的实施例中,其中 的接收机包括具有28位浮点计算单元的基于DSP的信号处理系统。
[0053] 对于与本公开相关的更多信息,可W参考美国专利申请序列号为13/452701的发 明名称为"用于浮点格式的数字信号处理器的系统和方法"的发明专利W及美国专利申请 序列号为13/452690的发明名称为"用于数字信号处理器中的信号处理的方法和系统"的 发明专利,该两项在先申请的内容w引用的方式并入本文。
[0054] 尽管图5示出了可W用于提供高效基带处理的示例性SoC500,但是仍可W对图5 做出各种不同的改变。例如,图5仅仅示出了浮点DSP内核502W及ASIC内核504的示例 性布置。在其他例子中,浮点DSP内核502可W在不同于实现ASIC内核504的单片实现。 另外,浮点DSP内核502的元素可W相互独立实现,比如定点标量ALU516相对于浮点SIMD AL呪18独立实现。
[0055] 图6A和图6B分别示出了本公开实施例可W采用的16位半精度浮点格式和28位 浮点格式。16位格式所表示的变量可由如下公式给出:
[0化6]
[0057] 其中,S为符号化rij为第j个有效指数化m巧第k个有效位。类似地,28位格 式所表示的变量可由如下公式给出:
[005引
[0059] 其中,S为符号化rij为第j个有效指数位,m巧第k个有效位。
[0060] 返回参阅图3A-3CW及图4A-4C中的传输和接收基带信号处理流程,图4A中的 邸GE均衡器系数计算块和图4C中的LTEMIM0检测块可W需要高于16位的精度的浮点计 算。该两个块都可W与多天线检测相关。当不存在接收机分集时,邸GE均衡器系数计算不 需要更高的精度,因此,16位浮点计算已经足够。应当理解的是,设及通过接收机进行多天 线检测的基带信号处理的浮点比特的最小个数取决于接收机前端底噪和接收天线经历的 衰落信道的相关系数,其与空间分离相关。接收机前端的底噪越低,多天线检测需要的精度 就越高。天线(比如,闭合器天线)的相关性越高,多天线检测需要的精度就越高。
[0061] 图7示出了根据本公开实施例的可W被图5中的SoC500用于处理一个或多个输 入的基带流的示例性流程。
[0062] 在步骤702中,SoC500确定是否要执行多天线检测过程。若执行,则处理继续至 块704,进行矩阵元素计算。若不执行,则处理继续至步骤706,确定累积函数是否包括超过 64个元素。若是,则在步骤708中将全部数量的元素分成多个具有64个元素的独立块,在 步骤710中对该些块中的每一块单独执行累积函数,随后使用半精度ALU712将其全部加 起来W在步骤714中完成累积操作。
[0063] 现在描述矩阵元素计算块704的处理。根据前文所述,当在步骤702中检测到多 天线检测过程时,可W执行矩阵元素计算块704。在步骤716中,SoC500确定多天线检测 是否设及超过八个元素。若否,则处理继续至步骤718,使用半精度ALU进行计算。但是,若 多天线检测设及超过八个元素,则在步骤720中使用28位的ALU。从步骤718和720中进 行的中间计算,在步骤722中计算矩阵方程,并且在步骤724中进行矩阵求逆计算。
[0064] 在步骤726中,SoC确定是否要处理其它块。若是,则处理继续至步骤722。但是, 若没有待处理的其它块,则处理继续至步骤728,该过程结束。
[00化]参考步骤702所示,上述流程识别出函数需要16位浮点运算还是更高准确性(比 如,28位)的浮点运算。另外,执行一些附加步骤W确保在步骤706至步骤714中的溢出保 护和精确性降低保护。
[0066] 由于浮点表示可W具有很大的动态范围,因此在大型通信系统中可W只有一些点 需要溢出保护。虽然在定点系统中难W实现溢出保护,但是由于无需在线确定缩放因子, 浮点系统中的溢出保护相对容易实现。预定的缩放因子就足够了,并且该缩放因子可W是 2的幕次(例如,2"),其中,n可W是正整数或负整数。实现方式因此可W简化为指数中指 定常数的加减运算。实现该函数的一个方法可W是在SoC500中执行特殊指令W达到此目 的。
[0067] 由于实际参与计算的尾数位的数量小于固定浮点ALU使用的尾数位的数量(导致 功率的严重降低),因此SoC500中的浮点运算单元可W导致精确性降低。例如,在两个变 量进行加或减的情况下,进行加减之前要将两个值与其中一个具有较大数值的变量对齐。 然后,较小的变量的LSB位会被移出该范围,因此在累积计算中丢失。如果两个变量具有大 的数值差,其中较小的变量可能会丢失太多LSB位;当数值差过大时,则较小的变量甚至会 完全丢失。
[0068] 为了避免统计的精确性损失,当对大量的项进行累积时,可将累积分成若干段,首 先进行每一段内的累积,然后再将每段的累积结果进行累积。该看起来是一种行之有效的 方法。下面的例子对该操作进行解释。例如,假设640个元素的累积公式为:
[0069]
[0070] 在传统的实现中,由于能够使用SoC 500中的管道,可通过累积对上式进行迭代 计算。Ak_i和Xk的值的差值随着k的增大而增大。当Ak_i和Xk之间的大的数值差会导致精 确性损失时,将Ak_i和Xk相加得到最终的Ak。
[0071] A。=0,初始化
[0072]Ak= Ak-i+Xk,k=1,2,…,640
[0073] 为了阐明问题与方案的本质,此处不考虑SIMD运算,因为在SIMD累积运算之间的 精确性损失问题与无SIMD的累积运算相同。为了减少精确性损失,将该640个数据值分成 10组,每组64个数据值。累积计算适用于每一组,然后再将该10组的结果进行累积。
[0074] 尽管上述实施例包括的累积技术将640个数据值分成10组,其他实施例的累积技 术可W通过将任意数量的数据值分成任意数量的组执行。例如,累积技术可W对多于或少 于640个数据值进行,并且该些其他数量的数据值可W分成多于或少于10组。
[0075] 图8示出了根据本公开实施例的示例性累积架构。图8示出了浮点运算的累积架 构和过程(比如,精确性降低保护电路)。精确性降低保护电路800包括第一阶段802和第 二阶段804。第一阶段802采用每64个样本闭合一次的开关进行初始化。该过程生成64 元素的累积段。因此,在64个元素累积之后,开关闭合,并且将累积的数值转发到第二阶段 804。精确性降低保护电路还包括1/10乘法器806。因此,精确性降低预防电路800的输出 为多个累积(例如,64元素)的数值的累积。在其他实施例中,多个累积的数值可W包括少 于或多于64个元素值。
[0076] 该一概念同样适用于乘积和累积(MAC)的例子:
[0077]
[007引该些元素也应划分成多个段,并且通过与图8给出的精确性降低保护类似的方式 实现。
[0079] 图9示出了根据本公开实施例的用于实现可变精度浮点计算的示例性流程。
[0080] 在步骤902中,SoC500确定是否要执行多天线检测过程。若执行,则处理继续至 步骤904和906,将28位的ALU初始设置为含有7个指数位和20个尾数位。若不执行,贝U 处理继续至步骤908和910,将半精度ALU初始设置为含有5个指数位和10个尾数位。
[0081] 接下来,在步骤912中对接收到的信号流执行链路性能评估。然后,在步骤914中, SoC500从实施的链路性能评估,确定接收到的信号流是否达到可接受的质量水平。若是, 则在步骤916中调整尾数位的数量W降低尾数位的数量。例如,如果为半精度ALU设置的 尾数位的前一数量已初始设置为10,则可将尾数位的数量减少至仅9个比特。按照该种方 式,可W仅使用 所要求的精度水平,因此减轻了根据某些实施例的系统的处理负荷。但是, 如果在步骤914中确定所实施的链路性能评估不可接受,可W在步骤918中将尾数位的数 量调整为包含更多的比特。
[0082] 在步骤920中,SoC确定是否要处理其它块。若是,处理继续至步骤902。但是,若 没有待处理的其它块,则处理继续至步骤922,该过程结束。
[0083] 如上所述,SoC500实现基带信号处理算法函数,为每个计算单元分配变量位宽, 与传统DSP方法相比,更具灵活性。采用硬件ASIC设计,能够使每个变量的位宽和每个计算 单元最优化。上述图9提供的设计流程用于基带信号处理函数(例如,MIM0检测)。MIM0 检测功能能够分解成一组计算步骤或者子功能块。图9描述了确定浮点变量的位宽W及用 于该些子功能的算术运算的设计流程。在某些情况中,该一过程可W提供满足所需性能需 要的最小(例如,最优)数量的尾数位。指数位的数量也能够按照相同的步骤确定。但是, 由于指数不参与计算,即使达到最优化,也不会像上文图9描述的改变尾数位的数量那样 起到有意义的节省电路的作用。
[0084] 图10示出了根据本公开实施例的执行多天线检测过程中各种计算步骤的示例性 流程图1000。图10所示流程图1000的实施例仅用于举例说明。多天线检测过程的流程图 的其他实施例可在不脱离本公开范围的情况下使用。
[0085] 在LTE MIM0检测中,有如下待求解的矩阵方程:
[0086] 义=(//"巧J// + /) // "X,;r
[0087] 其中,X是NtXl的列向量,为传输信号的匪SE估计,Nt为发射机的数量;Y是NfXl 的列向量,为接收到的信号,Nf为接收机天线的数量;H为NfXNt矩阵,为信道估计矩阵;Ruu 为NfXNf矩阵,为噪声协方差矩阵,0H表示化rmitian转置。
[0088] MIM0检测HAC用于从信道估计矩阵H中获得传输信号X、噪声协方差矩阵的逆iC 化及接收到的信号Y。图10给出了计算步骤,其中,QR分解用于转换T3=QR,其中,Q为正 交矩阵(QTq=I),R为上=角矩阵。每个块的尾数位能够根据上文所述图9给出的设计流 程而确定。在某些实施例中,与传统的基于定点运算的设计相比,上文描述的浮点运算的最 终实现方式可W将口计数减少大约25%。
[0089] 在某些实施例中,一个或多个所述设备的部分或全部功能或流程由计算机可读程 序代码构成的且体现于计算机可读介质中的计算机程序来实现或支持。短语"计算机可读 程序代码"包括任意类型的计算机代码,包括源代码、目标代码W及可执行代码。术语"计算 机可读介质"包括任何类型的能够被计算机访问的非易失性介质,比如,只读存储器(ROM)、 随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字化视频光盘值VD)或者任何其他类型 的存储器。
[0090] 有利于阐述本专利文档中使用的特定术语和短语的定义。术语"包括"和"包含 及它们的派生词表示没有限制的包括。术语"或者"是包容性的,意为和/或。短语"与…… 关联"和"与其关联及其派生的短语,意味着包括,被包括在内、与……互连、包含、被包 含在内、连接到或与……连接、禪合到或与……禪合、与……可通信、与……配合、交织、并 列、接近、被绑定到或与……绑定、具有、具有……属性,等等。术语"控制器"指任何设备、 系统或者其至少控制一个操作的一部分。控制器可W通过硬件、固件、软件或者其中至少两 者的组合而实现。与任何特定控制器相关的功能可W是集中式或分布式的,无论是本地还 是远程。
[0091] 虽然本公开描述了某些实施例W及总体关联的方法,但是,对于本领域技术人员 来说,该些实施例和方法的变更和排列是显而易见的。对应地,上述对示例性实施例的描述 不用于定义或限制本公开。在不脱离W下权利要求定义的本公开的精神和范围的情况下, 还可W做出其他修改、替换W及变更。
【主权项】
1. 一种通信设备中的数字基带信号处理方法,其特征在于,所述方法包括: 使用第一浮点处理单元进行基带信号处理过程的多天线检测部分; 使用半精度浮点处理单元进行所述基带信号处理过程的所有其他部分; 其中,所述第一浮点处理单元的位宽大于所述半精度浮点处理单元的位宽。2. 根据权利要求1所述的方法,其特征在于,所述多天线检测部分包括接收机基带信 号处理过程的矩阵元素计算和矩阵求逆。3. 根据权利要求1所述的方法,其特征在于,还包括: 使用所述第一浮点处理单元进行所述基带信号处理过程的均衡器系数计算; 其中,所述基带信号处理过程包括单时隙自适应多用户信道VAMOS协议。4. 根据权利要求1所述的方法,其特征在于,所述第一浮点处理单元包括28位浮点处 理单元。5. 根据权利要求1所述的方法,其特征在于,还包括当检测到所述基带信号处理过程 发生溢出时,运用缩放因子2n,其中,n为正整数或负整数。6. 根据权利要求1所述的方法,其特征在于,还包括当所述半精度浮点处理单元进行 的基带处理包括含有大于指定数量的运算对象的累积运算时,分别为等于或小于所述指定 数量的一组或多组运算对象中的每个运算对象单独进行所述累积运算。7. 根据权利要求6所述的方法,其特征在于,所述数量的运算对象包括64个运算对象。8. 根据权利要求1所述的方法,其特征在于,所述第一浮点处理单元包括所述半精度 浮点处理单元以及一个或多个其他半精度浮点处理单元。9. 根据权利要求1所述的方法,其特征在于,所述第一浮点处理单元处理的基带处理 信号的第一运算对象包括1个符号位、7个指数位和20个尾数位;所述半精度浮点处理单 元处理的所述基带处理信号的第二运算对象包括1个符号位、5个指数位和10个尾数位。10. 根据权利要求9所述的方法,其特征在于,还包括: 确定链路性能评估;以及 根据所述确定的链路性能评估,修改所述第一浮点处理单元或所述半精度浮点处理单 元进行的所述尾数位的数量。11. 一种装置,其特征在于,包括: 数字信号处理器,用于: 使用第一浮点处理单元进行基带信号处理过程的多天线检测部分;以及 使用半精度浮点处理单元进行所述基带信号处理过程的所有其他部分; 其中,所述第一浮点处理单元的位宽大于所述半精度浮点处理单元的位宽。12. 根据权利要求11所述的装置,其特征在于,所述多天线检测部分包括接收机基带 信号处理过程的矩阵元素计算和矩阵求逆。13. 根据权利要求11所述的装置,其特征在于,所述数字信号处理还用于使用所述第 一浮点处理单元进行所述基带信号处理过程的均衡器系数部分, 其中,所述基带信号处理过程包括单时隙自适应多用户信道VAMOS协议。14. 根据权利要求11所述的装置,其特征在于,所述第一浮点处理单元包括28位浮点 处理单元。15. 根据权利要求11所述的装置,其特征在于,所述数字信号处理还用于当检测到所 述基带信号处理过程发生溢出时,运用缩放因子2n,其中,n为正整数或负整数。16. 根据权利要求11所述的装置,其特征在于,还包括应用专用集成电路ASIC,用于: 当所述半精度浮点处理单元进行的基带处理包括含有大于指定数量的运算对象的累 积运算时,为等于或小于所述指定数量的一组或多组运算对象中的每个运算对象单独进行 所述累积运算。17. 根据权利要求16所述的装置,其特征在于,所述数量的运算对象包括64个运算对 象。18. 根据权利要求11所述的装置,其特征在于,所述第一浮点处理单元包括所述半精 度浮点处理单元以及一个或多个其他半精度浮点处理单元。19. 根据权利要求11所述的装置,其特征在于,所述第一浮点处理单元处理的基带处 理信号的第一运算对象包括1个符号位、7个指数位和20个尾数位;所述半精度浮点处理 单元处理的所述基带处理信号的第二运算对象包括1个符号位、5个指数位和10个尾数位。20. 根据权利要求19所述的装置,其特征在于,还包括应用专用集成电路ASIC,用于: 确定链路性能评估;以及 根据所述确定的链路性能评估,修改所述第一浮点处理单元或所述半精度浮点处理单 元进行的所述尾数位的数量。21. -种通信设备,其特征在于,包括: 数字信号处理器,用于: 使用第一浮点处理单元进行基带信号处理过程的多天线检测部分;以及 使用半精度浮点处理单元进行所述基带信号处理过程的所有其他部分; 其中,所述第一浮点处理单元的位宽大于所述半精度浮点处理单元的位宽。22. 根据权利要求21所述的通信设备,其特征在于,所述通信设备包括基站。23. 根据权利要求21所述的通信设备,其特征在于,所述通信设备包括移动站。
【专利摘要】根据一个实施例,一种装置包括数字信号处理器,用于使用第一浮点处理单元进行基带信号处理过程的多天线检测部分,以及使用半精度浮点处理单元进行所述基带信号处理过程的所有其他部分。所述第一浮点处理单元的位宽大于所述半精度浮点处理单元的位宽。
【IPC分类】H04B1/00
【公开号】CN104904124
【申请号】CN201380064523
【发明人】陈伟钟, 郭元斌, 孙彤
【申请人】华为技术有限公司
【公开日】2015年9月9日
【申请日】2013年12月11日
【公告号】US8971451, US20140161210, WO2014090160A1

最新回复(0)