读取处理单元的区域内存的制作方法

xiaoxiao2020-6-26 14

专利名称：读取处理单元的区域内存的制作方法
技术领域：
本发明是关于在计算系统中进行的计算运算。
背景技术：
习知的计算系统包含多个硬件组件，例如中央处理单元(CPU)与制图处理单元 (GPU)。CPU是整合计算系统其它装置运算的集成电路(IC)。GPU是用于进行例如制图处理任务的数据并行计算任务的集成电路。例如，GPU执行终端使用者应用需要的制图处理任务，例如视频游戏应用需要地的制图处理任务。习知的计算系统也包含系统内存，例如随机存取内存(RAM)。典型地，CPU与GPU 可各自存取系统内存。除了系统内存之外，GPU也可耦合至区域内存。可惜的是CPU对于GPU区域内存的读取缓慢。特别是非缓存(imcachecbUC)进行的读取，这是指读取的数据未被复制到区域缓存内存中。同样地，所有非缓存的读取是32 或64位宽且串行化，这是指CPU —次仅发出一个读取请求，并且在发出另一个读取请求之前，等待数据从读取请求至返回数据。因此，习知CPU读取至GPU区域内存是缓慢的。因此，需要能使第一处理单元(例如CPU)快速读取第二处理单元(例如GPU)区域内存的系统、设备与方法。发明概述本发明提供系统、设备与方法符合上述需求，提供快速读取处理单元的区域内存。例如，本发明的实施例提供计算器实施的方法，使得第一处理单元有效率读取第二处理单元的区域内存。根据所述计算器实施的方法，通过第一处理单元与第二处理单元之间的接口，传送对于第二处理单元的区域内存区段中一部分数据的请求。响应所述请求，接收来自所述区段的所有数据。所述计算器实施的方法可更包含将来自所述区段的数据储存在缓冲器中。可从所述缓冲器，服务后续对于所述区段中数据的请求。本发明的另一实施例提供包含接口与缓冲器的处理单元。所述接口是用于(i)传送对于一处理单元的区域内存的区段中一部分数据的请求，以及(ii)响应所述请求，接收来自所述区段的所有数据。所述缓冲器是用于储存来自另一处理单元的区域内存的区段中的所述数据。在一范例中，从所述缓冲器服务对于所述区段中数据的后续请求。本发明的另一实施例提供处理单元，包含接口与缓冲器。所述接口是用于(i)传送一处理单元的区域内存的区段中一部分数据的请求，以及(ii)响应所述请求，接收来自所述区段的所有数据。所述缓冲器是用于储存来自另一处理单元的区域内存的区段中的所述数据。在一范例中，从所述缓冲器服务对于所述区段中数据的后续请求。本发明的另一实施例提供计算系统，包含第一处理单元与第二处理单元。所述第二处理单元耦合至区域内存。所述第一处理单元包含接口用于(i)传送对于所述第二处理单元的所述区域内存的区段中一部分数据的请求，以及(ii)响应所述请求，接收来自所述区段的所有所述数据。所述第一处理单元也可包含缓冲器，用于储存来自所述第二处理单元的所述区域内存的所述区段的所述数据。可从所述缓冲器服务对于所述区段中数据的后续请求。图式与以下内容详细说明与发明的其它特征与优点以及本发明不同实施例的结构与操作。本发明并不受限于说明书中描述的特定实施例。本申请案中的实施例是仅用于说明本发明。在本申请案教导内容的基础上，其它的实施例对于熟知相关技艺的人士而言即为显而可知。

本申请案的附随图式是说明书的一部分，与具体实施方式
一同说明本发明，更用于解释本发明的原理，使得本领域技术人员能制造与使用本发明。图1是根据本发明的实施例，说明第一处理单元用于读取第二处理单元的区域内存。图2是根据本发明的实施例举例说明计算系统。图3是根据本发明的实施例说明CPU与GPU的范例。图4是流程图，根据本发明的实施例，说明撷取处理单元的区域内存中储存的数据的方法。图5是流程图，根据本发明实施例，说明接收数据请求的方法范例。根据具体实施方式
与图式，可明白本发明的特征与优点，其中相同的参考特色辨识对应的组件。在图式中，相同的组件符号通常代表相同的、功能类似与/或结构类似的组件。
具体实施例方式I.概要本发明的实施例是关于快速读取处理单元的区域内存及其应用。在以下的详细说明中，“一实施例”、“实施例”、“范例实施例，，是指所描述的实施例可包含特定特征、结构或特性，但是每一个实施例可不需要包含特定特征、结构或特性。再者，所述词语并非必须指相同的实施例。再者，当特定特征、结构或特性的描述结合实施例时，本领域技术人员可知结合无论是否明确描述的其它实施例来影响所述特征、结构或特性。实施例使得第一处理单元104A有效率读取第二处理单元104B的区域内存106，如图1所示。处理单元104耦合总线，且可被包含在个别的封装(或芯片)中，或是可被包含在单一封装(或芯片)中。每一个处理单元104可包括CPU、GPU、视频处理单元、共处理器 (例如漂浮点处理器)以及/或其它形式的处理单元。为了说明而非限制，说明书中描述的本发明实施例是读取GPU的区域内存。然而，本领域技术人员会理解本发明的实施例可应用于读取其它处理单元形式的区域内存，例如中央处理单元与共处理器。其它的实施例仍落在本发明的精神与范围内。本发明的实施例是关于改善CPU读取GPU区域内存的效能，而不会影响存写效能。例如，本发明的实施例可提供CPU读取GPU区域内存，速度比习知的CPU读取GPU区域内存快10倍以上。为了提供快速的CPU读取GPU区域内存，WC内存形式一部分的读取机制被改变为读取结合(read combining, RC) 0在这方面，CPU北桥是用于包含一或多个读取缓冲器来支持读取结合。在实施例中，所述一或多个读取缓冲器是缓存行(cache-line)长度(例如64位宽)。本发明的另一实施例使得第一 GPU有效率读取自第二 GPU的区域内存。在包含由外设部件互连快捷(PCIE)总线连接的两个或多个GPU的习知系统中，第一 GPU无法有效率读取自第二 GPU的内存，因为速度太缓慢。根据本发明的实施例，加速从CPU至GPU区域内存的读取路径，使得用有效率且有用的方式实施端对端(peer-to-peer)读取。在详细描述此CPU与GPU之前，先描述举例的计算器系统，其中可实施所述CPU与 GPU。II.举例的计算系统可使用硬件、软件或其组合，以及可在一或多个计算系统或其它处理系统中实施本发明的实施例。图2说明举例的计算系统200。计算系统200包含一或多处理单元104。处理单元104可以是一般使用的处理单元 (例如CPU)或是特殊使用的处理单元(例如GPU)。处理单元104连接至通讯架构106 (例如通讯总线、交叉总线或网络)。至少一处理单元104也耦合至区域内存106。如下详细说明所述，根据本发明的实施例，其它一或多个处理单元104可有效率存取区域内存106。计算系统200也可包含显示接口 202，从通讯架构206 (或是从未显示的框架缓冲器)传送制图、文字与其它数据，显示在显示单元230(例如液晶显示器)上。计算系统200也包含主要内存208，较佳是随机存取内存(RAM)，以及也可包含次级内存210。所述次级内存210可包含例如硬盘机212与/或可移除的储存机214，代表软驱、磁带机、光盘机等。所述可移除的储存机214用已知的方式自可移除的储存单元218读取与/或存写至可移除的储存单元218。可移除的储存单元218代表软驱、磁带、光盘等，被可移除的储存机214读取或存写至可移除的储存机214。所述可移除的储存单元218包含计算器可读取的储存媒介，其中储存计算器软件与/或数据。在另一实施例中，次级内存210可包含其它类似的装置，使得计算器程序或其它指令装载在计算系统200中。所述装置可包含例如可移除的储存单元222与接口 220。所述范例可包含编程盒与盒接口(例如视频游戏设备中的装置)、可移除的内存芯片(例如可抹除可编程只读内存(EPROM)或是可编程唯独内存(PROM)与相关的插口，以及其它可移除的储存单元222与接口 220，使得软件与数据从所述可移除的储存单元222转移至计算系统 200。计算系统200也可包含通讯接口 224。通讯接口 2 使得软件与数据在计算系统 200与外部装置之间转移。通讯接口 2 可包含调制解调器、网络接口(例如以太网络卡)、通讯端口、国际个人计算机存储卡协会(PCMCIA)槽与卡。通过通讯接口 2M转移的软件与数据是信号形式228，可为电子、电磁、光学或可由通讯接口 2M接收的其它信号。通过通讯路径(例如信道)2 ，这些信号2 被提供给通讯接口 224。此信道2 携带信号228，并且可使用线路或缆线、光纤、电话线、胞元链接与无线射频(RF)连结与其它信道而实施。在此申请案中，“计算器可读取的储存媒介”的词语是指例如可移除的储存机214 与设置在硬盘机212中的硬盘。计算器编程(也指计算器控制逻辑)储存在主要内存208与/或次级内存210。使用可移除的储存机214、硬机212或通讯接口 224，计算器程序可装载在计算系统200中。如本申请案所述，执行所述计算器程序时，使得计算器系统200进行本发明的特征。根据本发明的实施例，特别是当执行计算器程序时，使得处理单元104之一有效率读取另一处理单元104的区域内存106。因此，所述计算器程序代表计算系统200的控制器。III.处理单元范例图3说明处理单元104，其中根据本发明的实施例，第一处理单元读取第二处理单元的区域内存。例如，图3说明CPU 302、第一 GPU 350A耦合至第一区域内存352A，以及第二GPU 350B耦合至第二区域内存352B。虽然说明为个别与类似装置，但是GPU 350B与GPU 350A可以是单一板的部分、单一封装的部分(例如两个集成电路在单一封装中，如同多芯片模块)或是个别核心在单一装置中。此外以及或者，GPU 350A与GPU 350B并不需要相同，但可以是不同的。例如，GPU 350A可实施为集成制图装置(例如整合在芯片组北桥326 中的装置)，而GPU 350B可实施在个别或不同的GPU装置中。CPU 302包含一或多个核心310与北桥320。每一个核心310包含一或多个存写缓冲器306，使得存写结合。在一实施例中，北桥320包含CPU北桥3M与芯片组北桥326。在另一实施例中，芯片组北桥3 不被合并在CPU 302内。北桥320耦合至系统内存330。CPU 302通过接口 !356A耦合至第一 GPU 350A,以及通过接口 !356B耦合至第二 GPU 350B。例如，接口 356是周边组件接口(PCI)总线、加速的制图端口(AGP)总线、PCI快捷 (PCIE)总线或是计算系统中使用的其它形式总线。每一个GPU 350包含总线接口(BIF) 3M与主数据路径(HDP) 356。总线接口 354 实施协议而在接口 356上通讯。主数据路径356提供CPU302存取至区域内存352。在运算中，CPU 302可产生对于第一 GPU 350A的第一区域内存352A的读取请求，或是对于第二 GPU 350B的第二区域内存352B的读取请求。对于64字节区域中地址的每一个读取请求的前4字节(32位)或8字节(64位)造成区域内存352中整个64字节线被读取至读取缓冲器324。所有后续读取相同64字节线打击读取缓冲器324，因而将数据返回至CPU 302的速度比习知的读取更快。此外，CPU 302可使得同时有多个未缓存读取，因而使得读取内存352更快速。为了支持这个功能，特别架构GPU 350的端点硬件。特别地，总线接口(BIF)3M与主数据路径(HDP)356是用于使得同时有多个未缓存读取。在CPU北桥322中包含多个读取缓冲器来得到更多改善。分享已经在CPU北桥 322中的存写缓冲器306也被用于读取缓冲器，仍会基于一些理由而改善效能。首先，分享硬件降低成本。第二，在大多数有例子中，分享硬件不会消耗效能。第三，存写与读取的分享缓冲器更容易侦测与校正存写后读取危害。在一实施例中，芯片组北桥3 加入数据路径，使得点对点读取(例如从第一 GPU 350A读取至第二 GPU 350B，反之亦然)。一或多个读取结合缓冲器(例如读取缓冲器324) 可用于支持点对点读取交通。在此实施例中，从第一 GPU 350A读取前4字节(32位)或8 字节(64位)至第二 GPU 350B的第二区域内存352B上64字节区段中的地址，造成第二区域内存352B中整个64字节线被读取至CPU北桥322的读取缓冲器324。后续读取制相同 64字节线会击中读取缓冲器324，因而将数据返回至第一 GPU 350A的速度会比习知的点对点读取快速许多。相同的机制使得第二 GPU 350B从第一 GPU 350A的第一区域内存352A 读取。此外，改变GPU 350使得多个快速点读取，使得点对点读取更加快速。再者，CPU北桥322中，可包含多个读取缓冲器，进一步改善效能。再者，存写缓冲器306也可作为读取缓冲器，基于一些理由而提供附加的效能增益。首先，分享硬件降低成本。第二，在大多数例子中，分享硬件不会消耗效能。第三，用于存写与读取的分享缓冲器更容易侦测与校正存写后读取的危害。IV.操作范例如上所述，本发明的实施例使得第一处理单元有效率读取第二处理单元的区域内存。以下叙述是(A)方法范例，由所述第一处理单元实施，用于撷取储存在所述第二处理单元的区域内存中的数据；以及(B)方法范例，由所述第二处理单元实施，用于处理来自所述第一处理单元的请求。A.用于撷取储存在处理单元区域内存中的数据的方法范例图4是流程图，根据本发明的实施例，说明方法范例400，由第一处理单元实施，用于撷取储存在第二处理单元的区域内存中的数据。例如，可用CPU 302、第一 GPU 350A与/ 或第二 GPU 350B实施方法400。图4的方法400描述如下，并请参阅图3说明的结构。方法400开始于步骤402，其中第一处理单元辨识从第二处理单元的区域内存读取数据的需求。例如，CPU 302可辨识读取第一 GPU 350A的区域内存352A或第二 GPU 350B 的区域内存352B的需求。在另一范例中，第一 GPU 350A或第二 GPU 350B可辨识对于另一 GPU的区域内存352的点对点读取需求。在步骤404中，决定需要的数据是否已经储存在区域缓冲器中。如果已经提出对于另一处理单元的区域内存的区段的先前请求，则所述需要的资料可以储存在所述区域缓冲器。例如，如上所述，如果CPU302对于区域内存352的内存区段(例如64字节区段)提出读取请求，则来自所述区段的所有数据会被储存在读取缓冲器324中。在步骤404中，如果决定数据是在区域缓冲器中，则所述需要的数据是从所述区域缓冲器撷取，如步骤406所述。另一方面，如果在步骤404中决定所述数据不在所述区域缓冲器中，则对于所述需要的数据的读取请求被传送至另一个处理单元，如步骤408所述。不同于习知的读取请求，根据本发明的实施例，可平行传送多个读取请求。例如，第一处理单元可传送第一读取请求至第二处理单元，以及在接收对应于所述第一读取请求的所述数据之前，可传送后续的读取请求至所述第二处理单元或是另一处理单元。无论对应于所述第一与第二读取请求的所述数据何时准备好了，将它提供至所述第一处理单元。在此方式中，可平行发出多个读取请求，而能更快存取一或多个其它处理单元的区域内存。在步骤410中，从另一个处理单元，接收整个区段的数据。例如，所述第一处理单元(例如CPU 302或GPU 350)可请求仅读取第二处理单元的区域内存的区段(例如64字节线)的一些字节(例如4或8字节)。然而，所述第二处理单元从整个区段(例如64字节的数据)传送数据。在步骤412中，来自整个区段的数据被储存在区域缓冲器中。从所述需区域缓冲器，而不是从另一个处理单元的区域内存，接收对于数据的后续读取请求。B.用于处理在区域内存中数据读取请求的方法范例图5是流程图，根据本发明的实施例，说明方法范例500，由第二处理单元实施，用于处理来自第一处理单元的请求，读取第二处理单元的区域内存中的数据。例如，可用图3 的第一 GPU 350A或第二 GPU350B实施方法500。图5的方法500描述如下，并且参阅图3说明的结构。方法500开始于步骤502，其中第二处理单元接收请求读取储存在第二处理单元的区域内存中的数据。例如，第一 GPU 350A可接收来自CPU 302或第二 GPU 350B的请求，从第一 GPU 350A的区域内存352A的区段读取数据。同样地，第二 GPU 350B可接收来自 CPU 302或第一 GPU 350A的请求，从第二 GPU 350B的区域内存352B的区段读取数据。在步骤504中，任意决定请求的资料是否符合或超出门坎。例如，可任意地决定请求的数据是否至少4字节、8字节或其它最小量的数据。如果请求的数据不符合或超过门坎，则仅有请求的数据被传送至请求的处理单元，如步骤506所述。如果请求的数据符合或超出所述门坎，或是如果方法500不包含步骤504，则控制流至步骤508。在步骤508中，来自整个区段的所有数据报含请求的数据皆被传送至请求处理单元。例如，数据的区段可包括内存的64字节线或内存的其它区段。在此范例中，如果请求的数据是包含在数据的64字节线，则数据的整个64字节线被传送至请求处理单元。在此方式中，请求处理单元可将整个区段(例如内存的64字节线)储存在区域缓冲器中，能更快速存取区段中的数据。V.软件实施范例除了 CPU 302与GPU 350的硬件实施之外，所述处理单元也可实施在软件，例如实施在计算器可读取的媒介，用于储存软件(例如计算器可读取的编程码)。所述编程码能进行本发明的实施例，包含以下实施例(i)本申请案揭露的系统与技术(例如图4的方法 400与/或图5的方法500)的功能；(ii)本申请案揭露的系统与技术(例如CPU 302与/ 或GPU 350)的制造；或(iii)本申请案揭露的系统与技术的功能与制造的组合。例如，可以使用一般编程语言(例如C或C++)、包含Verilog HDL、VHDL, Altera HDL(AHDL)的硬件描述语言(HDL)或其它可得的编程与/或原理图捕获工具(例如电路捕获工具)。所述编程码可位在包含半导体、磁盘或光盘(例如⑶-ROM、DVD-ROM)的任何已知计算器可读取媒介中。因此，可在包含因特网的通讯网络上，传输所述码。上述由本发明系统与技术完成的功能与/或提供的结构可被表现在码(例如CPU码或GPU码)中，在编成码中实施，并且可被转型成为硬件，作为生产集成电路的一部分。VI.结论上述实施例使得第一处理单元(例如CPU或GPU)有效率读取第二处理单元(例如GPU)的区域内存及其应用。应理解具体实施方式
而非发明概要与摘要是用于解释权利要求。发明概要与摘要部分可说明发明人考虑的一或多个但非全部的本发明实施例，因此并非以任何方式用于限制本发明与附随权利要求。
权利要求
1.一种计算器实施的方法，包括通过第一处理单元与第二处理单元之间的接口，传送对于所述第二处理单元的区域内存的区段中一部分数据的请求；以及响应所述请求，接收来自所述区段的所有数据。
2.如权利要求1的所述计算器实施的方法，其中所述区段包括缓存行。
3.如权利要求1的所述计算器实施的方法，更包括在所述接收之前，通过所述接口，传送对于所述第二处理单元的所述区域内存的另一区段中数据的另一请求。
4.如权利要求1的所述计算器实施的方法，其中所述传送包括通过外设部件互连快捷(PCIE)总线，传送对于所述第二处理单元的所述区域内存的所述区段中所述一部分数据的所述请求。
5.如权利要求1的所述计算器实施的方法，其中所述传送包括通过中央处理单元与制图处理单元之间的接口，传送对于所述制图单元的区域内存的区段中一部分数据的请求。
6.如权利要求1的所述计算器实施的方法，其中所述传送包括通过第一制图处理单元与第二制图处理单元之间的接口，传送对于所述第二制图处理单元的区域内存的区段中一部分数据的请求。
7.如权利要求1的所述计算器实施的方法，更包括将来自所述区段的所述数据储存在缓冲器中。
8.如权利要求7的所述计算器实施的方法，更包括使用所述缓冲器储存的数据，服务对于数据的后续请求。
9.一种处理单元，包括接口，用于(i)传送对于另一处理单元的区域内存的区段中一部分数据的请求，以及 ( )响应所述请求，接收来自所述区段的所有所述数据；以及缓冲器，用于储存来自所述另一处理单元的所述区域内存的所述区段的所述资料。
10.如权利要求9的所述处理单元，其中从所述缓冲器服务对于所述区域中数据的后续请求。
11.如权利要求9的所述处理单元，其中所述区段包括缓存行。
12.如权利要求9的所述处理单元，其中在接收来自所述区段的所有所述数据之前，所述接口更用于传送对于所述另一处理单元的所述区域内存的另一区段中一部分数据的后续请求。
13.如权利要求9的所述处理单元，其中所述接口包括耦合至外设部件互连快捷 (PCIE)总线。
14.如权利要求9的所述处理单元，其中所述处理单元是中央处理单元，以及所述另一处理单元是制图处理单元。
15.如权利要求9的所述处理单元，其中所述处理单元是第一制图处理单元，以及所述另一处理单元是第二制图处理单元。
16.一种计算系统，包括第一处理单元；以及第二处理单元，耦合至区域内存；其中所述第一处理单元包括接口用于(i)传送对于所述第二处理单元的所述区域内存的区段中一部分数据的请求，以及(ii)响应所述请求，接收来自所述区段的所有所述数据。
17.如权利要求16的所述计算系统，其中所述区段包括缓存行。
18.如权利要求16的所述计算系统，其中在接收来自所述区段的所有所述数据之前，所述接口更用于传送对于所述第二处理单元的所述区域内存的另一区段中一部分数据的后续请求。
19.如权利要求16的所述计算系统，其中所述接口包括耦合至外设部件互连快捷 (PCIE)总线。
20.如权利要求16的所述计算系统，其中所述第一处理单元是中央处理单元；以及所述第二处理单元是制图处理单元。
21.如权利要求16的所述计算系统，其中所述第一处理单元是第一制图处理单元；以及所述第二处理单元是第二制图处理单元。
22.如权利要求16的所述计算系统，其中所述第一处理单元更包括缓冲器，用于储存来自所述第二处理单元的所述区域内存的所述区段的所述资料。
23.如权利要求22的所述计算系统，其中从所述缓冲器，服务所述区段中数据的后续请求。
24.一种计算器程序产物，包括计算器可读取的储存媒介，包含指令，若在计算装置上执行所述指令，则所述指令定义处理单元，其中所述处理单元包括接口，用于(i)传送对于另一处理单元的区域内存的区段中一部分数据的请求，以及 ( )响应所述请求，接收来自所述区段的所有所述数据；以及缓冲器，用于储存来自所述另一处理单元的所述区域内存的所述区段的所述资料。
25.如权利要求M的所述计算器程序产物，其中所述处理单元是第一制图处理单元，以及所述另一处理单元是第二制图处理单元。
26.如权利要求M的所述计算器程序产物，其中所述处理单元是在硬件描述语言软件实施。
27.如权利要求沈的所述计算器程序产物，其中所述处理单元是在Verilog硬件描述语言软件、Verilog-A硬件描述语言软件以及VHDL硬件描述语言软件之一实施。
全文摘要
本申请案揭露用于有效率读取处理单元的区域内存的系统、设备与方法。在实施例中，处理单元包含接口与缓冲器。所述接口用于(i)传送请求另一处理单元的区域内存的区段中的一部分数据，以及(ii)响应所述请求，接收来自所述区段的所有数据。所述缓冲器是用于储存来自所述处理单元的区域内存的区段的所述数据。
文档编号G09G5/393GK102576298SQ201080043604
公开日2012年7月11日申请日期2010年9月9日优先权日2009年9月10日
发明者A·阿萨罗, D·I·J·格伦, G·F·卡洛克, G·J·程, M·赫梅尔, P·J·罗杰斯, S·P·汤普森申请人:Ati技术无限责任公司, 先进微装置公司

2010-2011专利技术

最新回复(0)