"); //-->
PR642300R-010+CON021 在图形处理单元上实现
流过滤[编辑]流过滤本质上是一种非均匀归约。过滤包括根据某些标准从流中删除项目。
扫描[编辑]扫描操作也称为并行前缀和,接受数据元素的向量(流)和带有单位元素“I”的(任意)结合二元函数“+”。如果输入是[a0,a1,a2,a3,...],一个独占扫描产生输出[i,a0,a0 + a1,a0 + a1 + a2,...],而包含扫描产生输出[a0,a0 + a1,a0 + a1 + a2,a0 + a1 + a2 + a3,...]和不需要身份才能存在。虽然乍一看,该操作似乎固有地是串行的,但是有效的并行扫描算法是可能的,并且已经在图形处理单元上实现。扫描操作用于例如快速排序和稀疏矩阵向量乘法。[33][38][39][40]
分散[编辑]这分散操作最自然地在顶点处理器上定义。顶点处理器能够调整顶点,它允许程序员控制信息在网格上的存放位置。其他扩展也是可能的,例如控制顶点影响多大的区域。
片段处理器不能执行直接分散操作,因为网格上每个片段的位置在片段创建时是固定的,程序员不能更改。但是,逻辑分散操作有时可能会通过另一个聚集步骤进行重新转换或实现。分散实现将首先发出输出值和输出地址。紧接着的收集操作使用地址比较来查看输出值是否映射到当前输出槽。
在专用计算内核,可以通过索引写入来执行分散。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。