[算法理论] cuSBF：为现代GPU优化的基因组序列数据最小化Bloom过滤器

摘要

高效的基因组k-mer索引依赖于近似成员查询（AMQ）结构，这些结构必须提供高吞吐量、低假阳性率（FPR）和适度的内存占用。超Bloom过滤器（SBF）在这一场景中颇具吸引力，因为最小化引导分片和Findere方案利用了重叠k-mers的冗余。然而，这些特性导致每个k-mer的计算成本高、寄存器压力大和不规则的内存访问，妨碍了有效的GPU实现。

我们提出了cuSBF，一个开源的、仅包含头文件的CUDA库，专为序列原生工作负载实现SBF。cuSBF的设计结合了分区分片、协作共享内存平铺、warp级分片共享和分段warp归约，将超k-mer局部性转化为可扩展的GPU并行性。在RTX PRO 6000 Blackwell和GH200系统上，cuSBF在所有评估的序列能力基线中实现了最高的吞吐量。在RTX PRO 6000上，它在插入和查询方面分别超越了cuCollections阻塞Bloom过滤器基线高达9.1倍和7.7倍，同时在多线程CPU超Bloom参考实现上获得高达92倍和234倍的加速。它还在GPU动态AMQs（Cuckoo、Two-Choice、Quotient过滤器）中表现出1.5-3400倍的超越，具体取决于工作负载特性。

参数扫描确定了对于k = 31的Pareto最优参数（s = 28, m = 16, H = 4），在匹配内存预算的情况下显著降低了假阳性率。重要的是，cuSBF的架构感知设计即使对于超出缓存的过滤器也能维持85%的流式多处理器利用率，证明了序列局部性而非原始带宽是GPU加速基因组索引的关键。

博主点评： cuSBF通过巧妙的设计和优化，显著提升了基因组数据处理的效率，展现了GPU在生物信息学领域的巨大潜力。其在假阳性率和吞吐量上的表现将为基因组研究带来新的突破，值得关注和应用。