1.基于CPU和GPU的分布式采样,用于大规模分析的迪里切特过程混合物在无监督学习领域,以Dirichlet Process Mixture Model(DPMM)为例,贝叶斯非参数混合模型提供了一种原则性的方法,使模型的复杂性适应数据。
2.这种模型在聚类任务中特别有用,因为聚类的数量是未知的。
3.尽管DPMs的潜力和数学上的优雅,但是它还没有成为从业者广泛采用的主流工具。
4.这可以说是由于人们误认为这些模型的扩展性很差,以及缺乏能够有效处理大型数据集的高性能(和用户友好)的软件工具。
5.在本文中,我们通过提出一个新的、易于使用的、用于可扩展的DPM推断的统计软件包来弥补这一实际差距。
6.更具体地说,我们为DPMMs中基于高性能分布式采样的推理提供了高效且易于修改的实现,用户可以自由选择多机多核的CPU实现(用Julia编写)和多流的GPU实现(用CUDA/C++编写)。
7.CPU和GPU的实现都有一个共同的(也是可选的)python包装器,为用户提供了一个具有相同接口的单点入口。
8.在算法方面,我们的实现利用了(Chang and Fisher III,2013)的一个领先的DPMM采样器。
9.虽然Chang和Fisher III的实现(用MATLAB/C++编写)只使用了CPU,并且是为单个多核机器设计的,但我们这里提出的软件包将计算有效地分布在多个多核机器或多个GPU流上。
10.这导致了速度的提高,缓解了内存和存储的限制,并使我们能够将DPMMs适用于明显更大的数据集和更高的维度,而这是以前(Chang和Fisher III,2013)或其他DPMM方法所不能做到的。
11.《CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures for Large-scale Analysis》论文地址:网页链接