更新时间:2023-09-10 10:07:38
来自 NVIDIA 的研究人员开发了一种使用单个 GPU 快速训练神经图形基元的方法。神经图形基元传统上需要多个完全连接的神经网络,并且训练和评估具有挑战性、耗时且昂贵。
由 Thomas Müller、Alex Evans、Christoph Schied 和 Alexander Keller 组成的研究团队创建了一种新的输入编码方法,可显着减少浮点和内存访问操作的数量。此外,该团队使用多分辨率哈希表增强了其小型神经网络,从而简化了整体架构并带来了显着的优化。该训练方法允许在几秒钟内训练出高质量的神经图形基元,并且需要功能较弱的单个设备,而不是由许多昂贵的计算机组成的扩展网络。这意味着照片和其他图像的超分辨率样式升级可以快速、即时地完成,而无需计算机系统和 GPU 的机架。
有很多复杂的术语和想法在起作用,但总体思路是通过减少所使用的参数编码技术所需的参数数量,并使数据结构本身更易于 GPU 处理,从而进行神经网络训练明显更快。作者写道, '我们通过一种通用的新输入编码来降低成本,该编码允许在不牺牲质量的情况下使用更小的网络,从而显着减少浮点和内存访问操作的数量:一个小型神经网络由可训练的多分辨率哈希表增强通过随机梯度下降优化其值的特征向量。多分辨率结构允许网络消除哈希冲突的歧义,从而形成一个简单的架构,在现代 GPU 上并行化是微不足道的。用于这项工作的 GPU 是 NVIDIA RTX 3090,虽然 1,500 美元的价格并不便宜,但很多人都买得起。
在千兆像素图像中,我们通过神经网络表示千兆像素图像。SDF 在 3D 空间中学习符号距离函数,其零水平集表示 2D 表面。神经辐射缓存 (NRC) [Müller 等人。2021]采用实时训练的神经网络来缓存昂贵的照明计算。最后,NeRF [Mildenhall 等人。2020] 使用 2D 图像及其相机姿势来重建使用光线行进可视化的体积辐射和密度场。在所有任务中,我们的编码及其高效实施提供了明显的好处:快速训练、高质量和简单性。我们的编码与任务无关:我们在所有任务中使用相同的实现和超参数,并且只改变哈希表大小,以权衡质量和性能。照片©Trevor Dobson(CC BY-NC-ND 0)'
图形基元“由参数化外观的数学函数表示”。目标是拥有高质量、详细的图形,同时又快又紧凑。数据网格越精细,生成的图形就越详细。但是,数据网格越精细,成本就越高。'由多层感知器 (MLP) 表示的功能,用作神经图形基元,已被证明符合这些标准(在不同程度上),例如作为形状的表示 [Martel 等人。2021; 公园等人。2019] 和辐射场 [Liu et al. 2020;米尔登霍尔等人。2020;穆勒等人。2020, 2021],”新的研究论文说。
MLP 的潜在问题是这些数据结构可能需要结构修改,例如修剪、拆分或合并,这会使训练过程更加耗费资源和时间。该团队通过其多分辨率哈希编码解决了这些问题。多分辨率哈希编码具有很强的适应性,它仅由两个值配置,即参数数量和所需的最佳分辨率。使多分辨率哈希编码方法特别快速和令人印象深刻的部分原因在于哈希表是一种使用关联以数组格式存储数据的数据结构,可以跨所有分辨率并行查询。神经网络以迭代方式同时在多个分辨率上自学。
无论数据大小如何,哈希表都允许快速搜索操作,因为每个数据值都有一个唯一的索引值。如果您知道要检索的数据的索引,则操作非常快。在执行训练操作时,不需要对数据结构进行结构更新。此外,哈希表会自动优先考虑“具有最重要精细尺度细节的稀疏区域”。
这很重要,因为您不想将时间和计算资源花费在空白空间或细节较少的空间上。例如,将不会在不必要的精细分辨率上重复查询具有较粗细节的图像区域,从而提高训练和渲染的效率和速度。以多种分辨率对输入进行编码也很重要,因为这样做可以确保神经网络不仅得到更快和更有效的训练,而且在包含高细节水平的 2D 或 3D 图形区域中,适当的细节水平是学习并获得高质量的结果。
新的输入编码方法实现了巨大的性能提升。研究论文表明,只需五秒钟即可训练 NeRF 或神经辐射场。根据这个Reddit 线程,就在几年前,训练一个 NeRF 过去需要长达 12 小时来训练一个场景。新的多分辨率哈希编码算法已将其缩短到 5 秒,不仅可以训练场景,还可以提供实时渲染。迭代的自适应编码方法不仅速度明显更快,而且它还可以在任何人都可以购买的单个高端 GPU 上执行,而不是在昂贵的超级计算机网络上执行。
完整的研究论文包括许多正在使用的多分辨率哈希编码方法的实验示例。例如,神经网络用于近似分辨率为 20,000 x 23,466(469M RGB 像素)的 RGB 图像。在哈希表大小为 T = 2^22 的情况下,神经网络训练了 5 分钟,并在训练39小时后达到了与ACORN (用于神经场景表示的自适应坐标网络)相似的峰值信噪比。
新研究的后果可能是巨大的。在技术方面,进步通常集中在速度或质量上,但很少同时以同时减少所需计算开销的方式实现。考虑到这项新研究所使用的硬件,在不久的将来我们可以看到后处理程序中使用的类似技术将打开一个全新的图像增强技术世界,这并非不可能。要详细了解该过程,请阅读完整的研究论文。