传感器与传感器融合 - 缺陷检测设计的关键

March 2, 2023

Fanny Hu

发布于2022-09-01

缺陷检测是一个过程，用于发现和识别超出规定参数范围的特性，包括时间相关偏差、物理异常和成组工艺偏差。现在比以往任何时候都更迫切地需要设计出完美优化的缺陷检测系统。举例来说，如果一个优化欠佳的缺陷检测系统让产品缺陷率增加了1%，就会导致产品召回、产品补救或下游系统故障，从而很容易造成数百万美元的损失。缺陷检测系统的条件设置一般不能太具体，不然会产生过多的假警报，让生产陷入停顿，工作流程无法顺利进行。

下面以一个输油管道的缺陷检测为例，探讨了设计和优化传感器系统以及选择传感器融合方法时要考虑的因素。

缺陷检测场景：输油管道

检测输油管道的缺陷是一个复杂、昂贵且要求严格的过程，会遇到多个环境变量，包括各种可能发生的缺陷：

环境和自然变量，如地理位置、规模（考虑阿拉斯加的区域大小和设备尺寸以及人口规模）、原油的腐蚀性以及环境的不可控性
流量要求，如容量、液位、速度、压力和温度
可能出现的缺陷数量和类型，如裂纹、表层脱落、侵蚀、腐蚀、振动、公共设施流量、公共设施温度和压力

不良设计会带来灾难性的潜在后果，包括有毒物质泄漏、生产中断、健康和安全问题以及环境退化。误报会带来高昂的成本，让重要计划、流程出现偏差或停顿，并且需要多个工作人员来修复缺陷。规定传感器要求、优化传感器设计和选择合适的传感器融合处理方法至关重要。了解各方面的权衡并提出正确的问题可以充分提高缺陷检测系统的效率和有效性。

缺陷检测设计

规定传感器要求

在缺陷检测系统中，传感器提供冗余信息或全新的独立信息。因此，必须在总体系统要求的框架内考虑传感器规格：

分辨率：

传感器是否满足分辨率和精度要求？

如果需要，传感器能否将缺陷精确到0.5mm？

传感器能否检测出0.5mm和0.6mm之间的缺陷差异？

可靠性

传感器结果的可靠性是否能满足运营要求？

传感器是否可靠，能在不同环境条件下进行一致采集？

传感器结果是否一致（低方差）？

系统

传感器提供的数据是否能满足系统目标所需？

根据传感器提供的信息，系统能否完成任务？

硬件

传感器是否满足硬件要求？

功率？重量？尺寸？时序？

优化传感器设计

在系统复杂性、冗余需求和系统交互方面，优化传感器设计也很重要。在大多数情况下，尽量减少系统内的传感器数量有助于降低系统复杂性和成本。因此，优化传感器设计需要在传感器数量和系统整体复杂性之间进行权衡（图1）。这种权衡可能出于成本以外的几个原因，例如，饱和度、可扩展性和系统限制等。

图1：传感器数量和系统之间理论上的权衡。系统必须在多个参数之间实现平衡。在期望的参数空间内，系统通常不会无限扩展而不退化。换句话说就是，系统不是无所不能。（注意：显示的函数关系取决于具体应用和任务。）（图源：作者）

一般来说，权衡可分为三类：

成本

系统是否符合成本效益指标？

系统必须多久校准和维护一次？

更简单的系统能否达到与当前系统相同的性能阈值？

信息

系统是否能捕获准确评估性能所需的全部信息？

信息是否有冗余？

信息是否准确？

对我的应用来说信息是否足够具体？

部署

系统的可部署性如何？

系统是否可靠？

系统是否易于使用？它是否有冗余来实现适当的分辨率？

系统能否在其设计的空间内运行？例如，它是否可以部署在阿拉斯加？

融合传感器数据

传感器融合是指综合分析来自不同传感器或信息源的数据。它用于解决冗余问题并提高系统的具体性。在我们的缺陷检测系统中，传感器融合将提供冗余和具体性。下面以一段输油管道的裂纹和表层脱落缺陷检测为例：

裂纹检测：从光学传感器接收的图像可以确定裂纹的大小及其在管道上的分布范围。但是，更能指示缺陷程度的裂纹深度却无法通过这些图像轻松判定。在这种情况下，理想的做法是融合来自超声波脉冲反射之类的传感器数据，以测量裂纹深度并验证缺陷是否存在。
表层脱落检测：从光学传感器接收的图像可能会比较模糊，无法清楚地判定缺陷。融合来自其他摄像头的数据可以通过提供信息冗余来提升我们的判断力，并帮助我们进行分类判断。

由于各方面的限制，必须平衡检测结果的假阳性（1类错误）和假阴性（2类错误）所占比例（图2）。这种平衡可以通过融合来自传感器的更多数据或使用更好的算法来实现。

图2：系统使用单个特征空间（裂纹长度）在假阳性和假阴性之间进行平衡的示例。加入来自其他传感器的更多特征值可以提供可分离性并改善系统性能。阈值是一个关键的优化参数。使用Neyman-Pearson或其他技术来寻找最佳阈值很重要，但最终要基于系统设计和需求。（图源：作者）

通过融合更多传感器数据，系统的可用数据会增加。有了更多的数据，特征空间维数就可以增加，从而帮助我们做出更明智的决策。一般来说，更多（更全面）的信息有助于做出更正确的决策，但由于多种原因，这并不总是可行：

更多的信息需要更多的传感器，这与硬件的精简形成了直接对立。
系统内的数据量和特征将开始重叠，限制系统中的可用特征数。
如果使用过多特征，会发生过拟合，使系统脆弱且不可推广。
系统不能无限扩展（图1）。

为了解决传感器融合的局限性并完成系统的理论模型，我们可以采用两种方法：标准方法和深度学习 (DL) 方法。具体选择哪种方法取决于可用来开发系统的问题集和资源：

问题复杂性：DL处理复杂任务和来自众多数据源（超过20个）的数据融合。标准方法也可以处理复杂任务，但如果有泄漏发生，其复杂性通常会有限制。
扩展性：DL的扩展性要比标准方法好得多。
要求：标准方法通常更易于使用。

-----标准方法

优化传感器数据的标准方法包括使用特征选择功能和尽量减少每个特征集之间的共有信息。与传感器的数量限制类似，好的做法是在尽量减少特征数量（来自传感器数据）的同时尽量增加系统中的信息量。

确定缺陷可以视为二元分类问题，缺陷要么检测到，要么未检测到（在传感器数据融合后）。包括机器学习 (ML) 在内的标准分类方法对每个算法类来说都有利有弊。（这里的ML是指不使用函数近似或神经网络的分类算法。）了解这些优缺点至关重要。如果决策空间是一维的，那么当偏见使得系统中不存在2类错误时，简单的阈值就足够了，对1类错误来说也是如此。但在像我们这样更复杂的情况下，必须训练一种算法来拟合融合的数据。在足够复杂的系统中，专家无法确定决策边界，这项工作应留给拟合数据的机器学习算法。

为了正确地设计标准算法，ML算法专门使用一个处理流程，在该流程中，系统需求确定算法是否充分执行。此流程需要一个数据框架（图3），虽然该框架不在本文讨论范围内，但它确实隐含在处理流程中。

图3：使用机器学习开发传感器融合算法。系统过程定义了具有验证和测试阶段的标准方法，以确保算法满足需求规范。每个绿框代表应多次迭代的任务集。（图源：作者）

标准传感器融合方法的局限性包括依赖算法假设和需要专家系统设计（表1）。

表1：标准传感器融合方法的局限性包括依赖算法假设和需要专家系统设计。

局限性	详细信息
复杂度	模型的复杂度有限，在处理一定数量的维度或特征后会降级。
算法假设	许多标准方法使用的假设并不能反映任务或数据的偏见或复杂性。要选择适合当前任务的算法类。
可扩展性	标准算法可能难以针对复杂任务做适当扩展
专业知识	每个过程步骤都需要专家介入，专业知识可以帮助减少模型假设。不理解算法为什么这样工作？这意味着你遇到了问题。
滞后	许多任务需要滞后，并且可以使用标准方法进行特殊处理。
泄漏	需要多个步骤（图像处理）的算法在每个步骤中都可能会遇到脱节的优化。第1步可能不会产生第2步为实现良好的优化和泛化所需的输出。

深度学习方法

DL算法或网络架构的选择取决于数据及其表示。请选择与数据表示相对应的正确网络架构。网络的隐式偏见会让某些类别的架构能够更快地学习并实现更好的性能。对图像使用卷积神经网络 (CNN) 就是一个常见的例子。在CNN中，卷积滤波器利用图像的结构相关性，即相邻像素会提供关于当前像素的信息。对整个图像进行缩放时，CNN可以执行对象检测、分割和其他复杂的图像处理任务。

DL支持从数据到任务的联合优化。针对特定应用优化DL依赖于神经网络（参数化功能模块/计算图）。在用于缺陷检测的传感器融合中，DL可以提高准确性、可扩展性和各项能力。例如在分析期间（严格条件下）检测更多类型的缺陷或支持新的应用，比如缺陷描述和故障关联。表2和表3列出了DL的优缺点。

表2：DL的优点

优点	详细信息
可扩展性	DL算法已被证明可以扩展到复杂度难以置信的问题。
速度	能够快速推断和计算结果。
精确度	在许多关键任务中都能提供极高的精确度，但不一定在每个任务中都如此。
特征提取	极其强大，但表达不够；DL的两个定义性特征就是特征提取和表征学习。
联合优化	从数据到任务的联合优化
多样性	能够学习和执行各种任务；DL被炒作是有原因的，但这种炒作可能有点夸张。

表3：DL的缺点

缺点	详细信息
黑匣子	无法描述和理解。
应用有限	仅限于非安全关键型系统；不要用于安全关键型系统或没有许多冗余的情况。
数据	“嗯，是的！ DL只有在数据集变得足够大时才接管，这是有原因的。” – Yann LeCun（杨立昆）。
计算和资源	训练需要大量的计算资源和基础设施，而且训练的成本也很高。
泛化	DL框架很难正确地泛化；只能测试、测试，不停地测试。
设计	实现DL算法的设计规范并不简单
专业知识	必须了解处理数据的技巧和技术以及DL理论基础。

DL需要严格的工作流程，包括大量的训练和验证步骤，以确保理想的性能和泛化（图4）。

图4：DL需要严格的工作流程，包括大量的训练和验证步骤，以确保理想的性能和泛化。（图源：作者）

最后，在选择DL系统时，数据的可用性是一个重要的考量因素。DL算法需要大量的数据才能进行泛化并在推断过程中获得良好的性能。如果没有可用数据，DL系统将不可行，不应使用。（作为参考，10000个样本不算很多数据。）表5列出了DL的数据要求。

表5：DL的数据要求

要求	详细信息
表示	● 数据必须能表示真实世界（例如，最小域转移）。 ● 数据必须准确。 ● 训练数据必须反映推断时的数据。
密度	● 样本数或数据量必须很大。 ● 数据越多越好，只要它满足多样性和表示要求。 ● 必须捕获尾分布。
多样性	● 数据必须多样化，并考虑到各种可能性。 ● 数据中每个类别的样本比例必须保持平衡。 ● 应消除或减轻数据中的已知偏见。
对抗样本	● 应包含对抗样本以实现稳健性。