作者:
来源:
做采血管分拣机的故障预警,第一步不是上算法、不是上大数据,而是先把这台设备“怎么坏、常在哪坏、坏前有什么征兆”搞清楚。我的经验是,至少要做两类梳理:一是结构级的故障模式梳理,把关键部件按模块拆开,比如进样模块、皮带/链条传送、扫码识别、分拣执行机构、电控与通信等;二是流程级的异常路径梳理,即从采血管进入到被分拣完成,每一步可能被卡住、被误分、被漏检的场景都要画出来。有条件的话,用简单的FMEA(失效模式与影响分析)表格就够了:列出失效模式、原因、影响、可观测量以及当前控制措施,别追求花哨,把“可观测量”这一列填扎实才是重点。
为了让预警系统能真正落地,我通常会把每个故障模式拆成三层:可直接测量的量(电流、速度、温度、光电计数等)、可间接推断的量(误分率上升、卡管次数增多、扫描重试次数异常)、暂时无法量化但可以人为标注的现象(某段时间取放不顺、机械异响)。前两类是预警输入,第三类则通过维护人员打标签喂给系统,形成最初的“经验库”。这一块不要怕“土”:早期可以用Excel+纸质点检单配合,重点是把现场的坏机经验变成结构化信息,后面无论上什么工具、有多智能,都是吃这碗“数据基础饭”的。

真正能支撑预警效果的监测点,往往就十几个关键信号,而不是上百个传感器的堆砌。我通常从“三要素”入手筛选:与停机时间强相关的部件、维修成本高或更换周期长的部件、对样本安全或检验质量有直接影响的部位。以采血管分拣机为例,几个重点监测对象一般包括:输送电机和主要减速机的电流、转速与温度;关键皮带或链条区域的运行速度、打滑/卡阻特征(通过编码器计数差、光电感应不平衡信号来侧面反映);扫码模块的识读成功率、重试次数、误读比例;分拣执行机构(气缸、机械手或摆臂)的动作时间分布与错误动作计数;整机节拍的稳定性(单位时间处理量波动)。
在实际项目中,我会坚持一个原则:每增加一个监测点,就必须回答两个问题——它可以预警哪两三类故障?它出现异常时运维人员能做什么动作?如果这两点说不清楚,要么暂缓接入,要么只在研发阶段做试验数据,不要急着上到生产版。否则你会发现报警一大堆,真正有用的没几个,现场半年后就没人理预警系统了。初期可以只抓5到10个高价值监测变量,把预警规则做深、做稳,再逐步扩展,这比一开始做得“炫”要可靠得多。

预警的核心不是“会不会做算法”,而是“能不能把设备的劣化过程看清楚”。对采血管分拣机这种节拍稳定、场景固定的设备,简单的多级阈值配合趋势判断就足够覆盖80%的故障预警场景。做法上,我通常为每个关键监测量设计三档:正常区间、预警区间、危险区间,同时再加一个“趋势偏移条件”。举个例子,输送电机电流可以设定为:在某负载条件下,超过历史中位值的20%且持续5分钟进入预警,超过40%或伴随过温直接进入危险;如果最近一周的平均电流相比上周上涨了10%以上,即使不超过阈值也给一个“关注提醒”。这一套在初期靠经验设定,运行两三个月后再结合实际数据迭代,效果会越来越稳。
要避免的坑是“一刀切阈值”和“单点报警”:一刀切就是不同型号、不同工况的设备用同一套报警值,结果要么天天响要么从不响;单点报警则容易被外部干扰触发。所以预警规则一定要支持组合条件,例如电流异常必须叠加节拍波动或卡管计数增加才升级为故障预警。这样报警频次会自然降下来,现场更愿意相信这个系统。这里可以配合可视化工具,例如用Grafana或国内的一些工控可视化平台,把趋势图、阈值线都画出来,让工程师能肉眼判断“这报警是不是靠谱”。
很多团队一上来就想着搞机器学习、异常检测模型,结果数据质量不上来、标签不可靠,模型效果很难落地。我更推崇的做法是:先用简单的“伪智能”规则系统,逐步沉淀经验。比如可以设计一套基于规则权重的健康评分:每个监测点根据偏离程度打分,叠加行为类指标(如最近7天卡管次数、人工干预次数、急停按钮触发次数),合成一个0到100的健康度。分拣机的维护人员只需要看这个健康度和几个关键指标就能判断是否需要停机检修,比一堆复杂图表要直观得多。

等到数据积累到一定规模(比如半年以上、故障样本达到几十到上百例),再考虑引入简单的异常检测算法,如基于分位数的无监督异常检测或时序异常检测,而不是一上来就训练大模型。这里推荐一个落地方法:用开源的时序数据库(如InfluxDB)存储监控数据,再用Python配合scikit-learn或PyOD这类库先做离线分析,找到最有价值的异常特征,最后再“固化”为新的规则或阈值。这种“先规则、后算法、再规则化”的闭环,更符合工业设备的节奏,出问题也好追溯原因,而不是把一切都交给黑盒。
预警系统要想真正保障分拣机稳定运行,必须和运维流程绑在一起,而不是只在屏幕上多几个红色图标。我的做法是为每类预警状态预先设计“动作清单”:轻度预警(比如健康度下降但未触发故障)时,自动生成巡检任务,要求在24小时内由值班工程师检查指定部件,并记录检查结果;中度预警(多项指标偏离、伴随节拍波动)时,系统需在指定沟通渠道(如钉钉、企业微信)推送告警,并建议在业务低谷期安排计划停机;重度预警或危险阈值直接触发时,则需要联动分拣机控制系统,执行降速运行或有序停机策略,并强制生成维护工单。整个链条一定要可配置,但原则是“每一次预警,都有明确的执行人和处理时限”。
落地工具上,不一定非要上重型CMMS系统,中小实验室完全可以采用轻量化方案:建议用一个成熟的工单平台(如简道云、企业微信内的自建应用)来承接预警任务,把故障类型、现场情况、处理措施、备件更换记录都统一沉淀。这样,预警系统输出的不是“报警”,而是“可追踪的任务”,经验可以不断回流优化预警规则。实践中你会发现,很多重复故障通过这种闭环,半年内就能把发生频率压到原来的三分之一以下。说句直白的:预警要想值钱,就得和“谁去干、什么时候干、干了有什么反馈”这三件事绑紧,否则就是在装饰监控大屏。