AnyRobot-基于机器学习的根因分析最佳实践
简介:AnyRobot-基于机器学习的根因分析最佳实践
关键字
机器学习、决策树、根因分析
适用产品
· AnyRobot 3.0.x
目的
当客户在进行数据分析时,常常面临几十个、甚至几百个分析维度,因此迫切需要知道影响结果的主要变量,减小分析难度。比如在异常检测场景中,客户检测到了异常,因此需要调查和分析为什么会出错,在哪里出错,寻求防止差错事故再次发生的必要措施,从而提高整体业务的安全和质量,而不是仅仅关注问题的表面现象。但是从人工角度去分析检测原因很费时、费力。根因分析(Root Cause Analysis),是分析问题和解决问题的一种方法,找到问题的根本原因或者主要原因,从而帮助客户进行快速定位。
解决方案
基本思路
决策树算法是一种利用了树、信息论等技术的分析方法,通过统计分析自变量特征对目标变量的影响程度,找出最重要的变量。
步骤一,进入配置页
1.进入搜索页面,将需要处理的数据在搜索页面保存,数据必须被解析过,存在解析字段。
2. 从导航栏选择机器学习进入任务列表,点击新建按钮,在异常检测功能中,选择根因分析。
步骤二,配置数据预览
1.在根因分析任务新建页面中,选择上步已存搜索和时间范围,所选时间范围内必须存在该搜索的数据,然后选择特征字段和目标字段。
2.点击预览按钮,查看预览结果。可以得到预览的原始数据。
步骤三,配置模型计算
1.选择模型计算的算法,其默认算法为决策树,当前也仅支持这一种算法。
2.根据提示设置合适的属性分裂方法和最大树深度,不勾选设置算法参数,系统将自动寻找一个最优值进行计算。
以下是参数配置的使用帮助:
属性分裂方法:表示不纯度的判决方法。
最大树深度:表示决策树的最大层数。不填写时使用算法默认值。若树形太过于复杂,可进行设置以防止过拟合。取值为整数,且大于等于 5。
最大特征数:表示用于分类的特征值的最大数量,默认使用全部特征值。
节点划分最小样本数:表示形成一个决策树分支的最小样本数量,低于此值则不形成新分支。取值为整数,且大于等于 2。
叶子节点最少样本数:表示每个叶子节点包含的最小样本数量。取值为整数,且大于等于1。
叶子节点最少样本占比:表示每个叶子节点包含的最小样本数量占比。取值在 0 到 0.5 之间。
最大叶子节点数:表示叶子节点的最大数量,不填写时使用算法默认值。取值为整数,且大于等于 10。
节点划分最低不纯度:表示最低不纯度,低于此值则不形成新分支。不填写时使用算法默认值。取值在 0 到 0.5 之间
3.点击计算按钮,在计算结果中可以查看特征字段重要程度占比与根因规则列表。
步骤四,保存任务
1.点击配置表单最下方的保存按钮,输入任务名称,点击确定按钮保存.
2.保存后返回任务列表查看任务。