在过去十年中,自动错误分配得到了深入研究。由于文本错误报告通常描述错误现象和潜在原因,工程师高度依赖这些报告来修复错误。研究人员严重依赖错误报告中的文本内容来定位错误文件。然而,文本中的噪音意外地给自动错误分配带来了不利影响,主要是由于经典自然语言处理(NLP)技术的不足。
为了深入了解文本特征和名词特征的作用,李泽轩领导的研究团队在《计算机科学前沿》上发表了他们的研究成果。
该团队复现了一项NLP技术TextCNN,以了解改进的NLP技术是否能提高文本特征的性能。结果表明,即使采用相对先进的技术,文本特征也不会超过其他特征。该团队进一步探索了对错误分配方法有影响的特征,并从统计角度给出了解释。
他们发现,所选的有影响力的特征都是标称特征,这些特征反映了开发者的偏好。实验结果表明,不使用文本,标称特征就能取得有竞争力的结果。
在研究中,他们努力回答三个问题。首先,文本特征对于基于深度学习的NLP技术有多有效?他们复现了TextCNN,并将文本特征与一组名义特征的有效性进行了比较。
第二,哪些特征对缺陷分配方法有影响,为什么有影响?他们采用了包装器方法和广泛使用的双向策略。通过用不同的特征组反复训练分类器,根据度量标准判断特征的重要性。他们推测名义特征有助于缩小分类器的搜索范围,并用统计方法验证了这一推测。
第三,所选的有影响力的特征能在多大程度上改善错误分配?他们在变化的特征组上用固定分类器训练模型,并在五组特征上进行两种流行的分类器(决策树和SVM)。
实验以5个不同规模和类型的项目作为数据集,结果表明改进的NLP技术效果有限,所选关键特征在两种流行分类器下的准确率达到11–25%。
未来的工作可以集中在引入源文件以在这些有影响的特征和描述性词之间构建知识图谱,以便更好地嵌入名义特征。