赵伦光：模糊查找精确比对排重单位的方法

无标题文档

赵伦光：模糊查找精确比对排重单位的方法

湖北省统计局　2009-05-07 08:55:47

　　两次经济普查的单位清查及多年的基本单位名录库维护工作表明，对单位的比对排重、查遗补漏，是我们县级以上普查机构必将经历的基础过程。各位同仁常常采用传统手工方法，完成单位名录的比对、实现单位不重不漏，分析清查单位库与普查单位库差异。当我们艰辛地走过比对流程时不禁要问：能否利用计算机手段，模拟人工比对过程高效实现上述目标，让我们宝贵的时间和精力投入普查数据审核、质量控制？孝感市经普办怀揣如此期盼进行反复尝试，现本着抛砖引玉之初衷，将探索成果呈现各位同仁。

　　我们知道，单位组织机构代码由质检部门赋码和管理，它是一个单位的身份标志，如果管理规范的话，犹如居民个人身份证号码一样，是唯一的，而实际上，不规范使用法人码的现象依然存在，导致多个单位共用一个法人码和一个单位使用多个法人码，由此产生的结果是：尽管两个单位的法人码相同，但却不是同一个单位；两个单位法人码虽不相同，但却是同一个单位。这样，我们需要比对两个单位的名称，来弥补通过比对法人码排重的缺陷。而现在的问题是：利用计算机语句即便比对出两个单位的名称不相同，也不能因此判定两个单位就不是同一个单位。例如：“孝感市宾馆”与“孝感宾馆”本是一个单位，但仅仅笼统地比对两个单位名称时，获得的逻辑值为“否”；再如：“孝感水利物资供应站”和“湖北省孝感市水利物资站”本来是一个单位，我们也无法用计算机语句判定两个单位属于一个单位，因为比对两个单位的名称时，获得的逻辑值依然为“否”。

　　针对类似情况，我们结合统计实践，建立相似度概念实现单位排重，并通过编制实用程序实现它，由此提高比对排重效率。这种方法不仅可运用于经济普查、基本单位名录库维护工作中，还可以广泛应用于统计专业的单位名称、产品名称等汉字及字符比对排重工作中；不仅可以适用于单一名称的比对，还可适用于单一名称与库、库与库之间的名称的比对。

　　相似度：比对A、B两个单位名称时，A单位名称中汉字包含在B单位名称汉字中的比例，定义为左相似度；B单位名称中汉字包含在A单位名称汉字中的比例，定义为右相似度。

　　纯相似度：比对A、B两个单位名称时，如已确定两单位在同一地区，则可以不比对两单位名称中有关的地址公用名称汉字（如：“湖北省孝感市孝南区县镇”等等汉字），A单位名称中汉字包含在B单位名称汉字中的比例，定义为左纯相似度；B单位名称中汉字包含在A单位名称汉字中的比例，定义为右纯相似度。

　　例如：“孝感宾馆”与“湖北省孝感市宾馆”两单位的左相似度为100%；右相似度为50%；抛开“湖北省孝感市”这些地址汉字不计，以上两单位名称左纯相似度为100%；右纯相似度为100%。

　　通过相似度来恒量两单位是否相同有时存在一定局限，如“湖北省孝感市宾馆”与“湖北省孝感市商场”本不是一个单位，两单位名称的左相似度为75%，右相似度也为75%，若依据相似度值，很难将其锁定在不相同单位之列；通过计算，它们的纯相似度却为零，依据此值很容易将其列为不相同单位。

　　为此，我们有必要再引入一个新概念：

　　相似度临界值：它是一个经验值，是确定将两个单位列为疑似相同单位的最低相似度，也是确定列入不相同单位的最高相似度。既然是一个经验值，因而，在不同的情况下相似度临界值不尽相同。譬如：当比对的两个单位属于同一地区的相似度临界值与不属于同一地区的单位名称时的相似度临界值是不一样的。可能会出现这样的现象：相似度值虽然较高，但比对的单位却不是同一个单位；相似度值较小的两个单位却是一个单位。为了尽可能使比对结果更精确，准确把握相似度临界值是必要的。

孝感市经普办按照以上思路、编制实用程序，高效地解决了单位清查底册整理、清查名册比对、清查结果与部门衔接分析，在当前的普查单位查遗补工作中，已经成为不可或缺的工具。

（作者单位：湖北省孝感市统计局）

　附件

　相关文档

中国经济普查网

国务院第二次全国经济普查领导小组办公室