第1章 粒与粒计算的概念
本书各章节的讨论将针对数据之间的推出、关联、组合或蕴含等涉及数据处理的一些问题,可归结如下研究内容:数据之间的非精确推理、非精确数据推理的度量描述、决策推理与决策系统的分解与化简、基于公共数据的数据关联、结构化的数据合并与矩阵计算、以数学结构为支撑的三支决策推理、实际问题的刻画描述等。这些内容都与数据之间的相互联系或数据的特性密切相关,既涉及信息科学分支中的问题,也源于实际中的数据关联现象。又因为各类数据联系以及针对数据特性的讨论可以广义地看作数据之间的推理,所以本书把涉及的内容统一称为数据推理,数据推理是把各种数据关联形式归为统一主题的名称。虽然数据推理将涉及数据之间不同的联系形式,或涉及数据特性的讨论分析,但各章节的内容将通过粒计算的数据处理方式联系在一起,粒计算的数据处理内涵将作为贯穿本书的主线。
于是我们自然提出这样的问题:什么是粒?粒计算是怎样形式的运算?实际上,虽然粒计算是近年来信息科学关注的研究热点,并从认识方面具有了一定的共识或得到直观意义上的认同,但从数学描述或严格定义方面考虑,粒计算仍需进行深入和系统的研究,以达到建立理论体系的目的。近年来,粒计算的研究取得了许多成果,已建立了粒计算研究的相关方法。因此,为了使各章节针对数据推理的讨论在粒计算数据处理内涵下联系在一起,本章先对数据推理涉及的内容进行概述,然后介绍粒计算的相关概念。
1.1 数据与数据推理概述
在信息技术与社会发展高度融合的今天,针对各类问题的程序化处理与问题涉及的对象密切相关。这里的对象既包括实际中客观存在的各类实物,又涉及各类实物的抽象化表示。例如,问题程序化过程中常常面对的人类、动物、物体、植物等具体存在的实物,以及为了描述这些实物采用的数字、字母、符号、像素等抽象的概念等,它们都是程序化过程不可回避的对象,并与我们的生活息息相关。实际上,对实物的形式化描述是对问题程序化的前提,形式化是指对实际事物的抽象化或符号化表示,只有把实际物体实施抽象化表示后,才可能通过数学方法进行描述,并通过编制程序予以处理。因此,实施程序化处理的前提是对各类对象的形式化或抽象化表示。例如,为了对一类学生(即一群人)进行自动化或程序化的管理,我们往往把每一位学生对应一个学号,数字化的学号就是对具体对象(即学生)的抽象化表示。又如,对实际对象进行计算机识别时,需要记录对象的数字图像信息,数字图像信息就是实际对象的形式化或抽象化的表示,也称为符号化表示。
在下面的讨论中,我们把实际对象的抽象表示称为数据,即数据是实物的形式化的表示。但在讨论问题时,我们往往直接把具体的实物称为数据。例如,把学生、树木、工厂、站点等这些具体存在的对象都视为数据。严格上讲,只有把这些实际对象形式化或符号化后,符号化的表示才称为数据。不过直接把实物称为数据符合人们的习惯,不会产生麻烦,人们也常常如此看待数据。
数据是信息科学研究处理的对象,是程序化过程中各类操作的支撑,是信息科学中各类问题研究、处理、操作、存储的基础信息。
针对数据的各类研究或操作就是数据处理问题,并可给出一般性的概括:数据处理是指对数据之间的联系、数据之间的组合、数据之间的蕴含、数据之间的推理、数据之间的合并、数据信息的识别、数据构成的结构、数据的约简和存储、数据自身的性质等各类涉及数据的问题进行描述、刻画、分析或程序化的方法。因此,涉及对数据的讨论、操作、处理或分析等方面的工作都可以归为数据处理的范畴。
本书的讨论将围绕数据处理的相关问题,虽然涉及不同的方面,但可归结为统一的主题——数据推理。下面各章节的讨论将建立一些数据推理的方法,并体现自身的研究特点。如果直观地给予解释,那么数据推理可包括以下方面:数据之间的联系、数据之间的蕴含、数据之间的依赖、数据之间的关联、数据之间不明确的联系、数据之间的组合、数据的合并化简、数据的特性分析、数据引出的决策等,这些都与数据之间的联系密切相关。在某种意义下,数据联系可以广义地认为是数据之间的推理,称为数据推理。因此,数据推理是讨论研究数据之间明确或不明确联系、蕴含、组合、化简的课题。
后面各章节的讨论都将围绕数据推理问题展开,之所以将数据推理作为讨论的课题,既缘于信息科学包含的问题,又来自实际当中数据之间明确或不明确的数据联系,也与实际中的数据合并重组、数据的分类处理、数据自身的特性等问题相关。例如,如果公交站点1与公交站点2相连,且公交站点2与公交站点3相连,那么公交站点1与公交站点3通过公交站点2的相连关系是明确的。如果把公交站点看作数据,则站点之间的连接关系反映了明确的数据联系。又如,如果张三把钱借给李四,并且李四把钱借给王五,则从张三经李四到王五的借贷关系是明确的,而张三的儿子经李四到王五的借贷关系虽然不明确,但是从人们通常的认识方面考虑,这种儿子继承的借贷联系往往被认可,展示为不明确的借贷关系。因此,如果把张三、李四、王五以及张三的儿子看作数据,那么张三的儿子与王五的借贷关系展示了不明确的数据联系。在实际中,明确或不明确的数据联系还存在其他的形式,下面的讨论将对某些形式的数据联系展开研究。如果再对实际问题进行观察,我们还可以看到数据联系的另一现象——数据的合并重组,如两个企业的合并、一些高校的重组、城市群的建设、某群人的归类等,这些都展示了数据联系的另一形式,也常在信息科学的研究中涉及。因此,对数据联系的模式进行刻画,建立描述方法,是算法设计或问题程序化的前提,对于实际问题的智能处理具有理论支撑和实际应用的意义。
同时我们注意到,很多情况下,在数据联系确定的关联之中,包含着联系的方向。例如,从张三经李四到王五明确的借贷关系或从张三的儿子经李四到王五不明确的借贷关系中包含从张三或其儿子到王五的借贷方向,同样公交车从站点到站点的行驶也离不开方向问题。这启发了利用推理方法刻画数据联系的想法,因为推理是从前提推得结论的过程,前提和结论展示了推理的方向。后面各章节涉及的各类数据推理将把推理建立在数据之间,往往与方向相关,如数据a推出数据b包含了从a到b的方向,是对某种数据联系的刻画描述。
就推理而言,只要对经典或非经典数理逻辑知识有所了解,必然想到逻辑推理涉及的各类推理形式,如经典形式推理、经典语义推理、各类非经典形式推理、非经典语义推理等。虽然各类逻辑推理之间存在差异,但经典或非经典逻辑推理具有共同的特点,即以逻辑公式作为推理的对象,推理都在公式之间展开。尽管不同的公式或公式之间遵循的推理规则确定了经典或非经典逻辑推理的不同形式,但公式的定义以及推理依托公式的展开使各类逻辑推理得到了统一。现不妨对公式进行适当的解释,公式是对数据(即研究的对象)性质的形式化描述,各类逻辑推理体现了数据性质之间的因果联系。例如,考虑这样的推理:如果天下雨,则地面湿。此例展示了简单且被人们接受的推理因果关系,其中天、雨和地面是涉及的对象,可视为数据。“天下雨”和“地面湿”描述了这些数据的性质,所以“如果天下雨,则地面湿”是数据性质之间的推理。数理逻辑涉及的各类推理都依托公式而展开,描述了数据性质之间的因果联系或蕴含关系。
然而,下述各章节讨论的数据推理不是数据性质之间的相互推出,如性质“天下雨”可以推出性质“地面湿”这种刻画数据性质的推理不是本书讨论的课题。本书的讨论将把推理直接建立在数据之间,将围绕“张三推出李四”、“企业a推出企业b”等这种数据之间的推理展开讨论。数据之间的推理将用以描述数据之间明确或不明确的数据关联或数据联系,这显然与经典数理逻辑和非经典数理逻辑中依托公式、在数据性质之间进行推理的推理模式存在着根本的不同,数据推理将体现本书讨论的特点。
下面的各章节将围绕数据推理展开讨论,数据推理将包括不同的形式,相关的讨论将涉及粗糙数据推理、数据关联推理、决策推理与决策系统的化简、数据的合并与数据的转换、数据推理与三支决策等问题。这些讨论将构成本书的内容,并通过数据推理的主题予以概括或统一。
如何贯穿一条主线,使粗糙数据推理、数据关联推理、决策推理与决策系统的化简、数据的合并与数据的转换、数据推理与三支决策等各类形式的数据联系在主线下连成整体,本书采用的数据处理方法是粒计算。本书后面各章节的讨论都以粒计算的数据处理内涵或数据处理思想为支撑,使得不同的数据推理形式在粒计算的处理方式下得到统一,形成整体。
什么是粒计算?这正是本章要回答的问题。接下来将对粒计算的概念及其包含的思想进行讨论,希望能够使读者对粒计算问题形成一定的认识。由于不同的研究者对粒计算的认识存在差异,所以我们对粒计算理论及其数据处理方法的看法,或本书针对粒计算的介绍及讨论将体现作者的相关思想和研究手段。不过因为常与粒计算研究者接触和交流,下面的讨论将体现粒计算方法或粒计算研究的主流做法或思想理念。
1.2 粒和粒计算的直观解释
粒计算(granular computing, GrC)的提出已有二十多年的历史,是出于建立数据处理方法或提供数据处理思想的考虑,为问题的算法模拟、智能处理或程序设计提供理论、方法或理念上的支撑。
粒计算涉及简单与复杂问题之间的联系,其主要意图在于通过对问题的粒化分解,使复杂问题得以简化处理,体现了问题处理的思想和数据处理的对策。因此,粒计算一经提出,便得到了专家的认可和学者的关注。多年来,针对粒计算的学术会议、国际论坛、专题研讨、专题征文、基金项目、成果交流等学术活动推进了粒计算研究的进展,活跃了课题研究的氛围,取得了有意义的成果。一些学者之所以对粒计算产生兴趣,大概可以归结为这样几个方面:①它是需要深入和系统研究的课题,就这方面而言,粒计算仍可被视为新的课题;②它从整体到部分,再利用部分之间的关系、性质、组合、运算等讨论或操作,研究整体或完成数据处理的内涵思想,为复杂问题的解决提供了思路,体现了简单与复杂之间的辩证关系;③它面向问题的处理对策或应对策略易于被从事信息处理、计算智能、逻辑推理、算法化简等方向的研究者所接受,而一些学者更将其思想方法称为艺术。正是这些因素引起了许多从事计算机科学研究者的兴趣,促进了粒计算研究热情的高涨。同时针对粒计算的研究成果也不断出现,形成了粒计算研究的初步基础,支撑着粒计算研究的进一步进展。
尽管取得了一定成绩,但如果从理论体系方面考虑,粒计算的理论研究仍有待研究者的努力,对该课题感兴趣的学者都期望系统性的粒计算理论体系的出现。不过已有的成果具有一定的学术意义,为今后的探究提供了借鉴。本章涉及的粒计算讨论主要针对粒计算的基本概念,包括什么是粒、什么是粒之间的计算、粒度的变化、数据集的粒化处理等。本章将对粒计算中这些基本问题进行讨论,希望能帮助读者对粒和粒之间的计算等概念进行理解,形成认识,从而促进粒计算研究的进展,并期待包容、系统、深入和完整的粒计算理论体系的诞生。
后面各章节的讨论将围绕数据推理展开,将涉及数据推理不同的形式。不过这些不同的数据推理均与粒计算的数据处理内涵相一致,所以后面各章节的讨论将涉及粒计算研究的具体方法,将展示粒计算研究的具体内容。本章将针对粒计算的基本概念,可看作后面工作的准备。后面的讨论将针对具体问题,是基本概念或粒计算数据处理方法的具体体现。本章的讨论具有概括性或介绍性的特点,后面章节的方法具有针对性,可视为粒计算课题的具体内容。
如果把本章和后面各章作为整体考虑,本章是后面各章的基础,后面各章建立的方法是本章的深入。本书的各个章节的整体内容将形成具有自身特点、基于数据推理的粒计算理论体系。
以下对粒和粒之间的运算进行直观的解释。实际上,很多理论体系的产生都源于*初的直观或朴素的认识,我们首先对什么是粒进行解释性的讨论。
1.2.1 直观意义下的粒
我们认为,粒计算的核心是粒的问题。什么是粒,粒的确定产生是粒之间计算或运算(即粒计算)的基础,是粒用于数据处理的
展开