云书馆

编辑推荐

本书以“事件”为切入点，通过介绍事件抽取、事件类型及元素识别、事件信息融合等领域发展状况，将信息抽取领域的代表性处理手段进行了系统的介绍，形成有机的整体。同时，本书在模型和技术的介绍之外，还以实际的网络舆情监测分析系统为案例，介绍在实际生产环境中对于各种模型和技术的应用。

展开

作者简介

王君泽，1982年生，工学博士，管理学博士后，华中科技大学公共管理学院硕士生导师。2010年毕业于华中科技大学电子与信息工程系，获博士学位。主要研究方向为网络舆情、国家信息安全、公共情报管理等。目前已经在IEEE Intelligent Systems、《新闻与传播研究》、《管理世界》、《情报学报》等国内外权威刊物上发表论文多篇。主持自然科学基金项目一项。

展开

内容介绍

随着Web数据的不断扩充，如何从Web数据中抽取信息并融合成指导决策的情报，已成为广泛关注的领域。面向Web数据的信息抽取和融合可以通过统计、在线分析处理、情报检索、机器学习、专家系统、模式识别等诸多方法来实现上述目标。
本书是信息抽取领域的学术著作，旨在从情报检索的视角介绍面向非限定领域的Web数据分析及处理方法。本书从基本概念讲解信息抽取以及融合，涉及词、句、篇章等层面的分析和处理策略，特别是针对情报处理的需要，以“事件”为切入点，将包括中文分词、词性标注、组块划分、句法分析、*大熵模型、条件随机域模型、马尔科夫模型等各类相关的处理模型和技术融入事件抽取、事件类型及元素识别、事件信息融合等领域的具体处理任务中加以介绍，并对信息抽取及融合等领域的发展状况及代表性处理手段进行介绍。

展开

精彩书评

历届MUC会议的召开推进了信息抽取技术的发展：首届MUC会议虽然是探索性的，但是它拉开了信息技术蓬勃发展的序幕；MUC2开始有了明确的任务定义，规定了模板槽的填充规则，信息抽取的过程被定义为一个模板填充的过程；MUC3开始引入正式的评测规则，并借用信息检索领域的准确率和召回率等概念对抽取结果进行评测；从MUC4开始，MUC系列会议被纳入了美国国防高级研究计划委员会组织的TIPSTER文本项目；MUC5会议中，组织者引入平均填充错误率(error per response fill，ERRF)作为主要评测标准，在MUC5中还引入了嵌套的模板结构，信息抽取模板借助面向对象的思想，可以由若干个子模板组成；MUC6会议中，除了原有的场景模板填充任务外，又引入了三个评测任务：命名实体识别、共指关系确定和模板元素填充；*后一届MUC会议MUC7中又增加了一项评测任务：关系抽取(模板关系，template relation)任务，用来确定实体与特定领域无关的关系。
随着MUC会议的停办，美国国家标准技术研究院(NIST)组织了自动内容抽取(automatic content extraction，ACE)评测会议，它从1999年开始继续进行信息抽取方面的评测。
ACE评测从1999年7月开始酝酿，2000年12月正式开始启动。其研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等信息。目前ACE评测主要有两大任务：实体识别与跟踪(entity detection and tracking，EDT)和关系识别与描述(relation detection and characterization，RDC)。ACE评测不针对具体的领域或场景，采用基于漏报和误报为基础的一套评价体系，还对系统跨文档处理能力进行评测。

展开

精彩书摘

信息抽取和融合是自然语言处理领域中的重要研究方向之一，自然语言处理技术的发展也影响着信息抽取及融合技术的进步。自然语言处理具有非常广泛的研究领域和研究方向。按照应用领域的不同，主要研究方向有：
1. 文字识别
文字识别(optical character recognition，OCR)借助计算机系统自动识别印刷体或手写体文字，把它们转换为可供计算机处理的电子文本。对于文字识别，主要研究字符的图像识别，但对于高性能的文字识别系统，往往也要同时研究语言理解技术问题。
2. 语音识别
语音识别(speech recognition)也称为自动语音识别(automatic speech recognition，ASR)，其目标是人类语音中的词汇内容转换为计算机可读的书面语表示。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
3. 机器翻译
机器翻译(machine translation)研究借助计算机程序把文字或演讲从一种自然语言自动翻译成另一种自然语言。简单来说，机器翻译就是把一个自然语言的字词变换为另一个自然语言的字词。使用语料库技术，可自动进行更加复杂的翻译。
4. 自动文摘
自动文摘(automatic abstracting)是应用计算机对指定的文章做摘要的过程，即把原文档的主要内容和含义自动归纳，提炼并形成摘要或缩写。常用的自动文摘是机械文摘，根据文章的外在特征摘选能够表达该文中心意思的部分原文句子，并把它们组成连贯的摘要。
5. 句法分析
句法分析(syntax parsing)又称自然语言语法分析(parsing in natural language)，它运用自然语言的句法和其他相关知识来确定组成输入句各成分的功能，以建立一种数据结构并用于获取输入句意义的技术。
6. 文本分类
文本分类(text categorization)又称为文档分类，是在给定的分类体系和分类标准下，根据文本内容利用计算机自动判别文本类别，实现文本自动归类的过程，包括学习和分类两个过程。首先有一些文本及其属类的标准，学习系统从标注的数据中学到一个函数(分类器)，分类系统利用学到的分类器对新给出的文本进行分类。
7. 信息检索
信息检索(information retrieval)又称情报检索，是利用计算机系统从海量文档中查找用户需要的相关文档的查询方法和查询过程。简而言之，信息检索是搜寻信息的科学，如在海量文件中搜寻信息、文件和描述文件的元数据或在数据库(包括相关的独立数据库或是超文本的网络数据库)中进行搜寻。
8. 信息抽取
信息抽取(information extraction)主要是指利用计算机从大量的结构化、半结构化或非结构化的文本中自动抽取特定的类信息(如事件和事实等)，并使其形成结构化数据，填入数据库供用户查询使用的过程。
9. 信息过滤
信息过滤(information filtering)是指应用计算机系统自动识别和过滤那些满足特定条件的文档信息。一般指对网络有害信息的自动识别和过滤，主要用于信息安全和防护等。也就是说，信息过滤是根据某些特定要求，过滤或删除互联网中某些敏感信息的过程。
10. 自然语言生成
自然语言生成(natural language generation)是指将句法或语义信息的内部表示转换为由自然语言符号组成的符号串的过程，是一种从深层结构到表层结构的转换技术，是自然语言理解的逆过程。从生成的结果看，有语句生成、语段生成和篇章生成等形式，其中以语句生成更为基本和重要。
11. 中文自动分词
中文自动分词(Chinese word segmentation)是指使用计算机自动对中文文本进行词语的切分，即像英文那样使得中文句子中的词之间存在空格加以标识。中文自动分词被认为是中文自然语言处理中*基本的环节。
12. 语音合成
语音合成(speech synthesis)又称为文语转换(texttospeech conversion)，是将书面文本自动转换成正确的语音表征。
13. 问答系统
问答系统(question answering system)是借助计算机系统对人提出问题的理解，通过自动推理等方法，在相关知识资源中自动求解答案，并对问题做出相应的回答。有时，回答技术与语音技术、多模态输入/输出技术以及人机交互技术相结合，构成人机对话系统。
此外，还有语言教学(language teaching)、词性标注(partofspeech tagging)、自动校对(automatic proofreading)以及讲话者识别/辨识/验证(speaker recognition/identification/verification)等。
作为语言信息处理的一个高层重要方向，自然语言理解一直是人工智能界所关注的核心课题之一。现在，自然语言理解是继专家系统和机器学习之后人工智能的又一重要和富有活力的应用研究领域。如果计算机能够真正理解自然语言，人机间的信息交流能够以人们所熟悉的自然语言来进行，那必将对人类社会进步、经济发展和改善人民生活产生重大影响，极大地方便人类的生产活动和日常生活，具有无法估量的社会效益和经济价值。
自然语言理解研究和应用的重大进展也将是人工智能和智能科学的一项重大突破，必将对科学技术的其他领域做出特别贡献，促进其他学科和部门的进一步发展，并对人们的生活产生深远的影响。继机器翻译之后，信息检索、文本分类、篇章理解、自动文摘、自动校对、词典自动编辑、文字自动识别等领域都在不同程度上要求计算机具备自动分析、理解和生成自然语言的能力。特别是互联网迅速扩展，网络上的信息资源加速度增长，在海量信息面前，人们迫切希望计算机能够具备自然语言的知识，能够帮助人们准确地获取所需的网上信息。自然语言理解研究可以使得计算机在一定程度上理解人类自然语言，从而帮助人们完成机器翻译、信息提取、信息检索、文本分类等各项工作。这对提高工作效率，丰富生活内容，推动相关领域和部门的发展都具有巨大的价值和意义。
语言是思维的载体和人际交流的工具。人类已经迈入21世纪，计算机可处理的自然语言文本数量空前增长，面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长。随着我国现代化建设的发展，信息处理技术的自动化愈来愈显得紧迫。人类历史上用语言文字形式记载和流传的知识占到知识总量的80%以上。据统计，目前计算机的应用范围，用于数学计算的仅占10%，用于过程控制的不到5%，其余85%以上都是用于语言文字和信息处理的，并且随着计算机的普及和性能的提高、价格的降低，这一趋势还在增强，语言信息处理的技术水平和每年所处理的信息总量已经成为衡量一个国家现代化技术水平的重要标志之一。可以说，汉语自然语言理解作为中文信息自动化处理的关键技术，每提高一步给我国的科学技术、文化教育、经济建设、国家安全所带来的效益，将是无法用金钱的数额来计算的。
目前信息的爆炸式增长也将人们带入了这样的窘境：海量信息分散在世界各地，信息资源共享困难，使得人们面对海量信息变得无所适从，很难从丰富的信息资源中获取自己所需的内容。信息抽取研究就是在这种背景下产生的。
信息抽取(information extraction，IE)是指从大量文本中抽取特定的信息、对获得的信息以结构化的形式进行描述，并填充进数据库中供用户查询和使用的过程。信息抽取的主要目标是让计算机不但能找到相关的文档，而且还要找到相关的内容。
信息检索与信息抽取是信息获取的两个研究方向。信息检索就是用户以关键字的形式输入一个查询，计算机通过统计和关键字匹配等技术，从大量的文档集合中找到与用户需求相关的文档列表。信息检索不受领域的限制，可以快速地返回相关的文档列表，但是信息检索的准确率比较低，需要用户对检索结果进行人工筛选。信息抽取则是利用自然语言处理技术，对文本中的段落篇章进行分析，得到用户感兴趣的事实信息。信息抽取系统是与领域相关的，只能抽取系统预先设定好的特定领域的事实信息。
虽然信息检索与信息抽取研究的方向不同，但是将两者结合起来，可以更好地完成用户的信息处理需求。在信息抽取系统中，可以借助信息检索系统的输出作为输入；另一方面，利用信息抽取技术又可以提高信息检索系统的性能。
信息抽取技术的早期研究开始于20世纪60年代中期，它以两个自然语言处理项目为代表：一个是从20世纪60年代中期开始一直延续到80年代的Linguistic String项目，该项目的研究内容是从医院的X光报告和出院记录中抽取信息格式，这种信息格式实际就是信息抽取研究中的模板；另一个研究项目是20世纪70年代开始的有关故事理解的研究，设计实现的FRUMP系统可以从新闻报道中抽取涉及多个领域的信息。
20世纪80年代末开始，消息理解系列会议(message understanding conference，MUC)的召开促进了信息抽取研究的迅速发展。从1987年到1998年，MUC系列会议一共举办了7届，该会议由美国国防高级研究计划委员会(the Defense Advanced Research Projects Agency，DARPA)资助。MUC系列会议的宗旨是评价当今信息抽取技术的水平，促进机器理解技术的发展。由MUC定义的概念、模型和技术规范对整个信息抽取领域的研究起着主导作用。MUC系列会议采用评测驱动的会议模式，会议的主要内容是对信息抽取系统的评测，组织者在会前向参加评测的单位提供样例消息文本和有关抽取任务的说明，然后参加者开发出提取这种消息文本的信息抽取系统。在正式会议开始前，各个信息抽取系统处理给定的消息文本集合，由各个系统的输出结果与手工标注的标准结果进行比较得到*终的评测结果。然后在正式会议中，参加者就信息抽取技术进行探讨和交流。

展开

第一章Web数据在情报分析中的效用研究/ 1第一节情报分析中的Web数据使用/ 1
第二节Web数据效用发挥面临的挑战/ 4
第三节小结/ 6
第二章中文分词及词性标注/ 8第一节中文自动分词的难点/ 8
第二节中文分词的基本方法/ 10
第三节中文词性标注的难点/ 14
第四节中文词性标注的基本方法/ 15
第三章中文句法分析/ 21第一节完全句法分析技术/ 21
第二节浅层句法分析/ 26
第四章语料库与词汇知识库/ 28第一节语料库技术/ 28
第二节词汇知识库/ 34
第五章Web数据消重/ 39第一节引言/ 39
第二节相关工作与研究框架/ 40
第三节算法流程分析/ 41
第四节算法效果评估/ 44
第五节基于网页转载关系识别的舆情传播态势分析/ 47
第六章基于*大熵模型的中文事件抽取方法研究/ 49第一节引言/ 49
第二节相关工作/ 51
第三节基于*大熵模型的事件类型及元素标注/ 52
第四节基于组块分析的标注单元划分/ 54
第五节实验及结果分析/ 56
第七章共指事件的事件表象可信度评估模型研究/ 58目录面向Web数据的信息抽取及融合技术研究第一节引言/ 58
第二节相关工作/ 59
第三节事件表象信任网络/ 61
第四节基于信任网络的事件表象可信度计算/ 63
第五节实验与分析/ 64
第八章面向新闻文本的事件表象融合策略研究/ 68第一节引言/ 68
第二节相关研究工作/ 69
第三节事件表象之间的共指关系识别/ 70
第四节基于Opinosis图结构的共指事件表象融合/ 74
第五节实验与结果分析/ 77
第九章面向共指事件识别的同义表述模式抽取研究/ 79第一节引言/ 79
第二节相关研究工作/ 80
第三节词级别同义表述模式抽取/ 82
第四节语句级别同义表述模式抽取/ 86
第五节实验/ 91
第十章基于共指事件识别的同义词集构建研究/ 96第一节研究背景/ 96
第二节相关工作/ 97
第三节共指事件表述识别/ 99
第四节同义词抽取及筛选策略/ 103
第五节实验/ 105
第十一章基于评论针对性的评论排序/ 108第一节问题定义与分析/ 109
第二节评论针对性的计算策略/ 111
第三节实验/ 114
第四节分析和讨论/ 116第十二章裁判文书类案推送中的案情相似度计算模型研究/ 118第一节背景介绍/ 118
第二节相关研究工作/ 119
第三节模型构建/ 120
第四节实验/ 126
第十三章舆情数据中的话题分析研究/ 130第一节PLSA介绍/ 130
第二节数据相关工作/ 132
第三节结果/ 134
第四节讨论/ 139
参考文献/ 141

展开