0 引言
TRIZ理论是前苏联的G.S.Altshuler在分析研究世界各国250万件专利的基础上,提出来的解决发明问题的系统化方法学,它是一种建立在技术系统演变规律基础上的问题解决系统。之所以TRIZ理论在实际工程问题中往往可以找到较为理想的解决方案,是由于TRIZ为使用者提供了尽可能接近理想解的方向,且不受设计人员惯性思维所限制。TRIZ理论来源于大量的专利,所以在指导工程问题时,也可以用专利来给予工程人员启发式的指导。
专利是人类的知识成果,有效的利用专利知识可以为人们节省大量的时间、成本。这种基于专利的知识复用可以在已有知识的基础上更加专注于特定领域的知识构建,并且新系统可以利用所复用的知识与现存的其他系统进行交互。这样,描述性的知识、问题解决方法以及推理服务都可在系统间实现共享,从而可以方便地构建出更大、更好的知识库来为工程人员提供解决思路,而不是一味的浪费时间。
因此以TRIZ理论为基础,采用数据挖掘技术为手段,利用中文专利文献资源,找到大量专利数据背后隐藏的重要技术规律,获得发明创造过程中的一般技术策略,方法和手段等深度知识来解决机械产品的创新设计问题,可能会为机械产品高层次的创新开辟新的途径。以此为工程人员提供指导性强、具有启发性的知识,完成对创新系统实例的动态更新和扩充。
1 相关工作
专利一般分为三种类型:发明专利、实用新型专利以及产品外观设计专利。在2007年12月召开的创新型国家建设与知识产权保护大会上,证实我国的实用新型专利90010对于产品创新是基本无用的,因此基于TRIZ的专利挖掘主要是在发明专利上的深度知识的挖掘和信息抽取上。专利数据库是以常规技术分类,分散在各专业领域中,传统的专利库对专利的分类是基于学科的,对于跨学科、跨领域的综合创新是无益的,无法直接用于产品创新设计理论。
对于专利研究的相关技术国外已有较大的发展,并且集中在专利的信息抽取技术、聚类技术、以及专利的自动分类方面。主要的研究单位有美国Invention Machine Corporation公司、亿维讯公司等,他们都对TRIZ理论本身和专利方面进行了深入的研究,并且开发了主流的计算机创新辅助软件(CAl)为广大的用户服务。
Soo等给出了专利的结构本体模型的抽取方法。Young等提出了一种基于出现时间和技术特征的专利分析方案,但抽取目标语义模型相对简单。Cascini等根据TRIZ中的专利被划分为5个创新级别理论,应用文本挖掘技术计算机辅助从专利文本中抽取词汇,提出了主语-谓语-宾语(简称SAO)三元模型。Cong和Tong等开发了面向TRIZ用户的专利自动分类专家系统。
国内对于中文专利的研究滞后于国外,这与汉语的语言特点也不无关系,国内的研究单位有浙江大学、哈工大、中科院计算所等。
郭炜强等在构建专利自动分类时,采用了改进词语权重的计算方法并从专利类别IPC的定义中抽取概念向量,作为专利分类领域知识。冯培恩教授通过对生物基因工程与产品原理方案设计的类比,建立了基于产品基因遗传和重组的概念设计框架,该框架有助于产品概念设计阶段的原理创新。王克奇等针对目前的专利检索系统无法给用户提供有效的创新理论支持,把TRIZ理论中的一些先进原理和方法应用于现有的专利检索系统当中,并在此基础上提出面向TRIZ的专利库建模模型,任工吕教授分析了TRIZ理论是以深度技术知识为基础,建立了从专利中获取启发式原理和技术效应的方法,以此支撑设计模型从事产品创新设计,并提出了点问题及其解决途径。并基于TRIZ理论技术进化为一些产品指出了开发方向、或在特定阶段应采取的决策。
目前,国内外的研究还处在起步阶段,研究还不够深入。利用文本挖掘技术面向TRIZ理论进行专利深度知识的发现和提取内容的研究更是一个新兴和热门的研究课题。专利数据库中集结了人类智慧的结晶,但它分散在各专业领域,不利于产品的创新设计。所以基于TRIZ理论的中文专利的知识挖掘对促进产品创新设计,甚至是我国的各行各业以及经济发展具有非常重要的意义。
本文在前人研究的基础上,进一步探索了专利与TRIZ理论结合以进行深度知识挖掘,从而为工程技术人员提供有用知识,其中文本挖掘的相关技术是关键。本文先构建了中文专利的知识获取的模型,然后针对专利这种特殊的文本应用深度知识库,介绍了知识获取的一般过程。
2 中文专利深度知识获取模型构建
基于TRIZ理论中文专利深度知识获取系统的模型框架如图1所示。该模型包括以下几个部分:预处理模块、语言知识库模块和文本分类器模块。
图1 中文专利深度知识获取系统
中文专利深度知识获取模型中主要包含两个数据库,一个是传统的专利库,这是直接从国家知识产权局批量下载的专利:另一个是深度知识库,它是从传统数据库经过一系列的过程储存深度知识的专利数据库。所提取的深度知识就是能够在各个技术领域相互使用的启发式原理、技术效应等知识。这是为了将一部分专利以TRIZ理论的概念、术语的形式存放于数据库中,便于后续训练文本集的查询和规律研究。这不同于传统专利库按照学科分类的组织形式。这两个数据库的组织形式是不相同的,后者按照TRIZ理论的指导,更能给人以启发,促使人们产生设计灵感,从而进行创新。
2.1 预处理模块
从中文专利库中下载专利,然后对这些专利进行预处理,包括格式化处理,结构化信息提取和文本预处理,建立有利于后续知识发现及挖掘的统一专利方案表示模式。格式化处理应该先下载包含专利信息页面的HTML文档到本地机器中。这是整个抽取工作的前提,只有获取到编码格式正确的HTML文档,才能确保抽取信息的正确性。然后过滤掉无用的网页标记和链接,并找到某篇专利的下载路径。结构化信息提取主要有两方面,一方面是提取专利的基本信息,例如发明人、题目、IPC、专利类型等内容,另一方面通过OCR技术或者人工辅助提取专利的基本内容,如摘要、发明内容、附图说明等内容。经过结构化信息提取过程后,就可以对这些基本内容进行文本预处理,包括文本分词、去停用词、文本特征提取、词频统计等操作。
2.2 语言知识库模块
对TRIZ理论体系解决问题工程参数、发明原理、效应理论等内容进行深刻研究,建立语言知识库。
a.关键词匹配机制。采用分类挖掘技术和人工对专利仔细分析相结合的方式,重点从网上公布的专利中提取对各个学科均有指导意义的启发式原理(包括原理的应用形式、应用实例说明和实例图)和冲突解耦规则等,作为产品设计系统的基础,将TRIZ理论的技术冲突和效应解决工具具体化。对应于专利的知识提取最简单的就是建立关键词匹配机制。也就是说,针对40条发明原理,39个工程参数或效应原理建立发明原理词典,工程参数参数词典等。例如,发明原理词典收录了对应每条发明原理的尽可能多的词汇,所以对于未知分类的某个专利而言,可以初步通过该词典找到某个专利对应关键词匹配率最高的原理进行下一步的分析。运用T程参数词典也可以辅助找到可能运用的发明原理。该过程是一对多的映射关系,需要大量的知识支持。
b.构建语义模板。对于中文这种复杂的自然语言,在语言的表达上及其丰富,仅仅依靠关键词的匹配机制是不够的,为此要建立语义关系的模板。一般来说,语义关系主要有上下位关系、因果关系、推论关系、整体部分关系等;语义模板就是找到句子背后蕴含的复杂关系,构建描述周围世界的知识模型。语义模板的建立,不仅基于逻辑和知识的方法建立规则,还可以结合概率信息来描述各种语言现象。这些概率信息的获取,主要是通过收集大量的真实语言材料并对此进行定量分析而得到。传统的基于逻辑和知识的方法涉及许多的领域知识和经验,其语法规则有很多例外和不合逻辑之处:而且自然语言中还存在许多歧义现象,这些都是很难通过规则来加以形式化的。
2.3 文本分类器模块
文本的白动分类是基于有效的统计或一定规则的语言模型,包括基本短语的自动识别、动词搭配知识的获取和浅层句法分析的研究。为此要对TRIZ理论在各个学科应用的泛化问题及语义基础进行深刻的研究。
对专利文本进行分类并对结果进行对比分析,选出分类结果最为准确的分类算法,并进行改进。同时根据专利文本特点将词典词汇赋予一定的权重系数。提取了专利中的标准参数,就可以推知它可能应用的发明原理,从发明原理的词库或者推理规则验证此专利是否用到了矛盾矩阵中的发明原理所映射的词汇或规则,同时根据专利文本特点词典词汇的权重系数进行改进,这里有一个评判标准就是如何判断专利中应用的原理是否属于TRIZ中的发明原理,也就是一个阈值的确定。该阈值可以由专家由经验给出一个初始的范围,若在此范围内,则认为该专利的解决方案属于已知的知识,可以后期将其加入到创新系统的案例库中,若不在此范围,则认为该专利的解决方案可能为创新解,需要进一步的判断。
3 深度知识获取的过程及方法
专利包括专利名称,摘要,权利要求书和说明书等,这些是存储在中文专利库中的,对这些内容进行重点研究。以TRIZ理论为背景,结合文本挖掘的相关技术,对专利文本的深度知识获取的一般过程总结如图2所示。
图2 应用深度知识库挖掘专利文本的一般过程
深度知识库可以从中文专利库中提取辅助于文本挖掘的内容和结构,专利说明书包括技术领域,背景知识,发明内容,附图说明以及具体实施方式。深度知识库对于实例的储存形式包含标题,初始T况,解决过程以及应用结果。如图2所示,标题主要从专利名称获取,初始工况通常存在于专利摘要和背景技术中,问题的解决过程在权利要求书和发明内容部分有详细的说明,而应用结果通常在具体实施方式和说明书附图中表现出来。标题是该篇专利的研究对象,而这已经结构化的存储在数据库中:对于初始工况,主要提取的就是恶化的参数以及提出了问题的描述:解决过程是应用创新原理的过程,是研究的重点,应用结果主要提取的是改善的参数以及解决问题的描述。后三者主要由领域词典作为支撑,领域词典包含工程参数词典、发明原理词典、效应词典等。知识发现语义模板用于对语言知识和实体关系进行描述,作为对专利文本深刻理解的之用。它降低了单一关键词的匹配造成的匹配不准确的弊端,对于用户的检索、领域词典的组织以及专利文本的分类是十分必要的。最后,用户可以进行浏览,结果显示以及检索查询的相关功能了。
下面针对该过程所提到的部分功能模块进行说明:
3.1 专利文献的结构化形式
现有技术资源多数存储在以互联网为基础的计算机中,专利数据库也是如此,且以常规技术分类,分散在各专业领域中,无法直接用于产品创新设计理论。其中文本的自然语言处理方法和知识挖掘算法是研究的前提和解决的关键问题。
专利文本格式化存储形式关系到后续的知识发现,并且对专利文本的中文处理技术也十分关键。专利文本是自然语言,对专利全部内容的提取是不可行的:且处理的对象是中文,较英文文本的预处理更为复杂,因为中文的基元是字而不是词,字的信息量比较低,句子中各词语间没有固有的分隔符(如空格)。
提取的格式化内容为:专利基本信息(Patln);深度知识信息(Dpatln);专利的TRIZ编号(PT)。其中专利基本信息对应图2中的第一行的功能模块信息:深度知识信息对应于图2中第二行的内容。
因此专利的结构化形式:PAT={Patln,Dpatln,PT}
3.2 领域词典的建立
该领域词典包含发明原理词典,工程参数领域词典。这就是图2中所提到的领域词典模块。
例如,发明原理词典中:No.14曲面化原理的相关关键词有:圆角、滚筒、球体、球状、螺旋状、螺旋、离心力、离心、甩、回转等等。
工程参数词典中:No.1运动物体的重量的相关关键词有:力、动、可动、可移动、场、引力、物理、移动、质量、运动、重力、重量等等。
利用这些领域词典就可以对某些专利按照TRIZ的理论背景进行初步分析。而工程参数词典是辅助发明原理词典按关键词匹配出来的结果进行筛选,以得到尽可能接近某条发明原理的专利分类。
3.3 知识发现语义模板的构建
利用智能算法,并结合文字处理技术,分析大量的专利文本文本,抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类和知识发现,获取有用的知识和信息。利用自然语言理解技术中的词法、句法和语义分析技术将文本进行切分,通过句法分析将词汇组合成短语。将提取的短语、关键字与语义模板中已有知识建立映射关系网络,利用关联规则挖掘算法、模式匹配算法进行知识挖掘算法设计提取包含特定知识的专利以及所包含的知识。同时在抽取专利文本特征时,记录词语出现的顺序,这在很大程度上会辅助发现文本中词汇的语法和语义角色。
随着知识表示研究的深入,比较常用的知识表示方法:语义网、产生式规则、框架、面向对象知识表示等。本系统的语义模板主要是对基于TRIZ知识的组织,找到各个实体背后蕴含的复杂关系,构建描述周围世界的知识模型。这里主要提取隐性知识,弥补单一关键词匹配的不足。语义模板收集的是经过概括和归纳,具有系统性的语言知识,并且用结构化的形式(譬如数据库)组织起来的。描述常用词语的基本词汇属性和基本语法属性,词语所代表的概念之间的关系、概念所具有的属性之间的关系,以及言语过程中的基本常识等。基于TRIZ的知识获取、知识表示与知识运用是研究的重点。只有建立了知识发现的语义模板,才能在专利中进行深度理论的挖掘。
专利的检索功能建立在语义模板的基础上,依据各个实体间的关系,可以对检索词进行动态扩展,找到相同、相似、近似、相关等不同程度的关键词检索的扩展,以扩大专利检索的范围,为用户提供更具启发意义的相关专利:而分类功能依据相关算法,实现语义相似度的计算,从而对专利文本进行分类。
4 结束语
从丰富的专利库中提取综合各学科的知识来解决机械产品的创新设计问题,可能会为机械产品高层次的创新开辟新的途径。重点从专利中获取深度知识,建立分析专利的统一模式和综合挖掘算法,力求解决基于知识设计中的“瓶颈”问题。这有利于TRIZ理论的实际应用和自身完善,更好地为工程技术人员提供开阔的思维,得到创新解的启示:以中文专利库为研究对象,有效地组织结构化专利,采用TRIZ理论为分类背景,应用文本挖掘技术从专利库中抽取信息从而实现知识发现:初步探索专利信息的内容向TRIZ理论映射的问题,利用自然语言处理技术、文本挖掘、人工智能、专家系统等理论和先进的技术手段,发现面向TRIZ的专利文本潜在的语义关系,有效地促进专利方案库的建设到用户的使用的过程。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:面向TRIZ理论的深度知识获取及应用研究