1.引言
随着智能手机和其他移动设备的普及,移动互联网快速发展,海量的移动应用(Mobile Application,App)成了移动互联网的主要入口。根据瑞士信贷集团估计,到2016年,全球将会有100亿部联网的移动设备,智能手机的网络流量将会是今天的50倍,而更多的移动设备也意味着更多的移动应用。苹果公司于2008年7月首次推出移动应用商店AppStore,获得了巨大成功。2012年10月,应用数量已经超过70万,至2013年5月,官方应用商店AppStore的应用下载量即将突破500亿次。同时,全球移动应用规模也在急剧扩大,手机制造商、电信运营商和互联网服务提供商等纷纷推出自己的移动应用商店,移动应用已经成为移动互联网发展的一种新模式。表1给出了几个比较有代表性的移动应用商店的基本情况。预计6月份,Google Play商店的应用数量将超过100万。目前全球移动应用数量的规模在百万级别,与现有的Web网站和Web网页数量规模相比虽然还比较小,但是其现在的数量规模已经与2000年左右的网站和网页数量规模相当,并且还在不断增加之中。长尾理论提出者、《连线》的Chris Anderson曾提出“Web已死,互联网万岁”,表示随着iPhone/iPad日渐成为主流计算终端,人们越来越习惯于通过移动应用软件获取信息。移动应用将逐渐超过浏览器,成为移动互联网的主要入口。
表1 移动应用规模
面对数百万的移动应用(未来还将继续增加),用户正面临着一个日益严重的挑战:如何才能快速找到自己想要的、适合自己的应用?而众多的移动应用开发者也面临着一个问题:如何把自己开发的应用推荐给用户?用户与应用开发者之间的供需矛盾日益突出。目前解决这一矛盾的方法主要有3种:
(1)移动应用商店。在移动应用发展的早期,移动应用主要出现在应用商店中,如表1中所列出的几个主要的应用商店。为了便于用户浏览、查找自己所需的移动应用,各应用商店都对数据进行了一些处理,包括分类、添加标签等。但是通过分析发现,目前的分类粒度比较粗,一般包含两个层次类别,大类数量在20个左右,由于应用的总体数量比较大,所以单个类别下的移动应用仍然比较多,用户要想快速定位到自己需要的移动应用依然很困难;另外不同应用商店的分类方式及类别名称不统一,各商店之间应用类别名称仅有50%左右是一致的;各移动应用商店所提供的搜索功能大都是基于关键字匹配的简单搜索,搜索结果比较差,无法满足用户需求。
(2)第三方移动应用集成。为了解决移动应用商店存在的问题,出现了第三方移动应用集成服务提供商,其主要工作方式是从不同的应用商店中抓取移动应用信息,并对抓取到的应用信息进行进一步的处理,如重新分类、去重、添加标签等,在此基础上提供应用浏览、搜索功能。
(3)移动应用搜索与推荐。移动应用搜索与推荐是帮助用户快速找到自己所需应用的一种有效途径,目前已经有一些相应的解决方案。腾讯于2012年6月发布了海纳应用搜索,这是一款基于移动应用功能属性搜索的引擎。据腾讯介绍,海纳应用搜索是专门为用户提供移动应用搜索服务的智能搜索引擎,专注于App搜索以及根据搜索行为的应用推荐,主要满足用户自然语言的搜索需求。Quixey是一个完全自动化的移动应用“功能搜索”引擎,它以文本分析、语义分析技术为主,提供移动应用的准确搜索。Quixey不是简单地根据用户的描述来进行搜索,可以通过Quixey定义的函数为用户提供移动应用搜索和发现服务。Quixey从移动应用商店、论坛、博客、社会化媒体网站和匿名消息来源抓取移动应用的相关信息,并对这些信息进行进一步的抽取、分析、集成,从而提供高质量的功能搜索服务。
上述3种方式在一定程度上能够帮助用户快速找到自己所需的移动应用,但还有很大改善和提升的空间。移动应用集成是解决这一问题的有效途径。移动应用集成的主要任务是研究如何把海量的移动应用及其相关信息有效地集成起来,为用户提供高质量的搜索、发现和推荐服务。研究内容主要包括移动应用数据抽取、功能建模、移动应用匹配、移动应用搜索与推荐等。
本文主要对移动应用集成中若干关键研究问题的研究现状进行分析总结,并指出未来的主要研究方向。本文第2节介绍移动应用集成与传统Web数据集成的异同,提出移动应用集成基本框架;第3节对移动应用数据抽取相关工作进行分析;第4节和第5节分别介绍移动应用匹配和移动应用推荐技术;第6节指出若干挑战性研究问题;最后对本文内容进行总结。
2.移动应用集成框架
目前关于移动应用集成的研究尚处于起步阶段,其中在移动应用数据抽取方面大都是基于传统的Web数据抽取技术,偏重于结构化信息的抽取,对于移动应用功能信息抽取技术的研究还比较少;在移动应用搜索与推荐方面有一些初步研究。本节首先对Web数据集成进行简单介绍,对移动应用集成和Web数据集成技术进行对比分析,在此基础上给出移动应用集成的基本框架。
2.1 Web数据集成
关于Web数据集成,大量学者已经作了系统深人的研究,其中刘伟等人对Deep Web数据集成进行了综述,提出了Deep Web数据集成框架,把集成过程分成了3个模块:查询接口生成模块、查询处理模块和查询结果处理模块。其中查询接口生成模块包括Web数据库发现、查询接口模式抽取、Web数据库分类和查询接口生成4个子模块;查询处理模块主要包括Web数据库选择、查询转换、查询提交3个子模块;查询结果处理模块主要包括结果抽取、结果注释和结果合并3个子模块。文献分别对查询接口模式抽取、查询接口的集成进行了研究;文献对Web数据库的选择、查询转换相关技术进行了分析;文献重点研究了基于视觉的查询结果抽取方法。
查询结果的处理是Web数据集成的核心任务。查询结果处理的主要任务是把来自于多个Web数据库的异构的数据以一个统一的形式展示给用户,目前的主要研究工作集中在如何快速准确地从查询结果页面抽取出结构化的查询结果。目前的Web数据抽取主要包括以下几种技术:页面抽取语言、基于DOM树的技术、抽取规则推导技术、基于视觉的抽取等。
2.2 移动应用集成与Web数据集成的异同
移动应用集成与传统的Web数据集成有一些共同点,如属性信息抽取、数据融合等,两者都需要从相应的Web页面中抽取出结构化的属性信息,对于不同数据源的数据需要进行消重、融合等。然而,与Web数据集成相比,移动应用集成也有其特殊之处,二者的主要区别见表2。
表2 Web数据集成与移动应用集成的对比
2.3 移动应用集成基本框架
我们针对移动应用的特点,并结合现有的数据集成技术,提出了移动应用集成框架,如图1所示。
图1 移动应用集成框架
移动应用集成主要包括4个层次:数据源、信息抽取、数据模型和应用。其中数据源主要包括众多的移动应用商店,以及与移动应用相关的各种网络数据源如用户数据、社交网络、用户评论、论坛信息等。移动应用商店主要包括移动应用的基本属性信息,该部分信息需要利用相应的数据抽取技术,从多个不同的应用商店中抽取出具有统一格式的结构化信息,并根据实际情况进行数据消重、数据融合等处理。
移动应用本身的信息是静态信息,而用户数据主要是指用户在使用应用程序的过程中所产生的一系列相关数据,如用户的安装、更新、删除历史,用户使用时间记录,用户在应用程序中的资料信息等。通过这些信息可以分析用户的使用习惯,了解用户的潜在需求,从而为用户提供更好的推荐服务。但是目前该部分信息因隐私问题,不太容易得到。
随着Web2.0技术的发展,很多用户都习惯于在网络中分享自己的相关信息,如用户可以在Facebook中与好友分享自己所使用的移动应用程序列表、自己的使用体验、评价等;还有一些针对移动应用的专业论坛,可以供用户之间交流移动应用的使用信息、对应用的评价等,如比较有名的是威锋网。从这些信息中可以全方位了解移动应用,分析移动应用的质量、用户喜爱程度等,对于提高服务质量具有重要作用。
信息抽取主要是从众多数据源中把与移动应用相关的信息抽取出来,主要包括属性信息抽取、数据融合、功能信息抽取和网络数据抽取等。其中属性信息抽取主要是把移动应用相关的结构化信息抽取出来,如应用名称、类别、适合机型、价格等;数据融合主要解决不同数据源中数据的冲突问题;移动应用集成中的属性信息抽取技术和数据融合技术与传统的Web数据集成基本相同。功能信息抽取,主要负责从移动应用的描述信息以及与移动应用相关的评论信息中抽取出应用的主要功能,该部分是Web数据集成中所没有考虑或者是没有必要考虑的内容。网络数据抽取主要指从与移动应用相关的各种数据源中把所需要的信息抽取出来,如用户评论信息、移动应用的使用排名、用户的评分信息等,该部分主要难点在于相关信息的识别以及数据的动态特性。
模型层主要是把移动应用的基本属性信息、能做什么、做得怎么样、如何使用、用户评价等各种不同的信息以一种合理的方式进行建模,并建立高效的索引,以实现快速和高质量的搜索服务以及其他应用需求。
应用层主要是在已经处理好的移动应用程序数据库的基础上提供相应的服务,如移动应用搜索、移动应用推荐、移动应用匹配等。
3.移动应用数据抽取
移动应用数据抽取是移动应用集成的核心任务之一,同时也是其他任务的基础。在数据抽取方面已经有大量的研究工作,按照不同的标准可以分类不同的类别。按数据来源不同,可以分为基于非结构化数据(文本)的抽取和基于半结构化数据(Web数据)的抽取;按照自动程度不同,可以分为手动、半自动和全自动的数据抽取。在移动应用集成中,属性信息抽取和功能信息抽取是数据抽取模块的主要目标。属性信息抽取主要是从移动应用所在的Web网页中把移动应用的名字、类别、描述等信息抽取出来,功能数据抽取主要是从移动应用的描述信息、论坛信息及用户评论信息中把能够代表移动应用功能的主要短语、句子等抽取出来。
目前在Web数据抽取方面已经有了大量的研究工作,其中刘伟、孟小峰等人W在《Deep Web数据集成研究综述》中对Web数据抽取技术进行了归纳总结,并按照使用技术的不同进行了分类,主要包括基于DOM树的技术、基于模式的技术、页面抽取语言川和抽取规则推导技术等。不过文献分析的主要是7年以前的技术,我们不再进行详细介绍,本节主要对近几年提出的一些新的、代表性数据抽取技术进行分析。
D-EEM是一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deep Web)。 D-EEM采用基于DOM树的自动实体抽取策略,将实体抽取过程分为数据区域定位和实体区域定位两个阶段,从而可以在比较精确的范围内进行实体区域的定位,大大提高了实体抽取的效率;另外,为了提高实体抽取的准确性,在抽取过程中还考虑了DOM树内文本内容节点和元素节点的特征。田健伟等人、为了能够完整地提取Deep Web数据库中的记录,提出了一种基于层次树的数据获取技术。该技术把Web数据库建模成一棵层次树,这样Deep Web数据的获取问题就可以转化成树的遍历问题。其次通过属性排序和基于属性值相关度的启发规则指导遍历过程提高遍历效率。实验结果表明该方法具有很好的覆盖率和较高的提取效率。OXPath对XPath进行了扩展,能够在交互式的网站中支持页面导航和结果数据的抽取。其最大的特点是能够模拟用户的行为,动态获取页面的CSS属性信息,并且每次只需处理当前的页面,所以需要的内存空间比较小。
Liu等人困认为传统的Web数据抽取技术虽然能够取得较好的抽取效果,但是大多都依赖于Web页面编程语言,一旦页面语言发生了改变,抽取技术也得做相应的改变。为了克服这方面的限制,Liu等人系统分析了多种结果页面的视觉特征,并使用结果页的视觉特征来进行数据记录和数据项的抽取工作,此方法最大的特点是抽取过程与页面语言种类无关,适合在多语种环境中的使用。
Ferrara等人从一个新的角度对Web数据抽取技术和应用进行了综述。以往的综述论文主要是从数据抽取技术和算法的角度进行分类和描述,而Ferrara等人首次从应用的角度对Web数据抽取技术进行了分类,深人分析了不同应用领域中Web数据抽取技术的相同点和不同点。作者主要从企业应用和社交网络应用两个大的领域进行了分析,并指出了不同应用领域中数据抽取技术存在的挑战性问题。
马安香等人针对重复语义标注和嵌套属性的问题,提出了一种基于结果模式的Deep Web数据抽取机制。该机制将数据抽取工作分为结果模式生成和数据抽取两个阶段,在结果模式生成阶段进行属性语义标注,从而解决了重复语义标注问题;在结果模式的基础上提出了一种新的数据抽取方法,很好地解决了嵌套属性问题。
由于移动应用数据往往表达随意,具有不规范性,为了改善移动应用匹配、推荐的效果,需要从这些不规范的、短小的移动应用数据中抽取出其主题或关键词。Zhao等人主要研究如何从Twitter信息中抽取出主题关键短语。Twitter信息一般都比较短,并且噪音比较多,为了提高抽取质量,作者利用关键词排序、关键短语生成和关键短语排序3个阶段来实现。在关键词排序中,基于主题敏感传播算法,对主题PageRank算法进行了改进;在关键词排序和关键短语生成的基础上,设计了一个概率短语评分函数,最后利用该评分函数对短语进行排序,取最前面的若干个短语作为关键短语。Yu等人提出了一种从商品评论中进行主题抽取的方法。作者首先通过预处理,抽取出名词或名词短语,并把这些名词和名词短语作为候选主题;然后计算这些主题的相对词频,如果相对词频低于某个阑值,则过滤掉,不进行后面的处理;最后针对每个候选主题计算其改进的TF-IDF值,如果改进的TF-IDF值大于某个阑值,则该主题就可以作为最后的结果。另外在进行主题抽取的过程中,为了过滤掉冗余的主题,作者提出了一个主题支持度,如果主题w‘的频率小于某个包含wi的短语(wi,wj)的频率,则wi就可以过滤掉,只把wiwj作为一个候选主题。
4.移动应用匹配
据我们调研,目前还没有关于移动应用集成相关技术的系统性研究工作,随着移动应用的普及及数量的不断增加,对于移动应用集成的研究具有前瞻性和必要性。移动应用集成中有很多关键性问题需要研究,如信息抽取技术、数据融合、实体识别、自动推荐、应用匹配等。而移动应用匹配在移动应用集成中具有重要意义,是信息集成、推荐和搜索的基础。所以,目前我们主要针对移动应用匹配问题进行研究。
4.1 移动应用属性特点
在移动应用匹配过程中,我们主要是基于移动应用属性来计算其相似度。通过观察我们发现移动应用的名称、描述信息都具有一些特点。
移动应用名称:功能相似的移动应用名称往往包含相同的词,或者包含同义词,有些名称中包含一些复合词如autolock, shake2mutecall,有些名称中的词不是一个有效的英语单词,仅仅是一个标识如Okotag,Barcode Scanner。
描述信息的短文本特性:描述信息与传统的文本文档不同,一般都比较短,由若干个句子组成,可以视为短文本。因此,描述信息中单词的共现概率比较低,即使是功能相似的移动应用,可能都不包含共同的词汇或者相同的词比较少。由此得到的文本特征矩阵就比较稀疏,所以传统的向量空间模型无法很好地根据移动应用的描述信息计算其相似度;另外,据我们观察发现,由于移动应用的描述信息一般都是由开发者提供的,所以描述信息的撰写非常不规范,往往包含很多非功能性描述或者说是噪音数据,如广告信息、用户操作指南、平台要求等,这些非功能性描述对于计算移动应用的相似度具有很大的负面影响。因此,为了提高移动应用相似度计算的准确性,我们必须解决稀疏性和噪音问题。
本节后面的内容主要对短文本分析的相关技术和两种移动应用匹配方法进行分析。
4.2 短文本分析
目前已经有很多学者针对短文本进行了大量的研究工作,如短文本的主题发现、短文本的情感分析、短文本相似度计算、分类、聚类等。其中短文本相似度计算和短文本分类技术对移动应用匹配有重要的指导意义,所以本文对最近关于短文本相似度计算和短文本分类技术方面的研究进行分析总结。
4.2.1 短文本相似度计算
短文本相似度计算的主要任务是用来判断不同的短文本描述之间的相似程度,短文本的相似度越高,说明短文本表达的意思或观点越相似。短文本相似度计算是短文本分析的基础工作,是分类、聚类和主题发现的重要技术之一。
文献主要提出了一种基于概率主题生成模型的短文本相似度计算方法。核心思想是,对于两个待比较的短文本而言,把它们分成两部分,一部分是相同的单词,另一部分是不同的单词;然后在一个给定的短文本集合中,基于LDA模型,利用GibbsSampling方法找出隐含主题及主题的概率分布;接下来在发现的主题分布上计算不同单词的相似度;最后把两者相结合计算总体相似度。该方法能够在一定程度上解决短文本的稀疏性问题,但是其中也存在一些挑战,如隐含主题的个数如何确定,相似度的间值如何判断等;文献主要针对短文本的稀疏性特点,提出了一种扩充短文本信息的方法。对于每一个短文本,构造一个查询,提交给搜索引擎,然后利用搜索引擎返回的结果来代表短本,这样就可以大大扩充短文本的信息,同时作者提出了一种相似度核函数,用来计算短文本之间的相似度,具有较好的准确性和可扩展性;文献主要是解决句子之间的相似度计算问题,传统的计算方法不具有较好的扩展性,作者提出了一种基于语义网络和统计分析相结合的方法,具有较好的自适应性;文献把短文本的语义信息和统计信息相结合,提出了一种新的短文本模型方法。主要有3个步骤:首先基于语义词典如WordNet计算出初始的词相似度矩阵;然后以此为基础,对词相似度和短文本相似度进行迭代计算,直至收敛;最后利用得到的词相似度矩阵对原来的文档一词频矩阵进行修正,映射到新的向量空间中,并在新的向量空间中进行短文本相似度的计算,实验表明取得了较好的效果;文献对现有的句子相似度的计算方法进行了分析,包括语法相似度、语义相似度和语用相似度,并提出一种新的基于关键词提取的句子相似度计算方法。通过观察,并不是所有的词对表达句子的意义都起作用,所以作者根据单词的词性、句子语法结构等提取出关键词,并给每个词赋予不同的权重,在此基础上进行相似度的计算;文献从信息检索的角度,对短文本的表示和相似性度量进行了分析,并对各种不同的度量方法进行了对比,包括基于字典的相似度度量、基于词干化和语言模型的相似性度量,并对各种不同的方法进行了实验,分析了各种方法的优势和不足。
4.2.2 短文本分类
由于微博、在线论坛每时每刻都产生大量的数据,这些丰富的数据一方面给人们带来了更大的选择空间,但是面对海量信息,人们如何进行有选择的阅读却遇到了前所未有的巨大挑战。因此对于海量短文本的重新组织分析就显得非常有必要,分类分析是信息挖掘中最重要和最基本的技术之一。
目前短文本的分类算法主要基于有监督学习。有监督学习必须对训练样本进行手工标注,并且为了确保分类的可扩展性,往往需要标注大量的样本作为训练集。然而大量样本的标注费时费力,特别是在短文本当中,由于其海量性、不规范性,短文本中的标注问题更为突出。
文献主要针对短文本的稀疏性和描述信号弱的特点,提出了一种基于特征扩展的中文短文本分类方法。该方法主要利用关联规则挖掘算法挖掘训练集特征项和测试集特征项之间的共现关系,然后利用得到的关联规则对测试文档集中的词语进行特征扩展,在此基础上进行短文本分类;文献针对短文本的稀疏性特点,提出了另外一种新的解决方法,针对每一个特定领域的分类问题,首先选择一个足够大规模的外部数据源,并从中发现其中的隐含主题,最后利用这些隐含主题和小规模的标注训练集进行分类;文献中指出独立主成分分析(ICA)在很多情况下能够改善文本分类的效果,但是由于短文本的稀疏性,它们之间相同的词很少,所以直接在短文本上进行独立主成分分析效果不佳。基于此,作者利用潜在语义分析(LSA)对短文本进行数据预处理,然后在此基础上再利用主成分分析,取得了不错的效果;文献主要解决的是Twitter消息的分类问题,作者通过一定的算法,把每个Twitter消息映射到最相似的Wikipedia页面上,然后利用此页面来代表Twitter消息,并进行分类,实验表明该方法比单纯的基于字符串编辑距离或LSA的效果好;以往的分类研究中每一个短文本只赋予一个类别,而实际上,一个文本有可能包含多个不同的主题,文献主要研究了短文本的多值分类问题;为了能够对海量Twitter消息进行重新组织,便于用户选择和浏览,文献针对Twitter消息的特点提出了一个新的分类方案。作者首先通过观察和分析,利用贪婪算法选择了8个特征,并将这8个特征和传统的词袋子方法进行了对比实验,结果表明作者提出的方法具有较高的准确性。
4.3 基于WordNet的移动应用匹配
该方法主要是基于移动应用的描述信息计算相似度,把每一个App看成是一个由描述信息表示的文档,利用传统的向量空间模型(VSM);进行计算。为了解决文档一词频矩阵的稀疏性问题,可利用语义词典WordNet来扩充App的描述信息。具体实现过程如下:
a1 ,a2 ,...,am分别表示m个App的描述信息,描述信息经过分词、去除停用词和词干化等处理以后,共得到由N个不同的词组成的集合T={t1,t2,...,tn},丨T丨=N;最后得到文档词频矩阵W。
其中,每一行代表一个App,每一列代表一个单词,每一元素wij,表示第i个App描述中的权重,计算方法如下:
然后基于WordNet,计算词与词之间的语义相似度,得到词语的相似度矩阵Q。
通过上述运算,文档一词频矩阵的非零元素增多,稀疏度降低。App之间的相似度在转换后的向量空间中利用式(5)进行计算。
我们人工构建了一个小规模的测试数据集,对100个App进行了人工判断,发现其中共有89对相似的App,对此分别利用VSM模型和基于WordNet的VSM模型进行计算。实验结果用准确率、召回率、F-1进行衡量。
从图2可以看出,利用语义词典WordNet可以增加App之间的相似度,从而提高了召回率,但是准确率却大大下降。通过分析,准确率下降的主要原因是由于App描述信息中存在噪音数据。因此单纯利用语义词典无法很好地解决App的相似度计算问题,必须想办法消除App描述中的噪音信息。
图2 基于WordNet的移动应用匹配
4.4 基于特征词提取的移动应用匹配
为了改善移动应用匹配的效果,需要识别出App描述信息中的特征词,这些特征词能够体现App的功能,从而把描述信息中的非功能性信息或者噪音数据过滤掉。通过深人观察分析,我们选择5个特征作为判断一个词是否是特征词的依据,分别是termPOS, locInDes, isNameTerm, locRelative-ToName,termFreq,具体说明如表3所示。
表3 特征词列表
我们把特征词的判断问题看成是一个分类问题,主要通过以下几个步骤实现:(1)针对l00个App的描述信息进行手工标注,一共标注了2625个单词,如果某个单词在一个App中是特征词,则标注为1,否则标注为0;(2)计算出每个单词的所有的特征值;(3)以这些标注数据作为训练集,得到一个分类模型;(4)利用该分类模型去判断其他的词是否是特征词。
特征词分类实验设置:在2625个标注数据中选择2525个作为训练集,100个作为测试集,分别采用朴素贝叶斯(Naive Bayesian)和支持向量机(SVM)方法进行实验,分类结果如表4所示。
表4 分类正确率
从表4我们可以看出,朴素贝叶斯分类的正确率比较低,另外去除locInDes之后利用SVM分类,正确率最高,也就是说locInDes对于特征词的判断具有一定的负面作用,但对于最终的App相似度计算结果的影响还不确定,所以我们采用SVM方法分别在所有特征和去除locInDes以后的子集上进行了实验。最后以所有的特征词为向量空间来计算App的相似度,实验结果表明,取得了较好的效果。
从图3可以看出,经过特征词提取以后,准确率和召回率均有所提高,并且在不考虑locInDes的情况下效果更好,说明单词在描述中的位置对单词是否是特征词没有太大贡献,并且对相似度计算具有负面影响。
图3 基于特征词提取的移动应用匹配
上述两种方法都是基于App的描述信息进行计算的,以后将把App的名称、类别及其他相关信息也考虑进去,效果可能会更好。
5.移动应用推荐与搜索
随着移动应用数量的不断增加,如何帮助用户快速找到想要的应用成了一个亟待解决的问题,部分学者对移动应用的推荐技术进行了研究。Shi等人首先分析了传统推荐模型存在的不足之处,如以记忆为基础(Memory-based Models)的协同过滤模型(包括以用户为基础的协同过滤和以项目为基础的协同过滤)对经常出现或比较流行的项目推荐效果比较好,但是对于使用不是很频繁的项目推荐效果比较差;隐语义模型( Latent Factor Models)的推荐准确率比较低。针对上述两种推荐模型存在的不足之处,作者提出了一种新的推荐模型—基于主成分分析的模型(PCA-based model)。该模型首先利用主成分分析技术从数据中找到主要的特征,然后在主要特征的基础上再利用协同过滤模型进行推荐。其主要优点是对于不是很流行的移动应用具有较好的推荐准确率。Woerndl等人针对移动应用提出了一种基于情景感知的混合推荐系统。该推荐系统以传统的协同过滤技术为基础,把情景因素考虑进来,从用户、项目和情景3个维度进行计算,大大提高了推荐准确率。但是目前考虑的情景还比较少,主要是依据其他用户在某个位置的移动应用安装和使用情况进行推荐,以后将考虑更多的情景因素。Karatzoglou等人结合情景信息,也提出了一个新的移动应用推荐模型Djinn模型,该模型主要考虑是把隐式反馈数据考虑进来,利用张量分解技术对Djinn模型进行优化,实验结果表明Djinn模型的平均准确率(MAP)要比不考虑情景信息的模型高出28%。Yin等人认为移动应用的推荐和其他领域的推荐有一个不同之处在于:除了推荐用户感兴趣的移动应用外,还需要针对用户已经有的移动应用推荐可以替代的、新的移动应用。Yin等人认为已有的移动应用拥有一个实际满意度值AV(Actual Satisfactory Value),新的移动应用拥有一个吸引度值TV(Tempting Value),用户是否更换旧的应用,取决于AV和TV的大小。作者以用户的使用日志为基础数据,把AV和TV作为两个隐含参数,提出了一个AT模型,计算出每个应用的AV和TV值,并设计了AT排序函数。实验表明,AT模型的推荐效果远好于传统的协同过滤技术和以内容为基础的过滤技术,如果能将AT模型和其他模型相结合,效果会更好。Yan等人认为以往的移动应用推荐系统大都利用用户的下载历史和用户评价,实际上用户下载了一个应用,并不能真正代表用户,而用户的评价往往又比较稀疏,推荐效果不佳。因此他们把用户的使用日志数据和基于项目的协同过滤技术相结合,提出了一种个性化的移动应用推荐技术AppJoy。 Zhu等人对移动应用的分类问题进行了研究。为了提高分类的准确性,作者对移动应用的特征信息进行了扩展:一是利用搜索引擎来扩展文本特征;二是从用户的使用记录中提取情景特征,最后把这些特征综合起来,利用最大熵模型训练出了一个移动应用分类器。实验结果表明其分类准确率要高于基于词向量的应用分类器(Word Vector based App Classifier)和基于隐含主题的应用分类器。
随着移动应用数量的不增加,移动应用搜索将越来越重要。移动应用搜索与传统的Web搜索有相似之处,但也有特殊之处。移动应用搜索对搜索结果的质量要求更高,需要返回最能够满足用户需求的少数应用,而不需要返回大量的结果;另外在移动应用搜索中,传统的以关键词为基础的搜索技术无法满足新的查询需求,因为用户往往不能够准确给出应用的名称,只能大概给出应用的功能、特点,在这种情况下,如何能够准确分析出用户的查询意图并提供满意的结果将变得非常具有挑战性;移动应用搜索结果的排名也有特殊之处,除了考虑搜索结果与用户查询之间的相关性之外,还需要考虑应用的质量、受欢迎程度等其他因素。因此,功能搜索或者是语义搜索将是解决移动应用搜索的一个有效途径。但是目前还没有比较好的解决方案。
6.移动应用集成面临的挑战
目前,关于移动应用集成技术的研究还处于刚刚起步阶段,并且由于移动应用本身的特点,在移动应用集成中存在一系列挑战,主要包括多源信息集成、功能信息抽取和建模、移动应用匹配和移动应用排名等。
6.1 多源信息集成
移动应用集成的数据对象除了移动应用的基本属性之外,还包括与移动应用相关的其他动态信息:用户信息、用户评论、社交网络中的分享信息等。这些信息对改善移动应用的搜索和推荐效果具有重要作用。然而这些信息往往存在于不同的数据源中,如移动应用的基本属性信息大都存在于各大应用商店或者部分移动应用集成网站,而相关的用户评论、社交网络分享信息等则存在于其他网站中,不同的数据源具有不同的页面结构,如何设计具有自适应能力的抽取方法是一个巨大的挑战。其次移动应用相关的数据源大都具有Web2.0的特征,所以数据源中页面的结构经常会发生变化,如何使得数据抽取方法在页面结构发生变化时仍能够继续工作也是一个重要的研究内容。关于多源信息的集成,部分学者已经做了研究。Spiegel等人和Szomszo:等人为了改善电影推荐效果,尝试将IMDB和Netflix的数据进行集成。IMDB是一个在线的电影信息共享网站,它允许用户对影片添加标签,来描述影片的演员信息、情节、故事地点等。NetFlix是一个在线视频租赁网站,用户可以对看过的视频打分。Spiegel等人和SZOITISZO:等人将IMDB的标签信息和Netflix的打分信息进行集成,大大提高了推荐的效果。
6.2 功能信息抽取与建模
功能信息抽取也是一个极具挑战性的问题,对移动应用的搜索效果具有重要影响。传统的Web数据抽取技术可以从半结构化数据中抽取出与应用相关的属性信息,如名称、类别、描述、价格等;但是移动应用的功能性信息更为重要,比如应用能实现哪些功能?做得怎么样?如何使用等?这些功能性信息是功能搜索的基础,对提高功能搜索的质量至关重要。然而,功能性信息往往隐藏在移动应用的描述信息、用户评论等非结构化信息中,传统的Web数据抽取技术无法从非结构化信息中抽取相应的结构化信息。虽然已经有一些自然语言处理的相关技术可以从非结构化信息中进行信息提取,但是还不能直接应用于此,主要原因在于移动应用的描述信息以及相关用户评论等具有自己的特点,如文本短小、语法不规则等。
移动应用集成的主要目的之一就是提供高质量的搜索服务,使用户能够得到真正满足实际需求的结果。移动应用搜索和传统搜索的最大区别在于:传统搜索主要是以关键词匹配为主,而关键词匹配在移动应用搜索中效果非常不好,目前几大移动应用商店提供的搜索功能都不能令人满意。目前已有很多公司涉足App搜索市场,如提供功能搜索的App搜索引擎Quixey,百度也推出了App搜索平台。但是目前各公司所采用的App搜索技术并没有对外公布,学术界关于App搜索还没有相关的研究。人们在搜索应用时往往不知道其准确名字,希望搜索出能够完成某种任务、具备某种功能的软件,如观看NBA比赛、视频编辑、寻找最近的超市等,针对这些查询,传统搜索无法提供很好的结果。功能建模是解决这一问题的核心。
功能建模的主要目的是提供高质量的搜索服务,能够实现基于功能的搜索。在数据抽取阶段,通过各种抽取技术,得到了移动应用的基本属性信息、功能信息、评论信息以及用户数据,功能建模主要是以功能为核心,设计一种合适的数据模型,把上述各种信息进行有效的表示、组织与存储,数据空间技术和语义网技术是功能建模可以借鉴和参考的两个技术;同时,为了提高搜索的效率,必须根据新的数据模型的特点设计高效的索引策略。
6.3 移动应用匹配
移动应用匹配主要是用来判断两个应用程序在功能上是否相似,是实现移动应用迁移、移动应用推荐的基础,是一个重要的研究内容,有很多的应用场景。
移动应用匹配与实体识别具有一定的相似性。实体识别主要用来判断两个不同的数据记录是否代表同一个实体,目前已经有大量的相关研究工作。按照所使用的技术不同可以分为以下几类:概率匹配模型、监督和半监督学习方法、主动学习技术、基于距离的技术、基于规则的方法和无监督学习的方法。实体识别主要是基于实体的属性信息进行相似度比较,而移动应用匹配过程中,除了考虑属性信息的相似度之外,应用程序的功能相似度更为重要,所以传统的实体识别技术并不能直接应用于移动应用匹配。
首先,属性选择是移动应用匹配的首要任务。每个应用都有很多属性信息,如名称、类别、机型、价格、功能描述等,然而并不是所有的属性都对应用匹配起正面作用,所以需要从众多的属性中选出能反映应用功能相似性的属性;
其次,短文本的相似度计算也是一个极具挑战性的研究内容。目前已经有一些研究者对网络短文本进行了一些研究,包括基于语义的方法、基于概率主题模型的方法、基于特征扩展的方法等Czar。但是这些方法并没有考虑移动应用描述信息的特定表达方式,所以无法取得较好的计算效果。
另外,在进行移动应用匹配的过程中,除了考虑应用本身的功能相似性之外,往往还需要考虑用户的使用习惯、个人爱好等信息;同时还需要考虑应用与用户已有的应用之间的相互协作关系,应用彼此之间的相互影响等。从而为用户提供更加智能和完善的服务。
6.4 移动应用排名
在移动应用集成系统中,最终的目的是为用户提供移动应用的搜索和推荐服务,因此移动应用的排名也是一个重要的研究问题。应用的排名除了考虑与查询关键词的匹配程度之外,还需要考虑其他相关信息,如用户的偏好、用户查询意图等,需要将这些信息综合考虑,设计一个合理有效的排名函数。同时由于网络信息具有时变性,现在被用户喜爱的应用,随着时间的推移可能变得不那么受人喜爱,应用的排名可能也会随时间发生变化,所以如何对这些信息进行动态的更新维护,也是一个颇具挑战性的问题。
6.5 移动应用内数据集成与搜索
目前本文中所关注的集成对象主要是移动应用的属性信息以及其他相关信息,如用户评论、社交网络分享信息等,这些可以认为是移动应用的外在信息。然而,对于用户来讲,移动应用内部所包含的内容更丰富、价值更大。如果能够把众多移动应用内部的信息有效地集成起来,为用户提供统一的搜索服务,对用户将具有重要的意义。与传统的网页数据相比,移动应用内部信息的集成与搜索具有一些新的挑战。信息获取比较困难:移动应用内的信息往往被包上了外壳,无法使用传统的搜索爬虫技术直接抓取;数据格式的异构性:不同的移动应用,其内部的数据格式往往不一样,并且存在大量的噪音数据,其数据抽取方式与网页数据抽取相比更为复杂。
7.结束语
目前移动互联网的流量快速增加,未来必将超过传统互联网,而移动应用逐渐成为移动互联网的主要接人方式。为了争夺用户,电信运营商、手机制造商、互联网服务提供商以及各个不同的企业纷纷推出自己的移动应用,移动应用数量呈现爆炸式增长。然而随着移动应用数量的不断增加,给移动应用的搜索和推荐带来了很大的困难。移动应用集成是改善移动应用搜索和推荐效果的一个有效途径。目前关于移动应用集成,学术界还没有开展系统深人的研究。本文提出了移动应用集成的基本框架,对其中的关键技术如数据抽取、移动应用匹配、移动应用推荐等进行了分析,对现有的工作进行了归纳总结;最后指出了移动应用集成中的若干挑战性问题。未来移动应用的数量将持续增加,成为人们获取信息的主要途径,然而其数量的增加也必将带来一系列挑战,有很多问题值得研究。我们对移动应用的集成、匹配、推荐等技术进行了分析,希望能为相关研究人员提供参考。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:移动应用集成:框架、技术与挑战
本文网址:http://www.toberp.com/html/consultation/10839613327.html