1 引言
IT 及家电产品制造业对产品可用性(usabiiity)的重视,使得可用性工程(usabiiity engineering)在近年来得到了日益广泛的工业应用。可用性工程的目的是提高产品的可用性质量,为此必须解决可用性的衡量和评估问题,否则可用性质量的优劣以及改进就无从谈起。所谓衡量是指要建立定性或定量的可用性指标体系或度量标准。评估(evaiuation)则是指发现产品的可用性问题,对其可用性质量状况进行评判的过程。可用性评估通常可以分为两类,一类是用户评估(user-based evaiuation),有时也称用户测试或可用性测试;另一类是专家评估(expertbased evaiuation)。
这些年来,在可用性工程领域对可用性的衡量和评估问题开展了深入的研究,建立了可用性的衡量标准,开发了许多种不同的可用性评估方法,并在工业实践中广泛运用在产品开发的各个阶段。该文的第一部分给出可用性质量的指标体系,第二、第三部分重点介绍可用性的用户评估和专家评估方法,最后是可用性用户评估的一个实例。
2 可用性质量指标体系
评估和改进产品的可用性质量,需要有一种客观、统一和定量的衡量标准作为参照系。然而,怎样建立这样一种标准,一直是个难题。经过可用性工程界多年的不懈努力,对可用性衡量标准的看法逐渐趋于一致,即可用性是特定产品在特定使用环境下为特定用户用于特定用途时所具有的有效性(effectiveness)、效率(efficiency)和用户主观满意度(satisfaction)。这里的有效性、效率和满意度这三个指标往往是通过用户评估或测试来获得的。这一定义已被纳入ISO 9241-11 国际标准,美国的CIF 可用性测试报告标准也采用了这一定义。
2.1 有效性指标
有效性指用户完成特定任务和达到特定目标时所具有的正确和完整程度。一般是根据任务完成率、出错频度、求助频度这三个主要指标来衡量的。
2.1.1 完成率(Compietion Rate)
根据任务性质的不同,完成率指标的含义可以有以下两种:
(1)当任务不可分,即只有完成和未完成任务两种状态时,完成率为完成任务的用户所占的百分比。
(2)如果任务可分,即存在部分完成任务的情况时,用户有效完成的工作占该任务的比例称为目标实现率(gOAl achievement)。例如,某任务是让用户使用绘图软件画出5 个不同的几何图形,那么该任务的目标实现率就应取决于用户所画出图形的数量,如果画出了4 个,则目标实现率应为80%。如果考虑到各图形复杂程度的差异,还可以给各图形赋予不同的权重。因此在任务可分时,任务完成率应为用户的目标实现率。
2.1.2 出错频度(errors)
出错频度是通过用户执行某个任务过程中发生错误的次数来衡量的。
2.1.3 求助频度(assists)
这是指用户在完成任务过程中遇到问题而无法进行下去时,求助于他人或查阅联机帮助或用户手册的次数。在提供任务完成率指标时,应区分有帮助和无帮助情况下的完成率。
2.2 效率指标
效率指的是产品的有效性(完成任务的正确完整程度)与完成任务所耗费资源的比率。这里的资源通常指时间,这时的效率为单位时间的工作量。在相同使用环境下,用户使用效率是评定同类产品或同一产品的不同版本孰优孰劣的依据之一。效率的计算公式为:
效率=任务有效性/任务时间
这里的任务有效性一般是用户的任务完成率,任务时间为用户完成任务的时间。效率刻画了用户使用产品时单位时间内的成功率。一个高效的产品应当可以让用户在较短时间内以较高的成功率完成任务。同样,对效率也应区分有帮助和无帮助两种情况。
2.3 满意度指标
满意度刻画了用户使用产品时的主观感受,它会在很大程度上影响用户使用产品的动机和绩效。满意度指标通常使用问卷调查手段来获得。目前有多种广泛使用的标准问卷,如SUMI、WAMMI、ASO、PSSUO、SUS、OUIS、CUSI 等,它们所采用的指标体系各有不同,比如SUMI 问卷调查的综合满意度指标为0-70,平均值为50。
3 用户评估
用户评估也称用户测试(user test)或可用性测试(usability test)。一般是通过营造类似于真实使用环境的测试环境,让真实的用户执行真实的任务(根据具体的测试方法决定是否让用户独立完成任务),在这一过程中由可用性人员进行观察、记录,也许还要与用户进行交流和引导来获得有用的数据,然后对数据进行分析,从中得到用户对产品设计的反馈意见和评估产品可用性质量的指标数据。根据评估目的和方式的不同,用户评估可以分为反馈搜集型和绩效度量型两种类型,它们在有的地方也被称为阶段型(formative)和总结型(summative)。
3.1 反馈搜集型用户评估
反馈搜集型用户评估多在设计、开发过程中进行,在开发的早期阶段应用较多。这类方法是非正式的,得到的多为定性的结果。其目的在于根据用户的反馈发现产品的可用性缺陷,了解用户需求及遇到的问题,及时改进产品设计。这种方法对原型或成品来说,是一种快速、经济地获得设计反馈的有效方法。
这类方法中有的方法是让用户在真实的使用环境中独立完成测试任务,观察者不对用户进行任何干预和帮助,只是观察和记录用户执行任务时的有关数据和遇到的问题,通过分析发现产品设计中的可用性问题。
有的方法则强调用户执行测试任务过程中观察者与用户的交流和协作。观察者可以就用户的目的和期望进行提问和引导,让用户对操作做出解释,并谈出感想。观察者应特别记录那些事先未预料到的操作行为及意见。
3.1.1 基于用户观察的反馈搜集(user-based observation for design feedback)
这种方法是让用户在自然的环境中自行使用原型或成品来完成给定的任务,可用性人员对这一过程进行记录,然后通过分析从中发现可用性问题,改进产品设计。它的侧重点是发现设计中的可用性问题,因此参与的用户不必太多,3-5 名即可。这一方法比较简便、快捷,常用于早期原型设计。由于测试用户是真正的使用者,熟悉真实的任务,因此在测试过程中根据他们的经验可以发现原型或界面设计中的问题。缺点是根据部分测试用户得出的测试结果难免以偏盖全。另外,由于该方法没有提供定量数据指标,因此难以进行产品间的比较。
3.1.2 协同评估(co-operative evaluation)
该方法用于发现产品原型的可用性问题,强调设计人员和用户的协作,鼓励用户通过与可用性人员交流或以自言自语的方式对自己的操作做出解释。可用性人员对事先未预想到的用户行为及用户的评论进行记录,同时就用户的意图和期望主动提问。该方法能够反映出用户在使用中会遇到的各种难点及界面设计问题,多用于产品生命周期的早期设计阶段。
其优点是可以在早期发现设计上的可用性问题;既能了解用户在操作中的问题,还能知道用户对问题的看法;测试用户不必培训就可以运用这个方法进入测试角色。
缺点是可用性分析员需花费很多时间去分析录制的测试资料;由于有设计者的介入,不适用于需要用户进行独立测试的情况。
3.1.3 支持性评估(supportive evaluation)
这一方法用来得到用户需求以及改进设计所需的信息,主要针对交互系统。用户使用原型或成品来执行给定的任务,由可用性人员将该过程中值得进一步探讨的问题记录下来,然后可用性和开发人员与用户一起对这些问题展开讨论,找出原因,提出改进的办法。这种方法可能要重复多次,以达到满意的改进效果。支持性评估既可用于原型设计和在改进原有产品时获得用户需求,也适用于在产品交付前对用户手册等支持性文档的检验。其突出优点是可信度较高。
3.2 绩效度量型用户评估
绩效度量型用户评估是在产品开发完成后进行的一种正式的测试,目的是衡量产品的可用性质量,判断产品是否满足用户需求。这种评估通常在专门的可用性实验室中进行,按照可用性质量的指标体系,对有效性、效率及用户满意度进行严格和定量的评价。常用的绩效度量型用户评估方法有以下几种:
3.2.1 基于用户观察的绩效度量(user-based observation for metrics)
这种方法适用于成品或高逼真度的原型,要求测试环境尽可能接近产品的使用环境,即真实的用户、真实的任务和真实的物理、社会环境,任务的设计要覆盖产品的主要功能,事先要制定详细的测试计划。在正式测试前应先进行试验测试,对不完善的环节进行调整,还应向用户进行必要的介绍和引导,使他们在心理上和测试程序上作好准备。在正式测试时用户应在无干预的情况下独立完成各项测试任务,由观察者观察和记录时间、出错、求助等数据,并进行录音和录像。在测试结束后对获得的数据进行详细分析,计算出有效性和效率这两个可用性指标。
该方法的优点是用户是在真实的环境下执行真实的任务,有效性和效率能够量化,可以与预期目标对比,或进行不同版本产品之间的可用性比较。缺点是只能通过那些特定的测试用户执行特定的任务才能得到有效的测试数据。需要较多的测试用户才能得到可信的数据。
对于用户满意度指标,通常是在测试结束后,通过用户主观评估(如标准问卷调查)获得。
3.2.2 用户主观评估(subjective assessment)
用户在使用产品或原型后,会形成自己的主观感受和印象。用户主观评估通过问卷调查或直接交流等方式来来搜集用户对产品的主观感受,经心理度量学分析获得相应的指标,以此判断存在的可用性问题,评估其竞争力,改进设计。常用的方法包括SUMI 问卷、认知负担调查(cognitive worlIoad))以及个人面谈(individuaI interviews)。
(1)SUMI 主要用于评估有实际使用经历的用户对高度逼真的原型或成品的满意程度。它让用户填写一份包含50 个心理测试问题的标准问卷,然后用专用的数据分析软件对问卷结果进行分析,得出有关用户满意度的定量指标。SUMI 提供的测试数据有助于分析用户工作的热情、效率、跳槽的可能性,甚至员工的病假率。SUMI 的评分基于一个由几千个产品测试数据组成的标准化数据库,因此,SUMI 的结果在某种意义上可以给出产品满意度水平的绝对量值,也可以在同一产品的不同版本或同类产品间进行比较。
(2)认知负担调查这种方法可以了解用户在使用产品时所承受的认知负担情况,从而判断产品设计能否在认知负担上为用户所接受,是否存在可用性问题。可以通过主观负担评估技术来获得基于时间的付出、心智负担和心理压力这三个指标;也可以采用标准的问卷(如SMEO、TLX 等)来评估用户主观感受到的付出;还可以通过采集心率、呼吸等客观数据来衡量。
(3)个人面谈指由可用性人员与各个用户就使用产品的感受进行交谈,从中发现可用性问题,得到用户对设计的反馈,还可以进一步澄清用户评估中遇到的问题。面谈可以是结构化的,即按照事先拟定的问题清单来进行;也可以是非结构化的,即围绕某个主题自由发挥;还可以是半结构化的,即以上两者的结合。在具体运用中到底采用什么形式,主要取决于对面谈主题以及用户回应预期范围的了解程度。
完成用户绩效评估和用户主观评估活动后,可用性测试人员已经获得并分析出了有关有效性、效率及用户满意度的各项数据指标。最后,提交关于产品可用性质量的测试报告。目前美国通用工业规范可用性测试报告标准CIF(ANSI/NCITS 354)采用的就是绩效度量型用户评估方法。
4 专家评估
专家评估是由可用性或人类因素学专家,根据可用性设计原理、设计风格指南、标准和经验,对产品的可用性质量进行的评估活动。这种方法适用于系统开发的各个阶段,是一种快速、灵活和经济的评估方法,实例研究表明,其成本效益比可以达到1:48。它可以有效地发现产品设计中与可用性原理和标准相抵触的可用性问题。
因为不同的评估专家往往倾向于发现不同的可用性问题,所以这种方法的效果与评估专家的人数有关系。研究表明,一个评估专家通常只能发现产品所存在可用性问题中的35%左右,所发现问题的数量随着专家人数的增加而增加,因此建议专家人数为5 名左右较好,最少不能少于3 名。通常这种评估分两遍进行,第一遍侧重于系统的流程和范围,第二遍侧重于各个部分的设计。每次评估不要太长,1-2 小时比较合适,复杂的产品可以分几次进行评估。这种评估的结果一般是一个可用性问题的清单,同时注明每个问题所违反的可用性准则。为了使评估结果对改进产品设计更有指导意义,可以在评估后组织一个由评估专家和产品设计人员共同参加的会议,从设计上提出解决所发现可用性问题的办法。
这类方法比较多,代表性的方法包括经验性评估、CELLO审查、可用性评审等。
4.1 经验性评估(heuristic evaIuation)
经验性评估是由评估者(人类因素学专家或人机交互专家)根据某些人素标准或规则对产品设计进行检查评估,并根据个人经验预测用户可能会遇到的问题。这种方法是一种快速、经济的评估方法,在开发周期的各个阶段都适用。评估结果反映了评估者的主观看法。
4.2 CELLO 审核(CELLO-evaIuation by inspection)
CELLO 方法是以明确定义的各种标准为指导的集成的技术方法,这些标准涉及了大量的心理学和人类工效学理论、实验性结果、实际经验以及组织机构和个人信仰等方面的知识。CELLO 可应用于生命周期的各个阶段,在早期阶段,用于检查用户系统需求及可用性需求效果不错。目前CELLO 方法不仅在北欧国家颇为流行,在美国也已得到广泛应用。
4.3 可用性评审(usabiIity waIlthrough)
该方法可用来发现屏幕设计的纸面原型、培训计划草案、草拟的各种资料等所存在的可用性问题。评估人员由可用性专家、开发人员及用户组成,各方人员分别审阅一套设计,然后依次阐述对设计的看法。该方法用于生命周期的早期。其优点是在进行一项重大的开发之前,以很小的代价快速获得用户针对纸面设计的反馈信息。
总之,无论是基于专家的评估还是基于用户的评估,都是可用性工程中的一个重要组成部分,这些方法适用于系统开发的各个阶段,具有较强的灵活性。至于选择哪一种方法进行可用性评定,要根据每个具体方法的成本效益(cost-benefit)情况以及不同开发阶段的工作侧重点,如在系统开发后期,测试成为工作重点,可以考虑采用一种或几种基于用户的测试方法。此外,所需要获取的信息类型也是选择评估方法的一个决定因素。
5 用户评估实例
微软公司为了评估和比较其操作系统产品的可用性质量,于l999 年对它所开发的Windows98、Windows NT 4.0、Windows 2000 ProfessionaI Beta 2 和Windows 2000 Professional Beta 3 这四个操作系统产品进行了一次比较全面的用户评估(用户测试)。为了保证评估结果的客观和公正,它委托专业可用性咨询机构AIR,按照美国CIF 可用性测试报告标准进行了这次测试。
这次测试对每个产品选择了36 个测试用户,其中生手、初级熟练者和中级熟练者(根据微软对用户的五级分类标准)各为12 人,分成相应的3 个组。所选择的测试任务为22 个在Windows 操作系统上常用的任务,如启动程序、保存文件、发送电子邮件、安装软件等,对每个任务都规定了完成的时间限度和成败标准。采用的可用性指标体系为:
有效性-任务完成率=完成任务数/总任务数
效率-所有任务的平均完成时间
满意度-对产品设计、易学、易用、用户界面、易浏览、措辞、产品改进、购买意愿和无培训易用性这9 个指标的评分测试是在AIR 的可用性实验室中进行的,在测试过程中,测试用户按照书面任务说明的要求独立完成预定的各个任务,测试管理人员通过实验室的单向镜观察用户的操作,记录任务完成时间和成败情况等数据,并对整个过程进行录像。测试结束后,对用户进行满意度问卷调查。最后对所有测试结果数据进行分析和处理,分别得出4 个产品的在有效性、效率和用户满意度指标上的比较结果和综合可用性比较结果。
6 总结
可用性测试和评估是可用性工程的重要成分,它为衡量和改进可用性质量提供了参照系和必要的基础,因此在研究和应用两方面都一直备受关注。目前已开发了许多不同的可用性测试和评估方法,在实际运用中应当根据各个方法的用途和特点,产品所处开发阶段的工作侧重点,所具备的人员、时间等资源情况,以及成本效益方面的考虑,选择最合适的方法,使之在产品可用性工程的整体过程中发挥出最佳的作用。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:IT产品的可用性测试与评估