人机协作,新一代技术在路上

发布时间:2024-12-15 13:38:36 来源: sp20241215

原标题:人机协作,新一代技术在路上

未来世界,将是人机协作的世界。所有创新都需要从人的角度出发,而人机交互与协作技术也必须迎合和满足用户的需求,让人更方便快捷地完成任务。如今,我们正处于从人机交互向人机协作迈进的阶段——人机交互是人与计算机通过输入与输出设备进行沟通对话;人机协作则是建立在人机交互基础之上,让人和计算机通过优势互补,去共同完成任务。

从信号交互到“心领神会”

不知道是巧合还是有意设计,人机交互方式的演变与升级,完美复现了人类从婴幼儿到少年,再到成人的交互方式。这一发展过程可以大致分为四个阶段。

第一阶段是手眼协同交互。在人类婴幼儿阶段,还未学会开口说话之时,总习惯用眼睛来观察,然后用手指指戳戳,来表达自己的意图,或者与其他人进行沟通。类似地,计算机交互的首次大规模应用,也得益于图形界面与鼠标、键盘的问世,人们可以通过手指操控这样一套输入输出设备,与计算机进行沟通。这一阶段,人机交互基本是无声的。

第二阶段是基于语言和对话的交互。人类学会说话之后,会不断地学习,然后慢慢掌握一门甚至多门语言,不断提高自己的听说读写能力,而与更多的人进行更流畅的沟通。同理,语音识别技术以及自然语言处理技术的快速发展,使得计算机也可以听懂,并在一定程度上理解人类的语言,从而帮助人类完成某些操作。例如,手机语音助理软件、智能汽车的车载语音助理、家用智能音箱等产品的广泛使用,已经证明了这一技术的成功。

第三阶段是引入、融合眼神等生物信号的交互技术。成年人之间的默契往往不需要语言,“察言观色”便可领会彼此的意图。此类人机交互技术的标志性产品已于2024年上市——一种增强现实AR头盔,结合虚拟现实VR技术,通过组合多个摄像头和传感器,进行眼球追踪,然后提取眼球的特征信息来监测眼动的变化,从而控制头盔内虚拟屏幕上的光标定位,最后结合手势、语音等,完成在屏幕上的相关操作。假设人类目光所及的位置通常与思考的事物有关,那么,该技术就有可能通过眼动,让机器推断出人正在关注和思考的部分内容。

第四阶段则是一种基于意念感知的交互方式——“心领神会”,即通过非言语的方式传达信息和理解对方的意图。这也将成为未来人机交互技术发展的必经阶段。一种可能的实现方式是脑机接口交互技术,目前该技术还处于科学研究阶段。国外某公司于2024年向公众展示了首个产品“心灵感应”(Telepathy),即通过手术等方式,直接将电极植入到受试者的大脑皮层,以获得高质量的神经信号。展示中,首位接受脑机接口设备植入的患者,可以借助该设备移动计算机光标。同时,国内也有研究团队成功将无线微创半侵入式脑机接口,植入了两名瘫痪患者的颅内,成功采集到感觉运动脑区神经信号,使两位患者实现了自主脑控喝水,并成功用脑电信号控制电脑光标移动。但是,脑机接口的植入物需要替换一块头骨,因此,采用该技术仍然存在一定的伦理和社会问题。

人机协作为人机交互赋能

人机协作是建立在成熟的人机交互手段之上的智能技术,以达到人机协同完成任务的目的,一般可以分为人类单向指挥机器和人机双向合作两种模式。

单向指挥的人机协作模式,往往依赖于人通过传统的交互方式指挥机器完成一些重复性操作。例如,人类通过简单的指令或者多轮对话,基于鼠标键盘等传统交互手段,使用大模型让机器完成一些简单的创作(生成文本、图片、视频)。但是,普通用户并不精通如何对机器发号施令,会浪费大量时间去配合机器。如对大模型输入提示词进行设置,然后浏览机器返回的内容,这些内容很可能无法达到人类的要求。此外,通过声音、眼神、表情等信号,基于更先进的人机交互技术,人类可以远程控制手机或者智能家居设备完成操作。

人机双向合作往往采用语音等多模态信号,但普遍存在指令不清晰、机器无法完成预计指令效果等问题。如智能音箱有时听不懂或者发生识别错误,导致人类需要不断重复指令却没有提升效果。在这种模式下,机器收到人类的指令信号后,试图完成相关任务,并将结果展现给人类;如果人类不满意,就需要多次重复前述的交互过程,直到任务圆满完成,或者因不满意而放弃,不再继续。

笔者认为,虽然还面临诸多难题,但双向合作的人机协作模式将会是未来的发展方向,而如何实现人机协作优势互补,而不是单向指挥,是新一代人机协作技术需要解决的难题。

双向合作的人机协作模式主要依赖于两种能力,一种是机器能否真正理解人类指令的能力,另一种是机器适当地与人类配合,帮助我们完成任务。后一种模式需要借助更高级的人机交互技术。

人机协作共同创作的场景,可以帮助我们理解这种模式。人类有天马行空的巧思,机器则善于快速完成重复性工作。当人和机器共创一篇文章、一幅画作时,人类可以在关键段落、关键局部进行创造性构思,而机器可以瞬间领会人类的意图,帮其完成其他部分。进一步地,当人和机器共同执行多个复杂的、包含一定随机性的决策任务时,人类可以在关键时间节点对关键信息进行判断,而机器可以在领会人类意图的基础上,在短时间内完成其他操作,同时检查决策中的一些漏洞和错误,还可以总结和梳理决策后的反馈信息,以供后续决策参考。在这一过程中,是人类的思路和在关键节点的操作,带着机器协同推进完成任务,而不是像单向指挥模式那样,将所有任务一股脑丢给机器去自主完成。

人机交互如何升级到人机协作

人机交互技术只是人机协作的底层沟通手段,还需要定义与设计在特定或通用任务中,人与机器的动作空间(即人和机器分别可以做哪些动作),人与机器操作对象空间(即人和机器所做动作的对象有哪些),以及学习算法(即机器正确理解人的操作的算法)。

打个比方,人在一个特定环境中(如厨房),其动作空间、操作对象空间,都是相对固定的,所能完成的任务也是有限的。在这个环境中,无论是特定的任务,还是通用的开放式任务,人机协作应是有章可循的——我们不允许机器脱离人类可控的范畴,进行超出权限或违规的操作。因此,机器人需要学习算法,才能够真正看懂、听懂、理解人类的操作,去实现真正的双向合作模式的人机协作。

进一步,更加复杂的任务需要多人、多机协作技术,这将涉及任务的分工、管理与执行,考验人类对人机交互与协作系统的设计与理解,毕竟大多数任务是由人类发起的。

例如,在复杂系统监测任务中,面临海量的样本数据,机器可以帮助人类快速筛选出可能的预警样本,而人类需要对筛选出的预警样本做最后的决策,人类甚至可以将一部分简单的决策工作交给机器去执行。但是,如何定义预警样本的筛选标准,以及如何在多人和多个机器之间划分决策工作的比例,将关系到整个任务执行的准确率和人工成本。试想,如果一个任务,多人协作都无法妥善完成,那么多人、多机协作是否可以胜任?所以,新一代人机协作技术除了定义上述动作空间、操作对象空间、学习算法之外,还需要有一套标准化的流程,以便自动对复杂任务进行理解与分工,在保证任务执行准确率的前提下减少对人工的依赖。

最后,即使完成了人机协作分工,仍面临其他诸多挑战。第一,机器不会懈怠,但人不一定一直是合格的协作者。那么,机器是否还需要反过来监测人类的协作质量,并在需要的时候,做出适当的补充?第二,当机器一旦可以部分或者完全替代人类工作的时候,人类是否具备足够的能力控制机器,以防机器拥有自主智能之后犯错,甚至作恶?第三,人机协作还会涉及数据隐私泄露的问题,特别是在复杂任务中,机器会存在被动泄露数据的风险。已有的研究证明,使用大模型过程中,会出现因为数据“投喂”不当,造成敏感数据泄露等问题。

这些问题还没有答案,但我们不能裹足不前,而是要在发展中解决问题。我们坚信,未来的人机交互会更流畅更便捷!

(作者:边凯归,系北京大学计算机学院研究员)

(责编:李昉、李依环)