背景
身份认证技术已走进人们生活的每一个角落:登录个人邮箱需要密码、购买火车票需要出示身份证、上班需要指纹打卡等等。随着科技的发展,基于生物特征识别的身份认证技术获得了广泛的应用。它利用人的指纹、面部、声音、虹膜、视网膜等特征具有唯一性、稳定性和不易复制的特点,从而实现安全、方便的身份认证。生物特征分为身体特征和行为特征两类,身体特征如人脸、指静脉、指纹、视网膜、虹膜、DNA等;行为特征如签名、语音、行走步态等。
用户行为特征像是隐形的密码,它不像是密码或者指纹,密码可能会泄露,指纹可能会被盗取,但是行为特征很难被盗取,重要的是哪怕行为特征被收集,也很难被利用,想要模仿一个人的行为特征几乎是不可能的任务,因为行为由人的意识和习惯驱动,没有物理实体,其安全性是不言而喻的。
眼动作为人类的一种行为特征,具有随身性、安全性、广泛性、可采集性等特点。阅读心理学相关研究表明,在阅读过程中,眼动模式在个体之间是显著不同的(图1),但同一被试又呈现出一定的相似性,这表明阅读眼动行为具有某种程度上的唯一性和稳定性,可以作为一种生物特征识别手段。
1.方法
图1 10名被试在阅读同一段文字时的注视序列。横轴为被试者ID,纵轴为同一段文本中单词的位置标号。图中的小圆点是被试在阅读该文字时的注视位置分布情况。不同被试在阅读同一段文字时的注视序列是显著不同的。
图2 基于深度学习的阅读眼动识别(reading eye-movement recognition,REMR)可计算模型架构。模型首先通过词嵌入层、双向LSTM层和密集链接层对输入文本进行处理,再与文本的语言学特征序列进行合并学习,生成预测的阅读眼动注视词序列,最后通过对比预测阅读眼动注视词序列与实际阅读眼动注视词序列(要识别的阅读眼动注视词序列)的相似性距离输出识别结果。
本研究突破了传统的阅读眼动模型注视粒度处理和回视处理模式,提出了阅读眼动注视序列标注方法,构建基于深度学习的阅读眼动可计算模型。通过引入阅读眼动可计算模型,提出了一种基于阅读眼动的生物特征识别方法(图2)。该方法把文本序列、文本语言学特征序列作为输入,使用所提出的模型生成预测的注视序列,通过度量预测的注视序列和实际的(待识别)注视序列之间的相似性距离识别被试身份。
2.注视序列相似性距离算法
本研究基于Dynamic Time Warping (DTW)思想来计算两个注视序列的相似距离(图3)。首先,基于动态规划构建注视序列a和注视序列b的距离矩阵dp[i][j],dp[i][j]表示序列a[0:i]和b[0:j]之间的相似距离的平方。并且有:
其中,dp[len(a)-1][len(b)-1]就是相似距离的平方,最后开方就是两个注视序列的相似距离,即两个序列的相似度可以用距离来衡量。矩阵dp[i][j]从左上角到右下角的最优路径就是所要求的相似距离distance(图4)。
图3 模型预测的注视序列与实际序列相似性对比图。上图为模型预测的注视序列,下图为实际的(待识别的)注视序列。横坐标为同一段文本中单词的位置标号,纵坐标为1表示该位置的单词被注视,为0表示该位置的单词被跳过。
图4 两个注视序列距离矩阵的最优路径图
3.结果
在测量Rank-1准确率时,如果预测的注视序列与实际(待识别)序列之间的相似距离小于阈值,则认为该被试是同一名被试。在数据集上通过10倍交叉验证方法测量了Rank-1准确率。由于神经网络的初始值是随机选择的,因此该实验重复了100次,在Provo语料库上获得的平均Rank-1准确度为86.5%。在GECO语料库上获得的平均Rank-1准确率为85.23%。实验结果列于下表。
在现有的阅读眼动生物识别技术中,CEM-P方法获得最高的EER和Rank-1精度,基于图的匹配(Graph-based matching)方法使用的手工提取特征最少。如上表所示,所提出的方法使用较少的手动提取特征来获得与CEM-P方法相似的R1精度和EER值。
4.展望
在电影《碟中谍5》中,安保系统最后一道防线“步态识别”,成为汤姆·克鲁斯一行人获取情报的最大障碍。随着人工智能与认知科学的发展,包括“步态识别”“眼动识别”等在内的行为特征识别将不再仅存在于影视作品中,基于用户行为特征的身份认证技术正在成为现实。
附
研究对应的论文成果Deep-learning-based reading eye-movement analysis for aiding biometric recognition发表在Neurocomputing(神经计算)上,该期刊是计算机学科ESI期刊,SCI 2 区,Impact Factor:4.072 。
作者:王晓明等。