使用机器学习算法,研究人员可以判断一个人的手写英文文本,以确定作者是来自这五个不同国家——马来西亚,伊朗,中国,印度和孟加拉国的哪一个。
研究人员创建了一个由这些国家100人组成的数据集,他们用英语写作,共计500行。使用这些手写数据,一个名为Cloud of Line Distribution(COLD)的工具可以分解单个字母,测量文本的直线度或曲率。该算法在确定作者的国籍方面,执行相同的任务的时候,表现优于现有的方法,判断有些国家的书写人员的国籍的正确率甚至高一倍。
该算法正在进行的是机器学习最优方法——获取模式。例如,当中国本土作家使用罗马字母时,他们会采用直线书写字母,因为汉字通常是用直线的笔画组合而成的。另一方面(双关语),来自印度和孟加拉国的作家有着曲线书写的习惯,因为他们的大多数剧本都是草书,形状更圆。
判断笔迹是计算机视觉研究人员解决的首要任务之一。以前的研究试图检测情绪,对性别进行分类,并确定作家的年龄,但除此之外,没有做太多工作试图从笔迹中提炼出更多信息,可能是因为没有人找到通过它获利的方法。
来自印度、中国和马来西亚的研究人员提出这种技术对犯罪调查很有用。警方越来越多地转向生物识别技术,以此来解决犯罪问题,从手写体中提取的识别信息可以补充人脸识别软件等其他技术所识别到的信息。
但目前,针对这些技术,尚未解决此类技术或者类似技术的隐私和民权问题。例如,放大训练数据中现有偏见的错误可能会将无辜的人牵连到刑事调查中。或者公司可以使用手写识别软件根据某人的国籍甚至智力等特征来区分潜在客户。
实际上,在执法部门在考虑是否使用这些技术之前,研究人员必须考虑拓展他们的数据集和用途,来证明COLD并不仅仅是一个有趣项目的小数据集。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )