验证码的故事 1亿人的举手之劳能带来什么?

如何在王珞丹里面找出白百合?如何在春哥丛中发现姚明?也许你曾被12306那些神奇的验证码所折磨,也许你曾看着那些被折磨的家伙而心中窃喜。无论怎样的搞怪和奇葩,它们存在的根本目的其实是保护多数人的利益,维护一个正常的网络环境。论坛上留言,社交网站里注册账号,或者直接在网上买一张火车票……验证码随处可见,在一定程度上阻挡了恶意软件的肆虐。那么,最初的验证码又是什么样子呢?

CAPTCHA

早在2000年,卡内基梅隆大学的Luis von Ahn发明了一种工具,以抵制网络上的不良软件程序。假如你要在线购买车票,那么你需要过目一组扭曲的字母,并输入正确内容。这样,系统可以将你判定为人类,而非机器程序。这就是所谓的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。

然而,随着恶意软件的进步,验证码也跟着提升了难度,这使人们在辨识图案这件事上要花费更多的精力。偶尔,也会出现些令人尴尬的情形。据说Yahoo曾收到一条求救信息,询问系统出现了“W A I T”字样,可是他等了20分钟却没有任何反应。

如果说这是一场介于网站和恶意程序/用户之间的竞争,那么最大的受害者是普通用户。据Google统计,每天,地球人至少要填写2亿个验证码。平均来讲,人们搞定一个验证码需要10秒的时间。往往我们还会因为看不清楚而不得不换一个新的来输入。按照这些数据计算,人类每天在验证码上就浪费了50多万个小时。这实在是一件令人沮丧的事。

两个验证码

这样大数量级的时间浪费问题再一次激发了Luis von Ahn,他开始思考,是否有什么方法可以把这些碎片时间利用起来,哪怕仅仅是那短暂的10秒。面对如此奇妙的设想,他居然找到了答案。

如果你曾经填写过类似下面形式的验证码,那么恭喜你,尽管你可能并不知情,但实际上你在做着一件很有意义的事情——为旧书电子化。

解决这一问题的传统做法是直接扫描书页,然后由计算机来辨认图片中的文字。这就是所谓的光学字符识别(OCR)。然而这一技术并没有我们以为的那样理想,对于一本50年前的旧书,计算机可正确辨识的文字甚至达不到30%。我们所看到的那些扭曲怪词正是出自这样的旧书。当然,这些词汇变得扭曲只是为了抵抗那些恶意程序。

问题来了,如何判断人们输入的词正确与否呢?上图中出现的双词形式正是Von Ahn给出的解决方法。对于从旧书中提取出来的陌生词语,计算机并不知道答案,所以也无法判断电脑前的真人输入的是否正确。但是系统可以多给出一个词,这个词系统是知道其正确文字内容的。输入验证码的用户并不知道哪个是哪个的,只是顺其自然地把两个词都填上。如果电脑知道正确答案的那个词我们输入对了,那么系统会判定用户是真人,从而推断另一个输入的词也是正确的。当然,这样一次判断是不够的。通过重复这一过程,如果还有(比如) 10个真人都输入了相同的内容,那么系统才会认为这个未知词语真正得到了数字化。

这就是所谓的reCAPTCHA。在国外,Ticketmaster,Facebook,Twitter等很多站点都曾使用过这种技术。据统计,通过这种方法每天可以数字化的词汇可达1亿个。也就是说,每年会有250万本书被数字化,而这一壮举只不过是基于我们最简单不过的填写验证码完成的。尽管reCAPTCHA较以往的验证码难度更大,但数据表明,人们输入的正确率高达92%。

然而这还并非最了不起的数字。要知道,很多伟大的工程都需要耗费巨大人力。很巧的是,建造埃及金字塔,修建巴拿马运河,或者把一个人送上月球,这些事都牵扯了大约10万人。这也不难理解,在互联网出现以前,调度和照顾10万人以上是很困难的事。如今,在将人类文化与知识数字化这一工作上,通过双词验证码做出过贡献的个人超过了7.5亿,这已经超出了世界人口的十分之一。试想,10万人可以把一名宇航员送上月球,那么1亿人能做出什么?7.5亿人又能实现什么?

多邻国(Duolingo)

Von Ahn并没有停下脚步,顺着这条思路,他又将故事推向了新的高度。也许你听说过多邻国(Duolingo),没错,正是验证码的发明者开发了这个语言学习平台。上亿人在学习外语的同时,也在帮助翻译资料。

我们知道,互联网中的内容大部分为英文,而其他语言尽管比例相对略低,但体量依然巨大。Von Ahn想做的事是将互联网中的大部分内容翻译成各种主流语言。这件事目前仍无法依赖电脑来完成,原因同OCR一样。当然,也有专业语言机构可以提供此种服务,但问题是费用极其昂贵。我们选取维基百科为例,其西班牙语版本内容仅为英语版内容的20%,如果把另外80%全部翻译为西班牙语,那么这至少需要5000万美元。而Von Ahn则想让上亿人在不经意间携手完成这一壮举。

要实现这一点,至少需要克服两个困难。一是需要拥有双语能力的人;二是需要这些人有足够的动机去做翻译之类的事。哪一条看起来都很棘手,我们甚至不知道世界上有没有1亿人具备双语能力,更别说引导他们去做翻译工作。

然而有一件事正好可以一箭双雕,那就是语言教育。如今,世界上有超过12亿人在学习一门外语。单在美国,花上500美元购买语言软件的人就超过500万。Von Ahn却反其道而行之,开发了Duolingo这款免费语言学习系统。

其基本原理在于人们免费学习语言的同时,也在翻译内容。无论初级还是高级用户,系统会分配相当难度的语句让你翻译,通过比对其他用户的翻译结果,你不断地学习了这些内容。也就是说,人们都是在边做边学。令人惊讶的是,这一理念在实际应用中极为有效。

有趣的是,几个初级水平的用户合起来的效果与一名专业翻译人员的贡献相当。人们在学习的同时,也在创造价值。还以维基百科西班牙版为例,如果将那80%英文内容全部译为西班牙语,在拥有10万个活跃用户的情况下只需5周时间;如果有100万个活跃用户,将只要80个小时。记住,这可是个价值5000万美元的项目。

当然,多邻国总是要盈利的。Von Ahn曾亲自在网上表示,其盈利模式有两点:一是付费翻译。CNN和Buzzfeed这样的机构会将待译的英文内容交给将他们,多邻国系统将这些内容发到正在学习英文的人手中,使其将新闻翻译成各自的母语。CNN自然会为这些地道的文章买单;另外一点就是App的语言测试服务。大家知道,托福或者雅思考试收费很高,而你大概只需要一两百块钱就可以参加多邻国提供的语言水平测试。这一点也很有竞争力。

尽管如此,我们不要忘记,这一系统的最大意义在于免费面向全人类。能够花500美元买软件的人也许只占5%,世界上还有95%的人无法承受这一负担,却同样拥有学习的渴望。在创业过程中,这样的商业模式与驱动模式非常值得我们借鉴。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

Baidu
map