解决这一问题的传统做法是直接扫描书页,然后由计算机来辨认图片中的文字。这就是所谓的光学字符识别 (OCR)。然而这一技术并没有我们以为的那样理想,对于一本50年前的旧书,计算机可正确辨识的文字甚至达不到30%。我们所看到的那些扭曲怪词正是出自这样的旧书。当然,这些词汇变得扭曲只是为了抵抗那些恶意程序。
问题来了,如何判断人们输入的词正确与否呢?上图中出现的双词形式正是Von Ahn给出的解决方法。对于从旧书中提取出来的陌生词语,计算机并不知道答案,所以也无法判断电脑前的真人输入的是否正确。但是系统可以多给出一个词,这个词系统是知道其正确文字内容的。输入验证码的用户并不知道哪个是哪个的,只是顺其自然地把两个词都填上。如果电脑知道正确答案的那个词我们输入对了,那么系统会判定用户是真人,从而推断另一个输入的词也是正确的。当然,这样一次判断是不够的。通过重复这一过程,如果还有 (比如) 10个真人都输入了相同的内容,那么系统才会认为这个未知词语真正得到了数字化。
欢迎您致电一品信息,期待与您的合作!欢迎您来电详谈!
联系方式:
资深信息营销顾问:颜生
手机:(同号)
邮箱
地址:广东省广州市天河区黄村东路一街八号启星
固定电话: