Previous Entry Поделиться Next Entry
Как работает reCAPTCHA
main
npokpyct

Прочитал недавно на хабре статью, которая буквально поразила меня.
Во-первых, стало понятно почему иногда выплывают капчи типа такой.
recaptcha
Во-вторых, это одна из статей заработка корпорации Google. Деньги делаются из воздуха. И это гениально! Наверное, каждый человек в Интернете когда-нибудь да поработал на Google таким образом.
Начнём с начала. По сути, reCAPTCHA выполняет ту же функцию, которую выполняют другие капчи. Суть проста, пользователь вводит предложенный текст и тем самым доказывает, что он не робот. Главным отличием от других систем является то, что reCAPTCHA не только защищает сайт от спамеров, но еще и выполняет другую, достаточно интересную функцию. Что это за функция?



Как вы, наверное, заметили, reCAPTCHA предлагает ввести два слова, что практически не встречается у других капч. Суть в том, что пользователь при вводе этих слов не только доказывает, что он не робот, но еще и помогает распознавать старые книги и газеты.
Принцип работы прост:
Допустим, есть какая-то книга, которая сохранилась в малом количестве экземпляров, при этом все они в плохом состоянии. Один экземпляр в отсканированном виде попал в руки Google (владелец reCAPTCHA). Что с ним делать? Правильно, оцифровать. Как цифровать? Цифровать, используя системы распознавания символов (OCR). Но, как многим известно, эти системы очень часто грешат многочисленными ошибками в выданном результате (многие, наверное, пользовались программой FineReader). Вручную перебирать весь текст на предмет ошибок — слишком дорогое удовольствие. И вот, на помощь приходит reCAPTCHA. Одно слово в изображении распозналось системой OCR правильно, а вот второе никак нет. Второе слово — за пользователем, именно то, что он введет будет использовано в качестве замены ошибочному варианту, предложенным OCR. Наверняка, сейчас некоторые усмехнутся. Да, я знаю про то, что фактически вместо второго слова можно ввести что угодно. Но каждое непонятное для OCR слово reCAPTCHA показывает пользователям сотни, а то и тысячи раз (при цифре в 200 миллионов генераций в день это очень мало), и в конечном итоге правильным считается тот вариант, который пользователи вводили чаще всего.
От скучного текста перейдем к иллюстрациям:
recaptcha
Вот так выглядит отсканированный текст. Качество, можно сказать, не на высоте, но давайте взглянем на результат работы OCR:
recaptcha
Красным выделены ошибки. Не правда ли, их слишком много? А теперь посмотрим, что же будет результатом работы reCAPTCHA:
recaptcha
Не надо быть семи пядей во лбу, что бы увидеть разницу между OCR и дуэтом OCR + reCAPTCHA. Оцифровка получилась 100% безошибочной.
Разумеется, это что-то вроде идеальной ситуации, где все складывается так, как задумывалось создателями reCAPTCHA. Но, наверняка, многие из вас сталкивались с абсолютно нечитаемыми словами, предлагаемыми для ввода. Проблема в том, что некоторые книги/газеты сохранились настолько плохо, что порой и вручную они распознаются отвратительно. Вот пример:
recaptcha
Изображение отвратительного качества. Посмотрим, что тут сможет сделать OCR…
recaptcha
… а ничего. Ошибки не подсвечены потому, что все это — одна большая ошибка.
recaptcha
Зато силами reCAPTCHA результат становится вполне себе читаемым, хоть и не безошибочным. Именно таким образом пользователи помогают оцифровывать книжки средствами reCAPTCHA.
Вкратце: изображение, генерируемое reCAPTCHA, состоит из двух отсканированных слов. Одно уже заведомо известно системе, насчет второго же есть сомнения. Именно это второе слово и есть объект для распознавания силами пользователей. Грубо говоря, интерфейс reCAPTCHA мог бы выглядеть и вот так:
recaptcha




  • 1
Реально гениально. Давно заметил, что второе слово можно вводить, как угодно. Не ожидал, что поэтому. :)

Там можно и в первом ошибку допускать ;)

Ура! Не, чесслово я это знал :)

совместными усилиями)))

Это вселенски круто!! :))
Очень рад, что помогаю в этом деле

О как... Я тоже приношу пользу, ура!

гениально и непостижимо, весь мир окутан их сетями а об этом никто не знает

По моему уже кто то спрашивал. Повторюсь. Не могли бы Вы добавить кнопку перепост

И вправду гениально!
Про деньги тут наверное лишнее. Больше напоминает поиски любителями географии исторических артефактов на снимках из Космоса. Один "бездельник" умудрился найти какое-то римское поселение в северной Африке. А так глядишь, поможем делу спасения старых книг от забвения.


Любопытно.
Да, оцифровка старых книг сейчас очень актуальна.

Прекрасно, когда что-то, помимо своей основной функции, приносит и дополнительную пользу!
Ура безупречному использованию ресурсов!

поставить еще бы неокапчу и начать зарабатывать на комментах))

ничего себе!
а я иногда задумывался о странностях reCAPTCHA , вот откуда ветер дует)

Прошу прощения что без стука,спасибо Вам, вы подтвердили мою догадку.... Респект....

То есть типа нет более совершенного алгоритма распознования, чем человек?

(Удалённый комментарий)
(Удалённый комментарий)
Всегда думал, что что-то подобное они проворачивают.

У Маркуши была такая байка про Эдисона, что каждый, приходящий к нему и открывавший калитку, закачивал в домашний водопровод 20 литров воды.

Что-то не то... Ошибки при вводе же возможны и капча их отсеивает, значит уже правильный вариант известен.

Система подаёт одну капчу нескольким людям, а результаты каким-то образом агрегирует. Например, если три человека написали один ответ, а четвёртый человек - другой, то первый ответ считается верным.

блин вот так и чувствуешь как стареешь потихоньку...

когда кто то находит и восхищается чем то, что уже давно воспринимаешь как всем известное...

Как правило нераспознанное слово выглядит хуже читаемым, чем распознанное.
Существует неофициальное умолчальное соглашение:
То слово, которое лучше читается надо ввести как есть. То слово, которое хуже читается, надо ввести как fuck.
Таким образом, очень часто в рекапче нераспознанное слово после фильтрации по большинству распознаётся как fuck.

  • 1
?

Log in