Vous êtes contre le crowdsourcing ? Peut-être participez-vous sans le savoir…

Connaissez-vous le crowdsourcing ? En traduction cela équivaut à faire contribuer des milliers ou millions d'utilisateurs pour produire une traduction censée être égale à celle d'un professionnel compétent. Facebook ou Twitter ont été ainsi traduits par des bénévoles enthousiastes sans le moindre bagage en traduction.

Evidemment, ce système n'est parfois pas très bien vu des professionnels (on peut le comprendre) mais… savez-vous que vous contribuez peut-être par votre simple capacité de lecture à enrichir une base de connaissance mondiale ? Ne serions-nous tous pas des "crowdsourceurs" en puissance ?

Nous faisons tous du crowdsourcing

L'information n'est pas récente mais peut-être ne le saviez-vous pas : Google (encore eux) a fait l'acquisition en 2009 de la société reCAPTCHA, qui propose donc des CAPTCHA (acronyme de "Completely Automated Public Turing test to tell Computers and Humans Apart"), vous savez, ces petites fenêtres avec des mots à reconnaître permettant de contrôler que vous n'êtes pas un robot, à l'image de celle ci-dessous :

reCAPTCHA

Mais contrairement aux autres systèmes qui n'ont d'autre vocation que de déterminer si vous êtes bien capable de lire, reCAPTCHA va plus loin, puisqu'il utilise ce que vous avez saisi pour numériser des livres, un peu comme un OCR (Optical Character Recognition, soit un système de reconnaissance de caractères).

Comment ça marche ?

Voici comment fonctionne le système reCAPTCHA / Google : les mots proposés proviennent de journaux et livres anciens scannés par le projet Google Books, que les ordinateurs n'arrivent pas à reconnaître car l'encre et le papier se sont dégradés avec le temps (ou que l'écriture est manuscrite). Mais vous en tant que lecteurs êtes capables d'identifier ces mots et donnez donc à l'ordinateur leur équivalent numérique !

Vous allez me dire : puisque l'ordinateur ne sait pas ce qu'il cherche, comment peut-il savoir si ce qu'a saisi l'internaute est correct ? C'est très simple. A chaque fois sont soumis deux mots : un que l'ordinateur connaît, l'autre inconnu. Si l'utilisateur écrit correctement le premier, le système supposera que le second est bien orthographié aussi. Evidemment, pour que le teme soit considéré comme vraiment reconnu, il faut que plusieurs utilisateurs l'aient écrit de la même manière ; toujours le fonctionnement statistique de Google ! 

Oui, mais demain ?

Si vous voulez voir ce les résultats de ce projet, consultez cette page du site reCAPTCHA, c'est assez édifiant. La question est maintenant de savoir si vous avez envie de participer malgré vous au grand projet de numérisation de Google qui a provoqué une levée de bouclier chez tous les éditeurs de France et de Navarre…

Mais on peut aussi se demander, si l'on considère que le système est pertinent, si le crowdsourcing n'est pas l'avenir de la traduction sur le web ?

Leave a comment