Natural Language Text Classifier

This is a demonstration of a Natural Language Processing (NLP) algorithm to determine the natural language (English, French, etc) that a document is written in.

I leaned of this algorithm from Louis Monier, who said he originally used this in AltaVista. The algorithm seems to be ~90% accurate with 100 or more characters of text, and is no more accurate after ~2000 characters. It's currently limited to 11 common European languages, but could be trained to identify more.

To try the code, either enter a URL or the text of a document below and click 'Submit'.

Test Links for known languages: en nl fr de it pt es
Test Links for unknown languages: pl ru ja


Input

Wikipedia, l'enciclopedia libera Pagina principale Da Wikipedia, l'enciclopedia libera. Vai a: Navigazione, cerca Benvenuti su Wikipedia l'enciclopedia libera con 723.942 voci in italiano FAQ · Citare Wikipedia · Donazioni · Not Italian? it-0? Click here Cosa posso fare? - modifica Esplorare l'enciclopedia (portali) Collaborare al progetto (progetti) Cerca tra le voci - modifica Comunità - modifica Vuoi partecipare? Registrati, leggi le linee guida e rispetta la wikiquette Vuoi provare? Modifica questa pagina di prova o leggi come scrivere una voce Serve aiuto? Cerca nelle istruzioni o, se non trovi chiarimenti, chiedi allo sportello informazioni Se vuoi, scrivi cosa pensi di Wikipedia Per domande, osservazioni o comunicazioni generali su it.wiki, scrivi al Bar L'indirizzo ufficiale di Wikipedia in italiano è it.wikipedia.org Sommario Scienze matematiche, fisiche e naturali Arte · Letteratura · Arti visive e performative Scienze umane e sociali · Attività umane Società · Costume · Persone Tecnologia e scienze applicate Indice alfabetico e alternativo (Aa - Zz) Novità segnala una novità - modifica Ultime notizie: it.wiki supera le 720.000 voci il Wikipediano: riassunto delle novità in it.wiki Voci nuove in evidenza: Clematis recta · Letteratura di Alfonso X il Saggio · Patch Tuesday · Rocca di Badolo Da tradurre questa settimana: Gomito del tennista da en:Tennis elbow e Diritti degli indigeni da en:Indigenous rights Sono nati i nuovi portali su: Leonardo da Vinci • Gatti • Cani • Anfibi • Agro nocerino sarnese Vetrina - modifica Antonio di Puccio Pisano, meglio conosciuto come Pisanello (Verona ?, ante 1395 – Napoli ?, 1455 circa), è stato un pittore italiano, tra i maggiori esponenti del gotico internazionale in Italia. Pisanello era noto soprattutto per splendidi affreschi di grandi dimensioni, sospesi tra realismo e mondo fantastico, popolati da innumerevoli figure, con colori brillanti e tratti precisi; essi furono in larghissima parte distrutti, a causa di incidenti, dell'incuria ...


Output

The natural language is not en, with margin of confidence 0.041. (Took 7.003 milliseconds.)
The natural language is it, with confidence 0.208. (Took 17.288 milliseconds.)
Note: Natural languages known about are (it, fr, de, sv, fi, es, pt, el, da, nl, en) and confidence ranges from 0.0 to 1.0.