Natural Language Text Classifier

This is a demonstration of a Natural Language Processing (NLP) algorithm to determine the natural language (English, French, etc) that a document is written in.

I leaned of this algorithm from Louis Monier, who said he originally used this in AltaVista. The algorithm seems to be ~90% accurate with 100 or more characters of text, and is no more accurate after ~2000 characters. It's currently limited to 11 common European languages, but could be trained to identify more.

To try the code, either enter a URL or the text of a document below and click 'Submit'.

Test Links for known languages: en nl fr de it pt es
Test Links for unknown languages: pl ru ja


Input

Wikipedia – Die freie Enzyklopädie Wikipedia:Hauptseite aus Wikipedia, der freien Enzyklopädie Wechseln zu: Navigation, Suche Willkommen bei Wikipedia Wikipedia ist ein Projekt zum Aufbau einer Enzyklopädie aus freien Inhalten in allen Sprachen der Welt. Jeder kann mit seinem Wissen beitragen. Seit Mai 2001 sind so 1.118.924 Artikel in deutscher Sprache entstanden. Gute Autorinnen und Autoren sind stets willkommen.  Geographie     Geschichte     Gesellschaft     Kunst und Kultur     Religion     Sport     Technik    Wissenschaft Artikel nach Themen · Alphabetischer Index · Artikel nach Kategorien · Gesprochene Wikipedia Kontakt · Presse · Statistik · Andere Sprachen · Mentorenprogramm Wikipedia aktuell Vom 1. bis zum 30. September können Artikel für den 13. Schreib­wettbewerb nominiert werden. Bis zum 30. September können neu erstellte oder deutlich verbesserte Artikel sowie herausragende Fotos und Grafiken für die Zedler-Medaille 2010 eingereicht werden. Artikel des Tages Am Brunnen vor dem Tore ist der erste Vers eines deutschen Liedes, das sowohl in Form eines Kunstlieds als auch in Form eines Volkslieds bekannt geworden ist. Der ursprüngliche Titel lautet Der Lindenbaum. Der Text stammt von Wilhelm Müller und gehört zu einem Gedichtzyklus, den Müller Die Winterreise überschrieb. Franz Schubert vertonte den gesamten Gedichtzyklus unter dem Titel Winterreise und in diesem Rahmen auch den Lindenbaum als Kunstlied. In vielen Bearbeitungen ist Der Lindenbaum zu einem beliebten Bestandteil des Repertoires der Gesangsvereine geworden. Dabei ist die ambivalente Haltung des Liedes oft einer verharmlosenden Romantisierung gewichen. In der bekanntesten und populärsten Bearbeitung der Schubertschen Vertonung von Friedrich Silcher ist das Werk zum Volkslied geworden. Für diese Fassung hat sich der Anfangsvers des Gedichts als Titel eingebürgert. mehr...


Output

The natural language is not en, with margin of confidence 0.135. (Took 6.454 milliseconds.)
The natural language is de, with confidence 0.198. (Took 21.510 milliseconds.)
Note: Natural languages known about are (it, fr, de, sv, fi, es, pt, el, da, nl, en) and confidence ranges from 0.0 to 1.0.