Jibba Jabba
There must be some signal in all that noise…
Natural Language Text Classifier
This is a demonstration of a Natural Language Processing (NLP) algorithm to determine the natural language (English, French, etc) that a document is written in.
I leaned of this algorithm from Louis Monier, who said he originally used this in AltaVista. The algorithm seems to be ~90% accurate with 100 or more characters of text, and is no more accurate after ~2000 characters. It's currently limited to 11 common European languages, but could be trained to identify more.
To try the code, either enter a URL or the text of a document below and click 'Submit'.
Test Links for known languages:
en
nl
fr
de
it
pt
es
Test Links for unknown languages:
pl
ru
ja
Input
Wikipedia メインページ 出典: フリー百科事典『ウィキペディア(Wikipedia)』 移動: ナビゲーション, 検索 モバイル版 - 簡易版 - その他のメインページ ウィキペディアにようこそ! ウィキペディアはオープンコンテントの百科事典です。基本方針に賛同していただけるなら、誰でも記事を編集したり新しく作成したりできます。ガイドブックを読んでから、サンドボックスで練習してみましょう。質問は利用案内でどうぞ。 現在、ウィキペディア日本語版には約 701,569 本の記事があります。 インフォメーション ようこそ - ガイド - 閲覧方法 - 引用方法 - 参加方法 - 練習場所 - ヘルプ - 利用案内 コミュニティ・ポータル - 井戸端 - Help for non-Japanese-speakers 基本方針 - 著作権の扱い - 報道関係 - 連絡先 - 免責事項 お知らせ 2010年6月10日に、ウィキペディア日本語版のインターフェースが新しくなりました。詳しい情報は、Wikipedia:使用性改善をご覧下さい。 ウィキプロジェクトのための新しい名前空間である「プロジェクト」名前空間の設定作業が進行中です。詳しい日程や情報は、Wikipedia:ウィキプロジェクト/名前空間の新設をご覧ください。 2010年8月31日(日本時間9月1日)、ウィキペディア日本語版の記事数が70万項目を達成しました。 秀逸な記事 (→他の秀逸な記事 / つまみ読み / 選考 / 良質な記事) 天動説とは、すべての天体が地球の周りを公転しているとする説で、コスモロジー(宇宙論)のひとつの類型のこと。大別して、エウドクソスが考案してアリストテレスの哲学体系にとりこまれた同心天球仮説と、プトレマイオスの天動説の2種がある。単に天動説と言う場合、後発で最終的に体系を完成させた...
Output
The natural language is not en, with margin of confidence 0.351. (Took 2.719 milliseconds.)
The natural language is da, with confidence 0.060. (Took 15.732 milliseconds.)
Note: Natural languages known about are (it, fr, de, sv, fi, es, pt, el, da, nl, en) and confidence ranges from 0.0 to 1.0.