cpdetectorプロジェクトは、コードページ検出のための小さなまだ巧妙なフレームワークです。
cpdetectorは異なる戦略を統合コードページ検出のための小さなまだ巧妙なフレームワークです。これは、ネットワークを介してテキストデータにアクセスするサードパーティソフトウェアのライブラリとして使用することができる。
それはまた、彼らのコードページに基づいて文書の大規模なコレクションをソートし、変換することができますコマンドラインツールの形でのベストプラクティスの実装が含まれています。
利用可能な戦略が含まれます:XMLエンコーディング宣言のjchardet(除外、周波数解析、および推測)、HTMLの文字セットのプロパティの検出、および検出を。
コードページとは何ですか?
まず、テキスト文書は、ビットのシーケンス以外の何ものでもありません。コンピュータは、彼が(数字などのコンピュータによって識別されます)文字の形でこのデータを表示できるか、決定しなければならない。
コードページ - また文字セットエンコーディングとして知られている - 文字にテキスト文書の生データをマッピングします。例えば、元のASCIIコードページでのみのみ128種類の文字をマッピングすることができ、したがって表現される文字を決定するためのオクテット(バイト)の7ビットを使用しています。過去の記憶では高価だったとコンピュータは、ほとんどの場合は8ビットのレジスタとバスを持っていた。
メインフレームが考案されたとき、それは、それがサポートする必要のある文字、決定されなければならなかった。例えば医師や数学は方程式の特殊文字を必要としていました。その結果、コンピュータは、多くの場合、特別なコードページに同梱されます。
のこのリリースではの新機能:ます。
- この主要なバグ修正バージョンは、コマンドラインバッチモードで二つの問題が修正されています。
- 検出されない文書を移動するスキップするスイッチは再び機能するようになりました。
- いいえ試みが検出されない文書を(後者は例外的なプログラムの流れを引き起こした)トランスコードする行われません。
このリリースでは、安定リリースであり、バイトが修正されています。
のバージョン1.0.8でのの新機能であるOpenJDKのとマーク検出との非互換性を注文。また、今のJava 1.5を必要とします。
コメントが見つかりません