ソフトウェアの詳細:
このWordTabulatorは、テキスト解析のために意図されている。 wordTabulatorの助けを借りてあなたが定義されているテキストのセットから抽出されたワード要素のインデックスを生成することができます。ワードの要素は単語、(定義されたサイズの)Nグラムまたはフレーズ(syntagmes)であってもよい。プログラムは、マルチバイトUTF-8エンコーディングのように、符号化する通常の2バイト(ANSI)のようにテキストを処理することができます。ソーステキストは、フラットテキストファイルやHTML / XML / SGML文書のセットとして定義されています。最後のケースでは、プログラムは、マークアップからのコンテンツをフィルタリングすることができます。また、選択したペアのタグ内でのみ定義されたコンテンツを処理することができます。それとも、加工からそのコンテンツをスキップすることができます。これは、出力インデックス、ワード要素(つまり、N-グラムやフレーズ)、コンテキストのブラウザ、および真のアルファベット順の3つの異なるタイプのロシアの、三つの異なるフォーマットのための形態のモジュールを含んでます。
コメントが見つかりません