非構造化データを扱う多くのアプリケーションでは、フォーマットされた、またはマークアップされた文書のテキストコンテンツにアクセスする必要があります。文書をアーカイブする組織は、多くの場合、文書を検索可能にすると、ドキュメントアーカイブのコンテンツアグリゲーション、報告およびマイニングを可能にするためにテキストコンテンツにアクセスする必要があります。検索と検索アプリケーションはまた、さまざまなファイル形式からテキストを抽出し、トークン化する必要があります。 アクセスした文書からテキストを抽出するための一つの標...