DataCleaner

ソフトウェアのスクリーンショット:
DataCleaner
ソフトウェアの詳細:
バージョン: 4.0.9
日付のアップロード: 11 Apr 16
開発者: -
ライセンス: 無料
人気: 17

Rating: nan/5 (Total Votes: 0)

DataCleanerは、オープンソースとそのデータの品質を向上させ、測定を希望する組織や企業のための完全無料のソリューションです。

DataCleanerを使用すると、ユーザーは、プロファイルの比較、ビジネスルールに対してデータを検証し、時間をかけてこれらの測定の進行をモニターすることができるようになります。

その機能の中で、我々は重複、顧客データの品質だけでなく、超高速ETLightweightを(抽出・変換・ロード)、データ監視、データ・プロファイリングおよびDQ分析、データクレンジングおよび濃縮を言及検出し、マージすることができます。

DataCleanerの機能や能力の詳細を表示するには、だけでなく、それを操作する方法、http://eobjects.dk/docs

Whatを参照してくださいすることは、このリリースで新しく追加されました:

この改善と新機能:
私たちは、DataCleanerのデスクトップUIを介してテーブルを作成し、ドロップすることが可能になりました。テーブル"用語&QUOTことに注意してください。ここでは実際には、リレーショナルデータベースのテーブルよりも多くをカバーしています。また、CouchDBのとElasticSearchでMS Excelのデータストア内のシート、MongoDBの中のコレクション、ドキュメントタイプを含むのように...基本的に、このようなCSVデータストアとして単一テーブルのデータストアを除き、書き込み操作をサポートするすべてのデータストアの種類は、この機能をサポート!機能は、を介して露出されています:
&QUOTは、テーブル&QUOTを作成します。アプリケーションの左側のツリーでスキーマの右クリックメニューを使用して有効。
&QUOTは、テーブル&QUOTを作成します。テーブル、テーブルの検索と更新テーブルに、このような挿入などのコンポーネントのテーブル-選択入力を経由しても有効。
&QUOTは、テーブル&QUOTをドロップします。アプリケーションの左側のツリー内のテーブルの右クリックメニューを使用して有効。
私たちはあなたのSalesforce.comのWebサービスエンドポイントURLを指定する(オプション)機能を追加しました。これは、Salesforce.comのサンドボックス環境と同様に独自のカスタムエンドポイントに接続するためにDataCleanerを使用することができます。
ElasticSearchサポートは、カスタムマッピングを可能にするだけでなく、検索および索引付けのためにも、今ElasticSearchデータストアの定義を再利用して、改善されました。
レコードと重複検出機能の潜在的な重複の選択のサンプリングは、トレーニングセッション中に行われた決定は、より代表的なものであるため、より高速な構成につながる、改善されました。
重複検出モデルファイル形式は、過去のトレーニングの決定を節約するために別々の「参照」ファイルの必要性を除去した更新されました。古いフォーマットとの互換性は保持しますが、新しい形式を使用すると、ユーザーエクスペリエンスのための多くの利点が追加されました。
バグの修正:
スレッド不足の問題がDataCleanerモニターで修正されました。この問題の影響は大きかったが、それは稀であり、非常にカスタマイズされた場合にのみ起こりました。カスタム・リスナーがエラーをスローするDataCleanerモニタ上のオブジェクト場合、それは決して解放されないと、サーバー上のクォーツ・スケジューリング・プールからスレッドを占有されているリソースをもたらすであろう。これは何回も起こるだろうと、サーバーは最終的にそのプール内のスレッドの不足する可能性があります。
結果画面の縦のメニューは今の結果を持っているコンポーネントのラベルを表示する適切な仕事をしています。これは、簡単にどのような結果項目にどのメニュー項目のポイントを認識することができます。

この何がバージョン3.5.5で新しく追加されます。

'同義語検索​​」の変換は、現在の入力のすべてのトークンを検索するためのオプションを持っています。あなたは、長いテキストフ​​ィールドの値の範囲内同義語の交換をやっている場合に便利です。
このため、モニタのWebサービスを介してDataCleanerジョブの実行をブロックすると、時々、ブロッキングスレッドに起因する不具合で失敗する可能性があります。この問題は修正されました。
改善は、雇用とコンポーネントのシーケンスを閉じた/実行後にクリーンアップされている方法で行われました。
DataCleanerのJNLP / JavaのWebStartのバージョンは、特定の状況下で、WebStartのランチャーによって認識されない特定のJARファイルを引き起こしてJavaランタイムのバグにより露出させました。この問題は、これらのJARファイルに若干の変更を加えることで修正されました。
ドキュメントのいくつかのデッドリンクを修正しました。

このバージョン3.5.4の新機能です:

このそれは変換の出力列を非表示にすることが可能になりました。非表示は、すべての処理の流れに影響を与えず、単にユーザーインターフェイスからそれらを非表示にし、潜在的に他のコンポーネントと対話するとき、経験はよりクリーンな作りません。
新しいWebサービスは、特定のジョブの実行のステータスをポーリングする方法を提供する監視Webアプリケーションに追加されています。
バグは、レコードが処理されていなかったときに、特定の解析タイプのために失敗するHTMLレポートを引き起こして、修正されました。
他6のマイナーなバグがadressedされています。

このバージョン3.5.1の新機能です:

このキャプチャでは、レコードを変更しました:
新しいフィルタは、例えば、前処理されていないレコードの増分処理を可能にするために追加されましたプロファイリング、または複製にはレコードのみを変更しました。新しいフィルタの名前はキャプチャでは、チェンジ・データ・キャプチャの概念を参照して、レコードを変更します。
ジョブのキューイングされたコマンド実行:
それが複数回トリガされた場合DataCleanerモニタは今、同じジョブの実行をキューに入れます。これは、あなたが誤って仕事が何をするかに応じて、問題のすべての種類につながる可能性があり、同時に同じジョブを実行しないことを保証します。
マイナーバグ修正:
いくつかのバグ修正が実装されました。

このバージョン3.5の新機能です:

この、いくつかのウィザードは現在のデータストアを登録するために利用可能です。 CSVファイル、データベース接続エントリのためのサーバーへのファイルのアップロード、Salesforce.com証明書とよりのガイド付き登録を含みます。
ジョブ建物ウィザードは、いくつかの拡張機能で拡張されています。値分布とパターンクイック分析ウィザード、顧客のクレンジングジョブとPentahoのデータ統合ジョブを発射するための新しいジョブウィザードベースのEasyDQを作成するための完全に新しいウィザード(もっと下の読み取り)のフィールドを見つけるの選択。
これで、アドホックWebユーザインターフェイスに直接任意のデータストアを照会することができます。これは、ジョブまたはデータを処理する他の管理のアプローチを設定することなく、データに迅速にまたは散発的な洞察を得ることが容易になります。
ジョブまたはデータストアが作成されると、ユーザは、新しく建設されたオブジェクトにアクションを取るように案内されます。たとえば、あなたは非常に迅速にそれが組み込まれている直後にジョブを実行するか、それが登録された後にデータストアを照会することができます。
管理者は、直接的、ジョブファイルのXMLコンテンツを手作業で編集したい場合に特に便利ですリポジトリにジョブをアップロードすることができます。
技術的な嫌なものの多くは、現在、簡単なダイアログを示すのに有利に隠されています。例えば、ジョブがトリガされたときに、大きな負荷インジケータが示されており、終了時の結果を示します。以前にまだ追加の詳細については、リンクをクリックするとそこに表示させることができた高度なロギング画面。

このバージョン3.1.2の新機能です:

この我々は、メトリック値(のリスト)を取得するための監視アプリケーションにWebサービスを追加しました。これは、データを監視するための方法(品質)として、モニタリングがさらに使用可能なキーインフラストラクチャコンポーネントとして作成し、サードパーティ製のアプリケーションに結果を公開します。
'テーブルのルックアップ'コンポーネントは、構成プロパティとしてセマンティクスに参加添加することによって改善されました。あなたはJOINまたはINNER JOINをLEFTのように意味的に動作するようにルックアップをご希望の場合は、調整することができます参加セマンティクスを使用します。
EasyDQコンポーネントは、さらに設定オプションと豊かな重複除外結果インターフェイスを追加して、アップグレードされました。
パフォーマンスの改善は、このリリースの特定の焦点となっています。改善はさらに以前に覆われていない特定のコーナーケースでストリーミング処理アプローチを利用するDataCleanerのエンジンで行われています。

このバージョン3.1.1の新機能です:

この日付と時刻の関連解析オプションは、週番号、月、年の配布・アナライザを追加し、拡張されました。日付と時刻に関連するすべてのアナライザは、現在QUOT&と呼ばれるサブメニューの中にグループ化され、日付と時刻"下"分析]です。
記述統計"オプション"オプションは、数値・アナライザと日付/時刻アナライザに追加されました。このオプションは、中央値、歪度、パーセンタイルおよび尖度など、これらの分析器の結果に追加のメトリックを追加します。彼らのメモリフットプリントは、既存のメトリックよりもやや大きくなっているので、これらの指標はオプションです。
監視Webアプリケーションのタイムラインチャート内の行は、ここでそれらの小さなドットを持っています。観測点がある場所を正確に指摘する - これはそれらのいくつかの(あるいは唯一の)観測とチャートのために特に有用です。
起動アドホッククエリも大幅に改善されたクエリー・パーサー。今、クエリがDISTINCT句、* -wildcards、サブクエリが含まれており、フォールトトレラントなテキストの場合の問題に向かっていることができます。
二つの新しい変圧器はUUIDを生成するためのタイムスタンプを生成するために追加されました。

このバージョン3.1の新機能です:

このメトリック式 - データ品質KPIを精緻化:
DataCleanerの監視Webアプリケーションでより複雑なデータ品質のKPIを構築することが可能になりました。ユーザー・インターフェースを使用すると、スプレッドシートのような式スタイルで、複雑な数式を構築することができます。 DataCleanerジョブによって収集された変数を使用します。
メトリック式は限りそれは数式で表現することができるように、評価指標、定数と操作の任意の数を組み合わせることができます。
例えば ​​- 総レコード数の割合で重複レコードの速度を測定します。または複数の文字列パターンのセットに準拠製品コードの量を測定します。
アドホッククエリ - 任意のデータストアの:
DataCleaner 3.1を使用すると、今、任意のデータストアにアドホッククエリを実行することができます!クエリは、普通のSQLで表現することができ、あなたの発見およびデータ・プロファイリング体験に拡張するために、真に役立つクエリメカニズムを提供する、データベースだけでなく、ファイル、NoSQLのデータベースや、よりに適用されます。
queryオプションでは、adminロールを持つユーザを監視するには、Webサービスを介しても利用可能です。クエリは、HTTPパラメータまたはPOST本体として提供され、その結果は、XHTMLテーブルとして設けられています。
値マッチャ - 新しい解析オプション:
しばしばあなたは値が許可され、特定のフィールドに期待されるべきでしっかりとアイデアを持っています。 DataCleanerでは常に、あなたの仮定を主張する助けとなる値分布解析オプションがあっています。バリュー・マッチャ - DataCleaner 3.1では、しかし、あなたは、より正確な提供を持っています。この分析オプションでは、期待値のセットを指定した後、具体的に検証し、予期しない値を識別するために、分析のような値の分布を実行することができます。
ジョブのコピー、削除、および管理:
DataCleaner・モニター・アプリケーションのジョブと結果の管理が大幅に改善されました。これで、モニターのスケジュールページ内のジョブをクリックして、そのような名前の変更、コピー、削除など多くの操作に使用可能な管理オプションを見つけることができます。各操作は、このような分析結果、スケジュールなど多くのモニターで他のアーティファクトへの結合を尊重します。これは、監視リポジトリの管理が非常に簡単と成熟になったことを意味します。
データ品質の履歴を管理します:
時には、あなたが実際に過去のデータと監視を行いたい状況に直面しています!それはあなたが歴史的ダンプたり、表示との話をしたいデータベースのバックアップを持っていることかもしれません。あなたは今、この歴史的なデータの分析を行うDataCleanerモニターにアップロードし、新しいWebサービスを使用して、その特定の分析結果の履歴データを設定することができます。これは、あなたのタイムラインが正しくていますが、後の時点で多分​​収集した結果と、それらの意図された日付を使用して結果をプロットすることを意味します。
クラスタ化されたスケジューラのサポート(EEのみ):
それは、簡単な構成によって置き換えることができるようにDataCleanerモニタのスケジューラは、外部化されています。 DataCleanerのエンタープライズエディション(EE)では、我々はバランスをロードし、マシンのクラスタ全体であなたの実行を配布する機能を提供し、クラスタ化されたスケジューラを提供します。
:CAS(のみEE)を使用してシングルサインオン(SSO)
DataCleanerのエンタープライズエディション(EE)において、我々は今、モニター・アプリケーション用のシングルサインオンオプションを提供します。今DataCleanerはまた、セキュリティ・ワイズITインフラストラクチャの一部として統合することができます。
...そして、より多くの:
上記は単なる要約です。以上の30の問題は、このリリースで解決されています。私たちは、フォーラムやコミュニティからの複数の要求を解決している、と我々は変化のための車両としてこのメ​​ディアを使用するために皆をお勧めします。我々は重く、コミュニティ内のストリームによって影響されるDataCleanerの開発を行うことは非常に満足しています。

このバージョン3.0.3の新機能です:

この監視リポジトリ内のジョブの名前を変更するためのサービスを追加します。
あなたは、RESTfulなWebサービスとして、または対話形式のUIでこれにアクセスすることができます。
Webサービスは、監視リポジトリに解析結果の歴史的な日付を変更するために添加しました。
Webアプリケーションは、従来のJSF容器と互換性行われています。
Webアプリケーション内の構成のキャッシングは大幅に速いページロードとジョブの初期化時間につながる、改善されました。

このバージョン3.0.2の新機能:

この監視Webアプリケーションでジョブをトリガーすると、パネルの実行の最新の状態を取得するために毎秒を自動更新します。
絶対パスを使用した(例えばCSVやExcelスプレッドシートなど)のファイルベースの​​データストアが正しく監視Webアプリケーションで解決されています。
"のキー/値のマップ&QUOTから選択します。変圧器は今&QUOTのようなネストされた選択式をサポートしています。Address.Street"または"注文ライン[0] .product.name]です。
テーブルルックアップ機構は、JDBCデータベースに対して実行するときに準備されたステートメントを使用して、パフォーマンスのために最適化されています。
データストア"管理者は、&QUOTから直接ファイルベースの​​データストアをダウンロードすることができます。ページ。
監視Webアプリケーションで例外処理は、エラーメッセージがより正確かつ直感的に行うこと、少し改善されました。

このバージョン3.0.1の新機能:

このリリースの主要なバグ修正が列および特定の列挙分類のマッピングを復元する程度でした。新しい完全アナライザで例えば、我々は、保存されたジョブを再読み込みした後、マッピングが必ずしも正しくないことがわかりました。
さらに、いくつかの内部的な改良は、それが簡単に春のフレームワークを使用している環境でDataCleanerモニタWebアプリケーションを配備すること、なされてきました。
少なくとも最後のではなく、デスクトップアプリケーションでの視覚化の設定が自動的に可視化された仕事を見てみ、うまくそれを表示するために必要な詳細情報の画面サイズや量に基づいて表示されたアーティファクトをトグルすることによって改善されています。

このバージョン3.0の新機能です:

このタイムラインの表示とデータ品質メトリクスの傾向は
、その結果、スケジュールなどの管理やジョブを収容するための中央リポジトリ
DataCleanerジョブのスケジューリングおよび監査
DataCleaner変換を呼び出すためのWebサービスを提供します
セキュリティとマルチテナント
アラートと通知データ品質メトリックは、その期待される快適ゾーンの外にあります。
単に不完全なフィールドを持つレコードを識別するために非常に有用である新規の完全性アナライザがあります。
これで、見栄えの良いHTMLにDataCleaner結果をエクスポートすることができ、あなたのマネージャーに与える、またはあなたのXMLパーサーに送信できることを報告!
新しい監視環境にも密接にデスクトップアプリケーションと統合されています。したがって、デスクトップアプリケーションは現在、モニターリポジトリにジョブと結果を公開する機能を持っており、すでにリポジトリ内のコンテンツのインタラクティブなエディタとして使用します。
新しい日付指向の変換が利用可能になりました:あなたは日付の範囲に基づいてデータセットをサブセットすることを可能にする日付範囲フィルタ、および日付マスクを使用して日付をフォーマットすることを可能にするフォーマット日、。
(ExtensionSwapを通じて以前にのみ利用可能でした)正規表現パーサーは今DataCleanerに含まれています。これは、正規表現を使用してリッチテキストフ​​ィールドを解析し、標準化することは非常に便利です。
利用可能な新しいテキストケース変圧器があります。この変換を使えば、簡単に大文字/小文字や文章や単語の正しい大文字の間で変換することができます。
二つの新しい検索/置換変換が追加されました:平野検索/置換や正規表現検索/置換します。
デスクトップアプリケーションのユーザー・エクスペリエンスが向上しました。我々は、いくつかのアプリケーション内のヘルプメッセージを追加した色が明るく鮮明に見える作られ、フォント処理を改善しました。

このバージョン2.5.2の新機能です:

このApacheのCouchDBのサポート:
私たちは、NoSQLのデータベースはApache CouchDBのためのサポートを追加しました。 DataCleanerは両方分析し、あなたのCouchDBインスタンスへの書き込み、からの読み込みをサポートしています。
テーブルライターを更新します。
DataCleanerにETLightweightスタイルの機能を持って私たちの前の努力の後、我々は、テーブル内のレコードを更新するライターを追加しました。あなたは、特定の条件に基づいてレコードを挿入または更新するには、たとえばこれを使用することができます。
テーブルライターに挿入と同様に、新しいDataCleaner更新テーブルライターは、SQLベースのデータベースに限定されないが、書き込み(現在のリレーショナルデータベース、CSVファイル、Excelスプレッドシート、MongoDBのデータベースとのMongoDBデータベース)が、セマンティクスをサポートする任意のデータストアの種類SQLの伝統的なUPDATE TABLE文と同じです。
結果ファイルに保存されたドリル・ツー・詳細情報:
DataCleaner 2.5の保存結果機能を使用する場合、一部のユーザーが自分のディテール・ドリル・情報が失われたことを経験しました。 DataCleaner 2.5.2で、私たちは今もはるかに価値のある歴史的なデータインシデントを調査する際、あなたのDQアーカイブを作り、この情報を永続化。
改善されたEasyDQエラー処理:
EasyDQコンポーネントは、エラー処理の面で改善されました。瞬間的なネットワークの問題が発生した場合、または他の同様の問題が失敗するいくつかのレコードを引き起こし、EasyDQコンポーネントは現在、適切に回復し、最も重要なのだろう - あなたのバッチ作業があってもエラーが発生しても優先されます。
NoSQLデータストアのテーブルマッピング:
手動で目的のテーブル構造を指定することができますDataCleanerがテーブル構造を自動検出できるようにすることです、デフォルト、および高度:CouchDBのとMongoDBのがテーブルに基づくものではなく、よりダイナミックな構造を持っているので、我々は彼らと働くための2つのアプローチを提供します。以前は高度なオプションは、XMLコンフィギュレーションを介してのみ利用可能でしたが、現在のユーザインタフェースは、アプリケーションで直接これを行うための適切なダイアログが含まれています。

この機能の強化:

このバージョン2.4.1の新機能です。
データベーステーブルにデータを書き込むときに我々が大幅に向上しているバッチ・ロード機能を備えています。ここでは大きさの改善の多くの注文を参照してくださいことを期待しています。
データへの書き込みは、より便利に、ウィンドウメニューにオプションを追加することによって使用できるようになっています。
これで、簡単に二重そのタブをクリックし、ジョブのコンポーネントの名前を変更することができます。
あなたのジャバスクリプトを検査し、修正するのが容易であるように、Javascriptの変圧器は、今、シンタックスカラーリングを持っています。
バグの修正:
以下からの読み込みと同じデータストア(例えば。DataCleanerステージング領域)に書き込むとき、我々は、そのデータストアのテーブルキャッシュがリフレッシュされることを確認し行きました。以前、一部のシナリオでは、テーブルの期限切れのビューを表示することができました。
アプリケーションを起動する潜在的なデッドロックが解決されました。このデッドロックは、JVMでの問題の結果であったが、我々はJavaで特定のAPIへのすべての呼び出しを同期させることによって、その周りに働きました。

このバージョン2.4の新機能:

この重複検出50万の値に使用して自由である、(別名レコードの重複排除やファジー・マッチングを。)。
データ検証およびクレンジングアドレス。それらが正しくフォーマットされても、あなたはミスを持っている場合には修正を提案する場合、これはあなたが、アドレスが存在するかどうかを確認することができます。
データ検証やクレンジングに名前を付けます。ネームサービスでは、EasyDQは一貫して、あなたの名前をフォーマットしないだけでなく、スペルミスをチェックし、名前の部分を解釈します。
電子メールと電話の検証とクレンジング。これらのサービスは、電子メールドメインが存在することを確認し、電子メールや電話、データのチェックを提供、その国コードが正しいとはるかです。

このバージョン2.3の新機能です:

この国際データのサポート:
あなたは国際的なデータで作業している場合は、中国語やヘブライ例えば、あなたのデータに異なる文字セットを持っている可能性があります。私たちはあなたのキャラクタ・セットがあなたのデータで使用されている見つけ出すことができますプロファイリングオプションで文字セット分布測定装置を、追加しました。
異なる文字セットを含むデータでの作業は問題となる可能性があります。新しい翻変圧器を使用して、あなたは今、ラテン文字に異なる書記体系から文字列を文字変換できます。
新しいウェブキャストデモでは、ドキュメントのセクションでDataCleaner 2.3の国際的なデータ機能に焦点を当て、もあります。
二列による解析結果のグループ化:
パターン・アナライザは、今二列に基づいてグループパターンに可能です。これは、のような分析のために有用です:
国別にグループ化された電話番号のパターンを取得します。
電子メールドメインに基づいて電子メールのユーザー名のパターンを取得します。
同様の何かが値分布アナライザのために行われています。これは、次のような分析を可能にします:
郵便番号ごとにグループ化されたときに、すべての都市名は、明確なていますか?
特定の顧客の種類内の性別の分布は何ですか?
改善されたチャート:
パターン検索結果は、現在のグラフに示すことができます。これは、分布が見えるようにと&QUOTのどのくらいを示し、ロングテール"パターンの存在です。
値の分布測定装置の出力は、地域のカップルで改善されました:
チャートの読みやすさが改善されました。
行中に存在する異なる値の数:それは、これらの行の上の行の合計数と、個別のカウントを示しています。これは、重複する値が存在する頻度を考え出すのに役立ちます。
空の文字列がある場合、それらを認識することが容易であるように、我々は、そのためのキーワードを使用します。
出力:
既存の出力形式(CSVファイルおよびH2データストア)への次はExcelスプレッドシートに出力を書き込む追加しました。
データストアへの書き込みをした後、それはあなたが、出力があなたの期待に応じているかどうかを確認できるように、出力をプレビューすることが可能になりました。
新しいジョブの入力として使用することができるように、新しいデータストアとしての出力を追加することも可能になりました。
その他の改良点:
ドキュメントは、一般的に改善されました。具体的には、ログおよびコマンドラインインターフェイスの説明が追加されました。
拡張メカニズムは、アプリケーションのいくつかの部分をモジュール化し、拡張機能の開発のために一般的に利用可能な依存性注入フレームワークとしてGoogle Guiceのを導入することによって改善されました。
そしてもちろん、私たちは20以上の小さな改善とバグ修正をしました。

このバージョン2.2の新機能:

このリリースのための主要なドライバは、拡張性についての物語となっています。 ExtensionSwap:アプリケーションを放出しながら、我々はsimultaniously重要な新しいエリアを備え、新しいDataCleanerのウェブサイトを発表しています。 ExtensionSwapのアイデアは、単にブラウザのボタンをクリックすることで、DataCleanerとインストールの拡張機能の共有を可能にすることです!
DataCleaner拡張APIは、それが可能な独自の変圧器、分析器およびフィルタを作成すること、このリリースでは多くのことを改善されました。あなたの拡張機能は、他のユーザーが興味を持つかもしれないと感じた場合は、ExtensionSwapでそれを共有し、我々はあなたが簡単に数千のユーザーに配布するためのチャネルを提供してください。拡張APIとExtensionSwapはさらに興味を持つ開発者や他の技術者のための私たちの新しいウェブキャストのデモで説明されています。
人間の推論自然言語処理DQ Webサービスに基づいて、先進的な名前、電話番号および電子メールクレンジングを提供DataCleaner拡張のためのHIqualityコンタクト:我々はまた、ExtensionSwap上の最初の拡張のセットを発表しています。我々はまた、自分自身を拡張機能の開発を試してみたい開発者のための例となるサンプルの拡張を出荷しています。今後数ヶ月で、私たちは人間の推論の知識収集チームで使用するツールの社内ポートフォリオから生じるさらに多くの機能拡張を投稿してくださいます。
拡張性に加えて、我々はまた、埋め込みに注力しています。私たちは、どこにでもプロファイリングおよびデータ分析を可能にするために、他のアプリケーションに簡単にDataCleanerを埋め込むことができるようにしたいです!私たちは、アプリケーションがDataCleanerをバンドルし、動的な設定とそれをブートストラップまたは&QUOTでそれを実行することを可能にする新しいブートストラップAPIを作成しました。アプリケーションは、単に(通常はアプリケーションによって定義された単一のデータストアを検査に向けて調整されている単一のデータストアモード&QUOT ;,それは)DataCleanerを埋め込みます。他のオープンソースのアプリケーションだけでなく、商用アプリケーションの両方で - 我々はすでに作品にDataCleanerを埋め込むいくつかの非常に興味深い例があります。
私たちは、SASデータセットを分析するためのサポートを追加しました。これは、我々は、我々の知識、このような機能を提供する最初の主要なオープンソースアプリケーションに、最終的にSASのユーザーの多くを遊離されるのは非常に誇りに思っているものです。 SASの相互運用性の部分は別のプロジェクト、SassyReaderとして作成されたので、我々はすぐにあまりにもDataCleanerの無料のオープンソースコミュニティでの採用を見ることを期待します!
固定幅のファイル:我々はまた、データストアの他のタイプのサポートを追加しました。固定幅のファイルは、それぞれのカラムが固定幅を持つテキストフ​​ァイルです。 CSVファイルのような区切り記号または引用符文字は、ありませんが、代わりに各ラインの長さは等しく、各ラインは、値の長さのセットに従ってトークン化されます。
矛盾&QUOTに失敗し、QUOTから&オプション。 CSVファイルと固定幅ファイルのデータストアに追加されました。これらのテキストフ​​ァイルベースの​​データストアを使用している場合、これらのフラグは、形式の整合性チェックを追加します。
CSVデータストアを編集する際にバグが、ユーザーインターフェイスに保持されていないCSV区切りの設定を引き起こした、修正されました。
日本およびその他の文字は、ユーザーインターフェイスでサポートされていません。この"バグ"システム上で利用可能なフォントを調査し、特定の文字をレンダリングすることができ、フォントの選択の問題でした。最も近代的なシステムで可能なフォントが利用可能になりますが、いくつかのUnix / Linuxの枝に残っ制限がある場合があります。
ドキュメントのセクションが更新されました!今まで初期2.0のリリース以降のドキュメントはかなり遅れていたが、我々は最終的に日にそれを得ることができました。そこドキュメントに欠けている部分はまだありますが、それは間違いなく基本的な使用方法だけでな​​く、ほとんどのトピックのための参考のために有用であるはずです。
アプリケーションの起動時間は、コンフィギュレーションのロードを並列化することにより、初期画面表示のために必要とされていない構成の部分の初期化を遅延させることによって改善されました。
これは非常に実験的であり、ほとんどがコンセプトの証明と、より高度なマッチング・アナライザを作成するためのコミュニティに前菜として役立つ音声的類似ファインダーアナライザは、メインのディストリビューションから削除されました。あなたは今ExtensionSwap上の音声的類似ファインダーを見つけて、インストールすることができます。
キャンセルまたはerrornousジョブハンドリングが改善され、ユーザ・インタフェースは、ジョブが停止した場合、ボタンと進行状況インジケータを無効にすることで、より正確に応答します。
テーブルのサイズとスクロールバーの使用に関するいくつかのマイナーなUIの問題を修正しました。

この機能強化:

このバージョン2.1.1の新機能です。
データストアリストに検索/フィルタリングのテキストフ​​ィールドを追加しました。これは、画面上で利用できるよりも多くのデータストアを登録した場合は、すぐにデータストアを見つけることができます。
国コードの参照データは、標準のディストリビューションに追加されたおかげで、これらを提供するためのグラハムRhindに行きます。
10以上の列があるのウィンドウをプレビューデータに水平スクロールバーを追加しました。
実行時のオプション]ダイアログの新機能と拡張パッケージを追加する機能。拡張機能の詳細焦点は今後のリリースに従います。
私たちは、あなたが使用してアプリケーションを起動できるようにすることで、当社のコマンドラインインターフェイス(CLI)の早期プレビューを公開しました" -usage" CLIオプションが表示されますパラメータ。
書式設定オプションを追加しました番号"番号&QUOTに変換。トランス。
バグの修正:
列のLOT(150以上)でテーブルを照会するときに、メモリ不足の問題を修正しました。
原因となる問題を修正しました"リミット分析"ジョブが保存した後に再オープンしたときに正しくチェックされないようにチェックボックスをオンにします。
本当にバグ修正それは公式の機能はなかったが、今、私たちはDataCleanerの以前のバージョンからユーザーの好み(userpreferences.datファイル)をリストアはサポートされていませとして。

このバージョン2.1の新機能:

このユーザインターフェイスに行われた作業がたくさんあり​​ました(メディア・ページを参照してください)​​:
私たちは、環境設定オプションを含む左側のウィンドウを削除することを決めました。
ユーザーが唯一の仕事を構築するために必要なすべての相互作用のための単一のウィンドウに注力しなければならないので、代わりにすべてのこれらのオプションは、現在の仕事の建物のウィンドウに移動されました。
ウェルカム/ログインダイアログもで引っ張られたり、メインウィンドウから隠すことができ、より個別のパネルの賛成で削除されました。
データストアの選択と管理は、また、メインウィンドウに処理するための最初のステップである理由である、アプリケーションの最初の活動であると考えられます。
あなたはそれが行われる前に何かを変更することを決定した場合に、あなたは今のジョブを停止することができます。
棒グラフと折れ線グラフは、Stringアナライザ、ナンバー・アナライザ、日付/時間分析器と平日分布(メディア・ページを参照)を含む分析結果画面のロットに追加されました。
すべての"プレビューデータ"あなたは、データセットで前後に移動することができますので、窓は現在、ページングコントロールを含みます。
最も一般的なデータベースドライバ(MySQLやPostgreSQLのは、Oracle、MS SQL ServerおよびSybase)は、ドライバのデフォルトセットに追加されました。
[オプション]ダイアログでクイック分析機能の構成。
様々なマイナーなバグ修正。
日付列から日付部分(年、月、日など)を抽出するための変圧器。

このバージョン2.0.2の新機能:

このタブとボタンワークベンチにはソース列が選択されていないときに無効になっています。
ソース"特別なウィジェットは&QUOTに追加されました。タブ、それは非常に簡単に入力されたデータの行数ベースのサンプリングを適用すること。
可能な場合は、今(別名。プッシュダウン最適化)ジョブのクエリを最適化する能力を持ってフィルタリングします。これが実装されました"最大行&QUOT ;,"&QUOT等しいです。そして"ヌル&QUOTわけではありません。フィルター。
変圧器の成長量は&QUOTに長いリストを引き起こし、トランス&QUOTを追加します。現れる。したがって、変圧器は、現在、カテゴリ別にグループ化され、それに応じて表示されます。
実行フローの可視化は今、特に非常に大きな仕事のために、グラフをより理解すること、列の項目とフィルタ結果の項目を削除できます。
"合体文字列"変圧器は、今持っている"ヌル&QUOTとして空の文字列を考えてみましょう。 CSVファイルを扱う場合に特に便利ですフラグ、。
ファイル彼らは変化から読み取る場合は、テキストベースの辞書や同義語・カタログは、そのキャッシュされた値は、フラッシュされます。
"日付&QUOTに変換。日付文字列は、それを必要とする場合、変圧器は現在、独自の日付マスクを指定する機能が含まれています。








スクリーンショット

datacleaner-315902_1_315902.png
datacleaner-315902_2_315902.png
datacleaner-315902_3_315902.png

同じようなソフトウェア

NCBI C++ Toolkit
NCBI C++ Toolkit

20 Feb 15

Alembic
Alembic

20 Feb 15

shove
shove

20 Feb 15

qMongoFront
qMongoFront

17 Feb 15

開発者の他のソフトウェア -

Poppler
Poppler

11 Mar 16

Particle Text
Particle Text

30 Oct 15

StressLinux
StressLinux

19 Jun 16

NASUBI
NASUBI

11 Apr 18

へのコメント DataCleaner

コメントが見つかりません
コメントを追加
画像をオンにする!