DataCleanerは、オープンソースとそのデータの品質を向上させ、測定を希望する団体や企業のための完全無料のソリューションです。
DataCleanerにより、ユーザーは、プロファイルの比較、ビジネスルールに対してデータを検証し、時間をかけてこれらの測定の進行をモニターすることができるようになります。
その機能の中で、我々はデータの監視、データ・プロファイリングおよびDQ分析、データクレンジングおよび濃縮、検出およびマージ重複、顧客データの品質だけでなく、超高速ETLightweight(抽出・変換・ロード)を挙げることができます。
DataCleanerの機能や能力の詳細については、だけでなく、それを操作する方法、http://eobjects.dk/docs
Whatを参照してください。このリリースで新しく追加されます。
改善と新機能:
我々はDataCleanerのデスクトップUIを介してテーブルを作成し、ドロップすることが可能になりました。テーブル"用語&QUOTことに注意してください。ここで実際にはリレーショナル・データベース・テーブルよりも多くをカバーしています。また、CouchDBのとElasticSearchで、MS Excelのデータストア内のシート、MongoDBの中にコレクション、ドキュメントの種類が含まれており、ように...基本的に、このようなCSV形式のデータストアとして単一テーブルのデータストアを除き、書き込み操作をサポートするすべてのデータストアの種類は、この機能をサポート!機能は、を介して露出されています:
&QUOTは、テーブル&QUOTを作成します。アプリケーションの左側のツリーでスキーマの右クリックメニューを使用して有効。
&QUOTは、テーブル&QUOTを作成します。テーブル、テーブルの検索と更新テーブルに、このような挿入などのコンポーネントのテーブル - 選択入力を経由しても有効。
&QUOTは、テーブル&QUOTをドロップ。アプリケーションの左側のツリー内のテーブルの右クリックメニューを使用して有効。
私たちはあなたのSalesforce.comのWebサービスエンドポイントのURLを指定する(オプション)機能を追加しました。これは、Salesforce.comのサンドボックス環境と同様に独自のカスタムエンドポイントに接続するためにDataCleanerを使用することができます。
ElasticSearchサポートは、カスタムマッピングを可能にするだけでなく、検索および索引付けのためにも、今ElasticSearchデータストアの定義を再利用して、改善されました。
レコードと重複検出機能の潜在的な重複の選択のサンプリングは、トレーニングセッション中に行われた決定は、より代表的なものであるため、より高速な構成につながる、改善されました。
重複検出モデルファイル形式は、過去のトレーニングの決定を節約するために別々の「参照」ファイルの必要性を削除している更新されました。古いフォーマットとの互換性は保持しますが、新しい形式を使用すると、ユーザーエクスペリエンスのための多くの利点が追加されました。
バグの修正:
スレッド不足の問題がDataCleanerモニタで修正されました。この問題の影響は大きかったが、それは稀であり、非常にカスタマイズされた場合にのみ起こりました。カスタムリスナーはエラーをスローしますDataCleanerモニタ上のオブジェクトなら、それは決して解放されないと、サーバー上のクォーツ・スケジューリングプールからスレッドを占有されているリソースをもたらすであろう。これは何回も起こる場合は、サーバーは、最終的にはそのプール内のスレッドの不足する可能性があります。
結果画面の垂直メニューは結果を持っているコンポーネントのラベルを表示する適切な仕事をしています。これは、簡単にどのような結果の項目にどのメニュー項目のポイントを認識することができます。
この何がバージョン3.5.7で新しく追加されます。
'同義語検索」の変換は現在の入力のすべてのトークンを検索するオプションがあります。あなたが長いテキストフィールドの値の範囲内同義語の交換をやっている場合に便利です。
このため、モニターのWebサービスを介してDataCleanerジョブの実行をブロックすると、時々、ブロッキングスレッドに起因する不具合で失敗する可能性があります。この問題は修正されました。
改善は、雇用とコンポーネントのシーケンスを閉じた/実行後にクリーンアップされている方法で行われました。
DataCleanerのJNLP / JavaのWebStartのバージョンは、特定の状況下で、WebStartのランチャーで認識されない特定のJARファイルが原因Javaランタイムのバグによって公開されました。この問題は、これらのJARファイルに若干の修正を行うことで修正されました。
ドキュメントのいくつかのデッドリンクを修正しました。
このバージョン3.5.4の新機能です:
このことは、変換の出力列を非表示にすることが可能になりました。非表示は、すべての処理の流れに影響を与えず、単にユーザー・インターフェースからそれらを隠し、したがって、潜在的に他のコンポーネントと対話するとき、経験はよりクリーンな作りません。
新しいWebサービスでは、特定のジョブの実行のステータスをポーリングする方法を提供する監視Webアプリケーションに追加されています。
バグにはレコードが処理されていなかったときに、特定の解析タイプのために失敗するHTMLレポートを引き起こして、修正されました。
他6マイナーなバグがadressedされています。
このバージョン3.5.1の新機能です:
このキャプチャは、レコードを変更します:
新しいフィルタは、前処理されていないレコードの増分処理、例えばを有効にするために追加されましたプロファイリング、または複製にはレコードだけを変更しました。新しいフィルタの名前はキャプチャでチェンジ・データ・キャプチャの概念を参照して、レコードを変更しました。
ジョブのキューイングされたコマンド実行:
それが複数回トリガされた場合DataCleanerモニタは今、同じジョブの実行をキューに入れます。これは偶然の仕事が何をするかに応じて、問題のすべての種類につながる可能性があり、同時に同じジョブを実行しないことを保証します。
マイナーバグ修正:
いくつかのバグ修正が実装されました。
このバージョン3.5の新機能です:
このいくつかのウィザードは現在、データストアを登録するための利用可能です。 CSVファイル、データベース接続エントリのためのサーバーへのファイルアップロード、Salesforce.com証明書とよりのガイド付き登録を含みます。
ジョブ構築ウィザードは、いくつかの拡張機能で拡張されています。クイック分析ウィザードで値分布とパターン発見フィールド、EasyDQ基づいて顧客のクレンジングジョブとPentahoのデータ統合ジョブを発射するための新しいジョブウィザード(詳細は下記の読み込み)を作成するための完全に新しいウィザードの選択。
これで、アドホックWebユーザインターフェイスに直接任意のデータストアを照会することができます。これは、ジョブまたはデータを処理する他の管理手法を設定することなく、データに迅速にまたは散発的な洞察を得るためにそれが容易になります。
ジョブまたはデータストアが作成されると、ユーザーは新たに構築されたオブジェクトにアクションを取るために案内されます。たとえば、あなたは非常に迅速にそれが組み込まれている直後にジョブを実行するか、それが登録された後にデータストアを照会することができます。
管理者は、直接的、ジョブファイルのXMLコンテンツを手作業で編集したい場合に特に便利ですリポジトリにジョブをアップロードすることができます。
技術的な嫌なものの多くは、現在、簡単なダイアログを示すのに有利に隠されています。たとえば、ジョブがトリガされたときに大きな負荷インジケータが表示され、終了したら結果が表示されます。以前にまだ追加の詳細については、リンクをクリックするとそこに表示させることができた高度なロギング画面。
このバージョン3.1.2の新機能です:
この私たちは、メトリック値(のリスト)を取得するための監視アプリケーションにWebサービスを追加しました。これは、データ(品質)を監視し、サードパーティ製のアプリケーションに結果を公開する方法として、監視はさらに、使用可能なキーインフラストラクチャコンポーネントとして行います。
「表のルックアップ 'コンポーネントは、構成可能なプロパティとしてセマンティクスに参加添加することによって改善されました。あなたはJOINまたはINNER JOINをLEFTのように意味的に動作するように、ルックアップをご希望の場合は、調整することができます参加セマンティクスを使用します。
EasyDQコンポーネントは、さらに設定オプションと豊かな重複排除の結果インターフェイスを追加して、アップグレードされました。
パフォーマンスの改善は、このリリースの特定の焦点となっています。改善はさらに、以前に覆われていない特定のコーナーケースでストリーミング処理のアプローチを利用するDataCleanerのエンジンで行われています。
このバージョン3.1.1の新機能です:
この日時関連解析オプションは、週番号、月、年の配布・アナライザを追加し、拡張されました。日付と時刻に関連するすべての分析装置は、現在QUOT&と呼ばれるサブメニューの中にグループ化され、日付と時刻"下"分析]です。
記述統計"オプション"オプションは、数値解析と日付/時間分析器に追加されました。このオプションは、中央値、歪度、パーセンタイルおよび尖度など、これらの分析器の結果に追加のメトリックを追加します。そのメモリフットプリントは、既存のメトリックよりもやや大きくなっているので、これらの測定基準はオプションです。
監視Webアプリケーションのタイムラインチャートのラインは現在、それらの小さなドットを持っています。観測点がある場所を正確に指摘する - これは、彼らのいくつかの(あるいは唯一の)観察とチャートのために特に有用です。
呼び出すアドホッククエリは、実質的に改善されているクエリパーサ。今クエリがDISTINCT句、* -wildcards、サブクエリが含まれており、フォールトトレラントなテキストの場合の問題に向かっていることができます。
二つの新しい変圧器はUUIDを生成するためのタイムスタンプを生成するために追加されました。
このバージョン3.1の新機能です:
このメトリック式 - データ品質KPIを詳述:
それはDataCleanerの監視Webアプリケーションでより複雑なデータ品質のKPIを構築することが可能になりました。ユーザーインターフェイスでは、スプレッドシートのような式スタイルで、複雑な数式を構築することができます。 DataCleanerジョブによって収集された変数を使用します。
メトリック式は、それが数式で表現することができるよう、メトリクス、定数と操作の任意の数を組み合わせることができます。
例えば - 合計レコード数の割合で重複レコードの速度を測定します。または複数の文字列パターンのセットに準拠し、製品コードの量を測定します。
アドホッククエリ - 任意のデータストアの:
DataCleaner 3.1を使用すると、今すぐ任意のデータストアにアドホッククエリを実行することができます!クエリは、普通のSQLで表現することができ、あなたの発見およびデータ・プロファイリング体験に拡張するために、真に役立つクエリメカニズムを提供する、データベースだけでなく、ファイル、のNoSQLデータベースと複数に適用されます。
queryオプションでは、adminロールを持つユーザを監視するWebサービスを介しても利用可能です。クエリは、HTTPパラメータまたはPOST本体として提供され、その結果は、XHTMLテーブルとして提供されます。
バリューマッチャ - 新しい分析オプション:
しばしばあなたは値が許可され、特定のフィールドに予想されるべきでしっかり考えを持っています。 DataCleanerは常に、あなたの仮定を主張する助けとなる値分布解析オプションがあっています。バリューマッチャ - DataCleaner 3.1ではしかし、あなたは、より正確な製品を持っています。この分析オプションでは、期待値のセットを指定して、具体的に検証し、予期しない値を識別するために、分析のような値の分布を実行することができます。
ジョブのコピー、削除、および管理:
DataCleanerモニタ・アプリケーションのジョブと結果の管理が大幅に改善されました。これで、モニターのスケジュールページ内のジョブをクリックして、そのような名前の変更、コピー、削除など多くの操作に使用可能な管理オプションを見つけることができます。各操作は、このような分析結果、スケジュールなど多くのモニターで他の成果物への結合を尊重します。これは、監視リポジトリの管理が非常に簡単と成熟になったことを意味します。
データ品質履歴を管理します。
時には、あなたが実際に過去のデータと監視をしたい状況に直面しています!それはあなたが歴史的なダンプまたはあなたが表示され、の話をしたいデータベースのバックアップを持っていることかもしれません。あなたは今、この歴史的なデータの分析を行うDataCleanerモニターにアップロードして、新しいWebサービスを使用して、その特定の分析結果の履歴データを設定することができます。これは、あなたのタイムラインが正しくていますが、後の時点で多分収集した結果と、その意図された日付を使用して、結果をプロットすることを意味します。
クラスタ化されたスケジューラのサポート(EEのみ):
それは、簡単な構成によって置き換えることができるようにDataCleanerモニタのスケジューラは、外部化されています。 DataCleanerのエンタープライズエディション(EE)で、我々はバランスをロードし、マシンのクラスタにまたがって実行を配布する機能を提供し、クラスタ化されたスケジューラを提供しています。
:CAS(EEのみ)を使用したシングルサインオン(SSO)
DataCleanerのエンタープライズエディション(EE)で、我々は今、モニターアプリケーションのシングルサインオンオプションを提供します。今DataCleanerはまた、セキュリティワイズITインフラストラクチャの一部として統合することができます。
...そして、より多くの:
上記は単なる要約です。以上の30の問題は、このリリースで解決されています。私たちは、フォーラムやコミュニティからの複数の要求を解決した、と私たちは変革の手段として、このメディアを使用するすべての人をお勧めします。我々は重く、コミュニティ内のストリームに影響されDataCleanerの開発を行うことは非常に満足しています。
このバージョン3.0.3の新機能です:
この監視リポジトリ内のジョブの名前を変更するためのサービスを追加します。
あなたは、RESTfulなWebサービスとして、または対話形式のUIでこれをアクセスすることができます。
Webサービスは、監視リポジトリに解析結果の歴史的な日付を変更するために添加しました。
Webアプリケーションは、従来のJSF容器と互換性なされています。
Webアプリケーションでの設定のキャッシュを大幅に高速ページ読み込み、ジョブの初期化時間につながる、改善されました。
このバージョン3.0.2の新機能:
この監視Webアプリケーションでジョブをトリガすると、パネルの実行の最新の状態を取得するために毎秒を自動更新されます。
絶対パスを使用した(例えば、CSVやExcelスプレッドシートなど)のファイルベースのデータストアが正しく監視Webアプリケーションで解決されます。
"のキー/値のマップ&QUOTから選択します。トランスは今&QUOTのようなネストされた選択式をサポートしています。Address.Street"または" orderlines [0] .product.name]です。
テーブルルックアップ機構は、JDBCデータベースに対して実行するときに準備されたステートメントを使用して、パフォーマンスのために最適化されています。
データストア"管理者は、&QUOTから直接ファイルベースのデータストアをダウンロードすることができます。ページ。
監視Webアプリケーションでの例外処理は、エラー・メッセージがより正確かつ直感的に行うこと、少し改善されました。
コメントが見つかりません