XpertRule(R) Profiler(TM)


大規模のデータ・マイニングのために

「データウェアハウス」にすべきか、せざるべきか!

今日、企業はデータウェアハウスにするとどのような利点があるのかを模索しています。問題になっているのは、いかにオペレーショナル・データを常時アクセス可能な状態にして、実際のビジネスに役立つようにするかということです。ここから多数の「ミドルウェア」という、必要な情報をデータからすぐに取り出せるソフトができました。

データウェアハウスを使えば、オペレーショナル・データをより簡単に、しかもより効率的に実際のビジネスで活用することができるかもしれませんが、現段階のミドルウェアでも十分役に立ちます。Profilerはミドルウェアを介して、現在のオペレーショナル・データや専用のデータウェアハウスで、今すぐお使いいただけます。関連性やパターンを引き出すデータを抽出し、ビジネスに必要な「知識」をさらに高めることができます。

データ・マイニング

「データ・マイニング」という言葉は、既にマーケティングの分野で多くの意味で使われています。例えば、統計の概観テーブル、経営情報システムのレポート、さらにはデータの概観(グラフ、プロット、密度クラスターなど)を分かりやすく表示することも意味します。こうしたテクニックは効果的ですが、データのパターンを見つけるための照会やグラフィック化、解釈は手作業です。効果的なデータ・マイニングとは、自動的にデータのパターンを見つけることです。地域や製品ごとに売上を出してそのパターンを調べるよりも、単に売上のパターンを質問するだけで12月15日から21日までの期間、Y地域での製品Xの売上が伸びているという情報が抽出できるようにすべきです。大量のデータソースからこのような結果を得るために、Profilerはデータからの独自の学習方法、つまりクライアントサーバー・コンピューティングを用いて、大量のデータからの学習を可能にする知識「誘導」技術を使っています。


ローカルPCまたはクライアントサーバーによる知識学習

Profilerのデータマイニング・プログラムは、特に次の2点でユーザーのニーズを満たしています。メモリにロードされるデータソースを使う場合、標準版が使えます。扱えるデータ量は、10MBのRAMで50,000レコードです。その他のデータソースに関しては、それがODBCをサポートしていればすべて使うことができます。ODBC DLLのオプションでクライアントサーバー・コンピューティングを用いて、大量のデータからの学習を可能にする画期的な規則誘導技術が使えます。

XpertRule Profilerは、ダウンロードできます。

WindowsPCがクライアントとなって、ホストサーバーのデータソースにデータを要求をすることで知識「誘導」が行えます。処理速度はクライアントPCではなく、サーバーの処理速度によって変わります。

知識誘導ではグラフィックを用いて自動的に木を作成し、データのパターンをプロファイルします。木の道筋は、どの要素がどの結論に影響するかを示します。

ODBCとミドルウェア

ODBCは、AccessやdBase、Paradox、Oracle、Sybase、Microsoft SQLサーバーなど、たいていのデータソースにアクセスできる業界標準方法です。ほとんどのミドルウェア・ベンダは、ODBCドライバを提供しています。ODBCを使って、Profilerはデータソースに照会して必要な情報を獲得し、目標とする結論に関連するパターンを調べます。従ってProfilerは、MPPサーバ(大規模アレイプロセッサ)の処理速度と最適化されたデータベースの構造を活用することができます。


データ表示

データ表示では、データソースの要約を見ることができます。ファイルのフィールドのリストを表示します。テーブルにはフィールド名、型、値、その他の情報が示されます。

さらにデータフィールドの統計的な概観を作成します。数値型フィールドについては、最小値、最大値、平均値、標準偏差、非数値型の値の個数を報告します。論理型値については、全論理型値の頻度を報告します。この報告によって、データファイルの内容についての第一段階の理解が得られます。

データ表示では、ユーザーはデータフィールドをパターンが引き出されるような結論として定義できます。その他のデータフィールドは、パターン誘導の属性(要因)として定義したり、単に除外したりすることができます。


木のプロファイル

決定木表示では、データソースから自動的に作成された決定木を表示します。次の例は論理型結論の決定木です。この場合のデータソースは、銀行が融資の承認と拒否(結論)を決める際の融資依頼データです。最終意思決定、あるいは「葉」に至るまでの属性(要因)による枝の分岐という形でデータのプロファイルを表示しています。プロファイルは、[1]から[5]番のボックスに示されています。

それぞれのプロファイルは、各結論の頻度、つまりデータソースのレコードのうち、このプロファイルに一致するものの個数を表示し、合わせてレコードが葉と同じ結論をもつ確率を表示します。さらに、このプロファイルに一致するレコード(ケース)の合計も表示します。

数値型結論の場合、各プロファイルはプロファイルに属するデータレコード全ての数値の平均値とその平均値からの標準偏差を表示します。


グラフィック・プロファイル

次のグラフィックで示した1本の木のプロファイル(プロファイル3)は、同様の銀行の融資データから「拡張」したものの典型例です。このプロファイルは、結論へ向かう単純な木の道筋をレコードがいくつたどっているかを示しています。プロファイルが道筋をたどるごとに、承認と拒否の確率が変わっていることが分かります。

North West銀行の顧客のデータテーブルを使って、この木に「集団割り振り」を使います。こうすれば、全体のデータとの差が分かります。このNorth West銀行の場合は、92.6%(189人)の融資が承認されます。さらにProfilerでは、データセットを見るためのグラフを同じ画面に表示できます。木の精度は他のテストデータ・テーブルで実証されるため、プロファイルが正確で安定したものになります。

グラフィックによる照会

前述の木は、自動誘導で作成しましたが、「直接編集」しても作成できます。木に分岐を挿入すると、Profilerはデータがどのように各分岐に一致するかを示します。その表示に応じて自分の道筋を選択することができます。このように「グラフィックによる照会」では、中間での答えが返ってきます。


対話的規則誘導

対話的規則誘導とは、前述の自動誘導と直接編集による作成を組み合わせたようなものです。誘導プロセスは、木のノードごとに行われます。各枝を挿入すると、Profilerはある属性がその新しい枝に最も関連性が強いという「証拠」を表示します。Profilerの選択を受け入れることも、また自分の選択に応じた形に書き換えることも可能です。

これはガイド的規則誘導で、あなたはその分野の専門家として、またProfilerは自動学習システムとして、ビジネスの制約に適した予測可能なパターンの木を作成することができます。


抽出した知識の利用

構築した決定木は、様々な方法で使うことができます。


まとめ

データ表示

決定木表示


データソース


動作環境

XpertRule Profilerの動作環境は、次の通りです。

将来予告なしに仕様を変更することがあります。最新の機能と動作環境についてはご確認下さい。


価格表及びご注文に関しては、Eメールでにお問い合わせいただくか、この申し込み書に必要事項を入力のうえお送り下さい。

[ホームページ] [商品紹介] [会社概要]

(C)2001著作権はアッター・ソフトウェア・リミテッドにあります。