BIGDAT@Viewer

ビッグデータ活用セミナー BIGDAT@Viewer(ビッグデータビューアー)は、データサイエンティストでなくても簡単にビッグデータを可視化することができる、新しい知見の発見を支援するソフトウェアです。
統計解析や多変量解析の高度な専門知識がない方でも、直感的なユーザーインターフェースにより、簡単な操作でビッグデータの可視化・分析を行うことができます。
膨大な実験データや工場の機器ログなどが持つ様々な属性を使用してデータ間の類似性をMAP化し、データの全体構造を直感的に把握することで、属性間の相関の発見に結びつく「気づき」を得ることができます。

ビッグデータ可視化ツール BIGDAT@Viewer

利用事例

まずは BIGDAT@Viewer がどんなものか、簡単なサンプルデータで直接触れてみましょう。
マップの操作は簡単!下記の3つの基本操作を覚えるだけで直感的に分析を行うことができます。

  1. マウスの左ボタンを押しながらドラッグして、上下左右にマップを動かします。
  2. マウスの右ボタンを押しながらドラッグして領域選択を行うと、選択したデータを最も特徴付けている属性のランキングを見ることができます。
  3. マウスホイールの操作で、マップの拡大・縮小を行います。

お持ちの実験データや設計パラメータ、各種ログデータも活用できるかもしれません。
「このデータを使ったらどうなるかな...?」と思ったら、ぜひご相談ください。

スイス銀行偽札データ

スイス銀行偽札データ

真札と偽札の1,000スイスフラン紙幣それぞれ100枚について、横幅、左縦長、右縦長、下枠長、上枠長、対角長、の6つの変数を測定した合計200枚分のデータです。
このデータは多くの統計学の論文や多変量解析の教科書などでもよく使われている有名なデータです。検索サイトで「スイス銀行 偽札データ」と入力すると、様々な解析手法を用いた分析例が検索結果として表示されてきます。

BIGDAT@Viewerにこのデータを入力すると、真札と偽札がそれぞれ2つの集団に明確に分かれてマップ上に表示されます。この2つの集団の特徴属性のランキングを見ていくと、集団が2つに分かれる主要因がどこにあるのか、簡単に見つけることができます。
(データ出典:Flury, B. and Riedwyl, H. (1988). Multivariate Statistics, A Practical Approach, Cambridge)

直接触ってみる
※Google Chromeの最新版でご利用ください。

乳がん検査データ

乳がん検査データ

米国ウィスコンシン大学病院による、乳腺腫瘍の生検データのサンプル(683件)です。線形分離が不可能なデータの例として下記文献で紹介されています。

各データは良性腫瘍または悪性腫瘍(癌細胞)のどちらかに属しており、その根拠となる9つの診断項目はそれぞれ1〜10の評価スコア(整数値)で構成されています。
BIGDAT@Viewer ではこのようなデータに対しても、各診断項目の間の類似性に基づいて腫瘍の良性/悪性がはっきりと分かれた形でマップ化された結果を得ることができます。
マップをさらに拡大して詳細に見ていくと、良性腫瘍の領域がさらに小さな集団に分かれている様子を把握することができます。
(データ出典:W. H. Wolberg and O. L. Mangasarian (1990), Multisurface method of pattern separation for medical diagnosis applied to breast cytology, Proceedings of the National Academy of Sciences, U.S.A., Volume 87, pp. 9193-9196.)

直接触ってみる
※Google Chromeの最新版でご利用ください。

主な機能

  • データの取り込み(CSV)およびtoorPIAによる可視化結果の表示
  • マップ操作(移動/拡大/縮小/クラスタサイズ、表示色の変更)
  • 選択した属性による色付け(フィルタリング)
  • 日付属性・数値属性の範囲指定
  • 選択領域に含まれるクラスタの特徴属性の表示
  • 選択領域に含まれるデータのエクスポート(CSV)
  • 属性の重み変更による再マップ
  • 選択領域、色付けされたクラスタのみを対象とした再マップ
  • ユーザー、グループ管理
  • マップ共有管理

従来の分析ツールや分析手法と比較してどう違うの?

たとえば「スイス銀行偽札データ」の分析をRで行う場合

「スイス銀行偽札データ」の分析をRで行う場合

「R」とは、オープンソースの統計解析ソフトウェアで、多くの解説本が出版されているなど、近年非常によく活用されるようになっているデータ解析技術の一つです。

右の図は、Rを使ってスイス銀行偽札データの解析を行ったものです。このサンプルのような小規模なデータの場合、一般的な統計解析ツールを使って真札と偽札を分ける要因になった説明変数を見つけることは、それほど難しくはありません。Rの基本的なコマンドの使い方の知識さえあれば、各属性間の相関状況を右の散布図として表示することは簡単です。この図からは、どの属性との組み合わせにおいても、対角長(Diagonal)が2つの集団を分ける上で最も影響力を持つ属性であることが分かります。

しかし、このような相関行列による分析が有効なのは、属性数が少ない場合に限られます。現実の世界のビッグデータ分析では、もっと大規模で複雑なデータを取り扱わなければなりません。例えばデータ件数が数千万、属性数が800もある場合はどうでしょうか?このような場合にN×(N−1)、つまり639,200 通りもの組み合わせとなる属性間の相関分析の結果から着目すべき属性を見つけ出すことためには、膨大な労力と時間がかかるのではないでしょうか。

BIGDAT@Viewer を利用すれば、分析対象のデータ件数や属性数がどれほど大規模であっても、全ての属性の組み合わせを一度に比較した結果を1つのマップ上で直感的に見渡すことができます。そこに何らかのデータの傾向が存在していれば、その要因となる属性を簡単な操作ですぐに見つけることができます。まさに「上空から全体を見渡す鳥の視点」といっても過言ではないかもしれません。

主成分分析とはどう違うの?

主成分分析とはどう違うの?

3次元空間に住んでいる私たちにとって、4次元以上の属性数を持つ高次元のデータを直接観測する事は不可能です。主成分分析の主な目的は、属性(変数)の数が非常に多いデータを、可視化して分析が可能な次元数にまで縮約することにあります。そのために、大量の変数を少数の合成変数に置き換えていきます。

このように、高次元のデータを観測可能な低次元空間に射影する、という点では、BIGDAT@Viewerの機能は主成分分析に似ているのでは?と思われるかもしれません。

しかし、主成分分析の結果を用いたデータの可視化と、BIGDAT@Viewerによる可視化では、データの情報量に対するアプローチが大きく異なります。主成分分析では、元のデータをごく少数(通常は1〜3)の次元の合成変数に置き換える過程において、寄与度の低い成分は考慮されずに失われてしまいます。

BIGDAT@Viewer が利用する解析エンジン「toorPIA」が作り出すマップでは、そのような情報損失は発生せず、高次元空間における全ての次元の関係性をありのままに表現することができます。その点で、BIGDAT@Viewerを利用することで、元データの持つ傾向をより正確に反映することができる、と言えるのではないでしょうか。

高速処理を支えるエンジン「toorPIA(トピア)」

高速処理を支えるエンジン「toorPIA(トピア)」

BIGDAT@Viewerでは、解析エンジンtoorPIA(トピア)を採用しています。toorPIAは様々な種類のビッグデータを解析対象とし、データの属性を使用してデータ間の類似性をマップ化します。類似性判定に使用する属性の数に制限はなく、分析軸や仮定が定まらない段階でもありのままのデータを俯瞰することができます。そのため、ビッグデータ処理に関する専門知識を必要とせず、業務課題を最も理解している実務担当者によって容易にビッグデータが解析でき、新しい知見の発見を支援します。

さらに、toorPIAで得られるマップと時刻情報や位置情報、ユーザー情報などの属性データを組み合わせることで、時間的な傾向/将来予測、局所性/地域性、顧客ごとの傾向などをさまざまな角度からの分析が可能となります。

toorPIAの特徴

高速処理
独自のMapReduce&KVSエンジン「maguna」により、高速にビッグデータを処理できます。また、独自のアーキテクチャにより、従来の処理量をはるかに超えたクラスタリング処理が可能になりました。

様々なビッグデータが解析可能
Twitterやwikipedia、社内文章、特許といった英文・和文情報をはじめ、POSデータや各種ログ情報、さらにはセンサーが出力する数値データや振動データなどの非テキスト情報も解析できます。

柔軟なアプリ開発
開発キットをご用意しており、2〜3日のトレーニングと実習でマップ化ができるようになります。ビッグデータ分析に関する専門知識がない開発者でも、ビッグデータの分析アプリケーションを開発できます。

toorPIAについてはこちら

動作環境

サーバ

OS CentOS7.x(GNOMEデスクトップ)
CPU Intel系 (Xeon, Core iシリーズ)
メモリ 8GB以上
ストレージ 500GB以上

操作クライアント

OS Windows7 以上
Webブラウザ Google Chrome Ver.42 以上

お問い合わせ

資料請求や価格のお問い合わせ、デモのご希望など、ご不明な点などございましたら、お気軽にお問い合わせください。

専用フォームから問い合わせる



お問い合わせ ビッグデータソリューション開発センター
TEL: 03-5297-3719 (平日 9:00-17:30)  資料請求/お問い合わせ全般