SPSS、より高速、正確なテキストマイニングを実現する 「Text Mining for Clementine 2.2J」を出荷
~係り受け解析処理を高速化、新たに文境界推定機能を追加しビジネス用途に対応~
2005/12/15
エス・ピー・エス・エス株式会社
本社:東京都渋谷区広尾1丁目1番地39号
社長:ジャック・ヌーナン、資本金:1,120万円
Predictive Analyticsを提唱するエス・ピー・エス・エス株式会社(以下 SPSS Japan)は、データマイニングツール「Clementine」の環境でテキストマイニングを行う「Clementine」用プラグインソフト「Text Mining for Clementine(TMC)」の最新バージョン「Text Mining for Clementine 2.2J」(以下、TMC2.2J)の出荷を12月15日から開始することになりましたので、お知らせします。
今回リリースする「TMC2.2J」で は、 係り受け解析処理が 高速化されたため、大容量のテキストデータをより短時間で処理することが可能になり、 研究機関、教育機関はもちろん、激変するビジネスの現場のニーズにより適ったパフォーマンスを示すことができるようになりました。データマイニングで扱ってきた従来の数値データに加え、さまざまなファイル形式で保存されたテキストデータをClementineという同一のプラットフォーム上で処理できる"混合マイニング"が実践でき、テキストのみを解析しているだけでは得られない、新たな知見を得ることができます。
価格はClementine9.0を含み、最小構成価格(税抜)9,000,000円~、SPSSによる直販とビジネスパーナーの販売により、初年度150ユーザーへの販売を見込んでいます。
日々企業に集積されているデータは、属性、購買データのように既に構造化(数値化)された データだけではありません。SFA、コールセンター、その他CRMで集められた顧客意見、またはアンケートの自由記述文、企業・競合情報などのWebページ、e-mailなどのテキストデータは、 構造化されていないデータの典型例であり、これらの非構造化データは全データの7-8割を占めると言われています。そこで今日に至っては、テキストデータへの関心が高まり、多くの企業がテキストをマイニングが実践できる環境を整えつつあります。しかしその一方、テキストマイニングとはひと言で言ってもその環境は多様であり、テキストだけを扱う場合も多く、さまざまな属性データとひも付け、多角的な切り口で関係性を調べる深いマイニングを行う環境が十分考慮されているとは言えません。
これに対し 「TMC 」では、Clementineというデータマイニングプラットフォーム上で"混合マイニング"を実践する 環境を提供するために製品を強化してきました。 テキストデータで得られた知見を属性データで検証する、あるいは、テキストデータと属性データを合わせて予測モデルを構築するといった様々な分析のアプローチを可能にしています。またClementineで作成したモデルは他のアプリケーションや業務プロセスへと展開できるため、顧客への対応を迅速化するための別の営業用のアプリケーションの開発に役立てることも可能です。
新バージョン 「TMC2.2J」では、係り受け解析処理の高速化が実現されています。精度の高い係り受け解析を求めた場合、解析速度には目をつぶるといったジレンマが往々にして生じますが、新バージョンにおいては、精度を維持し、かつ高速化を実現した係り受け解析ソフトウェア「南瓜」の最新バージョン(*1)を組み込んでいます。
また 「TMC2.2J」では、 文境界を推定するソフトウエア (*2)を新たに組み込んで います。 テキストデータには、さまざまな意味合いで 記号や改行コード が使われています。単純な機械処理では、これらが原因となって文の境界が間違っ て認識され、正しい係り受け解析結果を導くことが難しくなります。 そこで新バージョンでは、学習モデルに基づいた 文境界を自動的に推定する機能 を 組み込んでいます。(*1および*2は、奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座が開発したソフトウェアです。)
さらに「TMC2.2J」では、テキストマイニングで最も時間と労力を費やすクリーニングの時間を短縮するために、ストップワード機能を強化しています。また テキストデータ内に散りばめられている意見や評価などのさまざまな表現を抽出する機能を備えています。ユーザーは "否定的"、"肯定的"、"依頼"、"禁止"、"許可"、"義務"、"推量"といった表現事例が登録されている設定ファイルをもとに、ビジネスの各分野で有用な表現を、EXCELを用いて追加・修正し、カスタマイズを行っていきます。テキストマイニング実行に使用する
辞書関連ファイルの選択にあたっては、 ファイルを指定する 専用の ダイヤログボックスが 追加されており、ユーザーの 利便性を追及した テキストマイニング環境を準備 しました。
また「TMC2.2J」は、日本語を解析するための自然言語処理エンジンを組み込んでいますが、「TMC2.2J」のユーザーには、欧米語(英語、英語- フランス語、フランス語、ドイツ語、イタリア語、スペイン語、オランダ語、Mesh (医学件名標目表))を解析できる環境も併せて提供しています。
「Text Mining for Clementine 2.2J」の製品概要は、次のとおりです。
| ■ | 製品名: | Text Mining for Clementine 2.2J |
| ■ | 発売日: | 2005年12月15日 |
| ■ | 販売方法: | SPSSによる直販とビジネスパートナー経由の販売 |
| ■ | 販売目標: | 150ライセンス |
| ■ | システム要件 Text Mining for Clementine 日本語版 はClementine と同じマシンにインストールされるため、システム必要条件は基本的に Clementine と同じになります。しかし、以下の内容に関しては異なります。 ・ OS :WindowsXP, Windows NT4.0 (SP6 以上)、 Windows 2000 ・ IE5.5 以上、Netscape Communicator 6.0 以上(テキストマイニング ビューアノードの使用にはブラウザが必要です) ・必須ソフトウェア:Clementine 9.0以上 | |
(以下Clementineのシステム要件 | ||
| ■ | Clementine Client | |
| ・OS : | Microsoft Windows XP、 Windows 2000 Professional | |
| ・Hardware : | Intel Pentium互換機 | |
| ・メモリ : | 512MB RAM 以上推奨 | |
| ・HDD空き容量 :320MB以上 | ||
| ■ | Clementine Server(Windows以外はお問い合わせください) ・OS :Microsoft Windows Server 2003、 2000 ・Hardware :Pentium互換機(Windows) ・メモリ :512MB RAM以上推奨、インストール用に最低128MB以上 プログラム実行には別にHDD容量が必要になります(1GB以上推奨) | |
以上
SPSSについて
SPSSは、予測分析(Predictive Analytics)ソフトウェアとソリューションをグローバルで提供するリーディングカンパニーです。SPSSのPASW製品(Predictive Analytics Software/予測分析ソフトウェア)は、データ収集、統計、モデリング、展開の4つの製品ラインから構成されています。PASW製品は、データ分析をビジネスプロセスに組み込み、顧客や従業員の態度や意見を捉え、将来の行動を予測し、それらの結果を意思決定に活用することを可能にします。またSPSSのソリューションは、分析、ITアーキテクチャ、そしてビジネスプロセスのコンバージェンスに焦点を合わせ、組織全体で相互に関連し合う経営課題に取り組みます。SPSSのテクノロジーは、世界中の民間企業、政府機関、そして教育機関の顧客から、新規顧客獲得、解約防止、顧客育成、不正検知およびリスク軽減などに利用され、組織の競争優位性の源泉として活用されています。1968年創立、 本社は米国イリノイ州シカゴ。日本法人は、1988年設立。詳しくはWebサイトをご覧下さい。
SPSS Inc.: www.spss.com / SPSS Japan: www.spss.co.jp
本件に関するお問合せ先
エス・ピー・エス・エス株式会社 【広報担当:畠(はた)】
〒150-0012 東京都渋谷区広尾1-1-39恵比寿プライムスクェアタワー10F
TEL:03-5466-5511 FAX:03-5466-5621 E-mail:SPSSPR@jp.ibm.com

