第15回研究報告会記録


日時:平成11年3月20日(土)13:00〜17:10
会場:統計数理研究所講堂
出席者:会員23名、非会員11名(招待講演者を含む)
Professor Murtagh (The Queen's University of Belfast)に特別講演をお願いした。また以下の講演が行われ、活発かつ有意義な討論が行われた。



◆特別講演
Constant-Time Clustering for High-Dimensional Data

Fionn Murtagh (The Queen's University of Belfast)
Jean-Luc Starck (CEA/DSM/DAPNIA)
Michael W. Berry (University of Tennessee)

We extend recent results on constant-time clustering algorithms to a new problem area, that of clustering data in high-dimensional data spaces. We overcome the curse of dimensionality in such problems by (i) using some canonical ordering of observation and variable (document and term) dimensions in our data, (ii) applying a wavelet transform to such canonically ordered data, (iii) modeling the noise in wavelet space, (iv) defining significant component parts, and (v) reading off the resultant clusters. The overall complexity of this innovative approach is linear in the data dimensionality. We describe a number of examples and test cases, including the clustering of high-dimensional hypertext data.

◆一般講演
ハイブリッドモデリング

大滝 厚(明治大学理工学部精密工学科)

データマイニングは、大量のデータの中から埋もれている宝である現象を説明するモデルを探すための技法である。したがって、戦略的に攻めないと無駄ばかりすることになる。CART(Breimanほか、1984)は、2進木構造を持つノンパラメトリックな分類と回帰の方法論で、複雑な要因間の組み合わせで発生するような非線形構造や局所的な関係を推定するために有用で、データマイニングの一つの技法として注目されている。本報告では、CARTを従来の回帰分析、判別分析、ロジスティック回帰分析と併用するハイブリッドモデリングの原則の提案する。提案する原則は、はじめにCARTで分析を行い、得られたターミナルノードをその後の分析では線形モデルのダミー変数として取り入れるという単純なモデリングのストラテジーである。ハイブリッドモデリングと従来の線形モデルおよび階層型ニューラルネットワークと比較した事例を示して、その妥当性を示す。

並べ替え効果の測定

田崎 武信・松村 智恵子(塩野義製薬(株)解析センター)

多変量2値データ、すなわち各セルが0または1の値をとるn×p行列を考える。このようなデータの全体像を把握するために、行あるいは列のソーティングを行うことがある。この研究の目的はそうしたソーティングの効果を測定することである。各セルが周囲のセルとどのくらい異なるかを表すエッジ得点、その得点を行列全体にわたって加算した総エッジ得点を提案する。総エッジ得点がソーティングの前後でどのくらい変化するかによってそのソーティングの効果を測定する。また、オリジナルデータをランダムに並らべ替えて作成した行列での総エッジ得点から、総エッジ得点のシャッフリング分布を構成し、シャッフリング分布と対比することで、ソーティングが有効であったか否かを判定する方式を提案する。

ニューロ判別分析について

辻谷将明(大阪電気通信大学情報工学部)
越水 孝(大阪電気通信大学大学院工学研究科)

本報告では、階層型ニューラルネットワークを判別問題(Discriminant Problem)に適用する。これは、ロジスティック判別の拡張と考えられる。出力値の確率的解釈を行うことによってネットワーク尤度を構成し、尤度原理に基づく統計的推測を行う。そして、ニューラルネットワークモデルの適合度検定、ブートストラップ法に基づく隠れユニット数の決定、および誤判別率のバイアス補正を試みる。

クロス表の潜在変数による分類とシンプソンのパラドックス

山岡和枝(帝京大学医学部衛生学公衆衛生学教室)

本報告では、与えられたクロス表を既値あるいは未知の基準で分類するときの重要性を、シンプソンのパラドックス(SP)を通して探索的データ解析の見地から示した。未知の基準で分類する、いいかえると潜在グループが存在する場合、問題は複雑になり、大変深刻な問題を引き起こすことにもなる。与えられたクロス表と逆または独立な関連をもつ潜在的なグループの存在条件を探ることはSPの起こる条件を探ることにつながると考えられよう。そこで、より一般的な条件を探るため、いくつかの事前分布を仮定し、SPの生じる条件を検討した。

HLA抗原遺伝子と民族

林 文(東洋英和女学院大学)

HLA抗原遺伝子の国際データから、ヨーロッパとアジアで100程度以上データのある25民族を材料として、分析を試みた。どの民族でも頻度が3%以上のHLA型の頻度に基づき、数量化Ⅲ類によって民族の分類を試みた結果、アジアの民族とヨーロッパの民族に分類された。また、各個人のHLAの組み合わせに基づいて、数量化Ⅲ類により組み合わせ構造を分析した結果、ほぼ全ての民族で共通して近い関係にあるHLAのあることが示され、HLAの何らかの情報を含むものと考えられる。注)データは辻公美教授(東海大学)による。

電子会議室のログ情報のビジュアル化に関する考察

石塚 隆男(亜細亜大学経営学部)

本研究では、パソコン通信やインターネットにおける電子会議室の膨大なログ情報を要約し、ビジュアル化することを目的とし、ログ情報のプロフィールやコメントチェーン・マップ、SP分析表等の作成プログラムの開発を行った。ログ情報は、非定型のテキスト・データベースであり、今回の研究は、データベースにアクセスするためのビジュアル・インタフェースの開発に応用することが可能である。コメントチェーン・マップを作成することにより、会議の話題がアトラクターとしてどのように変化しているか視覚的に把握することができた。

電子調査法のあり方について─複数サイトにおける同時比較実験調査─

吉村 宰・大隅 昇(統計数理研究所)
川浦 康至(横浜市立大学)

3箇所の異なるWWWサイトでの同時的実査を前提とした比較実験調査を計画した。1999年2月から3月にかけて、ほぼ同時期にそれぞれ一週間の調査期間で計4回の調査を行う。なお、実査にあたり、1)同じ設問票を用いた調査をほぼ同時期に複数のWWWサイトで行い比較する、2)調査は4回行い、第4回調査は第1回調査の反復調査とする、3)可能な限り同じ設問構成の調査票を用いた通常型の調査(オムニバス他)をほぼ同時期に2箇所(調査機関)で実施するなどを基本方針とした。一連の調査で見られたWeb調査の利用可能性、適用可能性に関連した諸事象につき考察した。

動機関連文章データの定性的解析

土井 聖陽(宮崎産業経営大学経営学部)
大隅 昇(統計数理研究所)

動機領域の投影法文章データが、テキストファイル化後に分かち書きされて、対応分析・クラスター化法などによる自由回答型データの解析法によっ て分析された。その結果、成功不安動機のキーコンセプトであるコードにない性意識語が見い出され、さらにその分類と語用論的含意がサンプルの性差とともに明かにされた。一義的に定義できず、さらに回答者が認識していない心理概念の測定において、回答文をそのまま字義通りに意味論的・統語論的に解釈しないこの方法論の有効性と可能性が示された。