『イノベーションのジレンマ』の観点からビッグデータと推測統計を考える

　先日のゼミと授業で、ビッグデータに関して興味深いやり取りを耳にしたのでメモしようと思う。

　1週間前ほどのゼミで、ゲストの方がこんなことをおっしゃっていた。その方は統計分析を行う仕事に就いているらしいのだが、昨今のビッグデータブームに辟易しているとのこと。いわく、「ビッグデータ分析は、ゴミの山から砂金を見つけようとするようなもの。基本的なデータ処理の方法で苦労しているような分野なので、今のブームは疑ってかかったほうがいい。」

　少し違った角度からのビッグデータブームへの批判が、西内啓『統計学が最強の学問である』にもあった。ここでの批判は、「データを大量に集めなくとも、標本抽出とその分析から分かることが山のようにある。だから、データを集める前にその目的を考えないといけない。その目的を達するのに標本抽出で十分ならば、そもそもデータを大量に集める意味がない」というような趣旨だったと思う。

　これらの批判に共通しているのは、「大量のデータをそのまま分析する方法は未だに未熟であり、そんなことをするよりは通常の標本抽出と推測統計による分析をしたほうがよほど面白い結果が出てくる」というような主張だろう。

　しかし、先日の授業ではこれに反するようなことを聞いた。その先生いわく、「ビッグデータを丸ごと分析できれば、そもそも標本抽出が不要になる。標本抽出は母集団全体の情報が得られないから行うのであって、ビッグデータという形で母集団そのものの情報が入手できるならば標本抽出の必要はない。」

　現時点ではコンピュータの情報処理速度という工学的技術と、大量のデータを標本抽出無しで分析するという統計学的技術の制約のために、ビッグデータから標本抽出・推測統計による分析以上の情報を得ることが難しい。それは本当なのだろう。しかし、いつかはこれらの両技術の発達に伴って、ビッグデータから得られる情報が推測統計から得られる情報を上回る日が来るのだろう。そのこともまた確実だと思われる。

　これらの発言に関して、僕が面白いと思ったのは次の3点だ。

①「データを集める前に推測統計でできることがある」と、「ビッグデータを分析できればそもそも標本抽出・推測統計を使う必要がなくなる」という立場は両方とも正しく、議論しても並行線をたどるだろう。これが、専門領域の違いに起因するパラダイムの違い・パラダイムの共約不可能性の好例だろうか。

②「ビッグデータ」と「（通常の）統計学」というような、一見似たような領域の間にも、真っ向から対立するような意見の衝突がある。似たものを一括りにしすぎないほうがいいのだなあ、という教訓を得た。

③「ビッグデータ」と「（通常の）統計学」は、それぞれ経営学で言うところの「破壊的技術」と「持続的技術」に当てはまるのではないか。（破壊的技術と持続的技術というのは、C. クリステンセンが『イノベーションのジレンマ』という本の中で用いた用語である。詳細はウィキペディアの記事http://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%8E%E3%83%99%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%AE%E3%82%B8%E3%83%AC%E3%83%B3%E3%83%9Eを参照してください。）

　破壊的技術が爆発的に普及して持続的技術にとってかわるには、持続的技術では満たせていない特殊な顧客の需要を満たすことが必要である。こうした少数の特殊な顧客に「刺さる」ことで、破壊的技術は勢力基盤を築く。この顧客には持続的技術は「刺さらない」から、基盤は安全だ。やがて破壊的技術が改良されると、持続的技術が対象としてきたメインストリームの顧客の需要も満たすようになり、持続的技術はハイエンド製品へと駆逐される・・・というのが『イノベーションのジレンマ』のあらましだ。

　だとすれば、「ビッグデータ」にとっての「持続的技術では満たせていない特殊な顧客の需要」は、どこに、どんな形で存在しているのだろうか？ほとんどの企業にとっては推測統計による分析ですらおぼつかないはずであり、そうした企業にはそもそもビッグデータは必要ない。彼らのニーズに応えるには、今は推測統計で十分なはずだ。ではビッグデータによる分析を本当に必要としているのは、一体、どこの、誰なのだろうか？

basilsの日記

イノベーションについて考察するブログ。その他、アルバイト日誌、感想文、雑感など。

『イノベーションのジレンマ』の観点からビッグデータと推測統計を考える