データ駆動科学の定義

科学の新しいパラダイムとして位置づけられつつあるデータ科学は,データ駆動科学と称されることもあります.これは「data driven science」の訳語で,直訳的に意味を考えると「データによって推進される科学(の方法論)」となります.

 

データによって推進されるという言葉には,大きく2つの意味があると考えています.

1つは広義的なもので,従来になかった規模や質のデータによって,未知の現象の解明や新たな技術の開発が促進されることです.

データが促進した技術の例として,街を走る車の位置データをリアルタイムに集計する環境ができたことで,カーナビは渋滞を避けるルートを実際の状況に応じて常に修正しながら提案することができるようになりました.

ここでは,「データが新しい発見や技術を推進する」という意味としてデータ駆動を解釈しています.

 

もう一つはやや基礎数理に寄った狭義的なもので,データから自動的に構築・実現される計算モデルを指していると考えています.

そのような計算モデルの代表例はディープラーニングで,犬と猫の画像を区別する深層学習モデルは,その二種の違いを人間の知識を介さずに多量のデータから自動的に学習します.

ここでは,「データが計算モデルを自動的に構築する」という意味としてデータ駆動を解釈しています.

 

 

ここで考えた2つの定義は独立しておらず,互いに大きく関わっています.新しくデータが取れるようになったことで実現したいもの(前者のデータ駆動)のイメージが固まり,そのイメージの実現のために計算モデルが新しく開発される(後者のデータ駆動)例や,ディープラーニングのような計算モデル(すなわち,後者のデータ駆動)が新しいシステム(前者のデータ駆動)を導いている例は多くあります.

また,後者の「データが構築する計算モデル」を前者の「データが導く新しい技術」に含めることはできるので,そのような意味で前者の解釈の方が広義的ですし,後者の解釈を包含しているとも言えます.

 

しかし,前者の定義ではデータの利用方法については人間が積極的に関わっているのに対して,後者の定義はデータが人を介さず「自動的」に計算の仕組みを作るという部分に焦点を当てている点で大きく異なっていると考えられるため,ここでは上記の2つの意味・解釈をあえて区別しています.前者はデータそのものの存在価値の比重が大きいことに対して,後者はデータを活用する計算モデルやアルゴリズムの価値の比重が大きい,と言い換えても良いかもしれません.

 

「データ駆動」や「データ駆動科学」は一時バズワード的に用いられることもありましたが,最近の研究事例や社会の動きを見る限りでは,きちんとした根拠や実績を持った科学用語として利用して良いように感じています.

2020年04月20日