【雑記】データ科学の定義について

私は社会基盤工学という大きな領域の中の応用力学や地震工学という分野で活動していますが,1-2年ほど前からこれらに加えてデータ科学の分野でも専門性を持てるように活動を模索しています.

データ科学・データサイエンスという言葉は,特にここ数年目にするのことの多い単語です.データ科学に関する日本最大の研究拠点である統計数理研究所の池田思朗教授は,データ科学研究の目的を「データの処理方法,解析方法に関する知識を深め,それを広めること」としています[1].また,滋賀大学は2017年からデータサイエンス学部を開設しており,学部紹介の中でデータサイエンスは「社会に溢れているデータから価値を引き出す学問」と定義されています[2].

 

これら2つの定義を元にすると,データ科学とは「データセットから有用な情報を抽出・創出することを目的とした,データの意味やフォーマットによらず適用可能な共通の処理・解析手段を研究する学問」ではないかと私なりに解釈しています.「共通の処理・解析手段」の具体的な例としては,統計学の諸技術は代表的なものであると思いますし,ベイズ推論,データ同化,機械学習や深層学習(機械学習からあえて分離しました)もデータ科学の範疇に含まれると思います.

 

また,データ科学の面白い定義として「ハッキングスキル・数学と統計学の知識・実質的な専門性,という3つの分野の交わる領域」というものがあります[3].ここでいうハッキングとは,他者のコンピュータに不正にアクセスするという悪い意味のものではなく,コンピュータに関する知識を駆使して高度な情報処理タスクを行うこと,という本来の意味を指しています.

理工系の研究分野の中には,シェルスクリプトによるファイル操作・プログラム操作や正規表現による文字列処理などの,数値計算・シミュレーションとは異なるコンピュータ技術を利用する文化のある所も多いと思います.こうした技術はあまり大学の講義で扱われることがなく,組織内で詳しい先輩に教えてもらったり独学で学んだりするしかないのですが,利用すれば効率が10倍は向上すると言ってもよいぐらい非常に便利なものとなっています.データ科学的な手法を用いる際は必然的に多量のデータを扱う機会が多いため,これらのハッキング技術をデータ科学の範疇として明示的に教育(や,研究の余地があるものは研究)することは,今後重要になってくるのではないかと思っています.

 

[1]池田思朗:データ科学と自然科学,KAVLI IPMU Research Report,Vol.36,2016.

[2]滋賀大学 データサイエンス学部 学部紹介 https://www.ds.shiga-u.ac.jp/about/ (2017年11月1日閲覧)

[3]Drew Conway: The Data Science Venn Diagram

  http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram (2017年11月1日閲覧)

2017年11月01日|ブログのカテゴリー:雑記