統計理論や応用数学的手法,コンピュータを用いて,新たな統計的方法や強化学習法の開発,その理論研究を行っています.開発された統計的学習法を活用して,実質科学分野への応用を提供していくことを目指します.
キーワード:医学統計,機械学習,強化学習
医学統計・Biostat,機械学習の研究
イベント時間解析(生存解析),多重エンドポイント,群逐次法,メタアナリシス,経時対応データ解析などの医学統計についての研究を行っています.また,教師あり学習や教師なし学習といった機械学習や強化学習の研究と従来からある統計的方法を融合していく研究にも関心があります.
医学統計の研究テーマ例
- 交絡因子の調整に層別解析という方法があります.この方法はメタアナリシスにも有用であるだけでなく,因果推論にも有用であり,しばしば傾向スコアと併用されることもあります.層別解析の代表的なランダム効果モデルの正確な分布を定式化しています(Hanada & Sugimoto, 2023).例えば,教師なし学習から作成されたクラスターにこの理論を応用したり,さらに発展させることに関心があります.
- イベント時間データ解析の理論では計数過程という点過程とそのマルチンゲール理論が有用です.複数の種類のイベント時間を扱う際の異なる計数過程間の相関は,イベントの特徴を考慮に入れて正しく定式化することが可能になります (例えば, Sugimoto et al, 2020).このような相関解析とコピュラによる多変量モデリングを組み合わせることで新たに有用な統計的方法論の開発が可能です.
機械学習・強化学習の研究テーマ例
- バンディット問題など強化学習の方法とその情報理論を扱っています.こうした問題においては,データが逐次的・適応的に与えられる状況で,より良い選択を探索することと手元の知識を有効活用することのトレードオフを統計理論を活用して探ります.
- テストデータに対し機械学習がどのような挙動をするのかを理論,数値的に保証する手法を開発しています.特にどのようなアルゴリズムで学習されたのかということに着目する,PACベイズや情報理論を用いて統計的学習理論の研究を行っています.
- また分類性能や2乗損失といった従来から広く使われている以外の複雑な尺度,例えば較正誤差(Calibration error)など,に対しても高い性能達成できるアルゴリズムの開発やその理論解析を行っています.この他,変分ベイズやモンテカルロ法などを活用した大規模なベイズ推論およびアンサンブル学習アルゴリズムの開発および理論解析を行っています.
- 深層学習Deep Learning法は現代のAIの代表ツール(脳の部分)として多くの領域で注目を集めてきました.一方,決定木を予測ツールとして発展させたランダムフォレスト(Breiman, 2001)もしばしば深層学習に匹敵する性能をもつことが知られています.最適計算が難しい深層学習Deep Learning法に比べ,ランダムフォレストは完全に並列計算であるがため最適計算を失敗することはなく,安定した結果をもたらすためその利用が好まれる状況も多くあります(ただし,RやPythonのライブラリでは性能の良いフォレストRCは導入されていない).上手いランダム量を注入できればノイズを除く極限まで予測が可能であることも示唆されています(Breiman, 2001)が,上手いランダム量をどのように注入すればよいかはあまりよく分かっていませんおらず課題になっています.
- 深層学習Deep Learning法やランダムフォレストの予測の良いことはよく知られていますが,しばしば,予測モデルに対する説明が求められることがあります.このとき,統計学で発展した説明的モデルリングや変数重要度が有力な手段になりますが,そのための理論と方法は発展の余地が多く残されています.
- 経時対応データや生存時間データなど扱うデータの種類を拡張して,決定木を構築する方法やさらなる利活用の方策,そのための統計理論の研究を継続して行っています.