Instrumented data for causal scientific machine learning
Scientific machine learning is limited less by model size than by the data it is trained on. Observational dat
- 用途
- 技術検証・論文読解補助
- 難易度
- Hard
- コスト
- High
Internalization Guide
材料候補、分子、結晶、組成から、次に評価すべき候補を絞り込むためのMIガイドです。
「Materials Informatics 少数データ」「材料探索 AI」「matminer 使い方」で調べる人が、記述子と機械学習で候補を絞るためのページです。
少数データでは、まず化学・物理的に意味のある記述子を作ることが重要です。
GNNは魅力的ですが、データ数が少ない場合は記述子+LightGBMの方が安定することがあります。
実験値と計算値を混ぜる場合は、測定条件や計算条件の違いをメタデータとして持たせます。
対象が無機材料なら組成・結晶由来の記述子、有機分子ならSMILESや分子記述子が有効です。必須ではありませんが、少数データでは強い助けになります。
構造情報が重要で、十分なデータまたは事前学習モデルを使える場合に検討します。初期PoCは記述子+表形式MLで比較するのがおすすめです。