Internalization Guide

材料候補スクリーニングのAI/MI実装ガイド

材料候補、分子、結晶、組成から、次に評価すべき候補を絞り込むためのMIガイドです。

「Materials Informatics 少数データ」「材料探索 AI」「matminer 使い方」で調べる人が、記述子と機械学習で候補を絞るためのページです。

実装の始め方

  1. 1材料ID、組成、SMILES、既知物性値を同じ表にそろえます。
  2. 2matminerや記述子で、まず表形式特徴量を作ります。
  3. 3LightGBMなどのベースラインとGNN系手法を比較します。
  4. 4予測値と不確実性から、次に評価する候補を選びます。

自社データでPoCする時の考え方

少数データでは、まず化学・物理的に意味のある記述子を作ることが重要です。

GNNは魅力的ですが、データ数が少ない場合は記述子+LightGBMの方が安定することがあります。

実験値と計算値を混ぜる場合は、測定条件や計算条件の違いをメタデータとして持たせます。

よくある落とし穴

  • 公開データと自社データの測定条件差を無視すると、実験で再現しない候補が出ます。
  • 候補選定を予測値だけで行うと、モデルの不確実性が高い領域を見落とします。
  • 記述子生成の失敗や欠損をそのまま除外すると、候補空間に偏りが出ます。

よくある質問

matminerやSMILESは必須ですか?

対象が無機材料なら組成・結晶由来の記述子、有機分子ならSMILESや分子記述子が有効です。必須ではありませんが、少数データでは強い助けになります。

GNNはいつ使うべきですか?

構造情報が重要で、十分なデータまたは事前学習モデルを使える場合に検討します。初期PoCは記述子+表形式MLで比較するのがおすすめです。

おすすめ手法

関連する論文・実装

31 articles