はじめに
XGBoostやランダムフォレストなどの機械学習モデルは高い予測精度を持つ一方で、
- なぜその予測になったのか
- どの要因が効いているのか
が分かりにくいという課題があります。
例えば、
製品強度を予測するモデルを作ったとして、
「強度は250 MPaです」
と予測された場合、設計者は
「なぜ250 MPaになったの?」
を知りたくなります。
そこで利用されるのがSHAP(SHapley Additive exPlanations)です。
SHAPとは?
SHAPとは、
機械学習モデルの予測結果に対して、各特徴量がどれだけ影響したかを数値化する手法
です。
例えば、ある製品の強度を予測した結果が
250 MPa だったとします。
SHAPを使うと、
- 温度:+20 MPa
- 圧力:+15 MPa
- 流量:-5 MPa
のように、各要因の寄与を確認できます。
なぜSHAPが必要なのか?
機械学習モデルは
- XGBoost
- ランダムフォレスト
- ニューラルネットワーク
などになるほど複雑になります。
その結果、
予測は当たるが理由が分からない
という状態になります。
これはブラックボックス問題と呼ばれています。
SHAPはこの問題を解決するための手法です。
SHAPで分かること
① 個別データの予測理由
あるサンプルについて、
なぜその予測値になったのかを確認できます。
例
予測強度:250 MPa
寄与
- 温度:+20
- 圧力:+15
- 流量:-5
② 全体として重要な要因
全サンプルを対象に分析すると、
どの特徴量が重要なのか確認できます。
例
- 温度
- 圧力
- 流量
- 湿度
③ 要因が良い方向か悪い方向か
特徴量重要度だけでは、
重要であることしか分かりません。
SHAPでは、
- 強度を上げる方向
- 強度を下げる方向
まで確認できます。
特徴量重要度との違い
特徴量重要度は
「どの変数が重要か」
を示します。
一方SHAPは
「どの変数がどのように予測へ影響したか」
を示します。
| 項目 | 特徴量重要度 | SHAP |
|---|---|---|
| 重要な変数が分かる | ○ | ○ |
| 影響の方向が分かる | × | ○ |
| 個別サンプルを分析できる | × | ○ |
製造業での活用例
品質予測
製品強度予測モデルに対して、
- 温度
- 圧力
- 流量
の影響を確認する。
不良要因分析
不良品が発生した際に、
どの工程条件が影響したのか分析する。
設計条件の理解
CAEや実験データから作成した予測モデルについて、
性能へ影響する設計因子を特定する。
SHAPのメリット
- 機械学習モデルを説明できる
- 要因分析ができる
- 設計改善につながる
- XGBoostとの相性が良い
SHAPのデメリット
- 計算時間が長い場合がある
- 特徴量が多いと解釈が難しい
- 因果関係を示すものではない
まとめ
SHAPは、
機械学習モデルの予測結果を説明するための手法
です。
XGBoostなどの高精度モデルに対して、
- なぜその予測になったのか
- どの要因が効いているのか
を可視化できます。
製造業では、
- 品質予測
- 不良要因分析
- 設計因子分析
などに活用されており、機械学習モデルを実務で利用する際に非常に有効な手法です。

