正常データのみを学習したAIからの擬似異常データの生成

擬似異常データの生成方法

(左)データを生成するAIの学習、正規分布からサンプルした変数を元にデータを生成するAIを学習させます。学習用データには正常データのみを用いるため、学習が進むとAIは正常データに似たデータを生成するようになります。(右)分散の大きな正規分布から変数をサンプルし、AIへ入力すると左図とは異なるデータ(擬似異常データ)が生成されます。

データを学習し賢くなるAI技術が盛んに研究されています。AIはデータの持つ規則性を学習し、それに従い新たなデータを生成したり、未知のデータに対する予測結果を与えることができます。データが正常か異常かを予測するAIを学習させるとき、異常の発生頻度が低い場合は事前に学習用データを集めることが難しいです。そのため、正常なデータのみを学習させて、正常であるか否かを予測させるアプローチをとることがあります。

単純な法則に従う変数からデータを生成するようにAIを学習させたとき、変数の法則を乱した場合はデータを上手く生成できません。本研究では、これらを擬似的な異常データとして、正常・異常を予測するAIの学習に用いる手法を提案しました。正常データのみで構成される学習データから擬似的な異常データを生成し、それらが異常検知の性能を向上させることが明らかになりました。また、従来手法と比較して高速な予測時間を実現しました。

本研究では画像データによる検証を行い、工業製品の外観検査へ適用可能なことを確認しました。本手法は音声などの他種データにも適用できる手法です。機械の動作音を記録した音声データから機械の異常を予測するなどの応用先が考えられます。

書誌情報

複合科学研究科 統計科学専攻 村瀬 博典

学生の研究