フレーム問題

フレーム問題では、フレームを大きく取りすぎると、データ量が無限大になってうまくいかないと述べました。ただ、最初の問題設定をするときが重要です。というのは、フレーム問題を考えるあまり、「このデータは、目的とするものに関係なさそうだから捨てよう」と軽々しく即断して捨てるのは危険だ、という点です。一見すると、フレーム問題と矛盾しそうですが、最初はできるだけデータを取っておきます。たとえば、「部品の不良品の出現との相関性」を考えるとき、毎日の黄砂の量、1日前に床屋さんに行った工員の数、曜日などとの相関を調べます。そうして「やはり、床屋さんは関係ないな」と確認してから、データを捨てていきます。気づきにくい、意外な相関を見落とさないためです。他にも、28×28の画像の手書き数字「3」 でも同様です。人間というのは、28×28のマス目(ピクセル)でも、20×20のマス目でも、数字を「3」 と判断できます。ですから、「28×28の大きなデータは不要で、20×20のデータから学習させても精度は変わらないだろう」と考えてしまう傾向があります。しかし、大きなデータ(28×28) が用意できるのであれば、まずは大きめのデータから始めます。そして20×20でもうまくいったとき、はじめて28×28のデータを削除するようにします。それだけで、28×28の「784次元」から20×20の「400次元」に減るので、最初の段階から384次元分の計算をしなくて済み、計算量も減ります。

Leave a Comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です