本日は、機械学習におけるデータセット作成の注意点をお伝えします。
結論からいうと、正規化しましょう。ということです。
ありのままの数字では、学習する上で処理しづらいとうことです。
自分もまだまだ分かっていないところだらけですが
機械学習の根本の概念として、ベクトル距離というのがあります。
データセットを作る際には、あらゆるデータ(画像、動画、音、テキスト…)を数値化していきます。 ただ、これは実際の数値に意味があるのではなくて、数値感の距離を測っているのです。実際の数値は学習していく上では、重要な数値ではないのです。
なので、データ間での、距離を正しくしましょう。というのが、データセットの正規化です。極端にいうと、データを [ 0 ~ 1 ] のデータに変換しましょうというこです。
正規化のやり方は色々とあるようです。下記を参考にしました。