機械学習のデータセットを正規化する方法

本日は、機械学習におけるデータセット作成の注意点をお伝えします。

結論からいうと、正規化しましょう。ということです。
ありのままの数字では、学習する上で処理しづらいとうことです。

自分もまだまだ分かっていないところだらけですが
機械学習の根本の概念として、ベクトル距離というのがあります。

データセットを作る際には、あらゆるデータ(画像、動画、音、テキスト…)を数値化していきます。 ただ、これは実際の数値に意味があるのではなくて、数値感の距離を測っているのです。実際の数値は学習していく上では、重要な数値ではないのです。

なので、データ間での、距離を正しくしましょう。というのが、データセットの正規化です。極端にいうと、データを [ 0 ~ 1 ] のデータに変換しましょうというこです。

正規化のやり方は色々とあるようです。下記を参考にしました。

https://sinyblog.com/deaplearning/preprocessing_002/#i-2

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です