データ分析する意味とは?
そもそもですが、なぜデータ分析をする必要があるのでしょうか?
まず、データ分析とは、数値等の情報を収集し、分類、整理、取捨選択し、価値のある意味を見出す事です。
このデータ分析した結果より、客観的な情報に基づいた判断ができます。
例えば、あのレストラン美味しいと1人の友達が言っているのと100人の知らない人が食べログで星4をつけるのであれば、星4の方が客観的な判断と思えて、行きたくなりますよね!
そんな感じで、データ分析により、良い判断材料になると言えるでしょう(^ ^)
データサイエンティストとは
一般社団法人データサイエンティスト協会では以下のようになってます。
「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」
簡単にいうと、多くのデータを分析し、その結果をビジネスの課題等に利用するという感じです。
最近ではインタネット等の普及に伴い、さらに多くのデータを取得できる状況になったため、そのデータをどのように使うかが大事になってくると言われてます。
そのため、データ活用できる人材が必要になると言われてます。
経済産業省「ITベンチャー等によるイノベーション促進のための人材育成・確保モデル事業」の2018年の調査によると以下のような見込みが不足すると考えています。
2018 年 | 2020 年 | 2025 年 | 2030 年 |
22 万人 | 30 万人 | 36 万人 | 45 万人 |
このようにデータ分析人材の需要は今後も伸び続けると考えられます。
データ分析の流れって?
それではどのようにデータ分析の流れを考えていきましょう。
① 課題は何かを把握する。
データ分析において、まず課題を見つけて、その課題改善のためにどのような情報が逆算することは多いと思います。
② データ収集
どのようなデータが必要かすでにあるデータだけでいいのか、新たにデータが必要なのかを検討する必要があります。
③ データ分析の前処理
この前処理がデータ分析する上の一番のメインとなると思います。
完全なデータ(欠損、外れ値もない綺麗なデータ)は、ほぼないと思ってます。
分析できる用のデータに加工して行く必要があるのです。
④ データ分析
統計的な手法が必要だったりします。
例えば、相関関係、回帰分析等。
また最近ではデータ分析を効率化する手段として、GUIツールの活用やAzure等のクラウド上でできたり、色々な方法もあります。
pythonとデータ処理の流れ
データ分析をする際にpythonのライブラリを使うことがあると思いますが、どのような流れでどのライブラリを使うのかが私自身、あまり理解できていなかったので、まとめてみました!
データ処理と使用するpythonライブラリの関係を図でまとめました。
- データ入手とデータ前処理 ⇒使用するputhonライブラリ:NumPy/Pandas
- データ可視化 ⇒Matplotlib
- アルゴリズム選択・モデル構築⇒scikit-learn
- モデル精度評価 ⇒統計的評価
データ処理とライブラリの関係
こんなイメージでしょうか!
もしライブラリの特徴とかを知りたい方は以下の記事もみてみてください(^ ^)
まとめ
データ分析ってほとんどデータの前処理が必要なので、まず NumPy や Pandas を使いこなす事が必要なのかなと思いました。
あとは統計の知識も必要って事かなと!
それでは今日はここまで。
プログラミングを始めようと思った際は独学で勉強すると挫折する可能性が高いため、スクールも考えてもいいと思います!
データサイエンティストを目指すおすすめ
現役エンジニアから学ぶデータサイエンスコース / データサイエンスの基礎「Pythonコース」