私みたいな機械学習の初心者にはデータがどんなものなのか知りたい時があります
超簡単にデータ分析する方法があったのでメモとして残します
レポート出力
import pandas as pd import pandas_profiling # 日経データ df = pd.read_csv('https://raw.githubusercontent.com/zaq9/nk225_list/master/nk225_list.csv') pandas_profiling.ProfileReport(df)
データプロファイリングレポートを表示するために必要なのはこれだけです。
レポートは必要に応じてチャートを含めてかなり詳細です。
レポート内容
* 基本事項:タイプ、固有値、欠損値
* 最小値、Q1、中央値、Q3、最大値、範囲、四分位範囲などの分位点統計
* 平均、最頻値、標準偏差、合計、絶対絶対値中央値、変動係数、尖度、歪度などの記述統計
* 最も頻繁な値
* ヒストグラム
* 相関性の高い変数、Spearman、Pearson、Kendall行列の相関関係
* 欠損値の行列、カウント、ヒートマップ、および欠損値の樹状図
ざっくりデータを分析する際に非常に便利です。
EDA (探索的データ解析) の第一歩として非常に有用
HTML出力する場合は以下を追加
profile.to_file(outputfile="myoutputfile.html") from IPython.display import HTML HTML(filename='myoutputfile.html')
個別レポート出力の仕方を探してみたのですが・・・ JupiterNoteBookではできなかった