masalibの日記

システム開発、運用と猫の写真ブログです

pandas_profilingでなんちゃって分析をする

私みたいな機械学習の初心者にはデータがどんなものなのか知りたい時があります
超簡単にデータ分析する方法があったのでメモとして残します

レポート出力

import pandas as pd
import pandas_profiling

# 日経データ
df = pd.read_csv('https://raw.githubusercontent.com/zaq9/nk225_list/master/nk225_list.csv')
pandas_profiling.ProfileReport(df)

データプロファイリングレポートを表示するために必要なのはこれだけです。
レポートは必要に応じてチャートを含めてかなり詳細です。

レポート内容
* 基本事項:タイプ、固有値、欠損値 * 最小値、Q1、中央値、Q3、最大値、範囲、四分位範囲などの分位点統計 * 平均、最頻値、標準偏差、合計、絶対絶対値中央値、変動係数、尖度、歪度などの記述統計 * 最も頻繁な値 * ヒストグラム * 相関性の高い変数、Spearman、Pearson、Kendall行列の相関関係 * 欠損値の行列、カウント、ヒートマップ、および欠損値の樹状図

ざっくりデータを分析する際に非常に便利です。
EDA (探索的データ解析) の第一歩として非常に有用

HTML出力する場合は以下を追加

profile.to_file(outputfile="myoutputfile.html")

from IPython.display import HTML
HTML(filename='myoutputfile.html')

個別レポート出力の仕方を探してみたのですが・・・ JupiterNoteBookではできなかった