pythonでデータ分析:CSVファイルの読み込みの三つのポイント

データ分析
Sponsored Link

 

国債金利の動きを可視化できないかと思い、やってみたことのメモです。

使うプログラミング言語はgoogle でも使われているPythonを使ってみました。

Pythonを選んだ理由は他のプログラミング言語と比べて、書きやすくて読みやすいのと、あとは無料で使えるので使ってみるのもいいかなと思った次第。

まず、データを可視化するために必要なデータを、Python で読み込む必要があります。

読み込むデータ形式ですが、エクセルでもCSVでもどちらでも読み込めるので、特にこだわる必要はないですね。

今回使うデータの入手先は財務省のホームページ。

そこから、国債の金利データをCSV形式でダウンロードしたので、それを使ってデータを可視化するためのの下準備をしていきましょう。

python: CSVデータの読み込み

CSVデータの読み込みに使うのが、pandas ライブラリーの「read_CSV関数」。

read_CSV関数を使って国債金利のデータを読み込んでいきます。

import pandas as pd
df = pd.read_csv('jgbcm_all.csv', encoding = 'utf-8', header = 0)
print(df)

Python: 文字コードの変換

以下のような、エラーが出てしまいました。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8d in position 0: invalid start byte

このエラーの意味は、文字コード「utf-8」は読み込めないと言っています。

Pythonは、エラーとその原因を出してくれるのはありがたいのですが、なんか分かりにくいんですよね。

import pandas as pd
df = pd.read_csv('jgbcm_all.csv', encoding = 'utf-8', header = 0 ) # utf-8 の部分がエラーが出ている。
print(df)

なので、いろいろググった結果「’shift-jis’」使えるらしいので、試してみました。

以下のように、「utf-8」を「shift-jis」に変更します。

import pandas as pd
df = pd.read_csv('jgbcm_all.csv', encoding = 'shift-jis', header = 0 ) # utf-8 を shift-jis に変更
print(df)

でこれを実装すると、以下のようにデータの読み込みには成功です。

Python:DataFrameを見やすく

しかしこれでは、何が書いてあるかよくわかりませんので、なんとなくでも形が見えるように整形する必要はあります。

もっとよく見えるようにするための方法として「print()」 の代わりに 「display()」を使ってみます。

前に使ったコードの一番下「print(df)」を「display(df)」に変更するだけです。

import pandas as pd
df = pd.read_csv('jgbcm_all.csv', encoding = 'shift-jis', header = 0 )
display(df) # print()の代わりにdisplay()を使う。

とても見やすくなりました。

CSVを読み込むことに成功はしましたが、分析のための可視化が最終目的なので、まだまだ作業は続きます。

 

Sponsored Link

コメント

タイトルとURLをコピーしました