PandasでJSON形式の列データを複数列に展開する

November 10, 2018 python

過去、Pandas を使った列データの処理について様々書きました。

今回もデータの下処理のうちの１つ、「列データがJSON 文字列の場合」を考えます。

JSON文字列が格納されている列データを複数列に展開したい

以下のように、列名が json_col という DataFrame を準備します。なお、 json_col 列の中身は JSON 形式の文字列 であるとします。

1import pandas as pd
2
3data = {
4    'json_col': ['{"name": "soudegesu", "age": "30"}', '{"name": "hogehoge", "age": "10"}']
5}
6
7df = pd.DataFrame(data)
8df.head()

	json_col
0	{“name”: “soudegesu”, “age”: “30”}
1	{“name”: “hogehoge”, “age”: “10”}

今回のゴールは json_col 列を持った DataFrame を、 キー毎に別の列へ展開した DataFrame に変換すること とします。

以下になればOKです。

	age	name
0	30	soudegesu
1	10	hogehoge

では早速やってみましょう。

案１： `apply` と `json_normalize` を使う

まず、 apply と json_normalize の2つの関数を使う方法を紹介します。

これは、既に読み込まれた DataFrame に対して適用する場合に有用です。

1from pandas.io.json import json_normalize
2import json 
3
4df_json = json_normalize(df['json_col'].apply(lambda x: json.loads(x)))
5df_json.head()

	age	name
0	30	soudegesu
1	10	hogehoge

ここでポイントになるのは、 df['json_col'] で取得した Series オブジェクトに対して

apply 関数を使って各行のデータを辞書型に変換する
json_normalize を使ってキーを展開した DataFrame に変換する

の2点になります。

案２：`converters` オプションと `json_normalize` を使う

次はデータを csv ファイルから読み込むことを前提として話をします。

Pandas の read_csv 関数にある converters というオプションを使います。イメージとしては、案１の apply での変換処理を、csv ファイルのデータを DataFrame に変換するタイミングで行う感じです。

 1from pandas.io.json import json_normalize
 2import json 
 3import pandas as pd
 4
 5df = pd.read_csv(
 6    './hoge.csv',  #元データがhoge.csvに保存されているとします
 7    converters={column: json.loads for column in ['json_col']},
 8)
 9
10df_json = json_normalize(df['json_col'])
11df_json.head()

こちらの方法でも変換できました。

	age	name
0	30	soudegesu
1	10	hogehoge

ネストしているJSONはどのように展開されるのか

先程、2つの方法を紹介しましたが、 ネストしたJSONはどのように展開してくれるのか 気になりますよね。試してみましょう。

1import pandas as pd
2
3data = {
4    'json_col': ['{"name": "soudegesu", "age": "30", "address": {"area": "東京"}}', '{"name": "hogehoge", "age": "10", "address": {"area": "北海道"}}']
5}
6df = pd.DataFrame(data)
7df_json = json_normalize(df['json_col'].apply(lambda x: json.loads(x)))
8df_json.head()

	address.area	age	name
0	東京	30	soudegesu
1	北海道	10	hogehoge

列名が [キー名].[キー名] で展開されることがわかります。

配列が含まれるJSONはどのように展開されるのか

最後に 配列が含まれるJSONはどのように展開されるのか を確認します。

1import pandas as pd
2
3data = {
4    'json_col': ['{"name": "soudegesu", "age": "30", "tag": ["おっちょこちょい", "よく寝る"]}', '{"name": "hogehoge", "age": "10", "tag": ["せっかち", "よく食べる"]}']
5}
6df = pd.DataFrame(data)
7df_json = json_normalize(df['json_col'].apply(lambda x: json.loads(x)))
8df_json.head()

	age	name	tag
0	30	soudegesu	[おっちょこちょい, よく寝る]
1	10	hogehoge	[せっかち, よく食べる]

なるほど。展開はされるが、列に配列のまま出力される というところですね。

まとめ

今回は DataFrame の列データが JSON文字列 の場合の処理の仕方をまとめました。ステップとしては以下の2つを踏むことで、JSON内のデータを複数の列に展開することができます。

文字列を辞書型に変換する（apply や converters オプション）
辞書型を複数列に展開する（json_normalize）

ネストしたJSONでも問題なく展開されますが、JSONに配列が含まれる場合には別途展開するロジックが必要になりそうです。

PandasでJSON形式の列データを複数列に展開する

JSON文字列が格納されている列データを複数列に展開したい

案１： `apply` と `json_normalize` を使う

案２：`converters` オプションと `json_normalize` を使う

ネストしているJSONはどのように展開されるのか

配列が含まれるJSONはどのように展開されるのか

まとめ

関連記事

Pandasで列データの前処理を行う小技集

PandasでNaNの列を処理する

PandasでDataFrameの追加や結合をする

ExcelをPython（openpyxl）で操作する - PandasのDataFrameに変換

ExcelをPython（openpyxl）で操作する - セルの読み書き

JSON文字列が格納されている列データを複数列に展開したい

案１： apply と json_normalize を使う

案２：converters オプションと json_normalize を使う

ネストしているJSONはどのように展開されるのか

配列が含まれるJSONはどのように展開されるのか

まとめ

関連記事

案１： `apply` と `json_normalize` を使う

案２：`converters` オプションと `json_normalize` を使う