기존 time_zone data json형태로 변환

import json
records = [json.loads(line) for line in open('usagov.txt')]

records에서 timezone(‘tz’) 만 구하기

time_zones = [rec['tz'] for rec in records]

collections를 이용하여 각 timezone의 count 세기

from collections import defaultdict
def get_counts(sequence):
    counts = defaultdict(int)
    for x in sequence:
        counts[x] += 1
    return counts

Pandas로 DataFrame으로 Importing 하고 value_counts()를 통해 Series로 만든후 plot 출력

from pandas import DataFrame, Series
import numpy as npimport pandas as pd

frame = DataFrame(records)
tz_counts = frame['tz'].value_counts()
tz_counts.plot(kind='barh')

Load Excel File

  • excel 파일 load후 parse를 통해 해당 sheet DataFrame으로 변환
xls_file = pd.ExcelFile(exlFName)
xl = xls_file.parse(xls_file.sheet_names[sheetIdx])

loc를 이용하여 query 수행 및 특정 Series에 삽입

for i in range(len(xl)):    
    mt.loc[mt.id == xl.icol(idx)[i], ['price']] = xl.icol(amountIdx)[i]

원하는 colume순으로 재정렬

  • DataFrame 새로 생성시 columns에 원하는 array전달
cols = ['id', 'name', 'spec', 'remark', 'info'] 
mt = pd.DataFrame(mt, columns=cols)

records형태의 json으로 출력 후 json으로 parsing

j = json.loads(mt.to_json(orient='records'))