기존 time_zone data json형태로 변환
import json
records = [json.loads(line) for line in open('usagov.txt')]
records에서 timezone(‘tz’) 만 구하기
time_zones = [rec['tz'] for rec in records]
collections를 이용하여 각 timezone의 count 세기
from collections import defaultdict
def get_counts(sequence):
counts = defaultdict(int)
for x in sequence:
counts[x] += 1
return counts
Pandas로 DataFrame으로 Importing 하고 value_counts()를 통해 Series로 만든후 plot 출력
from pandas import DataFrame, Series
import numpy as npimport pandas as pd
frame = DataFrame(records)
tz_counts = frame['tz'].value_counts()
tz_counts.plot(kind='barh')
Load Excel File
- excel 파일 load후 parse를 통해 해당 sheet DataFrame으로 변환
xls_file = pd.ExcelFile(exlFName)
xl = xls_file.parse(xls_file.sheet_names[sheetIdx])
loc를 이용하여 query 수행 및 특정 Series에 삽입
for i in range(len(xl)):
mt.loc[mt.id == xl.icol(idx)[i], ['price']] = xl.icol(amountIdx)[i]
원하는 colume순으로 재정렬
- DataFrame 새로 생성시 columns에 원하는 array전달
cols = ['id', 'name', 'spec', 'remark', 'info']
mt = pd.DataFrame(mt, columns=cols)
records형태의 json으로 출력 후 json으로 parsing
j = json.loads(mt.to_json(orient='records'))
관련