데이터 분석/이것이 데이터 분석이다 with python

기본 데이터 분석

이니니 2022. 7. 27. 16:15
본 내용은 도서 '이것이 데이터분석이다 With Python'의 내용을 참고했습니다.

 

판다스 라이브러리 불러오기
import pandas as pd

 

데이터 프레임을 생성하고 일부분 살펴보기
# pandas의 df 생성
names = ['bob', 'jessica', 'mary', 'john', 'mel']
births = [968, 155, 77, 578, 971]
custon = [1, 5, 25, 10, 23230]

babydataset = list(zip(names, births))
df = pd.DataFrame(data = babydataset, columns = ['Names', 'Births'])

df.head()

 

데이터프레임의 기본 정보 출력하기 - 열 타입 정보
df.dtypes

 

데이터프레임의 기본 정보 출력하기 - 인덱스 정보
df.index

 

데이터프레임의 기본 정보 출력하기 - 열의 형태 정보
df.columns

 

데이터 프레임의 열 선택하기
df['Names']

 

데이터 프레임의 인덱스 선택하기
df[0:3]

 

조건을 추가하여 선택하기
df[df['Births'] > 100]

 

평균값 계산하기
df.mean()

 

넘파이의 설치와 활용
import numpy as np

 

넘파이 배열 생성하기
arr1 = np.arange(15).reshape(3, 5)
arr1

 

넘파이 배열 정보 확인하기
arr1.shape

 

다른 형태의 배열 생성하기
arr3 = np.zeros((3, 4))
arr3

 

넘파이 배열을 이용한 사칙연산 수행하기
arr4 = np.array([
    [1, 2, 3],
    [4, 5, 6]
], dtype = np.float64)

arr5 = np.array([
    [7, 8, 9],
    [10, 11, 12]
], dtype = np.float64)

print('arr4 + arr5 = ')
print(arr4 + arr5, '\n')
print('arr4 - arr5 = ')
print(arr4 - arr5, '\n')
print('arr4 * arr5 = ')
print(arr4 * arr5, '\n')
print('arr4 / arr5 = ')
print(arr4 / arr5, '\n')

 

Matplotlib 라이브러리 불러오기
# 주피터 노트북에서 그래프 출력 가능하게 선언하는 명령어
%matplotlib inline 

import matplotlib.pyplot as plt

 

막대 그래프 출력하기
y = df['Births']
x = df['Names']

plt.bar(x, y) # 막대 그래프 개체 생성
plt.xlabel('Names') # x축 제목
plt.ylabel('Births') # y축 제목
plt.title('Bar plto') # 그래프 제목
plt.show() # 그래프 출력

 

산점도 그래프 출력하기
# 랜덤 추출 시드 고정
np.random.seed(19981105)

# 산점도 데이터 생성
x = np.arange(0.0, 100.0, 5.0)
y = (x * 1.5) + np.random.rand(20) * 50

# 산점도 데이터 출력
plt.scatter(x, y, c = 'b', alpha = 0.5, label = 'scatter point')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc = 'upper left')
plt.title('Scatter plot')
plt.show()