• 배열연산 및 브로드 캐스팅
  • 불러온 데이터 미리보기 및 확인 10:50

 

2-3

배열연산 및 브로드 캐스팅

 

numpy를 활용하기 전에 반드시 문서를 확이해보아야한다.

np.subtract() 빼기연산

 

multiply() 곱셈 연산 (행열 연산이 아니라 요소 하나하나 곱하는 것)

 

floor_divide() 두 배열의 요소별 나눗셈 하고 소수점 이하는 버려준다.

 

mod() 요소별 나눗셈의 나머지를 반환

 

prod() 누적 곱셈

 

cumsum() 누적 덧셈 (값으로 나온 위치들 마다 앞에 위치한 요소들의 합이다.)

 

mean 평균

 

median 중간 요소들의 평균 

arr1([1,2,3,4,5,6])일땐 3가4의 평균인 3.5가 값으로 나온다.

 

std() 표준편차

 

var() 분산계산

분산이란? 관측값에서 평균 을 뺀 값을 제곱 하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다.

분산 계산은 어디에서 사용하지?

 

argmin/max 최소값/최대값의 위치 찾기

 

ptp 최대 최소의 차이가 어느정도인지 범주를 보여줌

 

exp 자연지수 계산

 

dot() 행열의 정곱

 


 

3-1

판다스 사용!

만일 현재 디렉토리에 csv파일을 저장해놓았다면

df = pd.read_csv("파일이름.txt")

csv란 데이터를 텍스트 형식으로 저장하는 데 사용하는 쉬운 파일 형식입니다.

 

데이터 불러오기

df.head() 데이터의 간략한 부분만 볼 수 있게한다.

df.tail() 뒤에서부터도 볼 수 있다.

df.sample() 랜덤하게 개수 지정한 만큼 골 수 있다.

df.info() 데이터 셋에 대한 전반적인 정보를 볼 수 있다.

df.describe() 기초 통계량의 정보를 볼 수 있다.

df.dtypes 컬럼별 타입을 확인할 수 있다.

df.columns 컬럼 이름을 확인할 수 있다.

for i in df.columns:
    print(df[i])  #각 컬럼에 대해 개별적인 접근이 가능하다.

df.index 데이터의 인덱스를 확인할 수 있다.

인덱스란? DB내부의 저장된 데이터의 주소 

 

 

1) 주요 옵션 sep, header

sep: 구분자를 지정합니다. 기본값은 ,입니다.

header: 헤더 행을 지정합니다. 기본값은 첫 번째 행(0)입니다.

만약 데이터가 탭으로 구분되어 있다면?

이스케이프 시퀀시(escape sequence)로 표현한다.

sheet_name : 읽고자 하는 시트 이름 또는 번호를 지정합니다. 기본값은 첫 번째 시트(0)입니다.

 

escape sequence란?

프로그래밍 언어 특성상 표현할 수 없는 기능, 문자를 표현해준다.

( \ )백슬래시와 함께 쓰여 설정 된 효과를 출력한다.

 

백슬래시는 \와 원화표시 왜 2개로 나오는가?

폰트의 우선순위로 보이는게 다르다. 한국어 우선이면 원화 영어 우선이면'\'이다.

 

2) URL로 데이터 불러오기

url = '<https://example.com/data.csv>' df_csv_url = pd.read_csv(url)

 

3) Excle파일 불러오기

df_excel = pd.read_excel('data.xlsx')

 

4) URL에서 Excel파일 불러오기

url = '<https://example.com/data.xlsx>'

 

5) Jason파일 불러오기

웹에서 자주 사용하는 데이터 형식.

df_json = pd.read_json('data.json')

jason은 테이블 형식이 아니라서 pandas에서 쓰려면

파씽, 플래튼 작업이 필요 함

 

6) cvs파일로 저장하기

df.to_csv('data.csv', index=False)

df.to_Excel

df.to_Jason

주의. URL을 지정하면 안된다.

 

7) 데이터 베이스 연결하기

conn = sqlite3.connect('database.db')

연결 후 sql테이블로 저장

df.to_sql('table_name', conn, if_exists='replace', index=False)

연결종료

conn.close()

 

 


 

3-2

불러온 데이터 미리보기 및 확인

 

튿정열에 대한 정보 

print(df['나이'].describe())

 

첫번째 행 확인

print(df.loc[0])

print(df.loc[0], name) 척번째행의 이름 확인

print(df.iloc[0, 1]) 첫 번째 행의 두 번째 열 데이터 조회

 

+ Recent posts