- 배열연산 및 브로드 캐스팅
- 불러온 데이터 미리보기 및 확인 10:50
2-3
배열연산 및 브로드 캐스팅
numpy를 활용하기 전에 반드시 문서를 확이해보아야한다.
np.subtract() 빼기연산
multiply() 곱셈 연산 (행열 연산이 아니라 요소 하나하나 곱하는 것)
floor_divide() 두 배열의 요소별 나눗셈 하고 소수점 이하는 버려준다.
mod() 요소별 나눗셈의 나머지를 반환
prod() 누적 곱셈
cumsum() 누적 덧셈 (값으로 나온 위치들 마다 앞에 위치한 요소들의 합이다.)
mean 평균
median 중간 요소들의 평균
arr1([1,2,3,4,5,6])일땐 3가4의 평균인 3.5가 값으로 나온다.
std() 표준편차
var() 분산계산
분산이란? 관측값에서 평균 을 뺀 값을 제곱 하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다.
분산 계산은 어디에서 사용하지?
argmin/max 최소값/최대값의 위치 찾기
ptp 최대 최소의 차이가 어느정도인지 범주를 보여줌
exp 자연지수 계산
dot() 행열의 정곱
3-1
판다스 사용!
만일 현재 디렉토리에 csv파일을 저장해놓았다면
df = pd.read_csv("파일이름.txt")
csv란 데이터를 텍스트 형식으로 저장하는 데 사용하는 쉬운 파일 형식입니다.
데이터 불러오기
df.head() 데이터의 간략한 부분만 볼 수 있게한다.
df.tail() 뒤에서부터도 볼 수 있다.
df.sample() 랜덤하게 개수 지정한 만큼 골 수 있다.
df.info() 데이터 셋에 대한 전반적인 정보를 볼 수 있다.
df.describe() 기초 통계량의 정보를 볼 수 있다.
df.dtypes 컬럼별 타입을 확인할 수 있다.
df.columns 컬럼 이름을 확인할 수 있다.
for i in df.columns:
print(df[i]) #각 컬럼에 대해 개별적인 접근이 가능하다.
df.index 데이터의 인덱스를 확인할 수 있다.
인덱스란? DB내부의 저장된 데이터의 주소
1) 주요 옵션 sep, header
sep: 구분자를 지정합니다. 기본값은 ,입니다.
header: 헤더 행을 지정합니다. 기본값은 첫 번째 행(0)입니다.
만약 데이터가 탭으로 구분되어 있다면?
이스케이프 시퀀시(escape sequence)로 표현한다.
sheet_name : 읽고자 하는 시트 이름 또는 번호를 지정합니다. 기본값은 첫 번째 시트(0)입니다.
escape sequence란?
프로그래밍 언어 특성상 표현할 수 없는 기능, 문자를 표현해준다.
( \ )백슬래시와 함께 쓰여 설정 된 효과를 출력한다.
백슬래시는 \와 원화표시 왜 2개로 나오는가?
폰트의 우선순위로 보이는게 다르다. 한국어 우선이면 원화 영어 우선이면'\'이다.
2) URL로 데이터 불러오기
url = '<https://example.com/data.csv>' df_csv_url = pd.read_csv(url)
3) Excle파일 불러오기
df_excel = pd.read_excel('data.xlsx')
4) URL에서 Excel파일 불러오기
url = '<https://example.com/data.xlsx>'
5) Jason파일 불러오기
웹에서 자주 사용하는 데이터 형식.
df_json = pd.read_json('data.json')
jason은 테이블 형식이 아니라서 pandas에서 쓰려면
파씽, 플래튼 작업이 필요 함
6) cvs파일로 저장하기
df.to_csv('data.csv', index=False)
df.to_Excel
df.to_Jason
주의. URL을 지정하면 안된다.
7) 데이터 베이스 연결하기
conn = sqlite3.connect('database.db')
연결 후 sql테이블로 저장
df.to_sql('table_name', conn, if_exists='replace', index=False)
연결종료
conn.close()
3-2
불러온 데이터 미리보기 및 확인
튿정열에 대한 정보
print(df['나이'].describe())
첫번째 행 확인
print(df.loc[0])
print(df.loc[0], name) 척번째행의 이름 확인
print(df.iloc[0, 1]) 첫 번째 행의 두 번째 열 데이터 조회
'TIL' 카테고리의 다른 글
내일배움캠프 9일차 TIL + 개인과제 2번 3번, 알게 된 것들/까먹은 것들 (2) | 2024.10.10 |
---|---|
내일배움캠프 8일차 TIL + 판다스 심화 (3) | 2024.10.08 |
내일배움캠프 6일차 TIL + python의 확장 기능과 조별 과제 (2) | 2024.10.04 |
내일배움캠프 5일차 TIL + 파일과 이터레이터(Iterator) 제너레이터(Generator) (1) | 2024.10.02 |
9/30 내일배움캠프 3일차 TIL + 파이썬의 기초(설치, 문법) (3) | 2024.09.30 |