데이터 불러오기
csv,xls,xlsx 파일을 불러오는 데이터 불러오기 함수 & 웹상에 있는 데이터 가져오는 방법
- 파일에서 불러오기
: csv 파일 불러오기 -> read.csv() 함수 => ('경로, 파일명',데이터에 한글이 포함된 경우 명시)
: xlsx, xls 파일 불러오기 -> read.excel 함수 => ('경로,파일명', sheetname='시트명')
- 인터넷에서 불러오기
: read_함수 사용
import pandas as pd
df = pd.read_csv("http://www.innocoding.co.kr/python_3-1.csv")
print(df.to_html())
csv 파일?
: comma-separated values
: 몇가지 필드를 쉼표로 구분한 텍스트 데이터 및 텍스트 파일
: 스프레드시트나 데이터베이스 SW에서 많이 사용
데이터 확인하기
파일 혹은 url로부터 불러온 데이터가 정상적으로 불러와졌는지 확인 & 다양한 통계량 계산 함수
: 데이터의 대략적인 부분을 확인할 수 있는 기능 제공
: shape , head(), tail()
- df.shape => 행과 열의 개수 (행의 개수, 열의 개수)
- df.head() => 위에서 부터 5개행까지의 데이터
- df.tail() => 아래에서부터 다섯개의 행까지를 출력해주는 함수
import pandas as pd
df = pd.read_csv("http://www.innocoding.co.kr/iris_csv.csv")
print('데이터의 행과 열의 개수 = ',df.shape)
print('[처음부터 5개행]') print(df.head().to_html())
print('[마지막 5개행]') print(df.tail().to_html())
- 데이터 통계량 확인하기
: mean(), var(), min(), max()
: describe() = 열별로 다양한 기초 통계량 계산
- count는 결측을 제외한 요소의 개수
: corr() = 열별 상관계수
'Data Analysis > Python' 카테고리의 다른 글
[Web Crawling] 웹 크롤링을 위한 파이썬의 Requests 모듈 (0) | 2022.05.08 |
---|---|
[Matplotlib] Matplotlib을 이용한 그래프 그리기-2 (0) | 2022.04.02 |
[Matplotlib] Matplotlib을 이용한 그래프 그리기 (0) | 2022.04.02 |
[Pandas] 데이터 인덱싱과 슬라이싱 (0) | 2022.03.31 |
[Pandas] Pandas 자료형_Series, Data Frame, Index (0) | 2022.03.30 |
댓글