-
[pandas] read_csv 필요한 열만 읽기 usecols데이터분석 2022. 10. 13. 14:14
pandas.read_csv
pandas.read_csv(filepath_or_buffer, sep=_NoDefault.no_default,delimiter=None,header='infer',
names=_NoDefault.no_default,index_col=None,usecols=None,squeeze=None,prefix=_NoDefault.no_default,
mangle_dupe_cols=True,dtype=None,engine=None,converters=None,true_values=None,false_values=None,
skipinitialspace=False,skiprows=None,skipfooter=0,nrows=None,na_values=None,keep_default_na=True,
na_filter=True, verbose=False,skip_blank_lines=True,parse_dates=None,infer_datetime_format=False,
keep_date_col=False,date_parser=None,dayfirst=False,cache_dates=True,iterator=False,
chunksize=None,compression='infer', thousands=None, decimal='.',lineterminator=None,
quotechar='"',quoting=0,doublequote=True,escapechar=None,comment=None,
encoding=None,encoding_errors='strict',dialect=None,error_bad_lines=None,warn_bad_lines=None,
on_bad_lines=None,delim_whitespace=False,low_memory=True,memory_map=False,
float_precision=None,storage_options=None)
read_csv에는 참 많은 파라미터 가 있다.
워낙 많다보니 쓰는 파라미터만 쓰게 된다. (노란 배경색이 들어간 부분,,많이 쓰는것도 종종 쓰는것도 있다)
오늘은 그 중 필요없는 열은 제외하고 데이터 읽어오기를 담당하는 use_cols 활용해보고자 한다.
열이름에 'Unnamed'가 포함되는 경우 제외하고 읽어오고 싶은 경우,
read_csv 함수 usecols 파라미터 에 lambda 함수를 이용하면 된다.
import pandas as pd pd.read_csv(data_url_parsing,sep=",",usecols=lambda x: 'Unnamed' not in x)
'데이터분석' 카테고리의 다른 글
[pandas]데이터프레임 행 단위 연산 (apply, 조건에 맞게 처리,예외 처리) (0) 2022.11.10 [pandas] read_csv 화폐 단위 열 콤마(,) 제외하고 숫자로 읽어오기 (0) 2022.10.14 [pandas] replace 로 값 한꺼번에 바꾸기 ( replace with dictionary, regex) (0) 2022.08.10 윈도우 python 가상환경에 kaggle api 설치 (0) 2022.07.15 [pandas] pandas profiling on Google Colab (구글코랩에서 판다스 프로파일링 해보기) (0) 2022.07.14