Breaking

2018년 10월 26일 금요일

python pandas.unique(), pandas.Series.unique() <별별정보>

pandas.unique(), pandas.Series.unique() <별별정보>


pandas.unique()- pandas 0.23.4 document API Reference
pandas.Series.unique()- pandas 0.23.4 document API Reference



함수 설명

unique 말 그대로 독특하고 유일무이한, 고유한 이라는 뜻을 가진 단어로 ndarray 형태나 category 형태의 데이터에서 고유한 데이터만을 뽑아 반환해주는 함수이다. 때문에 데이터 분석을 하기 전에 어떤 데이터가 있는지를 확인하는데 좋은 함수로  pandas.Series.value_counts()와 비슷하게 사전조사로 사용하기도 한다.

1. pandas.unique(value)의 함수 형태

pd.unique(value)에서 value는 1d-array 형태로 들어가야하는데 np.array를 사용한 값을 사용할 수도 있고 list를 사용할 수도 있다. 뿐 아니라 Series 형태로 집어넣어도 실행이 가능하다.

1-1) pd.unique(1d-array)
1-2) pd.unique(list)
1-3) pd.unique(pd.Series)


2. pandas.Series.unique()의 함수 형태

pd.Series.unique()의 형태는 앞의 예와는 다르게 unique 함수의 괄호 안에 값을 집어넣지는 않는다. 대신 pd.Series의 형태로 넣고 unique()를 붙이는 방식을 채택하는데 개인적으로는 데이터 프레임을 많이써서 그런지 이 방법이 더 편한 느낌이 든다.

2-0) 사용할 데이터프레임 df


2-1) df.col.unique()

df.col은 Series 형태로 바로 사용이 가능하다. 다만 unique를 쓰고 ()를 적지않으면 pd.index.unique가 실행되어 다른 형태가 나타나니 주의해야한다. 참고로 pandas.index.unique의 함수도 존재하니 아래 링크를 참조하길 바란다.

pandas.Index.unique- pandas 0.23.4 document API Reference


2-2) pd.Series(1d-array 형태의 list나 np.array, pd.Categorical).unique()


ALL RIGHT RESERVED TWINSTARINFO