python pandas.cut <별별정보>

python pandas.cut()<별별정보>

pandas.cut()- pandas 0.23.4 document API Reference

함수 설명
이 함수는 데이터 분석에서 주로 연속형 변수로 구성된 열을 Category로 구성된 열로 만드는데 사용하는 함수이다. 원하는 label로 원하는 빈도만큼의 간격만큼을 설정해 만드는 카테고리형 함수를 만들 수 있다는데 장점이 있다.

변수 설명 및 예시
1. x : 1d 형태의 모든 배열을 넣을 수 있는 변수로 pd.Series, list, np.array의 형태 모두 가능하다.
당연한 이야기지만 반드시 넣어야하는 연속형 데이터이어한다.

1) x=pd.Series
2) x=list
3) x=np.array

※2~8번까지의 변수에 사용할 1-D 데이터이다. 이를 중심으로 기술하니 a에 무엇이 있나를 확인하면서 보시길 바랍니다.

2. bins : x변수와 더불어 반드시 집어 넣어야하는 변수로 몇 개의 category로 설정할 것인지를 정하는 변수이다. 이 변수는 3가지 형태로 집어넣을 수 있는데 1) int 형태 2) 정수형 sequence 3)intervalindex이다.

3) intervalindex의 경우 pandas.intervalindex라는 함수를 사용한 것인데 여기서는 다루지 않고 아래 링크만 걸어두겠다.
pandas.IntervalIndex()- pandas 0.23.4 document API Reference

2-1) bins=int
2-2) bins= 정수형 sequence

3. right : 연속형 변수에서 category로 나눌 때 각 구간별 숫자의 범위에서 오른쪽에 해당하는 숫자를 포함시킬지 왼쪽에 있는 숫자를 포함시킬지를 정하는 변수로 default=True로 설정되어 있다. 때문에 설정하지 않으면 오른쪽을 포함시키는 구간으로 (a, b]형태로 나타나지만 right=False를 설정하면 왼쪽을 포함시키는 구간으로 설정되어 [a,b)형태가 됨을 알 수 있다.

3-1) right=True (default)
3-2) right=False

4. labels : 선택사항인 이 변수는 연속형 변수로 나눈 구간에 이름을 지어줄 수 있는 label 변수이다. 선택하지 않으면 자동적으로 label이 구간 범위를 나타내는 category가 이름이지만 이 변수를 사용하면 깔끔한 이름으로 변형이 가능하다.
추가로 labels=False라는 설정도 가능한데 이를 통해서는 label이 구간 범위를 설정하는 것이 아니라 0부터 시작하는 정수를 label로 갖는 것을 확인 가능하다.

4-1) labels = 없음
4-1) labels = array
4-1) labels = 없음
4-1) labels = True ==> bool

5. retbins : bins가 어떤 숫자를 기준으로 나누었는지를 확인이 가능한 변수로 특히 bins가 정수이면 효과적이라고 한다. 내가 보일 예시는 bins를 내가 직접 설정하지 않았을 때와 직접 설정했을 때 2가지 예시를 보일텐데 이를 보면 이해가 더 쉽지않을까한다.

5-1) bins=sequence, retbins=False
5-2) bins=sequence, retbins=True
5-3) bins=int, retbins=False
5-4) bins=int, retbins=True

6. precision : bin labels를 저장하고 표현가능하고 정수로 설정할 수 있으며 default=3이다. 그러나 개인적으로 여러 실험을 해보았음에도 쓰는 방법이 무시되는 것 아닌가 하는 변수로 쓸모도 없어보이므로 예를 따로 보이지는 않겠다.

7. include_lowest : 첫 번째 간격에서 왼쪽 간격을 포함할지 포함하지 않을지를 설정하는 변수로 default False로 설정되어 있다. 그러나 True로 쓰던지 쓰지않던지 상관없이 자동으로 가장 낮은 값이 포함되지 않는

7-1) include_lowest=False
7-2) include_lowest=True

8. duplicates : bins가 중복되는 값으로 설정하면 일반적으로는 오류가 뜨지만 duplicate='drop'을 설정해주면 자동으로 중복된 값을 무시하고 실행하게 도와주는 변수이다. default='raise'이다.

8-1) duplicates='drop'
8-2) duplicates='raise'