728x90
반응형
반응형
DataBivariate (여러개의 변수간의) Visualization 방법
my_order = df['make'].value_counts().index
plt.figure(figsize = (10,20))
sb.countplot(data = df, y = 'make', order = my_order)
plt.show()
참고
위와 같이 countplot로 자료를 생성하기에 광범위 할경우 지금 소개하는 방법들을 사용하면 유용합니다.
TIP💡
corr() : 메서드는 pandas에서 DataFrame의 열 간 상관관계를 계산하는 데 사용됩니다.
dataframe.corr(method='pearson', min_periods=1)
1. Scatter Plot (산점도)
- 용도: 두 연속형 변수 사이의 관계를 시각적으로 탐색.
plt.scatter(data=df, x='displ', y='comb')
plt.title('Displ vs Comb')
plt.xlabel('Displacement (L)')
plt.ylabel('Combined Fuel Eff (mpg)')
plt.show()
코드분석
- displ(배기량)과 comb(연비)의 음의 상관관계(-0.758)를 확인.
출력
2. Regression Line 추가
- 목적: 산점도에 선형 회귀선을 추가하여 경향을 시각화.
sb.regplot(data=df, x='displ', y='comb', ci=None)
plt.title('Displ vs Comb with Regression Line')
plt.xlabel('displ')
plt.ylabel('comb')
plt.show()
출력
3. Pair Plot (다변수 산점도)
- 용도: 여러 변수 간의 관계를 한 화면에 표현.
sb.pairplot(data=df, vars=['displ', 'comb', 'co2', 'cylinders'])
plt.show()
코드분석
- 주요 연속형 변수 간의 분포와 상관관계를 탐색 가능.
출력
4. Heatmap (히트맵)
- 용도: 변수 간의 상관관계를 시각적으로 표현.
corr_matrix = df.corr(numeric_only=True)
sb.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm', linewidths=0.5)
plt.title('Correlation Matrix Heatmap')
plt.show()
코드분석
- cmin = 0.5 : 상관계수가 0.5 미만인 값들은 모두 무색(흰색)으로 표시됩니다.
- cmap = 'viridis_r' : 이 컬러맵을 반전 (_r) 붙어서 반점 / 'viridis'는 Matplotlib의 컬러맵 중 하나
출력
728x90
반응형
'Python > 이론' 카테고리의 다른 글
114. [Python] [Pandas] 프로그래밍 기본 사항 : Tidy Data (0) | 2025.01.23 |
---|---|
112. [Python] [Pandas] 프로그래밍 기본 사항 : CONCATENATING AND MERGING (0) | 2025.01.23 |
111. [Python] [Pandas] 프로그래밍 기본 사항 : Pandas Series의 문자열 메서드 (str.) (0) | 2025.01.23 |
110. [Python] [Pandas] 프로그래밍 기본 사항 : Dealing with NaN (0) | 2025.01.22 |
109. [Python] [Pandas] 프로그래밍 기본 사항 : Dataframe (0) | 2025.01.22 |