Python/이론

115. [Python] [Pandas] 프로그래밍 기본 사항 : DataBivariate (여러개의 변수간의) Visualization 방법

천재단미 2025. 1. 23. 19:40
728x90
반응형
반응형

 

 

 
 

DataBivariate (여러개의 변수간의) Visualization 방법

 
 
 
 

 
 

 
 
 

my_order = df['make'].value_counts().index

plt.figure(figsize = (10,20))
sb.countplot(data = df, y = 'make', order = my_order)
plt.show()

 
 
 

 
 
 
 참고
위와 같이 countplot로 자료를 생성하기에 광범위 할경우  지금 소개하는 방법들을 사용하면 유용합니다.






 
 

  TIP💡 

 
 
 
corr()  : 메서드는 pandas에서 DataFrame의 열 간 상관관계를 계산하는 데 사용됩니다. 
 

dataframe.corr(method='pearson', min_periods=1)

 
 

 
 
 
 
 
 

1. Scatter Plot (산점도)

  • 용도: 두 연속형 변수 사이의 관계를 시각적으로 탐색.

 

plt.scatter(data=df, x='displ', y='comb')
plt.title('Displ vs Comb')
plt.xlabel('Displacement (L)')
plt.ylabel('Combined Fuel Eff (mpg)')
plt.show()

 
 

 
 

코드분석

  • displ(배기량)과 comb(연비)의 음의 상관관계(-0.758)를 확인.

 

출력

 

 
 
 
 
 
 
 

2. Regression Line 추가

 

  • 목적: 산점도에 선형 회귀선을 추가하여 경향을 시각화.
sb.regplot(data=df, x='displ', y='comb', ci=None)
plt.title('Displ vs Comb with Regression Line')
plt.xlabel('displ')
plt.ylabel('comb')
plt.show()

 
 

출력

 

 
 
 
 
 
 
 

3. Pair Plot (다변수 산점도)

  • 용도: 여러 변수 간의 관계를 한 화면에 표현.

 

sb.pairplot(data=df, vars=['displ', 'comb', 'co2', 'cylinders'])
plt.show()

 

 
 
 

코드분석

  • 주요 연속형 변수 간의 분포와 상관관계를 탐색 가능.

 
 

출력

 
 
 
 
 
 
 
 
 

4. Heatmap (히트맵)

  • 용도: 변수 간의 상관관계를 시각적으로 표현.

 

corr_matrix = df.corr(numeric_only=True)
sb.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm', linewidths=0.5)
plt.title('Correlation Matrix Heatmap')
plt.show()

 
 

코드분석

 

  • cmin = 0.5 : 상관계수가 0.5 미만인 값들은 모두 무색(흰색)으로 표시됩니다.
  • cmap = 'viridis_r' : 이 컬러맵을 반전 (_r) 붙어서 반점 / 'viridis'는 Matplotlib의 컬러맵 중 하나

 
 
 

출력

 

 

728x90
반응형
home top bottom
}