그래프만들기
그래프
데이터를 그래프로 표현하면 추세와 경향성이 드러나기 때문에 특징을 쉽게 이해할 수 있다.
- ggplot2패키지 : 쉽고 짧은 문법으로 그래프를 만들 수 있다.
- 산점도, 막대그래프, 선그래프, 상자그림…
- 레이어 구조
산점도
산점도는 데이터를 x축과 y축에 점으로 표현한 그래프이다
연속 값으로 된 두 변수의 관계를 표현할 때 사용 ex) 나이, 소득
- 산점도 만들기 - ggplot2패키지 로드
- 배경 설정
ggplot(data = mpg, aes(x = displ, y = hwy))
- 그래프 추가 : + 기호를 이용해 그래프 유형지정 함수 추가
ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point()
- 축 범위 조정 : xlim(), ylim() 하나씩만 설정 가능
ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point() + xlim(3,6) + ylim(10, 30)
- 배경 설정
- ggplot() 함수 구조
막대그래프
집단 간 차이를 표현할 때 주로 사용된다
- 평균 막대 그래프 만들기
ggplot(data = df_mpg, aes(x = drv, y = mean_hwy)) + geom_col()
- 크기 순으로 정렬 - reorder()
ggplot(data = df_mpg, aes(x = reorder(drv, -mean_hwy), y = mean_hwy)) + geom_col()
- 빈도 막대 그래프 만들기
- x축만 지정, geam_col() 대신 geom_bar() 사용
ggplot(data = mpg, aes(x = drv)) + geom_bar()
- x축만 지정, geam_col() 대신 geom_bar() 사용
선 그래프
데이터를 선으로 표현한 그래프
시간에 다라 달라지는 데이터를 표현할 때 주로 사용한다
일정 시간 간격을 두고 나열된 데이터를 시계열 데이터라고 하고 시계열 데이터를 선으로 표현한 그래프를 시계열 그래프라고 한다
- 시계열 그래프 만들기
ggplot(data = economics, aes(x = date, y = unemploy )) + geom_line()
상자 그림
데이터의 분포를 직사각형 상자 모양으로 표현한 그래프
분포를 알 수 있기 때문에 데이터의 특징을 더 자세히 이해할 수 있다
- 상자 그림 만들기
ggplot(data = mpg, aes(x = drv, y = hwy)) + geom_boxplot()