그래프만들기

그래프

데이터를 그래프로 표현하면 추세와 경향성이 드러나기 때문에 특징을 쉽게 이해할 수 있다.

  • ggplot2패키지 : 쉽고 짧은 문법으로 그래프를 만들 수 있다.
    • 산점도, 막대그래프, 선그래프, 상자그림…
    • 레이어 구조
      ggplot2_layer

산점도

산점도는 데이터를 x축과 y축에 점으로 표현한 그래프이다
연속 값으로 된 두 변수의 관계를 표현할 때 사용 ex) 나이, 소득

  • 산점도 만들기 - ggplot2패키지 로드
    1. 배경 설정
       ggplot(data = mpg, aes(x = displ, y = hwy))
      
    2. 그래프 추가 : + 기호를 이용해 그래프 유형지정 함수 추가
       ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point()
      
    3. 축 범위 조정 : xlim(), ylim() 하나씩만 설정 가능
       ggplot(data = mpg, aes(x = displ, y = hwy)) +
           geom_point() +
           xlim(3,6) +
           ylim(10, 30)
      

      lim

  • ggplot() 함수 구조
    geom_method

막대그래프

집단 간 차이를 표현할 때 주로 사용된다

  • 평균 막대 그래프 만들기
      ggplot(data = df_mpg, aes(x = drv, y = mean_hwy)) + geom_col()
    
  • 크기 순으로 정렬 - reorder()
      ggplot(data = df_mpg, aes(x = reorder(drv, -mean_hwy), y = mean_hwy)) + geom_col()
    
  • 빈도 막대 그래프 만들기
    • x축만 지정, geam_col() 대신 geom_bar() 사용
        ggplot(data = mpg, aes(x = drv)) + geom_bar()
      

선 그래프

데이터를 선으로 표현한 그래프
시간에 다라 달라지는 데이터를 표현할 때 주로 사용한다
일정 시간 간격을 두고 나열된 데이터를 시계열 데이터라고 하고 시계열 데이터를 선으로 표현한 그래프를 시계열 그래프라고 한다

  • 시계열 그래프 만들기
      ggplot(data = economics, aes(x = date, y = unemploy )) + geom_line()
    

    line_graph

상자 그림

데이터의 분포를 직사각형 상자 모양으로 표현한 그래프
분포를 알 수 있기 때문에 데이터의 특징을 더 자세히 이해할 수 있다

  • 상자 그림 만들기
      ggplot(data = mpg, aes(x = drv, y = hwy)) + geom_boxplot()
    

    box_graph

카테고리:

업데이트: