데이터 프레임

데이터 프레임

데이터 프레임

  • 열 : 속성 > 컬럼,변수
  • 행 : 한 사람의 정보 > Row,Case
    • 한 명에 대한 데이터는 가로 한 줄에 나열
    • 데이터가 크다 = 행이 많다 or 열이 많다
      • 행이 많다 > 컴퓨터가 느려짐 > 고사양 장비
      • 열이 많다 > 분석 방법의 한계 > 고급 분석 방법

데이터 프레임 만들기

  1. 변수 만들기
     english <- c(90, 80, 60, 70)
     math <- c(50, 60, 100, 20)
    
  2. 데이터 프레임 만들기
     df_midterm <- data.frame(english, math)
     df_midterm
    
       english math
     1      90   50
     2      80   60
     3      60  100
     4      70   20
    
  3. 데이터 프레임에 정보 추가
     class <- c(1, 1, 2, 2)
     df_midterm <- data.frame(english, math, class)
     df_midterm
    
       english math class
     1      90   50     1
     2      80   60     1
     3      60  100     2
     4      70   20     2
    
  4. 분석
    • mean() : 평균
        mean(df_midterm$english) # english 평균 산출
        [1] 75
      
        mean(df_midterm$math) # math 평균
        [1] 57.5
      
  5. 데이터 프레임 한번에 만들기
     df_midterm <- data.frame(english = c(90, 80, 60, 70),
                          math = c(50, 60, 100, 20),
                          class = c(1, 1, 2, 2))
     df_midterm
    
       english math class
     1      90   50     1
     2      80   60     1
     3      60  100     2
     4      70   20     2
    

외부 데이터 이용

  • 엑셀 파일
    1. 프로젝트 폴더에 엑셀 파일 삽입
    2. readxl 패키지 설치, 로드
    3. 엑셀 파일 불러오기
      • read_excel() : 엑셀 파일을 데이터 프레임으로 만들어줌
      • read_excel <- read_excel(“excel_exam.xlsx”)
      • xlsx까지 기입해야 함
    4. 분석
      • mean(df_exam$english) - 엑셀 파일 첫 번째 행이 변수 명이 아니면 read_excel()이 엑셀 파일의 첫번 째 행을 변수명으로 인식하기 때문에 첫 번째 행이 유실 될 수 있음
      • col_names = F 파라미터를 사용하여 첫 번째 행을 데이터로 인식해서 불러오고, 변수명은 ‘X__숫자’ 형태로 불러오게 한다
      • col_name : 열 이름을 가져올 것인가? (논리형)
         df_exam_novar <- read_excel("excel_exam_novar.xlsx", col_names = F)
         df_exam_novar
        
         ...1  ...2  ...3  ...4  ...5
        <dbl> <dbl> <dbl> <dbl> <dbl>
         1     1     1    50    98    50
         2     2     1    60    97    60
         3     3     2    25    80    65
         4     4     2    50    89    98
         5     5     3    20    98    15
         6     6     3    50    98    45
         7     7     4    46    98    65
         8     8     4    48    87    12
        
  • CSV 파일로 저장
    • R 내장함수 wirte.csv()를 이용해 저장
    • write.csv(프레임명, file = “파일명.csv”)
  • RData 파일
    1. RData 파일로 저장
      • save(프레임명, file = “파일명.rda”)
      • 프로젝트 폴더에 생성됨
    2. 불러오기
      • load(“파일명.rda”)
    3. 데이터 프레임 삭제 : rm()
      • read.csv(), read_excel()은 변수에 할당해서 사용
      • load는 저장할 때 사용한 데이터 프레임이 자동으로 만들어 짐

카테고리:

업데이트: