데이터 프레임
데이터 프레임
데이터 프레임
- 열 : 속성 > 컬럼,변수
- 행 : 한 사람의 정보 > Row,Case
- 한 명에 대한 데이터는 가로 한 줄에 나열
- 데이터가 크다 = 행이 많다 or 열이 많다
- 행이 많다 > 컴퓨터가 느려짐 > 고사양 장비
- 열이 많다 > 분석 방법의 한계 > 고급 분석 방법
데이터 프레임 만들기
- 변수 만들기
english <- c(90, 80, 60, 70) math <- c(50, 60, 100, 20)
- 데이터 프레임 만들기
df_midterm <- data.frame(english, math) df_midterm english math 1 90 50 2 80 60 3 60 100 4 70 20
- 데이터 프레임에 정보 추가
class <- c(1, 1, 2, 2) df_midterm <- data.frame(english, math, class) df_midterm english math class 1 90 50 1 2 80 60 1 3 60 100 2 4 70 20 2
- 분석
- mean() : 평균
mean(df_midterm$english) # english 평균 산출 [1] 75 mean(df_midterm$math) # math 평균 [1] 57.5
- mean() : 평균
- 데이터 프레임 한번에 만들기
df_midterm <- data.frame(english = c(90, 80, 60, 70), math = c(50, 60, 100, 20), class = c(1, 1, 2, 2)) df_midterm english math class 1 90 50 1 2 80 60 1 3 60 100 2 4 70 20 2
외부 데이터 이용
- 엑셀 파일
- 프로젝트 폴더에 엑셀 파일 삽입
- readxl 패키지 설치, 로드
- 엑셀 파일 불러오기
- read_excel() : 엑셀 파일을 데이터 프레임으로 만들어줌
- read_excel <- read_excel(“excel_exam.xlsx”)
- xlsx까지 기입해야 함
- 분석
- mean(df_exam$english) - 엑셀 파일 첫 번째 행이 변수 명이 아니면 read_excel()이 엑셀 파일의 첫번 째 행을 변수명으로 인식하기 때문에 첫 번째 행이 유실 될 수 있음
- col_names = F 파라미터를 사용하여 첫 번째 행을 데이터로 인식해서 불러오고, 변수명은 ‘X__숫자’ 형태로 불러오게 한다
- col_name : 열 이름을 가져올 것인가? (논리형)
df_exam_novar <- read_excel("excel_exam_novar.xlsx", col_names = F) df_exam_novar ...1 ...2 ...3 ...4 ...5 <dbl> <dbl> <dbl> <dbl> <dbl> 1 1 1 50 98 50 2 2 1 60 97 60 3 3 2 25 80 65 4 4 2 50 89 98 5 5 3 20 98 15 6 6 3 50 98 45 7 7 4 46 98 65 8 8 4 48 87 12
- CSV 파일로 저장
- R 내장함수 wirte.csv()를 이용해 저장
- write.csv(프레임명, file = “파일명.csv”)
- RData 파일
- RData 파일로 저장
- save(프레임명, file = “파일명.rda”)
- 프로젝트 폴더에 생성됨
- 불러오기
- load(“파일명.rda”)
- 데이터 프레임 삭제 : rm()
- read.csv(), read_excel()은 변수에 할당해서 사용
- load는 저장할 때 사용한 데이터 프레임이 자동으로 만들어 짐
- RData 파일로 저장