R
R 이해하기
- R
- 데이터 분석을 위한 소프트웨어
- 다양성 - 어떤 형태의 데이터든 자유롭게 분석가능
- 가장 많이 사용되는 데이터 분석 툴
- R 과 파이선의 차이점
- R
- 데이터 분석용 > 데이터 처리와 통계 분석 기능에 특화
- 데이터 분석 목적에 유리
- 파이썬
- 개발언어 > 라이브러리가 많음
- 웹 서비스나 소프트웨어 개발에 유리
- R
R과 R 스튜디오 설치하기
- R 설치 : https://cran.r-project.org/mirrors.html
- Korea의 링크 클릭
- Download R for Windows
- install R for the first time
- Download R 3.6.0 for Windows
- 옵션 수정 없이 설치
- R 스튜디오 설치 : https://www.rstudio.com/products/rstudio/download/
- Installers for Supported Platforms에서 운영체제에 맞는 링크
- 설치
- R 스튜디오 명령어 실행
- 소스창에 명령어 입력
- 실행시키고 싶은 명령어 행을 클릭한 후 ctrl + enter
- 한 번에 여러 줄 실행 : 블록으로 지정한 후 ctrl + enter
- 데이터 생성
- a <- 1
- a라는 변수를 만들어 1을 넣음
- 인코딩 설정
- Tools -> Project Options -> Code Editing
- Text encoding : UTF-8
데이터분석 기초
변수
- 변수: 다양한 값을 지니는 하나의 속성
- 데이터 : 변수들의 덩어리
- 상수 : 하나의 값으로만 되어 있는 속성 > 분석 대상이 될 수 없다.
- 변수명 생성 규칙
- 알아보기 쉽고 기억하기 쉽도록 의미를 담음
- ex) score, sex, grade ..
- 문자, 숫자, -, _ 조합해서 정할 수 있다
- 단, 문자로 시작해야 함
- 알아보기 쉽고 기억하기 쉽도록 의미를 담음
- 여러 값으로 구성된 변수
- c()
var1 <- c(1, 2, 5, 7, 8)
var1
[1] 1 2 5 7 8
- : 을 이용해 시작 숫자와 마지막 숫자를 입력하면 1씩 증가하면서 연속된 숫자로 변수를 만듬
var2 <- c(1:4)
var2
[1] 1 2 3 4
- seq()
var3 <- seq(1,5)
var3
[1] 1 2 3 4 5
- seq() 파라미터
var4 <- seq(1,10,by=2)
var4
[1] 1 3 5 7 9
- 문자로 된 변수
- 숫자와 같음
- ex) str1 <- “a”
- 연산이 불가능
- 숫자와 같음
함수
- 숫자 다루는 함수
x <- c(1,2,3)
mean(x) # 평균
## [1] 2
max(x) # 최댓값
## [1] 3
min(x) # 최솟값
## [1] 1
- 문자 다루는 함수
str5 <- c("Hello!", "World", "is", "good!")
paste(str5, collapse = ",") # 쉼표를 구분자로 단어 합치기
## [1] "Hello!,World,is,good!"
paste(str5, collapse = " ")
## [1] "Hello! World si good!"
- 함수의 결과를 변수로 만들 수 있음
패키지
- 패키지는 R스튜디오를 새로 시작할 때마다 반복
- ggplot2 패키지 설치
install.packages("ggplot2")
- ggplot2 패키지 로드
library(ggplot2)
- 함수 사용하기
x <- c("a","a","b","c") x qplot(x)