[Deep Dive] 데이터 타입

데이터 타입은 값의 종류를 말한다. 자바스크립트의 모든 값은 데이터 타입을 갖는다. 자바스크립트는 8개의 데이터 타입을 가지며 7개의 원시 타입(primitive type)과 1개의 객체 타입(object/reference type)으로 분류 가능하다.

데이터 타입의 종류에 따른 특징에 대해 살펴보고 데이터 타입이 왜 필요한지에 대해 알아보자.


먼저 원시 타입에 대해 알아보자.

원시 타입

원시 타입에는 숫자(Number) 타입, Bigint 타입, 문자열(String) 타입, 불리언(Boolean) 타입, undefined 타입, null 타입, 심벌(Symbol) 타입이 존재한다. 순서대로 각 타입에 대해 살펴보겠다.

숫자 타입

타 프로그래밍 언어에서는 정수(소수점 이하가 없는 숫자)와 실수(소수점 이하가 있는 숫자)를 구분해 int, long, float, double 등과 같은 다양한 숫자 타입을 제공한다. 하지만 자바스크립트는 독특하게 하나의 숫자 타입만 존재한다.

자바스크립트의 숫자 타입의 값은 배정밀도 64비트 부동소수점 형식을 따르기 때문에 모든 수를 실수로 처리한다.

숫자 타입은 추가적으로 세가지 특별한 값을 표현할 수 있다.

  • Infinity : 양의 무한대
  • -Infinity : 음의 무한대
  • NaN : 산술 연산 불가(Not-a-Number)

자바스크립트는 대소문자를 구별하므로 NaN을 NAN,Nan,nan과 같이 표현하면 에러가 발생한다. 자바스크립트는 NAN,Nan,nan을 식별자로 해석한다.

1
var x = nan; // ReferenceError: nan is not defined

부동소수점 형식이란?

부동소수점 형식은 실수를 컴퓨터 상에서 근사하여 표현할 때 소수점의 위치를 고정하지 않고 그 위치를 나타내는 수를 따로 적는 것으로, 유효숫자를 나타내는 가수와 소수점의 위치를 풀이하는 지수로 나누어 표현한다.

몇 비트를 기반으로 하는지에 따라 정밀도가 달라지며 32비트를 단정밀도, 64비트를 배정밀도라 한다.

32비트의 경우는 부호 1비트 + 지수 8비트 + 가수 23비트로 나누어지며 64비트는 부호 1비트 + 지수 11비트 + 가수 52비트로 나누어진다.

지수부 계산시 bias를 더해줌으로 음수값을 가지는 지수와 양수값을 가지는 지수를 폭 넓게 표현 가능하다. (bias: 32비트-127, 64비트-1023)

Bigint 타입

자바스크립트의 숫자 타입은 64비트 부동소수점 형식의 2진수로 저장된다고 했다. 64비트 부동소수점 형식으로 안정적으로 나타낼 수 있는 최대치는 2^53^ - 1이다.

대부분의 소규모 프로그래밍이나 웹 개발에서 안정적으로 나타낼 수 있는 수의 최대치가 존재하는것이 큰 문제는 아니었다.
하지만 자바스크립트가 백엔드 언어로서도 점점 유용해지고 데이터베이스에서도 사용하게 되면서 큰 정수 ID나 고정밀 타임 스탬프를 표현해야 하는 일이 생기게 되었다.

ES11에서는 기존의 숫자 타입보다 큰 수를 표현할 수 있도록 새로운 원시 값인 Bigint 타입을 추가하게 되었다.

Bigint 값은 정수 리터럴 뒤에 n을 붙이거나 Bigint 함수를 호출해 생성할 수 있다.

1
2
var a = 10n;
var b = BigInt(10);

문자열 타입

문자열 타입은 텍스트 데이터를 나타내는 데 사용한다. 문자열은 0개 이상의 16비트 유니코드 문자(UTF-16)의 집합이다.

문자열은 작은따옴표(‘’), 큰 따옴표(“”), 백틱(``)으로 텍스트를 감싼다.

다른 타입의 값과 달리 문자열을 따옴표로 감싸는 이유는 키워드나 식별자와 같은 토큰과 구분하기 위함이다. 만약 문자열을 따옴표로 감싸지 않으면 자바스크립트 엔진은 이를 키워드나 식별자 같은 토큰으로 인식한다.

1
var str = hello; // ReferenceError: hello is not defined

템플릿 리터럴

ES6부터 템플릿 리터럴이라고 하는 새로운 문자열 표기법이 도입되었다.

템플릿(template)의 뜻은 주형이며 리터럴(literal)의 뜻은 정확한이다. 이를 해석해보면 정확한 주형이란 뜻이 되는데 템플릿 리터럴은 해석 그대로 리터럴 내부의 문자열을 정확히 표현한다고 생각하면 편하다.

템플릿 리터럴은 백틱(``)으로 감싸 표현하며 멀티라인 문자열, 표현식 삽입, 태그드 템플릿과 같은 편리한 문자열 처리 기능을 제공한다.

일반 문자열과는 어떤 차이가 있을까?

템플릿 리터럴은 멀티라인 문자열, 표현식 삽입과 같은 편리한 기능을 제공한다고 했다. 그럼 위 기능들이 제공되지 않는다는 소리인데 일반 문자열은 어떻게 개행과 문자열의 연결을 수행했을까?

일반 문자열은 공백과 같은 특수 문자를 표현하기 위해 백스페이스()로 시작하는 이스케이프 시퀀스를 이용한다.

  • \0(null), \b(백스페이스), \f(폼 피드, 프린터로 출력시 다음 페이지 시작지점으로 이동), \n(개행 LF), \r(개행 CR), \t(수평 탭), \v(수직 탭), \'(작은 따옴표), \"(큰 따옴표), \\(백슬래시)

일반 문자열은 문자열 연결 연산자 +를 이용하지만 템플릿 리터럴은 표현식 삽입(${})을 이용해 문자열을 연결한다.

1
2
3
4
5
6
var fisrst = 'rong';
var last = 'rong';

console.log('My name is ' + first + last + '.'); // ES5의 문자열 연결, My name is rongrong.

console.log(`My name is ${first}${last}.`); // ES6 템플릿 리터럴의 표현식 삽입, My name is rongrong.

불리언 타입

불리언 타입의 값은 논리적 참, 거짓을 나타내는 true와 false가 있다.

불리언 타입의 값은 참과 거짓으로 구분되는 조건에 의해 프로그램의 흐름을 제어하는 조건문에서 자주 사용된다.

undefined 타입

undefined 타입의 값은 undefined가 유일하다.

앞서서 var 키워드로 선언한 변수는 암묵적으로 undefined로 초기화 되는것을 살펴보았다.
이처럼 undefined는 개발자가 의도적으로 할당하기 위한 값이 아니라 자바스크립트 엔진이 변수를 초기화 할 때 사용하는 값이다.
변수를 참조했을 때 undefined가 반환된다면 참조한 변수가 선언 이후 초기화되지 않은 변수임을 알 수 있다.

undefined를 개발자가 의도적으로 변수에 할당하는 것은 본래 취지와 어긋날뿐더러 혼란을 줄 수 있으므로 좋지 않다.

그렇다면 변수에 값이 없다는 것을 명시하고 싶을 때는 어떻게 하면 좋을까? null을 할당해주면 된다.

null 타입

null 타입의 값은 null이 유일하다. 자바스크립트는 대소문자를 구별하므로 null은 Null, NULL 등과 다르다.

프로그래밍 언어에서 null은 변수에 값이 없다는 것을 의도적으로 명시할 때 사용한다. 변수에 null을 할당하는 것은 변수가 이전에 참조하던 값을 더 이상 참조하지 않겠다는 의미이다.

함수가 유효한 값을 반환할 수 없는 경우 명시적으로 null을 반환하기도 한다. 예를들어, HTML 요소를 검색해 반환하는 document.querySelector 메서드는 조건에 부합하는 HTML 요소를 검색할 수 없는 경우 에러가 아닌 null을 반환한다.

1
2
3
4
5
6
7
8
9
10
<!DOCTYPE html>
<html>
<body>
<script>
var element = document.querySelector('.myClass');

console.log(element); // null
</script>
</body>
</html>

심벌 타입

심벌은 ES6에서 추가된 타입으로, 변경 불가능한 원시 타입의 값이다. 심벌 값은 다른 값과 중복되지 않는 유일무이한 값이다.
따라서 주로 이름이 충돌할 위험이 없는 객체의 유일한 프로퍼티 키를 만들기 위해 사용한다.

심벌값은 리터럴이 아닌 Symbol 함수를 호출해 생성한다.


객체 타입

자바스크립트는 크게 원시 타입과 객체 타입으로 분류한다. 이는 객체 타입이 다른 원시 타입들과는 다른 특성을 가짐을 의미한다.

객체 타입에 대해서는 다음에 자세하게 알아보도록 하겠다.


지금 까지 자바스크립트의 8가지 데이터 타입에 대해 알아보았다. 그렇다면 데이터 타입은 왜 필요한 것일까?

데이터 타입의 필요성

값은 메모리에 저장하고 참조할 수 있어야 한다. 값을 메모리에 저장하기 위해서는 값이 들어가기 위한 메모리 공간의 크기를 결정해야 한다.
즉 몇 바이트의 메모리 공간을 사용해야 낭비와 손실 없이 값을 저장할 수 있는지 알아야 한다.

다음과 같은 코드를 실행해보자.

1
var score = 100;

자바스크립트 엔진은 정수 리터럴 100을 평가해 숫자 타입의 값 100을 만들어 score라는 변수에 할당한다.
자바스크립트의 숫자 타입은 64비트 부동소수점 방식을 따른다고 했으니 숫자 타입의 값을 저장하기 위해서는 8바이트의 공간이 필요할 것이다.

이처럼 자바스크립트 엔진은 데이터 타입, 즉 값의 종류에 따라 정해진 크기의 메모리 공간을 확보한다.

이번에는 값을 참조하는 경우를 생각해보자. 식별자 score를 통해 숫자 타입의 값 100이 저장되어 있는 메모리 공간의 주소를 찾아갈 수 있다.
이 때 값을 참조하려면 한 번에 읽어 들여야 할 메모리 공간의 크기를 알아야 한다. score 변수의 경우, 저장되어 있는 값이 숫자 타입이므로 8바이트 단위로 읽어 들이지 않는다면 값이 훼손될 것이다.

역시 자바스크립트 엔진은 데이터 타입을 통해 한번에 읽어 들여야 할 메모리 공간의 크기를 결정한다.

아직 문제가 남아 있다. 메모리에서 읽어 들인 2진수를 어떻게 해석해야 하느냐다.
모든 값은 데이터 타입을 가지며 메모리에 2진수로 저장된다. 메모리에 저장된 값은 데이터 타입에 따라 다르게 해석될 수 있다. 예를 들어, 메모리에 저장된 값 0100 0001을 숫자로 해석하면 65지만 문자열로 해석하면 ‘A’이다.

자바스크립트 엔진은 데이터 타입에 따라 메모리 공간에서 읽어들인 2진수를 해석한다.

정리하자면 다음과 같은 이유로 데이터 타입이 필요하다고 할 수 있다.

  • 값을 저장할 때 확보해야 하는 메모리 공간의 크기를 결정하기 위해
  • 값을 참조할 때 한 번에 읽어 들여야 할 메모리 공간의 크기를 결정하기 위해
  • 메모리에서 읽어 들인 2진수를 어떻게 해석할지 결정하기 위해

자바스크립트의 모든 값은 데이터 타입을 가진다. 그렇다면 변수 역시 데이터 타입을 가질까?

C나 자바와 같은 정적 타입 언어는 변수를 선언할 때 변수에 할당할 수 있는 값의 종류(데이터 타입)을 사전에 선언해야 한다. 이를 명시적 타입 선언이라 한다.

정적 타입 언어는 변수의 타입을 변경할 수 없으며, 변수에 선언한 타입에 맞는 값만 할당할 수 있다.

자바스크립트는 정적 타입 언어와 다르게 변수를 선언할 때 타입을 선언하지 않고 var, let, const 키워드만 사용해 변수를 선언한다.
자바스크립트의 변수는 어떠한 데이터 타입의 값이라도 자유롭게 할당할 수 있다. 따라서 자바스크립트의 데이터 타입은 정적 타입 언어의 데이터 타입과는 개념이 다르다.

자바스크립트의 변수는 선언이 아닌 할당에 의해 타입이 결정(타입 추론)된다. 그리고 재할당에 의해 변수의 데이터 타입이 언제든지 동적으로 변할 수 있다. 이러한 특징을 동적 타이핑이라 하며, 정적 타입 언어와 구분하기 위해 동적 타입 언어라 한다.

동적 타입 언어는 변수에 어떤 데이터 타입의 값이라도 자유롭게 할당 가능하므로 편리하다. 하지만 이로 인한 구조적인 단점 역시 존재한다.
변수 값은 언제든지 변경될 수 있기 때문에 복잡한 프로그램에서는 변화하는 변수 값을 추적하기 어려울 수 있다.

그 뿐만 아니라 값의 변경에 의해서도 타입도 언제든 변경될 수 있다. 따라서 동적 타입 언어의 변수는 값을 확인하기 전 타입을 확신할 수 없다.
또 자바스크립트는 개발자의 의도와는 관계없이 자바스크립트 엔진에 의해 암묵적으로 타입이 자동 변환하는 경우도 존재한다.

이처럼 동적 타입 언어는 유연성은 높지만 신뢰성은 떨어진다.

이러한 단점을 해결하기 위해 자바스크립트를 정적 타입 언어처럼 사용할 수 있는 타입스크립트가 등장했다. 웹의 규모가 커지면서 더 복잡한 프로그램을 만들어야 하는 경우가 많아지고 있고 따라서 타입스크립트를 다룬 경험을 요구하는 기업 또한 많아지고 있다. 자바스크립트의 동적인 부분이 단점으로 다가오는 경우가 많은것 같다. 이런 부분에 대해서도 고민이 필요할 것 같다.