자료구조

문자 데이터 표현 (p25 ~ p26)

치즈샌드CS 2024. 6. 11. 21:42

유니코드

전 세계 모든 무자를 통일된 부호 체계로 표현하도록 지원하는 국제 표준 코드.

하나의 문자를 표현하는 데 2바이트를 사용한다.

 

사용 중인 운영 체제와 프로그램에 관계없이 문자마다 고유한 코드 값을 제공.

언어와 상관없이 모든 문자를 16비트로 표현하므로 최대 65,536자

표현할 수 있다.

 

한글과 아랍 문자 등을 동일한 환경에서 사용할 수 있다.

모든 글자를 표현할 수 있다는 장점이 있는 반면,

프로그램의 용량이 커진다는 단점이 있다.

ASCII 코드

ASCII 코드는 한 문자를 표현하는 데 7비트(존: 3비트, 숫자: 4비트)로 구성.

128개의 문자를 표현 가능하고, 대, 소문자의 구분이 가능. 미국 표준 코드이며,

데이터 통신 및 개인용 컴퓨터에서 문자 표현 코드로 사용.

 

ASCII 코드 형식

BCD 코드 형식

EBCDIC 코드 형식

 

BCD 코드는 한 문자를 표현하는 데 6비트로 구성된다.

2진화 10진 코드 라고도 한다.

 

EBCDIC 코드는 한 문자를 표현하는 데 8비트로 구성된다.

확장 2진화 10진 코드이며, 주로 대형 컴퓨터에서 사용한다.

한글 코드

한글 코드에는 완성형조합형 코드가 있다.


완성형 코드는 현재 한글 코드 표준으로 가나다 순서로

완성된 하나의 음절에 코드를 부여하여 2바이트에 표현한다.

총 2,350자만 표현할 수 있어 모든 글자를 나타낼 수 없다.

 

조합형 코드는 한글의 초성, 중성, 종성 각각에 5비트를 조합하여

표현하며, 최상위 1비트는 영문자와 구별하기 위하여 사용한다.

모든 한글을 표현할 수 있으나 국제 표준화 기구의 정보 교환용

확장법에 위배되어 표준으로 쓰기에는 부적합하다.