UTF-8는 문자 인코딩에 가장 많이 사용되는 방법입니다. 이는 유니코드 시스템 코드 테이블을 사용하여, 현존하는 모든 문자들을 표시할 수 있습니다. 이 때문에, 인터넷에서 사용되는 대부분의 문자 세트에는 UTF-8 방식이 가장 많이 사용되고 있습니다.
컴퓨터는 글자, 숫자, 기호를 표시하기 위해 특정한 문자를 필요로 합니다. 이러한 일련의 문자는 특정한 순서를 따라 정렬되어 있습니다. 이를 문자 집합(character set)이라고 하는데요. 컴퓨터는 문자를 올바르게 파악하기 위해, 문자 인코딩이라 하는 비트(bits)의 패턴을 사용합니다.
문자 집합은 특정한 순서를 따라 이미 명시되어 있기 때문에, 문자 인코딩을 위해서는 해당 비트 패턴이 문자에 할당되어야 합니다. 만약, 선언된 문자 인코딩이 실제로 사용하는 것과 일치하지 않는 경우, 브라우저는 웹사이트를 제대로 표시하지 못하며, 검색 엔진 또한 이를 사용하지 못하게 됩니다.
이 글은 Character Encoding 를 번역 및 요약한 것입니다.
서로 다른 문자 집합이 필요한 이유
특정한 문자 집합을 선택하는 것은 웹 페이지에서 사용될 수 있는 문자의 범위를 지정하는 것입니다. 일반적인 라틴 문자의 경우에는 문제가 거의 없지만, 일부 언어는 점, 대시, 원 등의 추가적인 특수 문자들을 필요로 할 수 있습니다. 따라서, 선택한 인코딩 방식으로 문자를 표시할 수 없다면 문제가 발생할 수 있겠죠.
어떤 인코딩을 선택해야 할까요?
US-ASCII 문자 세트는 영어에 적합합니다. 독일어, 프랑스어, 스페인어와 같은 유럽의 문자들은 ISO 8859-1, 폴란드어, 체흐어, 그리스어 등은 ISO 8859을 사용합니다. 그러나 UTF-8을 사용하면 히브리어, 아랍어, 한국어 등을 문제 없이 표현할 수 있습니다. 그런데 UTF-8는 뜻은 무엇일까요? UCS Transformation Format - 8 Bit의 약자이며, USC는 Universal Character Set의 약자입니다.
UTF-8는 문자 인코딩에 가장 많이 사용되는 방법입니다. 이는 유니코드 시스템 코드 테이블을 사용하여, 현존하는 모든 문자들을 표시할 수 있습니다. 이 때문에, 인터넷에서 사용되는 대부분의 문자 세트에는 UTF-8 방식이 가장 많이 사용되고 있습니다.
문서에 캐릭터 인코딩 설정하는 방법
인코딩 방식을 결정했다면, 브라우저와 검색 엔진에 올바른 정보를 전달해야 합니다. 모든 HTML 문서에서 반드시 사용하는 문자 인코딩을 설정해줘야 합니다.
HTML 코드에 문자 인코딩 방식 지정하기
HEAD
영역에 다음과 같이 메타 요소를 삽입할 수 있습니다.
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
또는, HTML 코드에 다음과 같이 메타 요소를 지정할 수도 있습니다.
<meta charset="utf-8">
여기서 주의할 것은 HTTP 헤더가 HTML 코드의 메타 요소에 덮어쓰기 되기 때문에, 웹 서버를 정확히 설정했는지 확인해야 합니다.
정리
웹사이트를 정확하게 표시하기 위해서는 적절한 문자 인코딩 방식을 선택해야 합니다. 예를 들어, ISO 8859-1로 중국어를 보여줄 경우, HTML 코드에 추가적인 작업이 필요할 수 있습니다.
따라서, 대부분의 경우 UTF-8을 사용하는 것이 좋습니다. 대부분의 브라우저는 다른 인코딩 방식을 지원하지만, 일반적이지 않은 인코딩 방식의 경우 검색 엔진과 방문자가 콘텐츠를 읽지 못하는 문제가 생길 수도 있습니다.
'개발 > HTML' 카테고리의 다른 글
HTML 문서의 기본 구조 설명 (1) ✔️ (0) | 2021.11.21 |
---|---|
HTML에서 언어(lang)를 지정해주는 이유는 무엇일까요? (0) | 2021.05.12 |
DOM이란 무엇일까요? (0) | 2021.05.12 |