 |
|
|  |
|
 |
17³â Àü |
* ISO 10646(UCS=Universal Character Set) = Unicode
À¯´ÏÄÚµå´Â 31ºñÆ® ¹®ÀÚ¼¼Æ®ÀÌ´Ù. ±×·¯³ª ÇöÀç °èȹ»óÀ¸·Î´Â 21ºñÆ® ¾È¿¡¼ ¸ðµÎ Ç¥ÇöµÈ´Ù. ¶ÇÇÑ °úÇÐÀÚµéÀ» À§ÇÑ Æ¯¼öÇÑ ¹®ÀÚ¸¦ Á¦¿ÜÇÑ °¢ ¼¼°è °¢ ±¹°¡ÀÇ ¹®ÀÚµéÀº ÇÏÀ§ 16ºñÆ®ÀÇ ¿µ¿ª ¾È¿¡ Á¤ÀǵǾî ÀÖ´Ù. À̸¦ BMP(Basic Multilingual Plane)À̶ó°í ÇÑ´Ù.
À¯´ÏÄڵ嵵 ¸ðµç ±ÛÀÚ¸¦ ÇϳªÀÇ Äڵ常À¸·Î Ç¥ÇöÇÏ´Â °ÍÀº ¾Æ´Ï´Ù. Áï, µÎ °³ ÀÌ»óÀÇ À¯´ÏÄÚµå ¹®ÀÚ Äڵ尡 Á¶ÇյǾî ÇϳªÀÇ ¹®ÀÚ¸¦ Á¤ÀÇÇÏ´Â °æ¿ìµµ ÀÖ´Ù. (MBCS¿Í À¯»çÇÏ´Ù.)
À¯´ÏÄÚµå´Â ¸Å¿ì º¹ÀâÇÑ Ã¼°èÀ̱⠶§¹®¿¡ ±¸ÇöÀÇ ´Ü°è¸¦ ³ª´©¾î¼ ÇÊ¿äÇÑ ¸¸Å¸¸ ±¸ÇöÇϵµ·Ï ÇÏ¿´´Ù. 1´Ü°è ±¸Çö ·¹º§¿¡¼´Â Á¶ÇÕ ÄÚµå±îÁö Áö¿øÇÏÁö ¾Ê¾Æµµ µÈ´Ù. 2´Ü°è ÀÌ»óÀ» Áö¿øÇÏ´Â °í±Þ ÀÀ¿ëÇÁ·Î±×·¥¿¡¼´Â Á¶ÇÕ Äڵ嵵 »ç¿ëÇÒ ¼ö ÀÖ´Ù. 3´Ü°è´Â ÃÖÁ¾ ´Ü°è·Î¼ ¼öÇÐÀû Ç¥Çöµµ Áö¿øÇÏ´Â °ÍÀÌ´Ù. º¸ÅëÀÇ ±¹Á¦ÈµÈ ÀÀ¿ëÇÁ·Î±×·¥Àº 2´Ü°è·Î ÃæºÐÇÏ´Ù.
À¯´ÏÄÚµå ¹®ÀÚ ÄÚµå´Â "U-0000007F"¿Í °°ÀÌ "U-"¸¦ ºÙ¿©¼ Ç¥ÇöÇÑ´Ù. ÃÖ´ë U-7FFFFFFF±îÁö Á¤ÀÇµÉ ¼ö ÀÖ´Ù. ÇÏÀ§ 16ºñÆ®±îÁö¸¸ Ç¥ÇöÇÒ ¶§´Â "U+007F"¿Í °°ÀÌ "U+"¸¦ ºÙ¿©¼ Ç¥ÇöÇÑ´Ù. U+0000ºÎÅÍ U+7FFF±îÁö Á¤ÀǵǾî ÀÖ´Ù.
* ISO-2022
À¯´ÏÄÚµå ÀÌÀü¿¡´Â ¹®ÀÚ Äڵ带 1¹ÙÀÌÆ® ´ÜÀ§·Î ÀúÀåÇÏ¿´´Ù. ¿¹¸¦ µé¾î US-ASCII ¹®ÀÚ ¼¼Æ®´Â 8ºñÆ® ¹üÀ§ ¾È¿¡¼¸¸ Ç¥ÇöµÇ±â ¶§¹®¿¡ 1¹ÙÀÌÆ®ÀÎ char µ¥ÀÌÅÍÇü¿¡ ¿ÂÀüÈ÷ ÀúÀåÇÒ ¼ö ÀÖ´Ù. ÇÏÁö¸¸, Çѱ۰ú ÀϺ»¾î µîÀº 8ºñÆ® ¹üÀ§ ¾È¿¡¼ Ç¥ÇöÇÏÁö ¸øÇϱ⠶§¹®¿¡ ISO-2022ÀÇ ±ÔÁ¤¿¡ µû¶ó¼ µÎ °³ÀÇ ÀÌ»óÀÇ ¹ÙÀÌÆ®¿¡ ³ª´©¾î ³Ö´Â ¹æ½ÄÀ» »ç¿ëÇÑ´Ù.
ÀÌ Ç¥ÁØÀº 1¹ÙÀÌÆ® ¹®ÀÚ¿ ¾È¿¡¼ 8ºñÆ®º¸´Ù Å« ¹®ÀÚ ¼¼Æ®¸¦ Ç¥ÇöÇϱâ À§Çؼ Á¦Á¤µÈ °ÍÀÌ´Ù. Áï, ÈçÈ÷ ¾Ë°í ÀÖ´Â ´ë·Î ¹ÙÀÌÆ®ÀÇ ÃÖ»óÀ§ ºñÆ®°¡ 1ÀÏ °æ¿ì¿¡´Â ±× µÚÀÇ ¹ÙÀÌÆ®¿Í ÇÕÇÏ¿© ÇϳªÀÇ ±ÛÀÚ¸¦ ³ªÅ¸³½´Ù´Â °ÍÀ» Á¤ÀÇÇÏ°í ÀÖ´Ù. (¶ÇÇÑ ÇÕÃÄÁö´Â ¸ðµç ¹ÙÀÌÆ®ÀÇ ÃÖ»óÀ§ ºñÆ®µµ 1À̾î¾ß ÇÑ´Ù. MSÀÇ À̸¥¹Ù È®Àå ¿Ï¼ºÇüÀº ÀÌ·± ±ÔÁ¤À» ¹«½ÃÇÏ°í ÀÖÁö¸¸...)
ÀÌ Ç¥ÁØÀº µÎ°³ ȤÀº ±× ÀÌ»óÀÇ ¹ÙÀÌÆ®¸¦ ÇÕÄ¥ ¼ö ÀÖµµ·Ï Çã¿ëÇÏ°í ÀÖÀ¸³ª ´ëºÎºÐÀº µÎ °³ÀÇ ¹ÙÀÌÆ®¸¸À» Á¶ÇÕÇÏ°í ÀÖ´Ù. ÀÌ¿Í °°ÀÌ ÇϳªÀÇ ±ÛÀÚ¸¦ Ç¥ÇöÇÒ ¶§ ¿©·¯ ¹ÙÀÌÆ®°¡ Á¶ÇÕµÉ ¼ö ÀÖ´Â ¹®ÀÚ ¼¼Æ®¸¦ MBCS(Multi-Byte Character Set)À̶ó°í ºÎ¸¥´Ù. US-ASCII ó·³ 1¹ÙÀÌÆ®¸¸À¸·Î Ç¥ÇöµÇ´Â °æ¿ì´Â SBCS(Single Byte Character Set)À̶ó°í ÇÑ´Ù.
* UCS-2¿Í UCS-4
À¯´ÏÄڵ带 ¸Þ¸ð¸®³ª ÆÄÀÏ¿¡ ±â·ÏÇÏ´Â ¹æ¹ý¿¡ ´ëÇؼ Ç¥ÇöÇÒ ¶§´Â UCS-2, UCS-4 µîÀ¸·Î ³ª´©¾îÁø´Ù. UCS-2´Â 16ºñÆ® Á¤¼ö¸¦ »ç¿ëÇÏ¿© À¯´ÏÄÚµå 31ºñÆ® ¹®ÀÚ¼¼Æ® Áß¿¡¼ 16ºñÆ® ÀÌÇÏÀÇ ºÎºÐ¸¸À» Ç¥ÇöÇÏ°í UCS-4´Â 32ºñÆ® Á¤¼ö¸¦ »ç¿ëÇÏ¿© 31ºñÆ®ÀÇ ¸ðµç À¯´ÏÄÚµå ¿µ¿ªÀ» Ç¥ÇöÇÑ´Ù.
¶ÇÇÑ À¯´ÏÄڵ尡 Á¤¼ö¿¡ ÀúÀåµÉ ¶§ ¸Þ¸ð¸®³ª µð½ºÅ©¿¡ ¹èÄ¡µÇ´Â ¹ÙÀÌÆ® ¼ø¼¿¡ µû¶ó little endian°ú big endianÀ¸·Î ±¸ºÐÇÑ´Ù. ¶Ç, ½Ã½ºÅÛ ÀÚüÀÇ endian ±ÔÄ¢¿¡ ºÎÇÕÇϸé internal, ¾Æ´Ï¸é swapped¶ó°íµµ ÇÑ´Ù. º¸Åë ¸Þ¸ð¸®»ó¿¡¼´Â ½Ã½ºÅÛ ³»ºÎÀûÀÎ(internal) endianÀ¸·Î ó¸®ÇÏ´Ù°¡ ÆÄÀÏ¿¡ ÀúÀåÇÒ ¶§´Â ÇÊ¿ä¿¡ µû¶ó big endianÀ̳ª little endianÀ¸·Î º¸Á¤ÇÏ¿© ÀúÀåÇÏ´Â °ÍÀÌ ÀϹÝÀûÀÌ´Ù.
UCS-2, UCS-4´Â À¯´ÏÄڵ带 ÀúÀåÇÏ´Â º¯¼öÀÇ Å©±â¸¦ Á¤ÀÇÇÏ¿´Áö¸¸, ¹ÙÀÌÆ® ¼ø¼¿¡ ´ëÇؼ Ç¥ÁØÈÇÏÁö ¸øÇÏ¿´´Ù. µû¶ó¼ ½ÇÁ¦·Î´Â UCS-2-LE, UCS-2-BE¿Í °°ÀÌ ¿©·¯ ÀúÀå ¹æ½ÄÀÌ È¥ÀçÇÒ ¼ö ÀÖ´Â ¹®Á¦Á¡ÀÌ ÀÖ´Ù. ÀϹÝÀûÀ¸·Î º¸ÀÚ¸é UCS-2¸¦ ÆÄÀÏ¿¡ ÀúÀåÇÒ ¶§´Â big endianÀ» ¸¹ÀÌ »ç¿ëÇÏÁö¸¸, MSó·³ little endianÀ¸·Î ÀúÀåÇÏ´Â ¼ÒÇÁÆ®¿þ¾î Á¦Àۻ絵 ÀÖ´Ù. (ISO-2022¿Í °°Àº Ç¥ÁØ¿¡¼ big endianÀ̶ó°í ¸í½ÃÇÑ °Í°ú´Â ´ëÁ¶ÀûÀÌ´Ù.)
À§¿Í °°Àº endian À̽´¿Í ÇÔ²² ´ë°³ÀÇ ÆÄÀÏ Ã³¸® ÇÁ·Î±×·¥ µéÀÌ ¹ÙÀÌÆ® ´ÜÀ§·Î µ¿ÀÛÇϴ Ư¼º¿¡ UCS´Â Àß ¸ÂÁö ¾Ê¾Ò´Ù. Áï, ÆÄÀÏÀ» ÀνÄÇÒ ¶§ ÀÌ ÆÄÀÏÀÌ UCS-2, UCS-4ÀÎÁö US-ASCII ¶Ç´Â ISO-2022ÀÎÁö ÀνÄÇÏ°í °¢°¢ÀÇ °æ¿ì¸¦ ±¸ºÐÇؼ ¸ðµÎ ´Ù¸£°Ô ±¸ÇöÇØ¾ß ÇÏ´Â ¹®Á¦°¡ »ý±ä °ÍÀÌ´Ù. cat°ú °°Àº °£´ÜÇÑ ÇÁ·Î±×·¥µé ¸¶Àúµµ ¸ðµÎ ´Ù ´Ù½Ã ¸¸µé¾î¾ß ÇÑ´Ù¸é ±× ºñ¿ëÀº ³Ê¹«³ª Ŭ °ÍÀÌ´Ù. ÀÌ·± ÀÌÀ¯·Î À¯´ÏÄڵ带 »ç¿ëÇÏ´Â ÆÄÀÏÀÌ º¸´Ù ³Î¸® »ç¿ëµÇ±â À§Çؼ ¿©·¯°¡Áö ¹æ¹ýÀÌ ³íÀǵDZ⠽ÃÀÛÇÏ¿´´Ù.
* UTF-8 (ISO 10646-1:2000 Annex D, RFC 3629)
UTF¿¡ ´ëÇÑ ³íÀÇÀÇ °á°ú¹°·Î UTF-1, UTF-7 µîÀ» °ÅÃÄ UTF-8ÀÌ Á¦Á¤µÇ¾ú´Ù. ¿À´Ã³¯ À¯´ÏÄڵ带 ÆÄÀÏ¿¡ ÀúÀåÇÏ´Â ¹æ½ÄÀº UTF-8ÀÌ °¡Àå ÀϹÝÀûÀÌ´Ù. UTF-8Àº MBCS(ISO-2022)¿Í ºñ½ÁÇÏÁö¸¸ ´õ¿í Á¤±³ÇÑ ¹æ¹ýÀ¸·Î 31ºñÆ®ÀÇ À¯´ÏÄڵ带 1~6°³ÀÇ ¹ÙÀÌÆ®¿¡ ³ª´©¾î ÀúÀåÇÏ´Â ¹æ½ÄÀÌ´Ù. ù¹ø° ¹ÙÀÌÆ®¸¦ Àд °Í ¸¸À¸·Î ¸î °³ÀÇ ¹ÙÀÌÆ®·Î ±¸¼ºµÈ °ÍÀÎÁö ¾Ë ¼ö Àֱ⠶§¹®¿¡ »ó´çÈ÷ Á¤±³ÇÏ´Ù. ±×¸®°í ÇÏÀ§ 16ºñÆ®¸¸ Ç¥ÇöÇÒ ¶§´Â ÃÖ´ë 3¹ÙÀÌÆ®·Î ÃæºÐÇÏ´Ù. UTF-8¿¡¼ »óÀ§ ¾Æ½ºÅ° ÄÚµå ¿µ¿ªÀº 1¹ÙÀÌÆ®·Î Ç¥ÇöµÉ ¼ö ÀÖ°í ÇѱÛÀº ´ë°³ 3¹ÙÀÌÆ®¸¦ Â÷ÁöÇÑ´Ù.
¸¶ÀÌÅ©·Î¼ÒÇÁÆ®´Â ÅؽºÆ® ÆÄÀÏÀÇ ¸Ç ¾Õ¿¡ UCS-2/4 ¹× endianÀ» Ç¥½ÃÇÏ´Â BOM(Byte-Order Mark)¶ó´Â ƯÁ¤ÇÑ Äڵ带 ³Ö¾î¼ ±¸ºÐÇÏÀÚ°í ÁÖÀåÇÏ¿´À¸³ª Unix¿Í °°Àº ¿î¿µÃ¼Á¦¿¡´Â Àß ¸ÂÁö ¾Ê´Â ¹æ½ÄÀ̾ú´Ù. Windows NT 4.0 ÀÌÈÄ·Î MS´Â UCS-2 Çü½ÄÀÇ ÆÄÀÏÀ» ±âº»ÀûÀ¸·Î »ç¿ëÇÒ ¼ö ÀÖ¾úÀ¸³ª ±×¸® ¸¹ÀÌ ÀÌ¿ëµÇÁö´Â ¾Ê¾Ò°í, ÃÖ±Ù¿¡ UTF-8ÀÌ ³Î¸® »ç¿ëµÇ¸é¼ MSµµ UTF-8À» ±âº»ÀûÀ¸·Î Áö¿øÇÏ°í ÀÖ´Ù.
UTF-8Àº ¹ÙÀÌÆ® ´ÜÀ§·Î ÀÐÇôÁú ¼ö Àֱ⠶§¹®¿¡ ±âÁ¸ÀÇ ISO-2022À» ±âÁØÀ¸·Î ÀÛ¼ºµÈ ÀÀ¿ëÇÁ·Î±×·¥µé°ú ȣȯ¼ºÀÌ ³ô´Ù. ¿¹ÄÁµ¥ UCS-2 ¹®ÀÚ¿Àº unsigned short ¹è¿¿¡ ÀúÀåµÇ¾î¾ß ÇÏÁö¸¸, UTF-8 ¹®ÀÚ¿Àº ±âÁ¸ÀÇ ÀÀ¿ëÇÁ·Î±×·¥ ó·³ char ¹è¿¿¡ ÀúÀåµÉ ¼ö ÀÖ´Ù.
* UTF-16 (ISO 10646-1 Annex Q, RFC 2781)
UTF-8Àº UTF-8°ú ´Â ´Ù¸¥ °üÁ¡¿¡¼ »ý±ä °ÍÀ¸·Î¼ UCS-2 ¹®ÀÚ¿ ¾È¿¡ À¯´ÏÄÚµåÀÇ 21ºñÆ® ¿µ¿ªÀÇ ¹®ÀÚ¸¦ Ç¥ÇöÇϱâ À§Çؼ µµÀÔµÈ °ÍÀÌ´Ù. UCS-2´Â U+D8000~U+DFFF ¿µ¿ªÀ» Á¤ÀÇÇÏ°í ÀÖÁö ¾ÊÀºµ¥, UTF-16Àº ÀÌ ¿µ¿ªÀ» ÀÀ¿ëÇÏ¿© µÎ °³ÀÇ UCS-2 Äڵ带 Á¶ÇÕÇÔÀ¸·Î½á 16ºñÆ® À§ÀÇ 21ºñÆ®±îÁö Ç¥ÇöÇÒ ¼ö ÀÖµµ·Ï ÇÏ¿´´Ù. Áï, UTF-16À̶õ UCS-2ÀÇ È®ÀåÀ̶ó°í ÇÒ ¼ö ÀÖ´Ù. UTF-16 ¹®ÀÚ¿À» ÀÔ·Â ¹ÞÀ» ¶§ º¸ÅëÀÇ UCS-2 ÀÀ¿ëÇÁ·Î±×·¥Àº ÀÌ ¿µ¿ªÀÇ Äڵ带 ¹«½ÃÇϰųª ¿À·ù¸¦ ³»°ÚÁö¸¸ UTF-16 ÀÀ¿ëÇÁ·Î±×·¥Àº Á¦´ë·Î 21ºñÆ®ÀÇ ¸ðµç À¯´ÏÄڵ带 ÀνÄÇÒ ¼ö ÀÖ°Ô µÈ´Ù.
UTF-16µµ UCS-2ÀÇ Æ¯¼ºÀ» ¶È°°ÀÌ °¡Áö°í Àֱ⠶§¹®¿¡ ÆÄÀÏ ÀúÀåÀ» À§Çؼ »ç¿ëµÇÁö´Â ¾ÊÀ» °ÍÀÌ´Ù. UTF-16Àº UCS-2¸¸À» Áö¿øÇÏ´Â ÀÀ¿ëÇÁ·Î±×·¥ÀÌ UCS-4·Î È®ÀåÇϱâ À§Çؼ ¼±ÅÃÇÒ ¼ö ÀÖ´Â ¹æ¹ýÀ̶ó°í ÇÒ ¼ö ÀÖ´Ù. ÇöÀç ¸¶ÀÌÅ©·Î¼ÒÇÁÆ® Windows Ç÷§ÆûÀº UCS-2¸¸À» Áö¿øÇÏ°í Àִµ¥, ¾ÕÀ¸·Î Àüü À¯´ÏÄڵ带 Áö¿øÇϱâ À§Çؼ UCS-4·Î ¹Ù²Ù±â º¸´Ù´Â UTF-16·Î ÀüȯÇÏ´Â °ÍÀÌ ±âÁ¸ ¼ÒÇÁÆ®¿þ¾î¿ÍÀÇ È£È¯¼ºÀ» À¯ÁöÇÏ¸é¼ È®ÀåÇÏ´Â ¹æ¾ÈÀ̶ó°í ÇÒ ¼ö ÀÖ´Ù.
* UTF-32
UTF-32´Â ¾ÕÀÇ UTF-8°ú UTF-16°ú´Â ´Þ¸® UCS-4¸¦ ±×´ë·Î 32ºñÆ® Á¤¼ö¿¡ ´ã´Â °ÍÀ» Á¤ÀÇÇÏ°í ÀÖ´Ù. Áï, UCS-4¿Í ¶È°°Àº °ÍÀÌ´Ù. ÇÏÁö¸¸, UCS-4´Â ºÎºÐÀûÀ¸·Î º¯ÈÀÇ ¿©Áö°¡ ÀÖ°í ³íÀÇ°¡ ÁøÇàµÇ°í ÀÖ´Ù. (¹Ý¸é UCS-2´Â È®Á¤µÇ¾î ÀÖ´Ù.)
±×·¡¼ UTF-32´Â º¯ÈÇÏÁö ¾Ê´Â 21ºñÆ® ¿µ¿ª¸¸À¸·Î ÇÑÁ¤ÇØ ³õ¾Ò´Ù. Áï, UTF-32´Â 21ºñÆ® ±× ÀÌ»óÀÇ ºÎºÐÀº »ç¿ëÇÏÁö ¾Êµµ·Ï ÇÑÁ¤ÇØ ³õ¾Æ¼ UCS-4ÀÇ »óÀ§ ºÎºÐÀÌ º¯ÈÇϴµ¥ µû¸¥ È¥¶õÀ» ÇÇÇÑ °ÍÀÌ´Ù. ¼ÒÇÁÆ®¿þ¾îÀÇ ÀÔÀå¿¡¼´Â ¾ÆÁ÷ UCS-4¸¦ »ç¿ëÇÒ ¼ö´Â ¾ø´Ù (°íÁ¤µÈ °ÍÀÌ ¾Æ´Ï¹Ç·Î), ´ë½Å ´çºÐ°£Àº UTF-32¸¦ »ç¿ëÇØ¾ß ÇÑ´Ù. ¾ÕÀ¸·Î 21ºñÆ® ÀÌ»óÀÇ ºÎºÐÀÌ È®Á¤ÀÌ µÇ¸é »õ·Î¿î UTF°¡ ³ª¿À°ÚÁö¸¸, ±×·± ³¯ÀÌ °ú¿¬ ¾ðÁ¦³ª ¿Ã·±Áö ¾Ë ¼ö ¾ø´Ù.
|
|
̵̧ : 433 |
̵̧
¸ñ·Ï
|
|
|  |
|