www.webtamilan.com
Every thing that you want Information Technology E-Bussiness(Hosting,Domain Name Registration) Tamilealam Neethi Chat
Home Page Go to the Previous page

தமிழ் யுனிகோட்

உன் கோடு,என் கோடு என்று போட்டியிட்டு பல 'கோடு'(கள்) தாண்டி
இப்போது "யுனிகோடி"ற்கு வந்திருக்கிறோம்.ஏற்கெனவே இருப்பது
போதாதென்று இது வேறா என்று நம்மில் பலர் எண்ணக்கூடும்.இன்று நாம்
சந்தித்து வரும் பெரும் சிக்கல், எந்த குறியீட்டு முறையை இணையத் தளங்கள்
அமைப்பதற்கும் மின்னஞ்சல் பரிமாற்றங்களைச் செய்வதற்கும் கையாள்வது
என்பதுதான். இணையப் பக்கம் எழுதுவோர் அவரவர் பயன்படுத்தும் விதத்தில் தாம்
கண்ட வசதிகளின் அடிப்படையில் குறிப்பிட்ட குறியீட்டைச் சிறந்தது என்று
வாதிப்பர். மேலும் முன்பே சில அறியப்பட்ட குறியீட்டுத் தரங்கள்
புழக்கத்தில் இருந்தாலும் சில மின்னிதழ்கள் தேவையில்லாமல் ஒழுங்கற்ற
குறியீடுகளை பயன்படுத்துகின்றன. எனவே பெயருக்கு ஆக்கங்கள் மின் வடிவில்
இருந்தும் அவ்வாக்கங்கள் பயனுள்ளவையாயிருந்தால்கூட பிறருடன்
பரிமாறிக்கொள்ளவோ அல்லது தொகுத்து வைக்கவோ இயலுவதில்லை. தமிழில்
மின் பதிப்புக்கள் போதிய அளவில் இல்லாத நிலையில் இம்மாதிரியான
குழறுபடிகள் வேறு.

Unicode  - முதலில் அதன் பெயரே அதன் அடிப்படையை உணர்த்துவதாக
அமைந்துள்ளது. UNI(que)CODE  - ஓர் அலாதியான தனி குறியீட்டு முறை.
(Universal coding என்று எடுத்துக் கொண்டாலும் தப்பில்லைதான்!).
இதைப் பற்றி நம்மிடையே இப்போதுதான் கவனம் திரும்பியிருந்தாலும் மற்ற
மொழி எழுத்துருக்கள் முன்பே புழக்கதில் இருக்கின்றன. இந்த யுனிகோடு
எழுத்துக் குறியீட்டிற்குச் சொந்தக் காரர்கள் யார்? Unicode Consortium
எனப்படும் ஓர் அமைப்புத்தான்.இந்த அமைப்பால் உலகில் எழுத்து வழக்கில் உள்ள
மொழிகள் எல்லாவற்றிற்கும் எழுத்துரு குறியீடுகள் வரையறுக்கப் பட்டுள்ளன. நம்
தமிழ் மொழிக்கும் அவ்வாறான வரையரை செய்யப்பட்டுள்ளது.மேலும்
குறியீட்டுப் பகுதியில் போதுமான இடமும் ஒதுக்கப் பட்டுள்ளது.இந்த
யுனிகோடு முறையைப் பாவிப்பதால் கிட்டும் மற்றுமோர் அனுகூலம் என்னவென்றால்
பன்மொழி உள்ளடக்கிய ஒரே எழுத்துருவை (font)பாவிக்க உதவுவது.இன்று
நம்மிடையே இருக்கும் TAB, TSCII குறியீட்டு முறைகள் இரண்டு
மொழிகளை (ஆங்கிலம்,தமிழ்) மட்டுமே உள்ளடக்கக் கூடியன.ஆனால்
யுனிகோடு முறையில் எல்லா மொழி எழுத்துக்களும் ஒரே வகையில் வரையறுக்கப்
பட்டிருப்பதால் அத்துனை மொழிகளின் எழுத்துகளையும் ஒரே எழுதுரு
கோப்பில் (font file) அடக்கிவிடலாம்.இது பல மொழிகளை ஒரே
நேரத்தில் கையாளுவோருக்கு பெரிதும் உதவும்.

சாதரண பயனரைப் பொறுத்தவரையில் முரசு அஞ்சல் அல்லது எகலப்பை
போன்றவற்றைப் பயன்படுத்தி யுனிகோடில் தட்டச்சு செய்யும்போது
மேலோட்டமாக எந்த வித்தியாசத்தையும் அறியப் போவதில்லை.ஆனால்
யுனிகோட் குறியீடு முறையும் அதன் முழு இயங்கு முறையும் அலாதியானது.
ஒவ்வொரு எழுத்தும், குறியும் அதற்குரிய யுனிகோட் எண்ணைப் பெற்றிருக்கும்.
எடுத்துக்காட்டாக 'ர்' எனப்படுவதில் "ர" வுக்கு ஒரு குறியீட்டு எண்ணும் அதன்
மேலுள்ள புள்ளிக்கு ஒரு குறியீட்டு எண்ணுமாக இருக்கும்."க்" என்பது "க" என்ற
உயிர்மெய்யும் மேலே குறிப்பிட்ட புள்ளியும் சேர்ந்ததாகும்.இதை வேறு
வகையில் சொல்லப் போனால் நாம் கையால் எழுதும்போது எவ்விதமாக
எழுதுவோமோ அம்முறையில்தான் யுனிகோடு அமைப்பும் இருக்கிறது. "த்" என்ற
மெய் எழுத்தை எழுத "த" என்ற உயிர்மெய்யெழுத்தை எழுதி அதன்மேல் ஒரு
புள்ளியை வைக்கிறோமல்லவா அதே மாதிரி. அதைப் போலவே எல்லா
எழுத்துக்களின் இகர, ஈகார,உகர,ஊகார வடிவங்குக்கு
அவைகளுக்குரிய யுனிகோடு குறீடுகளை இட வேண்டும்.மேலும்
அப்பட்டியலில் உள்ளபடி சரியாக எழுத்துகளைக் காட்ட உதவும் ஒரு சிறப்புக்
கோப்பு (unicode script processor - usp10.dll) உங்கள்
கணினியிலும் இருக்கிறது. உங்களில் யாரேனும் யுனிகோடு பக்கங்களை
சரியாக இல்லாமல் மேலே கண்டதுபோல் குழறுபடியாக காண நேர்தால் usp10.dll பழுதடைந்திருக்கலாம் (அல்லது இல்லாதிருக்கலாம்).அதுவும் இல்லயென்றால் அந்தப் பக்கங்களில் கையாளப்பட்டிருக்கும் யுனிகோடு எழுத்துருவில் மேற்கண்ட விபரப் பட்டியல் இல்லாதிருக்கலாம்.

உங்கள் கணினியின் இனுள் C:\window\system32\  அல்லது C:\WINNT\system32\ folder இற்குள் காணப்படும் usp10.dll file ற்குப்பதிலாக மேம்படுத்தப்பட்ட usp10.dll file ஜ replace செய்யவும் மேலதிக விளக்கம்-வெப்தமிழன்



Open type font என்ற முறை எழுத்துருவில் கையாளப்பட்டவுடன் இந்த
வித்தைகளைச் செய்வது எளிதாகிறது. எழுத்துரு உலகில் முன்னோடியான அடோப்
நிறுவனமும் மைக்ரோசாப்ட் நிறுவனமும் கூடி ஒத்துக்கொண்ட முறைதான் இது. நம்
தமிழாவது பரவாயில்லை. அரபு, மற்றும் வட இந்தியாவில் பேசப்படும் பல
மொழிகளில் எழுதும்போது ஏற்படும் வேறுபாடுகள் மிக அதிகம். ஒரே எழுத்து
சொல்லின் தொடக்கதில் ஒரு விதமாகவும் நடுவில் ஒரு விதமாகவும்,
சொல்லின் இறுதியில் வேறு விதமாகவும் இருக்கும். நாம் ஓர் எழுத்திற்கு ஒரு
குறியீடுதான் என்றறிவோம். மூன்று வெவ்வேறான வடிவங்களை இடத்திற்கு
தக்கவாறு எப்படி தானாகவே அமைத்துக் கொள்ளச் செய்வது? இந்தச் சிக்கலுக்கு
தீர்வளித்து திரையில் சரியான எழுத்துக்களை காண வைப்பதுதான் இந்த முறை.

இறுதியாக யுனிகோடினால் என்ன பயன் என்று தெரிய வேண்டுமல்லவா?
முதலாவதாக, தமிழுக்கென்று தனி இடம். இதுவரை கையாளப்படும் TAM, TAB,
TSCII போன்ற குறியீடுகள் மற்ற வேற்று மொழி எழுத்துருக்களில் இருக்கும்
வடிவங்களை களைந்து விட்டு தமிழ் வரி வடிவங்களை உட்கொண்டதாக
இருக்கின்றன. 256 கட்டங்களில்தான் விளையாட்டை வைத்துக் கொள்ள முடியும்.
அதில் ஒரு குறியீட்டு முறை "அ" வை 140 வது கட்டத்தில் புகுத்தியிருந்தால்
வேறொரு குறியீட்டு முறை "ன" வை புகுத்தி இருக்கும். ஆனால் யுனிகோடில்
அப்படி இல்லை. எண் 2946 இலிருந்து எண் 3071 (0B80 - 0BFF Hex)
வரை தமிழுக்காக மட்டும்தான். நீங்களோ அல்லது ஓர் ஆப்பிரிக்காக்காரனோ
அல்லது ஒரு சீனாக்காரனோ 2949 என்ற எண்ணை யுனிகோடில் எழுதினால் அது
தமிழ் "அ" தான். இவ்வாறாக ஒரே குறியீடு மட்டும் உலகெங்கும் பாவிக்கப்
பட்டால் செய்தி பரிமாற்றத்தில் குழப்பமேற்பட வழியில்லை. தேடு
தளங்களில் தமிழில் தேடும்போது என்ன தேடுகிறீர்களோ அது சரியாகக்
கிடைக்கும்.

யுனிகோடு எல்லா இடங்களிலும் இப்போது இல்லாவிட்டாலும் இனி அதுதான்
எதிர்காலம். win95 வைத்திருப்போர் யுனிகோடில் காண இயலாது என்றாலும்
அது முடிந்துவிட்ட கதை. குறைந்த பட்சம் Win98 இல் யுனிகோடு இணையத்
தளங்களைப் பார்க்க இயலும்.இப்பொழுது XP ஆட்கொண்டு இருப்பதால் இணையத்
தளங்களை மெல்ல யுனிகோடிற்கு மாற்றுவது உத்தமம். சில உலாவிகள்,இயக்கு
தளங்கள் ஆகியவற்றில் சிக்கல்கள் இருப்பது உண்மைதான் என்றாலும் இது
உலகலாவியது என்பதால் விரைவில் சிக்கல் தீர்ந்தே ஆக வேண்டும்.
மைக்ரோசாப்ட் "லதா" என்ற யுனிகோடு
எழுத்துருவை மட்டுமே தருகிறது. என்றாலும் புழக்கத்திலிருக்கும்
எழுத்துருக்களுக்குள்ளும் யுனிகோடு குறியீடுகளை உட்புகுத்த முடியும். அந்தந்த
எழுத்துரு தயாரிப்பளர்களை அனுகினால் செய்து கொடுப்பார்கள். அந்தவகையில்
முரசு எழுத்துருக்கள் யுனிகோடு குறியீடுகளுடன் வருகின்றன. (TSCu....
என்பதில் u என்பது யுனிகோடு உள்ளடக்கியது என்பதைக் குறிக்கிறது).

கணினியுலகில் 'யாதும் ஊரே யாவரும் கேளிர்' என ஆகவேண்டுமானால்
யுனிகோடிற்கு தாவுவதற்கு தயாராக வேண்டும்.

அன்புடன்,
உமர்

All rights Reserved for Webtamilan.com© (2002) [Used Font is Unicode]