|
உன் கோடு,என் கோடு என்று போட்டியிட்டு பல 'கோடு'(கள்)
தாண்டி
இப்போது "யுனிகோடி"ற்கு வந்திருக்கிறோம்.ஏற்கெனவே இருப்பது
போதாதென்று இது வேறா என்று நம்மில் பலர் எண்ணக்கூடும்.இன்று
நாம்
சந்தித்து வரும் பெரும் சிக்கல், எந்த குறியீட்டு முறையை இணையத்
தளங்கள்
அமைப்பதற்கும் மின்னஞ்சல் பரிமாற்றங்களைச் செய்வதற்கும்
கையாள்வது
என்பதுதான். இணையப் பக்கம் எழுதுவோர் அவரவர் பயன்படுத்தும்
விதத்தில் தாம்
கண்ட வசதிகளின் அடிப்படையில் குறிப்பிட்ட குறியீட்டைச் சிறந்தது
என்று
வாதிப்பர். மேலும் முன்பே சில அறியப்பட்ட குறியீட்டுத் தரங்கள்
புழக்கத்தில் இருந்தாலும் சில மின்னிதழ்கள் தேவையில்லாமல்
ஒழுங்கற்ற
குறியீடுகளை பயன்படுத்துகின்றன. எனவே பெயருக்கு ஆக்கங்கள் மின்
வடிவில்
இருந்தும் அவ்வாக்கங்கள் பயனுள்ளவையாயிருந்தால்கூட பிறருடன்
பரிமாறிக்கொள்ளவோ அல்லது தொகுத்து வைக்கவோ இயலுவதில்லை. தமிழில்
மின் பதிப்புக்கள் போதிய அளவில் இல்லாத நிலையில் இம்மாதிரியான
குழறுபடிகள் வேறு.
Unicode - முதலில் அதன் பெயரே அதன் அடிப்படையை உணர்த்துவதாக
அமைந்துள்ளது. UNI(que)CODE
- ஓர் அலாதியான தனி குறியீட்டு முறை.
(Universal coding
என்று எடுத்துக் கொண்டாலும் தப்பில்லைதான்!).
இதைப் பற்றி நம்மிடையே இப்போதுதான் கவனம் திரும்பியிருந்தாலும்
மற்ற
மொழி எழுத்துருக்கள் முன்பே புழக்கதில் இருக்கின்றன. இந்த
யுனிகோடு
எழுத்துக் குறியீட்டிற்குச் சொந்தக் காரர்கள் யார்?
Unicode Consortium்
எனப்படும் ஓர் அமைப்புத்தான்.இந்த அமைப்பால் உலகில் எழுத்து
வழக்கில் உள்ள
மொழிகள் எல்லாவற்றிற்கும் எழுத்துரு குறியீடுகள் வரையறுக்கப்
பட்டுள்ளன. நம்
தமிழ் மொழிக்கும் அவ்வாறான வரையரை செய்யப்பட்டுள்ளது.மேலும்
குறியீட்டுப் பகுதியில் போதுமான இடமும் ஒதுக்கப் பட்டுள்ளது.இந்த
யுனிகோடு முறையைப் பாவிப்பதால் கிட்டும் மற்றுமோர் அனுகூலம்
என்னவென்றால்
பன்மொழி உள்ளடக்கிய ஒரே எழுத்துருவை (font)பாவிக்க உதவுவது.இன்று
நம்மிடையே இருக்கும் TAB, TSCII குறியீட்டு முறைகள் இரண்டு
மொழிகளை (ஆங்கிலம்,தமிழ்) மட்டுமே உள்ளடக்கக் கூடியன.ஆனால்
யுனிகோடு முறையில் எல்லா மொழி எழுத்துக்களும் ஒரே வகையில்
வரையறுக்கப்
பட்டிருப்பதால் அத்துனை மொழிகளின் எழுத்துகளையும் ஒரே எழுதுரு
கோப்பில் (font file) அடக்கிவிடலாம்.இது பல மொழிகளை ஒரே
நேரத்தில் கையாளுவோருக்கு பெரிதும் உதவும்.
சாதரண பயனரைப் பொறுத்தவரையில் முரசு அஞ்சல் அல்லது எகலப்பை
போன்றவற்றைப் பயன்படுத்தி யுனிகோடில் தட்டச்சு செய்யும்போது
மேலோட்டமாக எந்த வித்தியாசத்தையும் அறியப் போவதில்லை.ஆனால்
யுனிகோட் குறியீடு முறையும் அதன் முழு இயங்கு முறையும்
அலாதியானது.
ஒவ்வொரு எழுத்தும், குறியும் அதற்குரிய யுனிகோட் எண்ணைப்
பெற்றிருக்கும்.
எடுத்துக்காட்டாக 'ர்' எனப்படுவதில் "ர" வுக்கு ஒரு குறியீட்டு
எண்ணும் அதன்
மேலுள்ள புள்ளிக்கு ஒரு குறியீட்டு எண்ணுமாக இருக்கும்."க்" என்பது "க" என்ற
உயிர்மெய்யும் மேலே குறிப்பிட்ட புள்ளியும் சேர்ந்ததாகும்.இதை
வேறு
வகையில் சொல்லப் போனால் நாம் கையால் எழுதும்போது எவ்விதமாக
எழுதுவோமோ அம்முறையில்தான் யுனிகோடு அமைப்பும் இருக்கிறது. "த்"
என்ற
மெய் எழுத்தை எழுத "த" என்ற உயிர்மெய்யெழுத்தை எழுதி அதன்மேல்
ஒரு
புள்ளியை வைக்கிறோமல்லவா அதே மாதிரி. அதைப் போலவே எல்லா
எழுத்துக்களின் இகர, ஈகார,உகர,ஊகார வடிவங்குக்கு
அவைகளுக்குரிய யுனிகோடு குறீடுகளை இட வேண்டும்.மேலும்
அப்பட்டியலில் உள்ளபடி சரியாக எழுத்துகளைக் காட்ட உதவும் ஒரு
சிறப்புக்
கோப்பு (unicode script
processor - usp10.dll) உங்கள்
கணினியிலும் இருக்கிறது. உங்களில் யாரேனும் யுனிகோடு பக்கங்களை
சரியாக இல்லாமல் மேலே கண்டதுபோல் குழறுபடியாக
காண நேர்தால் usp10.dll பழுதடைந்திருக்கலாம் (அல்லது
இல்லாதிருக்கலாம்).அதுவும் இல்லயென்றால் அந்தப் பக்கங்களில் கையாளப்பட்டிருக்கும்
யுனிகோடு
எழுத்துருவில் மேற்கண்ட விபரப் பட்டியல் இல்லாதிருக்கலாம்.
|
உங்கள் கணினியின் இனுள்
C:\window\system32\ அல்லது
C:\WINNT\system32\ folder
இற்குள் காணப்படும் usp10.dll file ற்குப்பதிலாக
மேம்படுத்தப்பட்ட
usp10.dll
file ஜ replace செய்யவும்
மேலதிக விளக்கம்-வெப்தமிழன் |
Open type font என்ற முறை எழுத்துருவில் கையாளப்பட்டவுடன்
இந்த
வித்தைகளைச் செய்வது எளிதாகிறது. எழுத்துரு உலகில் முன்னோடியான
அடோப்
நிறுவனமும் மைக்ரோசாப்ட் நிறுவனமும் கூடி ஒத்துக்கொண்ட முறைதான்
இது. நம்
தமிழாவது பரவாயில்லை. அரபு, மற்றும் வட இந்தியாவில் பேசப்படும்
பல
மொழிகளில் எழுதும்போது ஏற்படும் வேறுபாடுகள் மிக அதிகம். ஒரே
எழுத்து
சொல்லின் தொடக்கதில் ஒரு விதமாகவும் நடுவில் ஒரு விதமாகவும்,
சொல்லின் இறுதியில் வேறு விதமாகவும் இருக்கும். நாம் ஓர்
எழுத்திற்கு ஒரு
குறியீடுதான் என்றறிவோம். மூன்று வெவ்வேறான வடிவங்களை இடத்திற்கு
தக்கவாறு எப்படி தானாகவே அமைத்துக் கொள்ளச் செய்வது? இந்தச்
சிக்கலுக்கு
தீர்வளித்து திரையில் சரியான எழுத்துக்களை காண வைப்பதுதான் இந்த
முறை.
இறுதியாக யுனிகோடினால் என்ன பயன் என்று தெரிய வேண்டுமல்லவா?
முதலாவதாக, தமிழுக்கென்று தனி இடம். இதுவரை கையாளப்படும் TAM,
TAB,
TSCII போன்ற குறியீடுகள் மற்ற வேற்று மொழி எழுத்துருக்களில்
இருக்கும்
வடிவங்களை களைந்து விட்டு தமிழ் வரி வடிவங்களை உட்கொண்டதாக
இருக்கின்றன. 256 கட்டங்களில்தான் விளையாட்டை வைத்துக் கொள்ள
முடியும்.
அதில் ஒரு குறியீட்டு முறை "அ" வை 140 வது கட்டத்தில்
புகுத்தியிருந்தால்
வேறொரு குறியீட்டு முறை "ன" வை புகுத்தி இருக்கும். ஆனால்
யுனிகோடில்
அப்படி இல்லை. எண் 2946 இலிருந்து எண் 3071 (0B80 - 0BFF Hex)
வரை தமிழுக்காக மட்டும்தான். நீங்களோ அல்லது ஓர்
ஆப்பிரிக்காக்காரனோ
அல்லது ஒரு சீனாக்காரனோ 2949 என்ற எண்ணை யுனிகோடில் எழுதினால்
அது
தமிழ் "அ" தான். இவ்வாறாக ஒரே குறியீடு மட்டும் உலகெங்கும்
பாவிக்கப்
பட்டால் செய்தி பரிமாற்றத்தில் குழப்பமேற்பட வழியில்லை. தேடு
தளங்களில் தமிழில் தேடும்போது என்ன தேடுகிறீர்களோ அது சரியாகக்
கிடைக்கும்.
யுனிகோடு எல்லா இடங்களிலும் இப்போது இல்லாவிட்டாலும் இனி அதுதான்
எதிர்காலம். win95 வைத்திருப்போர் யுனிகோடில் காண இயலாது
என்றாலும்
அது முடிந்துவிட்ட கதை. குறைந்த பட்சம் Win98 இல் யுனிகோடு
இணையத்
தளங்களைப் பார்க்க இயலும்.இப்பொழுது XP ஆட்கொண்டு இருப்பதால்
இணையத்
தளங்களை மெல்ல யுனிகோடிற்கு மாற்றுவது உத்தமம். சில உலாவிகள்,இயக்கு
தளங்கள் ஆகியவற்றில் சிக்கல்கள் இருப்பது உண்மைதான் என்றாலும்
இது
உலகலாவியது என்பதால் விரைவில் சிக்கல் தீர்ந்தே ஆக வேண்டும்.
மைக்ரோசாப்ட் "லதா" என்ற யுனிகோடு
எழுத்துருவை மட்டுமே தருகிறது. என்றாலும் புழக்கத்திலிருக்கும்
எழுத்துருக்களுக்குள்ளும் யுனிகோடு குறியீடுகளை உட்புகுத்த
முடியும். அந்தந்த
எழுத்துரு தயாரிப்பளர்களை அனுகினால் செய்து கொடுப்பார்கள்.
அந்தவகையில்
முரசு எழுத்துருக்கள் யுனிகோடு குறியீடுகளுடன் வருகின்றன. (TSCu....
என்பதில் u என்பது யுனிகோடு உள்ளடக்கியது என்பதைக் குறிக்கிறது).
கணினியுலகில் 'யாதும் ஊரே யாவரும் கேளிர்' என ஆகவேண்டுமானால்
யுனிகோடிற்கு தாவுவதற்கு தயாராக வேண்டும்.
அன்புடன்,
உமர்
|