கூகிள் ஆராய்ச்சியாளர்கள் 9 இந்திய மொழிகளை அங்கீகரிக்க AI க்கு பயிற்சி அளிக்கின்றனர் : கூகிள் ஆராய்ச்சியாளர்கள் நிகழ்நேர பன்மொழி தான...
கூகிள் ஆராய்ச்சியாளர்கள் 9 இந்திய மொழிகளை அங்கீகரிக்க AI க்கு பயிற்சி அளிக்கின்றனர் :
கூகிள் ஆராய்ச்சியாளர்கள் நிகழ்நேர பன்மொழி தானியங்கி பேச்சு அங்கீகாரத்திற்காக (ஏ.எஸ்.ஆர்) ஒற்றை முடிவுக்கு இறுதி மாதிரியை உருவாக்கியுள்ளனர். இந்தி இந்தி, மராத்தி, உருது, பெங்காலி, தமிழ், தெலுங்கு, கன்னடம், மலையாளம் மற்றும் குஜராத்தி ஆகிய ஒன்பது இந்திய மொழிகளை அடையாளம் காண முடியும். இந்த ஒன்பது இந்திய மொழிகளில் பன்மொழி மாதிரி பயிற்சி பெற்றதாக ஆராய்ச்சியாளர்கள் தெரிவித்தனர், ஏனெனில் அவற்றில் பல ஒலி மற்றும் சொற்பொருள் உள்ளடக்கங்களில் ஒன்றுடன் ஒன்று உள்ளன.
கூகிளின் நோக்கம் உலகின் தகவல்களை ஒழுங்கமைப்பது மட்டுமல்ல, அதை உலகளவில் அணுகக்கூடியதாக மாற்றுவதும் ஆகும், இதன் பொருள் எங்கள் தயாரிப்புகள் முடிந்தவரை உலகின் பல மொழிகளில் செயல்படுவதை உறுதிசெய்கிறது. கூகிள் உதவியாளரின் முக்கிய திறனான மனித பேச்சைப் புரிந்துகொள்ளும்போது, அதிகமான மொழிகளுக்கு விரிவாக்குவது ஒரு சவாலாக உள்ளது: உயர்தர தானியங்கி பேச்சு அங்கீகாரம் (ஏஎஸ்ஆர்) அமைப்புகளுக்கு அதிக அளவு ஆடியோ மற்றும் உரைத் தரவு தேவைப்படுகிறது - அதைவிடவும் தரவு -கட்ட நரம்பியல் மாதிரிகள் தொடர்ந்து துறையில் புரட்சியை ஏற்படுத்துகின்றன. இன்னும் பல மொழிகளில் தரவு குறைவாகவே உள்ளது.
தரவு பற்றாக்குறை மொழிகளைப் பேசுபவர்களுக்கு பேச்சு அங்கீகாரத்தின் தரத்தை எவ்வாறு உயர்த்துவது என்று நாங்கள் ஆச்சரியப்பட்டோம். தரவு நிறைந்த மொழியின் ஆடியோ தரவிலிருந்து ஒரு நரம்பியல் நெட்வொர்க் கற்றுக் கொள்ளும் "அறிவு" இன் பெரும்பகுதி தரவு-பற்றாக்குறை மொழிகளால் மீண்டும் பயன்படுத்தக்கூடியது என்பது ஆராய்ச்சி சமூகத்தின் ஒரு முக்கிய நுண்ணறிவு; புதிதாக எல்லாவற்றையும் நாம் கற்றுக்கொள்ள தேவையில்லை. இது பன்மொழி பேச்சு அங்கீகாரத்தைப் படிக்க எங்களுக்கு வழிவகுத்தது, இதில் ஒரு மாதிரி பல மொழிகளை மொழிபெயர்க்க கற்றுக்கொள்கிறது.
இன்டர்ஸ்பீச் 2019 இல் வெளியிடப்பட்ட “ஸ்ட்ரீமிங் எண்ட்-டு-எண்ட் மாடலுடன் பெரிய அளவிலான பன்மொழி பேச்சு அங்கீகாரம்” இல், ஒரு மாதிரியாக பயிற்சியளிக்கப்பட்ட ஒரு முடிவுக்கு இறுதி (இ 2 இ) முறையை நாங்கள் முன்வைக்கிறோம், இது நிகழ்நேர பன்மொழி பேச்சை அனுமதிக்கிறது அங்கீகாரம். ஒன்பது இந்திய மொழிகளைப் பயன்படுத்தி, பல தரவு-பற்றாக்குறை மொழிகளில் ஏ.எஸ்.ஆர் தரத்தில் வியத்தகு முன்னேற்றத்தை நாங்கள் காண்பித்தோம், அதே நேரத்தில் தரவு நிறைந்த மொழிகளுக்கான செயல்திறனை மேம்படுத்துகிறோம்.
இந்தியா: மொழிகளின் நிலம்
இந்த ஆய்வுக்காக, குறைந்தது ஒரு மில்லியனுக்கும் அதிகமான பூர்வீக மொழி பேசுபவர்களுடன் முப்பதுக்கும் மேற்பட்ட மொழிகள் உள்ள ஒரு உள்ளார்ந்த பன்மொழி சமுதாயமான இந்தியா மீது நாங்கள் கவனம் செலுத்தினோம். இந்த மொழிகளில் பல சொந்த மொழி பேசுபவர்களின் புவியியல் அருகாமை மற்றும் கலாச்சார வரலாற்றைப் பகிர்ந்ததன் காரணமாக ஒலி மற்றும் சொற்பொருள் உள்ளடக்கத்தில் ஒன்றுடன் ஒன்று உள்ளன. கூடுதலாக, பல இந்தியர்கள் இருமொழி அல்லது முத்தொகுப்பு, உரையாடலுக்குள் பல மொழிகளைப் பயன்படுத்துவது ஒரு பொதுவான நிகழ்வாகவும், ஒரு பன்மொழி மாதிரியைப் பயிற்றுவிப்பதற்கான இயற்கையான நிகழ்வாகவும் அமைகிறது. இந்த வேலையில், இந்தி, மராத்தி, உருது, பெங்காலி, தமிழ், தெலுங்கு, கன்னடம், மலையாளம் மற்றும் குஜராத்தி ஆகிய ஒன்பது முதன்மை இந்திய மொழிகளை இணைத்தோம்.
மேலும் வாசிக்க : Google AI வலைப்பதிவில்
COMMENTS