What is Big data ?

Big data என்றால் என்ன?

பாரிய அளவிலான தரவுகளைக்  குறிப்பதற்காக நிறுவன அமைப்புகளில் பயன்படுத்தப்படும் ஒரு சொற்றொடரே Big Data (பெரும் தரவுகள்) எனப்படுகிறது. இது ஒரு குறிப்பிட்ட அளவிலான தரவுகளைக் குறிக்காது, மாறாக பாரம்பரிய தரவுத்தள மென்பொருள்களைப் பயன்படுத்தி சேமிக்கவோ அல்லது செயற்பாட்டிற்கு உட்படுத்தவோ  முடியாத ஒரு தரவுத்தொகுதியை  குறித்து நிற்கிறது.


பெரும்  தரவுகளுக்கு  எடுத்துக்காட்டாக  கூகிள் தேடற் பொறியின்  தேடல் சுட்டி (Index) , பேஸ்புக் பயனர் சுயவிவரங்கள் (user profiles) மற்றும் அமெஷோன் நிறுவன   (Amazon.com)  மின் வணிக தளத்தில் உள்ள பொருட்களின் பட்டியல் போன்றவற்றைக் குறிப்பிடலாம். இத்தரவுக் கூட்டமானது அளவில் மிகப்பெரியவை. இவற்றை வழமையான ஒரு  தரவுத்தளத்திலோ  அல்லது ஒரு கணினியிலோ சேமிக்கப்பட முடியாது.  புதிலாக வழமையான தரவுத் தள நிர்வாக மென்பொருள்களை விட  மேம்பட்ட  தரவுத்தள நிர்வாக அமைப்பைப் பயன்படுத்தி சேமிக்கப்பட்டு செயற்பாட்டிற்கு  உட்படுத்த வேண்டும்.   பிக் டேட்டாவானது  பெரும்பாலும் ஒன்றிற்கு மேற்பட்ட சேர்வர் கணினிகளில்  சேமிக்கப்படுவதோடு  சில நேரங்களில் இக்கணினிகள் ஒரே இடத்தில் இல்லாமல்  பல்வேறு இடங்களில் உள்ள கணிணிகளிலும் சேமிக்கப்படுவதுண்டு.

வழமையான  தரவுத்தள நிர்வாக மென்பொருள்களில்  எவ்வளவு தரவுகளை  சேமிக்க முடியும் என்பதற்கு  எல்லைகள்  உள்ளன. உதாரணமாக, ஒரு  MS-Access 2010 தரவுத்தள நிர்வாக மென்பொருளில்  இரண்டு கிகாபைட் தரவுகளை நிர்வகிக்கக் கூடியதாயிருக்கும். ஆனால் இதன் மூலம் பல பெடாபைட்  (Petabyte) அல்லது எக்ஸாபைட் (Exabyte)  அளவு கொண்ட தரவுகளைச்  சேமிக்க முடியாது.

வழமையான  தரவுத்தள  நிர்வாக மென்பொருள்களின் மூலம்  ஒரு வேளை பாரிய அளவிலான தரவுகளை சேமிக்க முடியுமாயிருந்தாலும்,  அளவுக்கதிகமான  தரவுத்தள அட்டவணைகளயும் பதிவுகளையும்  உருவாக்கும் போது அதன் செயற் திறன் பெருமளவில் குறைந்து விடும் வாய்ப்புள்ளது.

இவ்வாறான சிக்கல்களுக்குத் தீர்வாக பிக் டேட்டா தொழிநுட்பம் பயன் படுகிறது. இது மேம்பட்ட தேக்க  முறைகளையும் மிக வேகமான செயற்திறனும்  கொண்டதாய் உள்ளது.

தரவுத் தேக்க  மற்றும் தரவுப் பகுப்பாய்வு நிரல்கள்  உள்ளடங்கிய பல்வேறு  பெரும்  தரவு மென்பொருள்கள் பயன்பாட்டில் உள்ளன.  அப்பாச்சி  ஹெடூப் (Apache Hadoop) ஐபிஎம் இன் பிக் டேட்டா  தளம், ஆரக்கிள் நிறுவனத்தின் Oracle NoSQL தரவுத்தளம்  மற்றும்  மைக்ரோசாஃப்ட் நிறுவனத்தின்  HDInsight போன்றவற்றை உதராணமாகக் குறிப்பிடலாம். 

கணினி தரவு என்பது கணினியால் சேமிக்கப்பட்டு செயன் முறைக்குட்படுத்தக் கூடிய தரவுகளாகும்.  இத்தரவுகள்  உரை (text) எண்கள் (numbers); படங்கள (images); ஆடியோ (audio)  கோப்புக்கள்  வீடியோ கோப்புக்கள் என பல வகையான தரவு வடிவங்களில் இருக்கலாம் என்பதையும் நிiனைவில் கொள்க.