பெரிய தரவை நசுக்குவதற்கான அத்தியாவசிய ஹடூப் கருவிகள்



ஹடூப் என்பது இன்று ஐடி உலகில் உள்ள பரபரப்பான வார்த்தையாகும், மேலும் இந்த இடுகை பிக் டேட்டாவை நசுக்கும் அத்தியாவசிய ஹடூப் கருவிகளை விவரிக்கிறது.

இன்று, ஐடி உலகில் மிகவும் பிரபலமான சொல் ‘ஹடூப்’. குறுகிய காலத்திற்குள், ஹடூப் பெருமளவில் வளர்ந்துள்ளது மற்றும் பல்வேறு திட்டங்களின் பெரிய சேகரிப்புக்கு பயனுள்ளதாக இருக்கும். ஹடூப் சமூகம் வேகமாக வளர்ந்து வருகிறது மற்றும் அதன் சூழல் அமைப்பில் முக்கிய பங்கு வகிக்கிறது.





பெரிய தரவைக் கையாளப் பயன்படுத்தப்படும் அத்தியாவசிய ஹடூப் கருவிகளைப் பாருங்கள்.

ஜாவா எடுத்துக்காட்டில் xml கோப்பைப் படிக்கவும்

ambari



அம்பாரி ஹார்டன்வொர்க்ஸ் ஆதரிக்கும் அப்பாச்சி திட்டம். இது பெரும்பாலான நிலையான கூறுகளைக் கொண்ட கிளஸ்டர்களை அமைப்பதற்கான வழிகாட்டி ஸ்கிரிப்டுகளுடன் இணைய அடிப்படையிலான GUI (வரைகலை பயனர் இடைமுகம்) வழங்குகிறது. ஹடூப் வேலைகளின் அனைத்து கிளஸ்டர்களையும் அம்பாரி ஏற்பாடுகள், நிர்வகித்தல் மற்றும் கண்காணித்தல்.

hdfs-logo

தி HDFS , அப்பாச்சி உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது, பல முனைகளுக்கு இடையில் தரவு சேகரிப்புகளைப் பிரிப்பதற்கான அடிப்படை கட்டமைப்பை வழங்குகிறது. HDFS இல், பெரிய கோப்புகள் தொகுதிகளாக உடைக்கப்படுகின்றன, அங்கு பல முனைகள் ஒரு கோப்பிலிருந்து அனைத்து தொகுதிகளையும் வைத்திருக்கின்றன. கோப்பு முறைமை உயர் சகிப்புத்தன்மையுடன் தவறு சகிப்புத்தன்மையை கலக்கும் வகையில் வடிவமைக்கப்பட்டுள்ளது. நிலையான ஸ்ட்ரீமிங்கை பராமரிக்க HDFS இன் தொகுதிகள் ஏற்றப்படுகின்றன. அவை பொதுவாக தாமதத்தைக் குறைக்க தற்காலிகமாக சேமிக்கப்படுவதில்லை.



hbaselogo

HBase இது ஒரு நெடுவரிசை சார்ந்த தரவுத்தள மேலாண்மை அமைப்பு ஆகும், இது HDFS க்கு மேல் இயங்குகிறது. HBase பயன்பாடுகள் MapReduce பயன்பாட்டைப் போலவே ஜாவாவிலும் எழுதப்பட்டுள்ளன. இது அட்டவணைகளின் தொகுப்பைக் கொண்டுள்ளது, அங்கு ஒவ்வொரு அட்டவணையிலும் ஒரு பாரம்பரிய தரவுத்தளம் போன்ற வரிசைகள் மற்றும் நெடுவரிசைகள் உள்ளன. தரவு பெரிய அட்டவணையில் விழும்போது, ​​HBase தரவைச் சேமித்து, அதைத் தேடி, தானாகவே அட்டவணையை பல முனைகளில் பகிர்ந்து கொள்ளும், இதனால் MapReduce வேலைகள் அதை உள்நாட்டில் இயக்க முடியும். சில உள்ளூர் மாற்றங்களுக்கு HBase ஒரு வரையறுக்கப்பட்ட உத்தரவாதத்தை வழங்குகிறது. ஒரே வரிசையில் நிகழும் மாற்றங்கள் ஒரே நேரத்தில் வெற்றிபெறலாம் அல்லது தோல்வியடையும்.

hive

நீங்கள் ஏற்கனவே SQL உடன் சரளமாக இருந்தால், நீங்கள் ஹடூப்பைப் பயன்படுத்தலாம் ஹைவ் . ஹைவ் பேஸ்புக்கில் சிலரால் உருவாக்கப்பட்டது. அப்பாச்சி ஹைவ் HBase இல் உள்ள அனைத்து கோப்புகளிலிருந்தும் பிட்களைப் பிரித்தெடுக்கும் செயல்முறையை ஒழுங்குபடுத்துகிறது. இது ஹடூப்பின் HDFS மற்றும் இணக்கமான கோப்பு முறைமைகளில் சேமிக்கப்பட்ட பெரிய தரவுத்தொகுப்புகளின் பகுப்பாய்வை ஆதரிக்கிறது. இது HSQL (HiveSQL) எனப்படும் SQL போன்ற மொழியையும் வழங்குகிறது, இது கோப்புகளில் இறங்கி குறியீட்டிற்கு தேவையான துணுக்குகளை பிரித்தெடுக்கிறது.

sqoop

அப்பாச்சி ஸ்கூப் பாரம்பரிய தரவுத்தளங்களிலிருந்து மொத்தத் தரவை ஹைவ் அல்லது எச் பேஸுக்கு மாற்றுவதற்காக சிறப்பாக வடிவமைக்கப்பட்டுள்ளது. ஹடூப்பிலிருந்து தரவைப் பிரித்தெடுக்கவும், தொடர்புடைய தரவுத்தளங்கள் மற்றும் நிறுவன தரவுக் கிடங்குகள் போன்ற வெளிப்புற கட்டமைக்கப்பட்ட தரவுக் கடைகளுக்கு ஏற்றுமதி செய்யவும் இதைப் பயன்படுத்தலாம். ஸ்கூப் என்பது ஒரு கட்டளை வரி கருவியாகும், இது அட்டவணைகள் மற்றும் தரவு சேமிப்பக அடுக்குக்கு இடையில் மேப்பிங் செய்கிறது, அட்டவணையை HDFS, HBase அல்லது Hive ஆகியவற்றின் உள்ளமைக்கக்கூடிய கலவையாக மொழிபெயர்க்கிறது.

Pig1

சேமிக்கப்பட்ட தரவு ஹடூப்பிற்குத் தெரியும் போது, அப்பாச்சி பன்றி தரவுகளில் மூழ்கி அதன் சொந்த மொழியில் எழுதப்பட்ட குறியீட்டை பிக் லத்தீன் என்று அழைக்கிறது. பிக் லத்தீன் தரவைக் கையாளுவதற்கான சுருக்கங்களால் நிரப்பப்பட்டுள்ளது. தரவின் சராசரி, தேதிகளுடன் பணிபுரிதல் அல்லது சரங்களுக்கு இடையில் வேறுபாடுகளைக் கண்டறிதல் போன்ற பொதுவான பணிகளுக்கான நிலையான செயல்பாடுகளுடன் பன்றி வருகிறது. நிலையான செயல்பாடுகள் குறையும் போது, ​​யுடிஎஃப் (பயனர் வரையறுக்கப்பட்ட செயல்பாடு) எனப்படும் மொழிகளை சொந்தமாக எழுத பன்றி அனுமதிக்கிறது.

zookeper

உயிரியல் பூங்கா ஒரு மையப்படுத்தப்பட்ட சேவையாகும், இது தகவல்களை பராமரிக்கிறது, கட்டமைக்கிறது, ஒரு பெயரைக் கொடுக்கிறது மற்றும் ஒரு கொத்து முழுவதும் விநியோகிக்கப்பட்ட ஒத்திசைவை வழங்குகிறது. இது ஒரு கோப்பு முறைமை போன்ற படிநிலையை கொத்து மீது சுமத்துகிறது மற்றும் இயந்திரங்களுக்கான அனைத்து மெட்டாடேட்டாவையும் சேமிக்கிறது, எனவே பல்வேறு இயந்திரங்களின் வேலையை நாம் ஒத்திசைக்க முடியும்.

NoSQL

சில ஹடூப் கிளஸ்டர்கள் ஒருங்கிணைக்கின்றன NoSQL கணுக்களின் கொத்து முழுவதும் தரவைச் சேமிப்பதற்கான சொந்த வழிமுறைகளுடன் வரும் தரவுக் கடைகள். இது NoSQL தரவுத்தளத்தின் அனைத்து அம்சங்களுடனும் தரவைச் சேமிக்கவும் மீட்டெடுக்கவும் அனுமதிக்கிறது, அதன் பிறகு ஒரே கிளஸ்டரில் தரவு பகுப்பாய்வு வேலைகளை திட்டமிட ஹடூப் பயன்படுத்தப்படலாம்.

mahoutlogo

மஹவுட் ஹடூப் கிளஸ்டருக்கு ஏராளமான வழிமுறைகள், வகைப்பாடுகள் மற்றும் தரவு பகுப்பாய்வை வடிகட்டுதல் ஆகியவற்றை செயல்படுத்த வடிவமைக்கப்பட்டுள்ளது. கே-மீன்ஸ், டிரிச்செலெட், இணை முறை மற்றும் பேய்சியன் வகைப்பாடுகள் போன்ற பல நிலையான வழிமுறைகள் ஒரு ஹடூப் பாணி வரைபடத்துடன் தரவை இயக்கவும் குறைக்கவும் தயாராக உள்ளன.

லூசீன், ஜாவாவில் எழுதப்பட்டு, ஹடூப்புடன் எளிதில் ஒருங்கிணைக்கப்பட்டது, ஹடூப்பின் இயல்பான துணை. இது கட்டமைக்கப்படாத உரையின் பெரிய தொகுதிகளை அட்டவணைப்படுத்துவதற்கான ஒரு கருவியாகும். லூசீன் குறியீட்டைக் கையாளுகிறது, அதே நேரத்தில் ஹடூப் கிளஸ்டர் முழுவதும் விநியோகிக்கப்பட்ட வினவல்களைக் கையாளுகிறது. புதிய திட்டங்கள் உருவாக்கப்படுவதால் லூசீன்-ஹடூப் அம்சங்கள் விரைவாக உருவாகின்றன.

Avro

யூரோ தரவைப் புரிந்துகொள்வதற்கான திட்டத்துடன் ஒன்றிணைக்கும் ஒரு வரிசைப்படுத்தல் அமைப்பு. ஒவ்வொரு பாக்கெட்டிலும் JSON தரவு அமைப்பு உள்ளது. தரவை எவ்வாறு பாகுபடுத்த முடியும் என்பதை JSON விளக்குகிறது. JSON இன் தலைப்பு தரவுக்கான கட்டமைப்பைக் குறிப்பிடுகிறது, அங்கு புலங்களை குறிக்க தரவுகளில் கூடுதல் குறிச்சொற்களை எழுத வேண்டிய அவசியத்தைத் தவிர்க்கலாம். எக்ஸ்எம்எல் போன்ற பாரம்பரிய வடிவங்களை விட வெளியீடு கணிசமாக மிகச் சுருக்கமானது.

ஒரு வேலையை படிகளாக உடைப்பதன் மூலம் எளிமைப்படுத்தலாம். பல ஹடூப் வேலைகளுக்கு திட்டத்தை உடைத்தவுடன், ஓஸி அவற்றை சரியான வரிசையில் செயலாக்கத் தொடங்குகிறது. இது DAG (டைரக்ட் அசைக்ளிக் வரைபடம்) ஆல் குறிப்பிடப்பட்டுள்ளபடி பணிப்பாய்வுகளை நிர்வகிக்கிறது மற்றும் சரியான நேரத்தில் மானிட்டர் தேவையில்லை.

GIS கருவிகள்

ஹடூப் இயங்கும் கிளஸ்டர்களுக்கு புவியியல் வரைபடங்களுடன் பணிபுரிவது ஒரு பெரிய வேலை. ஜி.ஐ.எஸ் ( புவியியல் தகவல் அமைப்பு ) ஹடூப் திட்டங்களுக்கான கருவிகள் ஹடூப் உடன் இயங்க புவியியல் தகவல்களைப் புரிந்துகொள்வதற்கான சிறந்த ஜாவா அடிப்படையிலான கருவிகளைத் தழுவின. தரவுத்தளங்கள் இப்போது ஆயத்தொகுதிகளைப் பயன்படுத்தி புவியியல் வினவல்களைக் கையாள முடியும் மற்றும் குறியீடுகள் GIS கருவிகளைப் பயன்படுத்தலாம்.

எல்லா தரவையும் சேகரிப்பது அதை சேமித்து பகுப்பாய்வு செய்வதற்கு சமம். அப்பாச்சி ஃப்ளூம் HDFS இல் சேமிக்கப்படும் தகவல்களை சேகரிக்க ‘சிறப்பு முகவர்களை’ அனுப்புகிறது. சேகரிக்கப்பட்ட தகவல்கள் பதிவு கோப்புகள், ட்விட்டர் ஏபிஐ அல்லது வலைத்தள ஸ்கிராப்புகளாக இருக்கலாம். இந்த தரவுகள் சங்கிலியால் பிணைக்கப்பட்டு பகுப்பாய்வுகளுக்கு உட்படுத்தப்படலாம்.

Spark

தீப்பொறி நினைவகத்தில் தேக்ககப்படுத்தப்பட்ட தரவை செயலாக்கும் ஹடூப் போன்ற அடுத்த தலைமுறை. தரவு செயலாக்கத்தை ஒரு பொதுவான செயல்படுத்தல் மாதிரியுடன் விரைவாக இயக்கவும் எழுதவும் செய்வதே இதன் நோக்கம். இது தன்னிச்சையான ஆபரேட்டர் வரைபடங்களை மேம்படுத்தலாம் மற்றும் இன்-மெமரி கம்ப்யூட்டிங்கை ஆதரிக்கும், இது ஹடூப் போன்ற வட்டு அடிப்படையிலான இயந்திரங்களை விட வேகமாக தரவை வினவ அனுமதிக்கிறது.

ஹடூப்பில் SQL

கிளஸ்டரில் உள்ள எல்லா தரவின் விரைவான தற்காலிக வினவலை இயக்க வேண்டியிருக்கும் போது, ​​ஒரு புதிய ஹடூப் வேலை எழுதப்படலாம், ஆனால் இதற்கு சிறிது நேரம் ஆகும். புரோகிராமர்கள் இதை அடிக்கடி செய்யத் தொடங்கியபோது, ​​அவர்கள் SQL இன் எளிய மொழியில் எழுதப்பட்ட கருவிகளைக் கொண்டு வந்தார்கள். இந்த கருவிகள் முடிவுகளுக்கு விரைவான அணுகலை வழங்குகின்றன.

அப்பாச்சி துரப்பணம்

அப்பாச்சி துரப்பணம் உள்ளமை தரவு உட்பட பல மற்றும் மாறுபட்ட தரவு மூலங்களுக்கு குறைந்த தாமதமான தற்காலிக வினவல்களை வழங்குகிறது. கூகிளின் ட்ரெமால் ஈர்க்கப்பட்ட துரப்பணம் 10,000 சேவையகங்களுக்கு அளவிட வடிவமைக்கப்பட்டுள்ளது மற்றும் வினாடிகளில் பெட்டாபைட் தரவை வினவுகிறது.

பிக் டேட்டாவை நசுக்குவதற்கான அத்தியாவசிய ஹடூப் கருவிகள் இவை!

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் அவற்றைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.

தொடர்புடைய இடுகைகள்:

ஹடூப் 2.0 கற்க நடைமுறை காரணங்கள்