அமேசான் ஈ.எம்.ஆருடன் ஹடூப் கிளஸ்டரை உருவாக்குவது எப்படி?

இந்த கட்டுரையில் நாம் AWS EMR சேவையை ஆராய்வோம், மேலும் செயல்பாட்டில் அமேசான் EMR உடன் ஹடூப் கிளஸ்டரை உருவாக்குவது எப்படி என்பதைக் கற்றுக்கொள்வோம்.

எப்படி உருவாக்குவது என்பது குறித்த இந்த கட்டுரையில் அமேசான் ஈ.எம்.ஆருடன் கிளஸ்டர் ஹடூப் மற்றும் பிக் டேட்டா பயன்பாடுகளை எவ்வாறு எளிதாக இயக்குவது மற்றும் அளவிடுவது என்று பார்ப்போம். இந்த கட்டுரையில் பின்வரும் சுட்டிகள் விவரிக்கப்படும்,

இதனுடன் நகரும் அமேசான் ஈ.எம்.ஆருடன் ஹடூப் கிளஸ்டரை உருவாக்குவது எப்படி?



அமேசான் ஈ.எம்.ஆருடன் ஹடூப் கிளஸ்டரை உருவாக்குவது எப்படி?

கூகிள் அல்லது யாகூவில் எதையாவது தேடும்போது, ​​வினாடிக்கு ஒரு பகுதியிலேயே பதிலைப் பெறுவோம். கூகிள், யாகூ மற்றும் பிற தேடுபொறிகள் தொடர்ந்து வளர்ந்து வரும் வலையிலிருந்து முடிவுகளை மிக விரைவாக வழங்குவது எப்படி? தேடுபொறிகள் இணையம் வழியாக வலம் வருகின்றன, வலைப்பக்கங்களை பதிவிறக்கம் செய்து கீழே காட்டப்பட்டுள்ளபடி ஒரு குறியீட்டை உருவாக்குகின்றன. எங்களிடமிருந்து வரும் எந்தவொரு வினவலுக்கும், நாங்கள் தேடும் உரையைக் கொண்ட அனைத்து வலைப்பக்கங்களும் என்ன என்பதைக் கண்டுபிடிக்க அவை குறியீட்டைப் பயன்படுத்துகின்றன. வலதுபுறத்தில் கீழே உள்ள குறியீட்டைப் பார்ப்பதன் மூலம், ஹடூப் வலைப்பக்கம் 1, 2 மற்றும் 3 இருப்பதை நாம் தெளிவாக அறிந்து கொள்ளலாம்.

படம் - அமேசான் ஈ.எம்.ஆருடன் ஹடூப் கிளஸ்டரை உருவாக்குவது எப்படி - எடுரேகாபின்னர், தி பேஜ் தரவரிசை வழிமுறை எந்தப் பக்கத்தை மேலே காண்பிக்க வேண்டும், எந்த கீழே உள்ளது என்பதைக் கண்டுபிடிக்க பக்கங்கள் எவ்வாறு இணைக்கப்பட்டுள்ளன என்பதை அடிப்படையாகக் கொண்டது. கீழேயுள்ள காட்சியில் W1 என்பது 'மிகவும் பிரபலமானது', ஏனெனில் எல்லோரும் அதை இணைக்கிறார்கள், மேலும் W4 'குறைந்த பிரபலமானது' என்பதால் யாரும் அதை இணைக்கவில்லை. எனவே, தேடல் முடிவுகளில் W1 மேலே மற்றும் W4 கீழே காட்டப்பட்டுள்ளது.

வலைப்பக்கங்களின் வெடிப்புடன், இந்த தேடுபொறிகள் குறியீட்டை உருவாக்குவதற்கும் பேஜ் தரவரிசை கணக்கீடுகளை செய்வதற்கும் சவால்களைக் கண்டன. ஹடூப்பின் பிறப்பு யாகூவில் நடந்தது, பின்னர் ASF (அப்பாச்சி மென்பொருள் அறக்கட்டளை) இன் கீழ் FOSS (இலவச மற்றும் திறந்த மூல மென்பொருள்) ஆனது. ஒருமுறை ஏ.எஸ்.எஃப் இன் கீழ் நிறைய நிறுவனங்கள் ஹடூப்பில் ஆர்வம் காட்டத் தொடங்கின, அதை மேம்படுத்த பங்களிக்கத் தொடங்கின. பிக் டேட்டா புரட்சியைத் தொடங்குவது ஹடூப் தான், ஆனால் ஹார்டூப்பில் உள்ள வரம்புகள் மற்றும் இடைவெளிகளை நிவர்த்தி செய்வதற்காக ஸ்பார்க், ஹைவ், பிக், ஸ்கூப், ஜூக்கீப்பர், எச் பேஸ், கசாண்ட்ரா, ஃப்ளூம் போன்ற பல மென்பொருள்கள் உருவாகத் தொடங்கின.

வலை தேடுபொறிகள் தான் முதலில் ஹடூப்பைப் பயன்படுத்தின, ஆனால் பின்னர் அதிகமான தரவு-வழக்குகள் உருவாகியதால் ஏராளமான பயன்பாட்டு வழக்குகள் உருவாகத் தொடங்கின. பயனர்களுக்கு புத்தகங்களை பரிந்துரைக்கப் பயன்படும் இணையவழி பயன்பாட்டின் உதாரணத்தை எடுத்துக் கொள்வோம். கீழேயுள்ள வரைபடத்தின்படி, பயனர் 1 புத்தகம் 1, புத்தகம் 2 மற்றும் புத்தகம் 3, பயனர் 2 சில புத்தகங்களை வாங்கியது மற்றும் பல. உற்று நோக்கினால், பயனர் 1 மற்றும் பயனர் 2 ஆகியவை புத்தக 1 மற்றும் புத்தக 2 ஐ வாங்கியதைப் போலவே ஒரே மாதிரியான சுவை இருப்பதை நாம் அவதானிக்கலாம். எனவே, புத்தகம் 3 ஐ பயனர் 2 க்கும், புத்தகம் 4 ஐ பயனர் 1 க்கும் பரிந்துரைக்கலாம். இது கூட்டு கற்றல் வடிகட்டுதல் என அழைக்கப்படுகிறது, இது ஒரு வகை இயந்திர கற்றல் வழிமுறை. நாம் கீழே உள்ள வரைபடத்தை புரட்டி, ஒத்த புத்தகங்களைப் பெறலாம்.

மேலே உள்ள வழக்கில், குறியீட்டை நாங்கள் உருவாக்கியுள்ளோம், பேஜ் தரவரிசைப்படுத்தப்பட்டு பயனருக்கு பரிந்துரைக்கிறோம், தரவின் அளவு சிறியதாக இருந்தது, எனவே தரவைக் காட்சிப்படுத்தவும், அதில் இருந்து சில முடிவுகளை ஊகிக்கவும் முடிந்தது. தரவின் அளவு நாளுக்கு நாள் பெரிதாகி, கட்டுப்பாட்டை மீறி வருவதால், ஹடூப் போன்ற பெரிய தரவு கருவிகள் படத்திற்கு வருகின்றன.

ஹடூப் நிறைய சிக்கல்களை தீர்க்கிறார், ஆனால் ஹடூப் மற்றும் பிற பிக் டேட்டா மென்பொருளை நிறுவுவது ஒருபோதும் எளிதான காரியமாக இருந்ததில்லை. மாற்றியமைக்க நிறைய உள்ளமைவு அளவுருக்கள் உள்ளன, ஒருங்கிணைப்பு, நிறுவல் மற்றும் உள்ளமைவு சிக்கல்கள் போன்றவை. கிளவுட்ரா போன்ற நிறுவனங்கள் இங்குதான், மற்றும் தரவுத்தளங்கள் உதவுகின்றன. அவை பிக் டேட்டா மென்பொருளை நிறுவுவதை எளிதாக்குகின்றன மற்றும் வணிக ரீதியான ஆதரவை வழங்குகின்றன, எடுத்துக்காட்டாக உற்பத்தியில் ஏதேனும் நடக்கும் என்று சொல்லலாம். அமேசான் ஈ.எம்.ஆர் (மீள் வரைபடம்) ஹடூப் போன்றவற்றைப் பயன்படுத்துவதை எளிதாக்குகிறது. எலாஸ்டிக் மேப்ரூட்யூஸ் என்ற பெயர் ஒரு தவறான பெயராகும், ஏனெனில் ஈ.எம்.ஆர் மற்ற விநியோகிக்கப்பட்ட கம்ப்யூட்டிங் மாடல்களையும் மீளக்கூடிய விநியோகிக்கப்பட்ட தரவுத்தொகுப்புகளை ஆதரிக்கிறது, மேப் ரீடூஸ் மட்டுமல்ல.

ஜாவாவில் என்ன இருக்கிறது

இந்த டுடோரியலில், AWS கிளவுட்டில் ஒரு ஈஎம்ஆர் கிளஸ்டரை எவ்வாறு அமைப்பது என்பதை ஆராய்வோம், வரவிருக்கும் டுடோரியலில், ஸ்பார்க், ஹைவ் மற்றும் பிற நிரல்களை எவ்வாறு இயக்குவது என்பதை ஆராய்வோம்.

இதனுடன் நகரும் அமேசான் ஈ.எம்.ஆருடன் ஹடூப் கிளஸ்டரை உருவாக்குவது எப்படி?

டெமோ: AWS இல் ஒரு EMR கிளஸ்டரை உருவாக்குதல்

படி 1: ஈ.எம்.ஆர் மேனேஜ்மென்ட் கன்சோலுக்குச் சென்று “க்ளஸ்டரை உருவாக்கு” ​​என்பதைக் கிளிக் செய்க. கன்சோலில், மெட்டாடேட்டா நிறுத்தப்பட்ட கொத்து இரண்டு மாதங்களுக்கு இலவசமாக சேமிக்கப்படுகிறது. நிறுத்தப்பட்ட கிளஸ்டரை குளோன் செய்து மீண்டும் உருவாக்க இது அனுமதிக்கிறது.

படி 2 : விரைவான விருப்பங்கள் திரையில் இருந்து, கிளஸ்டரைப் பற்றிய கூடுதல் விவரங்களைக் குறிப்பிட “மேம்பட்ட விருப்பங்களுக்குச் செல்” என்பதைக் கிளிக் செய்க.

படி 3: மேம்பட்ட விருப்பங்கள் தாவலில், ஈ.எம்.ஆர் கிளஸ்டரில் நிறுவப்பட வேண்டிய வெவ்வேறு மென்பொருளைத் தேர்ந்தெடுக்கலாம். ஒரு SQL இடைமுகத்திற்கு, ஹைவ் தேர்ந்தெடுக்கப்படலாம். தரவு ஓட்ட மொழி இடைமுகத்திற்கு, பன்றியைத் தேர்ந்தெடுக்கலாம். விநியோகிக்கப்பட்ட பயன்பாட்டு ஒருங்கிணைப்புக்கு ZooKeeper ஐத் தேர்ந்தெடுக்கலாம் மற்றும் பல. இந்த தாவல் படிகளைச் சேர்க்கவும் அனுமதிக்கிறது, இது ஒரு விருப்பமான பணி. MapReduce, Pig, Hive போன்றவற்றைப் பயன்படுத்தி பெரிய தரவு செயலாக்க வேலைகள் படிகள். இந்த தாவலில் அல்லது பின்னர் கிளஸ்டர் உருவாக்கப்பட்டவுடன் அவற்றைச் சேர்க்கலாம். ஈ.எம்.ஆர் கிளஸ்டருக்குத் தேவையான வன்பொருளைத் தேர்ந்தெடுக்க “அடுத்து” என்பதைக் கிளிக் செய்க.

படி 4: ஹடூப் மாஸ்டர்-வொர்க்கர் கட்டமைப்பைப் பின்பற்றுகிறார், அங்கு மாஸ்டர் வேலைகளை திட்டமிடுதல் மற்றும் ஒதுக்குதல் மற்றும் அவர்களின் முன்னேற்றத்தை சரிபார்க்கும் போன்ற அனைத்து ஒருங்கிணைப்புகளையும் செய்கிறார், அதே நேரத்தில் தொழிலாளர்கள் தரவைச் செயலாக்குவதற்கும் சேமிப்பதற்கும் உண்மையான வேலையைச் செய்கிறார்கள். ஒற்றை மாஸ்டர் ஒரு ஒற்றை-புள்ளி-தோல்வி (SPOF). அமேசான் ஈ.எம்.ஆர் உயர் கிடைக்கும் (எச்.ஏ) மல்டி மாஸ்டரை ஆதரிக்கிறது. முந்தைய படி EMR இல் மல்டி மாஸ்டர் கிளஸ்டரை அமைக்க அனுமதிக்கிறது.

கோர் மற்றும் டாஸ்க் என இரண்டு வகையான முனைகளை ஈ.எம்.ஆர் அனுமதிக்கிறது. தரவை செயலாக்குவதற்கும் சேமிப்பதற்கும் கோர் நோட் பயன்படுத்தப்படுகிறது, தரவை செயலாக்குவதற்கு பணி முனை பயன்படுத்தப்படுகிறது. இந்த டுடோரியலுக்காக, ஒரே ஒரு கோர் மற்றும் டாஸ்க் நோட்களை மட்டுமே தேர்ந்தெடுக்க முடியும், ஏனெனில் இது எங்களுக்கு குறைந்த செலவில் அடங்கும். மேலும், தேர்வு செய்யவும் ஸ்பாட் நிகழ்வுகள் ஓவர் ஆன்-டிமாண்ட் ஸ்பாட் நிகழ்வுகள் மலிவானவை என்பதால். ஸ்பாட் நிகழ்வுகளுடனான பிடிப்பு என்னவென்றால், அவை AWS ஆல் தானாகவே நிறுத்தப்படலாம் இரண்டு நிமிட அறிவிப்பு . இது நடைமுறையிலும் சில உண்மையான காட்சிகளிலும் நல்லது. மற்ற நிகழ்வுகளை விட குறைந்த முன்னுரிமை இருப்பதால் ஸ்பாட் நிகழ்வுகள் தானாகவே நிறுத்தப்படும். “அடுத்து” என்பதைக் கிளிக் செய்க.

படி 5: கிளஸ்டர் பெயரைக் குறிப்பிடவும். “அடுத்து” என்பதைக் கிளிக் செய்க. இயல்பாகவே “முடித்தல் பாதுகாப்பு” இயக்கப்பட்டிருப்பதைக் கவனியுங்கள், கிளஸ்டரை நிறுத்தும்போது சில படிகளை அறிமுகப்படுத்துவதன் மூலம் ஈ.எம்.ஆர் கிளஸ்டர் தற்செயலாக நீக்கப்படாது என்பதை இது உறுதி செய்கிறது.

படி 6: தாவலில், ஈ.எம்.ஆர் கிளஸ்டருக்கான வெவ்வேறு பாதுகாப்பு விருப்பங்கள் குறிப்பிடப்பட்டுள்ளன. EC2 நிகழ்வில் உள்நுழைய விசைப்பலகையைத் தேர்ந்தெடுக்க வேண்டும். ஈ.எம்.ஆர் தானாகவே பொருத்தமான பாத்திரங்களையும் பாதுகாப்புக் குழுக்களையும் உருவாக்கி அவற்றை மாஸ்டர் மற்றும் தொழிலாளி ஈ.சி 2 முனைகளுடன் இணைக்கும். “உருவாக்கு கிளஸ்டர்” என்பதைக் கிளிக் செய்க.

EC2 நிகழ்வுகளை வாங்க வேண்டும் மற்றும் வெவ்வேறு பிக் டேட்டா மென்பொருட்களை நிறுவி கட்டமைக்க வேண்டும் என்பதால் கிளஸ்டரை உருவாக்க சில நிமிடங்கள் ஆகும். ஆரம்பத்தில் கிளஸ்டர் நிலை “தொடக்க” நிலையில் இருக்கும், மேலும் “காத்திருப்பு” நிலைக்குச் செல்லும். “காத்திருப்பு” நிலையில், எம்.ஆர், ஸ்பார்க், ஹைவ் போன்ற பல்வேறு பெரிய தரவு செயலாக்க வேலைகளை சமர்ப்பிக்க ஈ.எம்.ஆர் கிளஸ்டர் வெறுமனே காத்திருக்கிறது.

மேலும், ஈசி 2 மேனேஜ்மென்ட் கன்சோலில் இருந்து அறிவிப்பு மற்றும் மாஸ்டர் மற்றும் தொழிலாளி ஈசி 2 நிகழ்வுகள் இயங்கும் நிலையில் இருக்க வேண்டும் என்பதை நினைவில் கொள்க. ஈ.எம்.ஆர் கிளஸ்டர் உருவாக்கத்தின் ஒரு பகுதியாக உருவாக்கப்பட்ட ஸ்பாட் நிகழ்வுகள் இவை. அதே EC2 ஐ EMR மேனேஜ்மென்ட் கன்சோலில் உள்ள வன்பொருள் தாவலிலிருந்தும் காணலாம். வன்பொருள் தாவலில் ஸ்பாட் ஈசி 2 நிகழ்வுகளுக்கான விலை மணிக்கு 0.032 $ என குறிப்பிடப்பட்டுள்ளது என்பதை நினைவில் கொள்க. ஸ்பாட் நிகழ்வுகளின் விலை நேரத்துடன் மாறிக் கொண்டே இருக்கிறது மற்றும் ஆன்-டிமாண்ட் ஈசி 2 விலையை விட மிகக் குறைவு.

படி 7: இப்போது ஈ.எம்.ஆர் கிளஸ்டர் வெற்றிகரமாக சேர்க்கப்பட்டுள்ளது, படிகள் அல்லது பெரிய தரவு செயலாக்க வேலைகள் சேர்க்கப்படலாம். படிகள் தாவலுக்குச் சென்று “படி சேர்க்க” என்பதைக் கிளிக் செய்து படி வகையைத் தேர்ந்தெடுக்கவும் (எம்ஆர், ஹைவ், ஸ்பார்க் போன்றவை). வரவிருக்கும் டுடோரியலில் அதையே ஆராய்வோம். இப்போதைக்கு, ரத்துசெய் என்பதைக் கிளிக் செய்க.

படி 8: இப்போது ஈ.எம்.ஆரை எவ்வாறு தொடங்குவது என்று பார்த்தோம், அதை எவ்வாறு நிறுத்துவது என்று பார்ப்போம்.

படி 8.1: டெர்மினேட் என்பதைக் கிளிக் செய்க.

படி 8.2: முந்தைய படிகளில் குறிப்பிட்டுள்ளபடி, ஈ.எம்.ஆர் கிளஸ்டருக்கு “டெர்மினேஷன் பாதுகாப்பு” இயக்கத்தில் உள்ளது மற்றும் டெர்மினேட் பொத்தான் முடக்கப்பட்டுள்ளது. சேஞ்ச் என்பதைக் கிளிக் செய்க.

எந்த ஸ்கேனர் வகுப்பு முறை ஒரு சரம் படிக்கிறது

படி 8.3: “ஆஃப்” ரேடியோ பொத்தானைத் தேர்ந்தெடுத்து டிக் குறியைக் கிளிக் செய்க. இப்போது டெர்மினேட் பொத்தானை இயக்க வேண்டும். ஈ.எம்.ஆர் அறிமுகப்படுத்திய கூடுதல் படி இதுதான், நாங்கள் தற்செயலாக ஈ.எம்.ஆர் கிளஸ்டரை நீக்கவில்லை என்பதை உறுதிப்படுத்த.

ஈ.எம்.ஆர் கிளஸ்டர் முடிவடையும் நிலையில் இருக்கும் என்பதையும், ஈ.சி 2 கள் நிறுத்தப்படும் என்பதையும் கவனியுங்கள். இறுதியாக, ஈ.எம்.ஆர் கிளஸ்டர் நிறுத்தப்பட்ட நிலைக்கு நகர்த்தப்படும், இங்கிருந்து AWS உடனான எங்கள் பில்லிங் நிறுத்தப்படும். கூடுதல் AWS செலவுகள் ஏற்படாமல் இருக்க, கிளஸ்டரை நிறுத்த உறுதிப்படுத்தவும்.

முடிவுரை

இந்த டுடோரியலில், வலை கன்சோலில் (உலாவி) இருந்து சில நிமிடங்களில் ஈ.எம்.ஆர் கிளஸ்டரை எவ்வாறு தொடங்குவது என்பதைப் பார்த்தோம், இதைப் பயன்படுத்தி தானியங்கிப்படுத்தலாம் , AWS SDK அல்லது பயன்படுத்துவதன் மூலம் AWS CloudFormation . ஒரு ஈ.எம்.ஆர் கிளஸ்டரை அமைப்பது சில நிமிடங்கள் ஆகும், மேலும் பெரிய தரவு செயலாக்கத்தை உடனடியாக தொடங்கலாம், செயலாக்கம் முடிந்ததும் வெளியீட்டை சேமிக்க முடியும் எஸ் 3 அல்லது டைனமோடிபி மற்றும் பில்லிங்கை நிறுத்த கிளஸ்டர் பணிநிறுத்தம். இந்த விலை மாதிரி மற்றும் பயன்பாட்டின் எளிமை காரணமாக, பெரிய தரவு செயலாக்கத்தை மேற்கொள்பவர்களுக்கு ஈ.எம்.ஆர் ஒரு பெரிய வெற்றியாகும். அதிக எண்ணிக்கையில் சேவையகத்தை வாங்க வேண்டிய அவசியமில்லை, பிக் டேட்டா மென்பொருளுக்கான உரிமங்களைப் பெற்று அவற்றைப் பராமரிக்க வேண்டும். ’

எனவே இது நண்பர்களே, அமேசான் ஈ.எம்.ஆருடன் ஹடூப் கிளஸ்டரை எவ்வாறு உருவாக்குவது என்பது குறித்த இந்த கட்டுரையின் முடிவிற்கு இது நம்மை அழைத்துச் செல்கிறது.இந்த விஷயத்தில் நீங்கள் நிபுணத்துவம் பெற விரும்பினால், எடுரேகா ஒரு பாடத்திட்டத்தை கொண்டு வந்துள்ளார், இது சரியாக உள்ளடக்கியது, நீங்கள் தீர்வு கட்டிடக் கலைஞர் தேர்வில் சிதைக்க வேண்டியது என்ன! இதற்கான பாட விவரங்களை நீங்கள் பார்க்கலாம் பயிற்சி.

இந்த வலைப்பதிவு தொடர்பான ஏதேனும் கேள்விகள் இருந்தால், தயவுசெய்து கீழேயுள்ள கருத்துகள் பிரிவில் கேள்வி கேட்க தயங்கவும், உங்களுக்கு விரைவாக பதிலளிப்பதில் நாங்கள் மகிழ்ச்சியடைவோம்.