AWS இல் பெரிய தரவு - பெரிய தரவுக்கான ஸ்மார்ட் தீர்வு



பெரிய தரவுடன் AWS எவ்வாறு புத்திசாலித்தனமாக செயல்படுகிறது என்பதைப் புரிந்துகொள்ள இந்த கட்டுரை உங்களுக்கு உதவுகிறது. பிக் டேட்டா சவால்களை AWS எவ்வாறு எளிதில் தீர்க்க முடியும் என்பதையும் இது காட்டுகிறது.

பிக் டேட்டாவின் யோசனை வெறுமனே புதியதல்ல, அது எல்லா இடங்களிலும் உள்ளது. பிக் டேட்டாவின் விளைவு எல்லா இடங்களிலும் உள்ளது, வணிகம் முதல் அறிவியல் வரை, அரசு முதல் கலை வரை. இதை விட சிறந்த துணை இல்லை பெரிய தரவை செயலாக்க மற்றும் பகுப்பாய்வு செய்ய. இந்த கட்டுரையில், பிக் டேட்டாவின் சவால்களை AWS எவ்வாறு எதிர்கொள்கிறது மற்றும் நான் மறைக்கப் போகும் சுட்டிகள் பின்வருமாறு:

பெரிய தரவு என்றால் என்ன?

பெரிய தரவு பண்புகள்





பெரிய தரவை அதிக அளவு, அதிக வேகம் மற்றும் / அல்லது உயர்-வகை தகவல் சொத்துகளாக நீங்கள் கருதலாம், அவை செலவு குறைந்த, புதுமையான தகவல் செயலாக்கத்தை மேம்படுத்துகின்றன, அவை மேம்பட்ட நுண்ணறிவு, முடிவெடுக்கும் மற்றும் செயல்முறை ஆட்டோமேஷன் ஆகியவற்றை செயல்படுத்துகின்றன.

பிக் டேட்டாவின் சிறப்பியல்புகளை வரையறுக்கும் 5 முக்கியமான வி’களை பிக் டேட்டா கொண்டுள்ளது. AWS க்குச் செல்வதற்கு முன் இவற்றைப் பற்றி விவாதிப்போம்.



AWS என்றால் என்ன?

பல்வேறு கிளவுட் கம்ப்யூட்டிங் தயாரிப்புகள் மற்றும் சேவைகளை உள்ளடக்கியது. அதிக லாபம் ஈட்டும் அமேசான் பிரிவு பாதுகாப்புடன் சேவையகங்கள், சேமிப்பு, நெட்வொர்க்கிங், ரிமோட் கம்ப்யூட்டிங், மின்னஞ்சல், மொபைல் மேம்பாடு ஆகியவற்றை வழங்குகிறது. மேலும். AWS இரண்டு முக்கிய தயாரிப்புகளைக் கொண்டுள்ளது: EC2, அமேசானின் மெய்நிகர் இயந்திர சேவை மற்றும் அமேசானின் சேமிப்பக அமைப்பான S3. இது கம்ப்யூட்டிங் உலகில் மிகப் பெரியது மற்றும் தற்போது உள்ளது, இது இப்போது அதன் அருகிலுள்ள போட்டியாளரின் குறைந்தது 10 மடங்கு பெரியது மற்றும் நெட்ஃபிக்ஸ் மற்றும் இன்ஸ்டாகிராம் போன்ற பிரபலமான வலைத்தளங்களை வழங்குகிறது.

.

AWS உலகளவில் 12 உலகளாவிய பகுதிகளாகப் பிரிக்கப்பட்டுள்ளது, ஒவ்வொன்றும் அதன் சேவையகங்கள் அமைந்துள்ள பல கிடைக்கும் மண்டலங்களைக் கொண்டுள்ளது.பயனர்கள் தங்கள் சேவைகளில் புவியியல் வரம்புகளை நிர்ணயிக்க அனுமதிப்பதற்காக இந்த சர்வீஸ் பகுதிகள் பிரிக்கப்படுகின்றன, ஆனால் தரவு வைத்திருக்கும் ப physical தீக இருப்பிடங்களை பல்வகைப்படுத்துவதன் மூலம் பாதுகாப்பை வழங்கவும்.



AWS இல் ஏன் பெரிய தரவு?

பல்வேறு களங்களைச் சேர்ந்த விஞ்ஞானிகள், டெவலப்பர்கள் மற்றும் பிற தொழில்நுட்ப ஆர்வலர்கள் பெரிய தரவு பகுப்பாய்வுகளைச் செய்வதற்கும் டிஜிட்டல் தகவல்களின் அதிகரித்து வரும் Vs இன் முக்கியமான சவால்களை எதிர்கொள்வதற்கும் AWS ஐப் பயன்படுத்துகின்றனர். செலவினங்களை கணிசமாகக் குறைப்பதன் மூலமும், தேவையைப் பூர்த்தி செய்வதன் மூலமும், புதுமையின் வேகத்தை அதிகரிப்பதன் மூலமும் பெரிய தரவை நிர்வகிக்க உதவும் கிளவுட் கம்ப்யூட்டிங் சேவைகளின் ஒரு போர்ட்ஃபோலியோவை AWS உங்களுக்கு வழங்குகிறது.

அமேசான் வலை சேவைகள் ஒரு முழுமையாக ஒருங்கிணைந்த போர்ட்ஃபோலியோ கிளவுட் கம்ப்யூட்டிங் சேவைகளின். மேலும், இது உங்கள் பெரிய தரவு பயன்பாடுகளை உருவாக்க, பாதுகாக்க மற்றும் வரிசைப்படுத்த உதவுகிறது. மேலும், AWS உடன், கொள்முதல் செய்வதற்கான வன்பொருள் மற்றும் பராமரிக்க மற்றும் அளவிட உள்கட்டமைப்பு தேவையில்லை. இதன் காரணமாக, புதிய நுண்ணறிவுகளைக் கண்டுபிடிப்பதில் உங்கள் வளங்களை நீங்கள் கவனம் செலுத்தலாம்.புதிய அம்சங்கள் தொடர்ந்து சேர்க்கப்படுவதால், நீண்ட கால முதலீட்டு கடமைகளைச் செய்யத் தேவையில்லாமல் நீங்கள் எப்போதும் சமீபத்திய தொழில்நுட்பங்களைப் பயன்படுத்த முடியும்.

பெரிய தரவு சவால்களை AWS எவ்வாறு தீர்க்க முடியும்?

பெரிய தரவுக்கான AWS தீர்வுகள்

அனைத்து மேம்பாடு மற்றும் வரிசைப்படுத்தல் நோக்கங்களுக்காக AWS ஏராளமான தீர்வுகளைக் கொண்டுள்ளது. மேலும், டேட்டா சயின்ஸ் மற்றும் பிக் டேட்டா துறையில், பிக் டேட்டா கையாளுதலின் பல்வேறு அம்சங்களில் AWS சமீபத்திய முன்னேற்றங்களைக் கொண்டு வந்துள்ளது. கருவிகளுக்குச் செல்வதற்கு முன், AWS தீர்வுகளை வழங்கக்கூடிய பெரிய தரவுகளின் வெவ்வேறு அம்சங்களைப் புரிந்துகொள்வோம்.

  1. தரவு உட்கொள்ளல்
    மூல தரவுகளை சேகரிப்பது - பரிவர்த்தனைகள், பதிவுகள், மொபைல் சாதனங்கள் மற்றும் பல - பெரிய தரவுகளை கையாளும் போது பல நிறுவனங்கள் எதிர்கொள்ளும் முதல் சவால். ஒரு நல்ல பெரிய தரவு தளம் இந்த நடவடிக்கையை எளிதாக்குகிறது, இது டெவலப்பர்கள் பலவகையான தரவை - கட்டமைக்கப்பட்ட முதல் கட்டமைக்கப்படாத - எந்த வேகத்திலும் - நிகழ்நேரத்திலிருந்து தொகுதி வரை உட்கொள்ள அனுமதிக்கிறது.

  2. தரவு சேமிப்பு
    எந்தவொரு பெரிய தரவு தளத்திற்கும் பணிகளைச் செயலாக்குவதற்கு முன்னும் பின்னும் தரவைச் சேமிக்க பாதுகாப்பான, அளவிடக்கூடிய மற்றும் நீடித்த களஞ்சியம் தேவை. உங்கள் குறிப்பிட்ட தேவைகளைப் பொறுத்து, தரவு பரிமாற்றத்திற்கான தற்காலிக கடைகளும் உங்களுக்குத் தேவைப்படலாம்.

  3. தகவல் செயல்முறை
    தரவு மாற்றமானது அதன் மூல நிலையிலிருந்து நுகர்வு வடிவமாக நிகழும் படி இது - வழக்கமாக வரிசைப்படுத்துதல், திரட்டுதல், சேருதல் மற்றும் மேம்பட்ட செயல்பாடுகள் மற்றும் வழிமுறைகளைச் செய்வதன் மூலம். இதன் விளைவாக வரும் தரவுத் தொகுப்புகள் மேலும் செயலாக்கத்திற்கான சேமிப்பிற்கு உட்படுகின்றன அல்லது வணிக நுண்ணறிவு மற்றும் தரவு காட்சிப்படுத்தல் கருவிகள் வழியாக நுகர்வுக்குக் கிடைக்கின்றன.

  4. காட்சிப்படுத்தல்

    பெரிய தரவு என்பது உங்கள் தரவு சொத்துக்களிலிருந்து அதிக மதிப்பு, செயல்படக்கூடிய நுண்ணறிவுகளைப் பெறுவது. வெறுமனே, தரவுத்தொகுப்புகளை விரைவாகவும் எளிதாகவும் ஆராய அனுமதிக்கும் சுய சேவை வணிக நுண்ணறிவு மற்றும் சுறுசுறுப்பான தரவு காட்சிப்படுத்தல் கருவிகள் மூலம் பங்குதாரர்களுக்கு தரவு கிடைக்கிறது.

பெரிய தரவுக்கான AWS கருவிகள்

முந்தைய பிரிவுகளில், AWS தீர்வுகளை வழங்கக்கூடிய பெரிய தரவுகளில் உள்ள புலங்களைப் பார்த்தோம். கூடுதலாக, பெரிய தரவுகளின் திறன்களைக் கொண்ட வாடிக்கையாளர்களை இயக்குவதற்கு AWS அதன் ஆயுதக் களஞ்சியத்தில் பல கருவிகள் மற்றும் சேவைகளைக் கொண்டுள்ளது.

பெரிய தரவைக் கையாள்வதில் ஈடுபட்டுள்ள வெவ்வேறு நிலைகளைக் கையாள AWS வழங்கிய பல்வேறு தீர்வுகளைப் பார்ப்போம்

உட்கொள்வது

  1. கினீசிஸ்

    அமேசான் கினீசிஸ் ஃபயர்ஹோஸ் என்பது நிகழ்நேர ஸ்ட்ரீமிங் தரவை நேரடியாக அமேசான் எஸ் 3 க்கு வழங்குவதற்கான ஒரு முழுமையான நிர்வகிக்கப்பட்ட சேவையாகும். கினீசிஸ் ஃபயர்ஹோஸ் தானாகவே ஸ்ட்ரீமிங் தரவின் அளவு மற்றும் செயல்திறனுடன் பொருந்துகிறது மற்றும் தற்போதைய நிர்வாகம் தேவையில்லை. ஸ்ட்ரீமிங் தரவை அமேசான் எஸ் 3 இல் சேமிப்பதற்கு முன்பு மாற்றுவதற்காக கினீசிஸ் ஃபயர்ஹோஸை உள்ளமைக்கலாம்.

  2. பனிப்பந்து
    நீங்கள் பயன்படுத்தலாம் AWS பனிப்பந்து வளாகத்தில் உள்ள சேமிப்பக தளங்கள் மற்றும் ஹடூப் கிளஸ்டர்களிடமிருந்து எஸ் 3 வாளிகளுக்கு மொத்த தரவை பாதுகாப்பாகவும் திறமையாகவும் நகர்த்த. AWS மேனேஜ்மென்ட் கன்சோலில் நீங்கள் ஒரு வேலையை உருவாக்கிய பிறகு, நீங்கள் தானாகவே ஒரு பனிப்பந்து கருவியைப் பெறுவீர்கள். ஒரு பனிப்பந்து வந்த பிறகு, அதை உங்கள் உள்ளூர் நெட்வொர்க்குடன் இணைக்கவும், உங்கள் வளாகத்தில் உள்ள தரவு மூலத்தில் பனிப்பந்து கிளையண்டை நிறுவவும், பின்னர் பனிப்பந்து கிளையண்ட்டைப் பயன்படுத்தி கோப்பு கோப்பகங்களை பனிப்பந்து சாதனத்திற்கு மாற்றவும் மாற்றவும்.

சேமிப்பு

  1. அமேசான் எஸ் 3

அமேசான் எஸ் 3 தரவு அணுகலுக்கான மில்லி விநாடி தாமதத்துடன் பாதுகாப்பான, அதிக அளவிடக்கூடிய, நீடித்த பொருள் சேமிப்பிடமாகும். வலைத்தளங்கள் மற்றும் மொபைல் பயன்பாடுகள், கார்ப்பரேட் பயன்பாடுகள் மற்றும் IoT சென்சார்கள் அல்லது சாதனங்களிலிருந்து தரவை எங்கிருந்தும் S3 எந்த வகையான தரவையும் சேமிக்க முடியும். இது எந்தவொரு தரவையும், ஒப்பிடமுடியாத கிடைக்கும் தன்மையுடன் சேமித்து மீட்டெடுக்க முடியும், மேலும் 99.999999999% (11 நைன்கள்) ஆயுள் வழங்குவதற்காக தரையில் இருந்து கட்டமைக்கப்படுகிறது.

2. AWS பசை

பசை என்பது முழுமையாக நிர்வகிக்கப்படும் சேவையாகும், இது தரவு ஏரியில் தரவைக் கண்டறியக்கூடிய தரவு பட்டியலை வழங்குகிறது. கூடுதலாக, பகுப்பாய்விற்கான தரவைத் தயாரிக்க பிரித்தெடுத்தல், உருமாற்றம் மற்றும் சுமை (ஈ.டி.எல்) செய்வதற்கான திறனைக் கொண்டுள்ளது. மேலும், உள்ளடிக்கிய தரவு அட்டவணை அனைத்து தரவு சொத்துக்களுக்கும் ஒரு தொடர்ச்சியான மெட்டாடேட்டா ஸ்டோர் போன்றது, எல்லா தரவையும் தேடக்கூடியதாகவும், ஒரே பார்வையில் வினவக்கூடியதாகவும் இருக்கும்.

செயலாக்கம்

  1. ஈ.எம்.ஆர்
    ஸ்பார்க் மற்றும் ஹடூப்பைப் பயன்படுத்தி பெரிய தரவு செயலாக்கத்திற்கு, அமேசான் ஈ.எம்.ஆர் நிர்வகிக்கப்பட்ட சேவையை வழங்குகிறது, இது பரந்த அளவிலான தரவை செயலாக்குவது எளிதானது, விரைவானது மற்றும் செலவு குறைந்ததாகும். மேலும், ஈ.எம்.ஆர் உட்பட 19 வெவ்வேறு திறந்த மூல திட்டங்களை ஆதரிக்கிறது ஹடூப் , தீப்பொறி , மற்றும் தரவு பொறியியல், தரவு அறிவியல் மேம்பாடு மற்றும் ஒத்துழைப்புக்கான நிர்வகிக்கப்பட்ட ஈ.எம்.ஆர் குறிப்பேடுகளுடன் இது வருகிறது.

  2. ரெட் ஷிப்ட்
    தரவுக் கிடங்கிற்கு, அமேசான் கட்டமைக்கப்பட்ட தரவின் பெட்டாபைட்டுகளுக்கு எதிராக சிக்கலான, பகுப்பாய்வு வினவல்களை இயக்கும் திறனை ரெட்ஷிஃப்ட் வழங்குகிறது. மேலும், இதில் அடங்கும் ரெட்ஷிஃப்ட் ஸ்பெக்ட்ரம் இது தேவையற்ற தரவு இயக்கத்தின் தேவை இல்லாமல் S3 இல் உள்ள கட்டமைக்கப்பட்ட அல்லது கட்டமைக்கப்படாத தரவின் எக்சாபைட்டுகளுக்கு எதிராக நேரடியாக SQL வினவல்களை இயக்குகிறது.

காட்சிப்படுத்தல்

  1. அமேசான் குவிக்சைட்

    டாஷ்போர்டுகள் மற்றும் காட்சிப்படுத்தல்களுக்கு, அமேசான் குயிக்சைட் உங்களுக்கு வேகமான, மேகக்கணி மூலம் இயங்கும் வணிக பகுப்பாய்வு சேவையை வழங்குகிறது. அதிர்ச்சியூட்டும் காட்சிப்படுத்தல் மற்றும் பணக்கார டாஷ்போர்டுகளை உருவாக்குவதை இது எளிதாக்குகிறது. கூடுதலாக, நீங்கள் எந்த உலாவி அல்லது மொபைல் சாதனத்திலிருந்தும் அவற்றை அணுகலாம்.

டெமோ - ஆஸ்திரேலியாவில் உள்ள தாவரங்கள் மற்றும் விலங்குகளின் ஆபத்தான உயிரினங்களின் தரவை பகுப்பாய்வு செய்தல்.

இந்த டெமோவில், ஆஸ்திரேலியாவின் மாநிலங்கள் மற்றும் பிரதேசங்களிலிருந்து ஆபத்தான தாவர மற்றும் விலங்கு இனங்களின் மாதிரி தரவுகளைப் பயன்படுத்துவோம். இங்கே நாம் ஒரு ஈ.எம்.ஆர் கிளஸ்டரை உருவாக்கி அதை பல-படி அப்பாச்சி ஹைவ் வேலைகளை இயக்க உள்ளமைப்போம். ஈ.எம்.ஆர் கிளஸ்டரில் அப்பாச்சி ஹைவ் நிறுவப்பட்டிருக்கும். இந்த கொத்து EMRFS ஐ கோப்பு முறைமையாகப் பயன்படுத்தும், இதன் தரவு உள்ளீடு மற்றும் வெளியீட்டு இடங்கள் S3 வாளிக்கு மாற்றப்படும். பதிவு கோப்புகளை சேமிக்க கொத்து அதே S3 வாளியைப் பயன்படுத்தும்.

தரவுத் தொகுப்பை செயலாக்க இப்போது கிளஸ்டரில் பல ஈ.எம்.ஆர் படிகளை உருவாக்குவோம். இங்கே இந்த படிகள் ஒவ்வொன்றும் ஒரு ஹைவ் ஸ்கிரிப்டை இயக்கும், மேலும் இறுதி வெளியீடு S3 வாளியில் சேமிக்கப்படும். இந்த படிகள் MapReduce பதிவுகளை உருவாக்கும், ஏனென்றால் ஹைவ் கட்டளைகள் இயக்க நேரத்தில் MapReduce வேலைகளுக்கு மொழிபெயர்க்கப்படுகின்றன. ஒவ்வொரு அடியிலும் உள்ள பதிவு கோப்புகள் அது உருவாக்கிய கொள்கலன்களிலிருந்து திரட்டப்படுகின்றன.

மாதிரி தரவு

இந்த பயன்பாட்டு வழக்குக்கான மாதிரி தரவு பொதுவில் இருந்து கிடைக்கிறது ஆஸ்திரேலிய அரசாங்கத்தின் திறந்த தரவு வலைத்தளம் . இந்த தரவு தொகுப்பு ஆஸ்திரேலியாவின் பல்வேறு மாநிலங்கள் மற்றும் பிரதேசங்களிலிருந்து அச்சுறுத்தப்பட்ட விலங்கு மற்றும் தாவர இனங்கள் பற்றியது. இந்த தரவுத் தொகுப்பு மற்றும் CSV கோப்பின் புலங்களின் விளக்கத்தைக் காணலாம் மற்றும் பதிவிறக்கம் செய்யலாம் இங்கே .

செயலாக்க படிகள்

இங்குள்ள முதல் ஈ.எம்.ஆர் வேலை படி S3 இல் உள்ள மூலக் கோப்பிற்கான திட்டமாக ஒரு ஹைவ் அட்டவணையை உருவாக்குவதை உள்ளடக்கியது. இரண்டாவது வேலை படியில், இப்போது தரவுகளுக்கு எதிராக வெற்றிகரமான வினவலை இயக்குவோம். இதேபோல், நாங்கள் மூன்றாவது மற்றும் நான்காவது வினவலை இயக்குவோம்.

இந்த நான்கு படிகளையும் ஒரு மணி நேரத்தில் சில முறை மீண்டும் செய்வோம், பல-படி தொகுதி வேலையின் தொடர்ச்சியான ரன்களை உருவகப்படுத்துகிறோம். இருப்பினும், ஒரு நிஜ வாழ்க்கை சூழ்நிலையில், ஒவ்வொரு தொகுதி ஓட்டத்திற்கும் இடையிலான நேர வேறுபாடு பொதுவாக அதிகமாக இருக்கும். அடுத்தடுத்த ரன்களுக்கு இடையேயான சிறிய நேர இடைவெளி எங்கள் சோதனையை துரிதப்படுத்தும் நோக்கம் கொண்டது.

எஸ் 3 பக்கெட் மற்றும் கோப்புறைகள்

எங்கள் ஈ.எம்.ஆர் கிளஸ்டரை உருவாக்கும் முன், இங்கே அதன் கோப்புகளை ஹோஸ்ட் செய்ய ஒரு எஸ் 3 வாளியை உருவாக்க வேண்டியிருந்தது. எங்கள் எடுத்துக்காட்டில், இந்த வாளிக்கு “arvind1-bucket” என்று பெயரிடுகிறோம். இந்த வாளியின் கீழ் உள்ள கோப்புறைகள் S3 க்கான AWS கன்சோலில் கீழே காட்டப்பட்டுள்ளன:

  • உள்ளீட்டு கோப்புறை மாதிரி தரவை வைத்திருக்கிறது

  • ஸ்கிரிப்டுகள் கோப்புறையில் ஈ.எம்.ஆர் வேலை படிகளுக்கான ஹைவ் ஸ்கிரிப்ட் கோப்புகள் உள்ளன

  • வெளியீட்டு கோப்புறை ஹைவ் நிரல் வெளியீட்டை வெளிப்படையாக வைத்திருக்கும்

  • ஈ.எம்.ஆர் கிளஸ்டர் அதன் பதிவு கோப்புகளை சேமிக்க பதிவுகள் கோப்புறையைப் பயன்படுத்துகிறது.

ஈ.எம்.ஆர் வேலை படிகளுக்கான ஹைவ் ஸ்கிரிப்ட்கள்

1. இந்த வேலை படி ஒரு ஹைவ் ஸ்கிரிப்டை இயக்குகிறதுவெளிப்புற ஹைவ் அட்டவணையை உருவாக்க. இந்த அட்டவணை அடிப்படை CSV தரவுக் கோப்பின் அட்டவணைத் திட்டத்தை விவரிக்கிறது. இதற்கான ஸ்கிரிப்ட் பின்வருமாறு:

வெளிப்புற அட்டவணையை உருவாக்கவும் `அச்சுறுத்தப்பட்ட_வெளிகள்` (` அறிவியல் பெயர்` சரம், `பொதுவான பெயர்` சரம்,` தற்போதைய அறிவியல் பெயர்` சரம், `அச்சுறுத்தப்பட்ட நிலை` சரம்,` செயல்` சரம், `nsw` சரம்,` nt` சரம், `qld` சரம், `சா` சரம்,` டாஸ்` சரம், `விக்` சரம்,` வா` சரம், `ஏசி` சரம்,` சிக்கி` சரம், `சிஐ சரம்,` சிசி` சரம், `ஜேபிடி` சரம்,` என்ஃபை` சரம், `ஹ்மி` சரம்,` ஆட்` சரம், `சிமா` சரம்,` பட்டியலிடப்பட்ட ஸ்ப்ராட் டாக்ஸோனிட்` பிகின்ட், `தற்போதைய ஸ்ப்ராட் டாக்ஸோனிட்` பிகின்ட்,` கிங்டம்` சரம், `வகுப்பு` சரம்,` சுயவிவரம்` சரம், `பிரித்தெடுக்கப்பட்ட தேதி` சரம், `என்.எஸ்.எல் பெயர்` சரம்,` குடும்பம்` சரம், `ஜீனஸ்` சரம்,` இனங்கள்` சரம், `அகச்சிவப்பு தரவரிசை` சரம்,` அகச்சிவப்பு` சரம், `இனங்கள் ஆசிரியர்` சரம்,` அகச்சிவப்பு எழுத்தாளர்` சரம்) வரிசை வடிவமைப்பு வரையறுக்கப்பட்ட புலங்கள் ', INPUTFORMAT ஆக சேமிக்கப்படுகிறது' org.apache.hadoop.mapred.TextInputFormat 'OUTPUTFORMAT' org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat 'LOCATION / s1: buc / s /

2. இந்த வேலை படி நியூ சவுத் வேல்ஸ் மாநிலத்தில் (என்.எஸ்.டபிள்யூ) ஆபத்தான முதல் ஐந்து உயிரினங்களை கணக்கிட ஒரு வினவலை இயக்குகிறது. ஹைவ் வினவல் கோப்பு பெயர் endanuredSpeciesNSW.q அது கீழே காட்டப்பட்டுள்ளது:

இனங்கள் தேர்ந்தெடுக்கவும், COUNT (nsw) AS____ ஆபத்தான_வெளிகளிலிருந்து அச்சுறுத்தப்பட்ட_வெளிகளிலிருந்து WHERE (nsw = 'ஆம்' அல்லது nsw = 'ஆபத்தான') மற்றும் 'அச்சுறுத்தப்பட்ட நிலை' = 'ஆபத்தான' GROUP BY இனங்கள் COUNT (nsw)> 1 ORDER

3.இந்த வேலை படி ஆஸ்திரேலியாவில் உள்ள ஒவ்வொரு தாவர குடும்பத்திற்கும் ஆபத்தான தாவர இனங்களின் மொத்த எண்ணிக்கையை கணக்கிட ஒரு வினவலை இயக்குகிறது. ஹைவ் வினவல் கோப்பு பெயர்endanuredPlantSpecies.qமற்றும் கீழே காட்டப்பட்டுள்ளது

குடும்பத்தைத் தேர்ந்தெடுக்கவும், COUNT (இனங்கள்) AS எண்_அடி_அறிவிக்கப்பட்ட_வெளிகளிலிருந்து அச்சுறுத்தல்_வெளிகள் 2 WHERE இராச்சியம் = 'தாவரங்கள்' மற்றும் 'அச்சுறுத்தப்பட்ட நிலை' = 'ஆபத்தான' குழு குடும்பம்

4. இந்த படி ஆஸ்திரேலியாவின் குயின்ஸ்லாந்து மாநிலத்தில் அழிந்துபோன விலங்கு இனங்களின் அறிவியல் பெயர்களை பட்டியலிடுகிறது. ஸ்கிரிப்ட் கோப்பு அழைக்கப்படுகிறது extinctAnimalsQLD.q அது கீழே காட்டப்பட்டுள்ளது:

'பொதுவான பெயர்', 'விஞ்ஞான பெயர்' FROM அச்சுறுத்தல்_வெளிகள் WHERE இராச்சியம் = 'விலங்கு' மற்றும் (qld = 'ஆம்' அல்லது qld = 'அழிந்துவிட்டன') மற்றும் 'அச்சுறுத்தப்பட்ட நிலை' = 'அழிந்துவிட்டன'

பதிவு திரட்டு

இங்கே நாம் S3 வாளியின் ஸ்கிரிப்டுகள் கோப்புறையில் logAggregation.json எனப்படும் JSON கோப்பையும் பதிவேற்றியுள்ளோம். YARN பதிவு கோப்புகளை திரட்ட இந்த கோப்பைப் பயன்படுத்துகிறோம். கொத்து தொடங்கும் போது பதிவு திரட்டுதல் நூல்-தளம். Xml உள்ளமைவு கோப்பில் கட்டமைக்கப்படுகிறது. LogAggregation.json கோப்பின் உள்ளடக்கங்கள் பின்வருமாறு:

[{“வகைப்பாடு”: “நூல்-தளம்”, “பண்புகள்”: y “நூல்.லாக்-திரட்டல்-செயலாக்கு”: “உண்மை”, “நூல்.லாக்-திரட்டல்.ரெட்டன்-விநாடிகள்”: “-1”, “நூல் .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / log ”}}]

நீங்கள் எஸ் 3 வாளியை உருவாக்கி தரவு மற்றும் ஸ்கிரிப்ட் கோப்புகளை அந்தந்த கோப்புறைகளுக்கு நகலெடுத்த பிறகு இப்போது ஒரு ஈஎம்ஆர் கிளஸ்டரை அமைக்க நேரம் வந்துவிட்டது. பெரும்பாலும் இயல்புநிலை அமைப்புகளுடன் கிளஸ்டரை உருவாக்கும்போது பின்வரும் ஸ்னாப்ஷாட்கள் செயல்முறையை விவரிக்கின்றன.

ஈ.எம்.ஆர் கிளஸ்டர் அமைப்பு

முதல் படத்தில், AWS கன்சோலில் கிளஸ்டரை உள்ளமைக்க, ஹைவ் உட்பட EMR பரிந்துரைத்த அனைத்து பயன்பாடுகளையும் வைத்திருக்கிறோம். ஹைவ் மெட்டாடேட்டாவை சேமிக்க AWS பசை பயன்படுத்த வேண்டிய அவசியமில்லை, இந்த நேரத்தில் நாங்கள் எந்த வேலை நடவடிக்கைகளையும் சேர்க்கவில்லை. இருப்பினும், ஹைவிற்கான மென்பொருள் அமைப்பை நாம் சேர்க்க வேண்டும். இந்த புலத்தில் பதிவு திரட்டல் JSON கோப்பிற்கான பாதையை நாங்கள் எவ்வாறு குறிப்பிடுகிறோம் என்பதை இங்கே நீங்கள் கவனமாக கவனிக்க வேண்டும்.

fibonacci recursive c ++

அடுத்த கட்டத்தில், எல்லா இயல்புநிலை அமைப்புகளையும் வைத்திருக்கிறோம். எங்கள் சோதனையின் பொருட்டு, கொத்துக்கு ஒரு முதன்மை முனை மற்றும் இரண்டு மைய முனைகள் இருக்கும். இங்கே ஒவ்வொரு முனையும் ஒரு m3.xlarge உதாரணம் மற்றும் 10 ஜிபி ரூட் அளவைக் கொண்டுள்ளது. அடுத்த கட்டத்தில் கிளஸ்டருக்கு அரவிந்த் 1-கிளஸ்டருக்கு பெயரிட்டு வருகிறோம், மேலும் அதன் பதிவுக் கோப்புகளுக்கான தனிப்பயன் எஸ் 3 இருப்பிடத்தைக் குறிப்பிடுகிறோம்.

இறுதியாக, கிளஸ்டரின் முதன்மை முனையை அணுகும் நோக்கத்திற்காக EC2 விசை ஜோடியைக் குறிப்பிட்டோம். EMR, EC2 நிகழ்வு சுயவிவரம் மற்றும் தானியங்கு அளவிலான விருப்பங்களுக்கான இயல்புநிலை IAM பாத்திரங்களில் எந்த மாற்றமும் இல்லை. மேலும், மாஸ்டர் மற்றும் கோர் முனைகள் இயல்பாக கிடைக்கக்கூடிய பாதுகாப்புக் குழுக்களைப் பயன்படுத்துகின்றன. பொதுவாக, இது ஈ.எம்.ஆர் கிளஸ்டருக்கான இயல்புநிலை அமைப்பாகும். எல்லாம் தயாரானதும், கீழே காட்டப்பட்டுள்ளபடி கொத்து “காத்திருக்கும்” நிலையில் உள்ளது:

ஹைவ் வேலை படிகளை சமர்ப்பிக்கவும்

இதற்குப் பிறகு, நாங்கள் SSH அணுகலை அனுமதிக்க வேண்டும்.

  1. இல் அமேசான் ஈஎம்ஆர் கன்சோலைத் திறக்கவும் https://console.aws.amazon.com/elasticmapreduce/ .
  2. தேர்வு செய்யவும் கொத்துகள் .
  3. தேர்ந்தெடு பெயர் கொத்து.
  4. கீழ் பாதுகாப்பு மற்றும் அணுகல் தேர்ந்தெடு மாஸ்டருக்கான பாதுகாப்பு குழுக்கள் இணைப்பு.
  5. தேர்வு செய்யவும் மீள் வரைபடம்-மாஸ்டர் பட்டியலில் இருந்து.
  6. தேர்வு செய்யவும் பிணைப்பிலுள்ள , தொகு .
  7. பின்வரும் அமைப்புகளுடன் விதியைக் கண்டுபிடித்து, தேர்வு செய்யவும் எக்ஸ் அதை நீக்க ஐகான்:
    • வகை எஸ்.எஸ்.எச்
    • துறைமுகம் 22
    • மூல தனிப்பயன் 0.0.0.0/0
  8. விதிகளின் பட்டியலின் கீழே உருட்டி தேர்வு செய்யவும் விதி சேர்க்கவும் .
  9. க்கு வகை , தேர்ந்தெடுக்கவும் எஸ்.எஸ்.எச் .இது தானாகவே நுழைகிறது டி.சி.பி. க்கு நெறிமுறை மற்றும் 22 க்கு துறைமுக வீச்சு .
  10. மூலத்திற்கு, தேர்ந்தெடுக்கவும் எனது ஐபி .இது தானாகவே உங்கள் கிளையன்ட் கணினியின் ஐபி முகவரியை மூல முகவரியாக சேர்க்கிறது. மாற்றாக, நீங்கள் ஒரு வரம்பைச் சேர்க்கலாம் தனிப்பயன் நம்பகமான கிளையன்ட் ஐபி முகவரிகள் மற்றும் தேர்வு செய்யவும் விதியைச் சேர்க்கவும் பிற வாடிக்கையாளர்களுக்கு கூடுதல் விதிகளை உருவாக்க. பல நெட்வொர்க் சூழல்களில், நீங்கள் ஐபி முகவரிகளை மாறும் வகையில் ஒதுக்குகிறீர்கள், எனவே நம்பகமான வாடிக்கையாளர்களின் ஐபி முகவரியைப் புதுப்பிக்க நீங்கள் பாதுகாப்பு குழு விதிகளை அவ்வப்போது திருத்த வேண்டியிருக்கும்.
  11. தேர்வு செய்யவும் சேமி .
  12. விருப்பமாக, தேர்வு செய்யவும் மீள் வரைபடம்-அடிமை பட்டியலில் இருந்து மற்றும் நம்பகமான வாடிக்கையாளர்களிடமிருந்து முக்கிய மற்றும் பணி முனைகளுக்கு SSH கிளையன்ட் அணுகலை அனுமதிக்க மேலே உள்ள படிகளை மீண்டும் செய்யவும்.

ஈ.எம்.ஆர் கிளஸ்டர் இயங்குவதால், நாங்கள் நான்கு வேலை படிகளைச் சேர்த்துள்ளோம். ஈ.எம்.ஆர் ஒன்றன் பின் ஒன்றாக இயங்கும் படிகள் இவை. பின்வரும் படம் AWS EMR கன்சோலின் படிகளைக் காட்டுகிறது:

நான்கு படிகளைச் சேர்த்தவுடன், இந்த படிகளின் நிலையை நாங்கள் பூர்த்தி செய்துள்ளோம். இந்த படிகளை செயல்படுத்துவதில் ஏதேனும் சிக்கல் இருந்தாலும், இதுபோன்ற சந்தர்ப்பங்களில் இந்த படிகளின் பதிவுக் கோப்புகளைப் பயன்படுத்தி தீர்க்க முடியும்.

ஆகவே AWS இல் உள்ள பிக் டேட்டா குறித்த இந்த கட்டுரையில் இது என் தரப்பிலிருந்து தான். நான் இங்கே விளக்கிய அனைத்தையும் நீங்கள் புரிந்து கொண்டீர்கள் என்று நம்புகிறேன்.

AWS இல் இந்த பெரிய தரவை நீங்கள் கண்டறிந்தால், நீங்கள் எடுரேகாவின் நேரடி மற்றும் பயிற்றுவிப்பாளரின் தலைமையிலான பாடத்திட்டத்தைப் பார்க்கலாம் , தொழில் பயிற்சியாளர்களால் இணைந்து உருவாக்கப்பட்டது.

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? AWS இல் ஜாவா வலை பயன்பாட்டை எவ்வாறு வரிசைப்படுத்துவது என்ற கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் உங்களிடம் திரும்புவோம்.