பன்றிக்குள் ஒரு ஆழமான டைவ்



இந்த வலைப்பதிவு இடுகை பன்றி மற்றும் அதன் செயல்பாடுகளுக்கு ஆழ்ந்த டைவ் ஆகும். ஜாவாவைச் சார்ந்து இல்லாமல் பிக் பயன்படுத்தி ஹடூப்பில் எவ்வாறு வேலை செய்யலாம் என்பதற்கான டெமோவைக் காண்பீர்கள்.

சமீபத்திய காலங்களில் ஹடூப்பின் புகழ் உயர்ந்துள்ளதற்கு மிகப் பெரிய காரணங்களில் ஒன்று, பிக் மற்றும் ஹைவ் போன்ற அம்சங்கள் அதன் மேல் இயங்குகின்றன என்பது முன்னர் ஜாவா புரோகிராமர்களுக்கு பிரத்தியேகமாக இருந்த செயல்பாட்டுடன் புரோகிராமர்கள் அல்லாதவர்களை அனுமதிக்கிறது. இந்த அம்சங்கள் ஹடூப் நிபுணர்களுக்கான தேவை அதிகரித்து வருவதன் விளைவாகும். ஜாவா அல்லாத பின்னணியைச் சேர்ந்த ஹடூப் தொழில் வல்லுநர்களால் பயன்படுத்தப்படும் பிற அம்சங்கள் ஃப்ளூம், ஸ்கூப், ஹெபேஸ் மற்றும் ஓஸி.





ஹடூப்பைக் கற்றுக்கொள்ள உங்களுக்கு ஏன் ஜாவா தேவையில்லை என்பதைப் புரிந்து கொள்ள, பாருங்கள் இந்த வலைப்பதிவு .

1 பிக் வரலாறு



இந்த அம்சங்கள் எவ்வாறு செயல்படுகின்றன என்பதைப் புரிந்துகொள்வோம்.

MapReduce குறியீடுகளை எழுதுவதற்கு நிரலாக்க அறிவு அவசியம் என்பதை நாம் அனைவரும் அறிவோம். நான் விவரங்களை வழங்கினால் குறியீட்டு முறையைச் செய்யக்கூடிய ஒரு கருவி என்னிடம் இருந்தால் என்ன செய்வது? பிக் அதன் தசை சக்தியை வெளிப்படுத்துகிறது. பிக் பிக் லத்தீன் எனப்படும் ஒரு தளத்தைப் பயன்படுத்துகிறது, இது ஜாவா மேப்ரூட்யூஸ் ஐடியமில் இருந்து நிரலாக்கத்தை ஒரு குறியீடாக சுருக்கிக் கொள்கிறது, இது RDBMS அமைப்புகளுக்கான SQL ஐப் போலவே MapReduce நிரலாக்கத்தையும் உயர் மட்டமாக மாற்றுகிறது. பிக் லத்தீன் MapReduce இல் எழுதப்பட்ட குறியீடுகள் தானாகவே சமமான MapReduce செயல்பாடுகளாக மாற்றப்படும். அது அருமை இல்லையா? மனம் வீசும் மற்றொரு உண்மை என்னவென்றால், ஜாவாவின் 200 கோடுகளை மாற்றுவதற்கு 10 கோடுகள் மட்டுமே பன்றி தேவைப்படுகிறது.



பிக் 10 வரிகள் = ஜாவாவின் 200 கோடுகள்

இது ஜாவா அல்லாத தொழில் வல்லுநர்கள் ஹடூப்பைப் பயன்படுத்துகிறார்கள் என்பதோடு மட்டுமல்லாமல், பிக் சமமான தொழில்நுட்ப உருவாக்குநர்களால் பயன்படுத்தப்படுகிறது என்பதற்கான அடிக்கோடிட்டுக் காட்டும் உண்மையையும் இது நிரூபிக்கிறது.

கூடுதலாக, நீங்கள் உங்கள் சொந்த MapReduce குறியீட்டை எழுத விரும்பினால், நீங்கள் அதை பெர்ல், பைதான், ரூபி அல்லது சி போன்ற எந்த மொழிகளிலும் செய்யலாம். பன்றியைப் பயன்படுத்தி எந்த தரவுத்தொகுப்பிலும் நாம் செய்யக்கூடிய சில அடிப்படை செயல்பாடுகள் குழு, சேர, வடிகட்டி மற்றும் வரிசைப்படுத்துதல் . இந்த செயல்பாடுகள் கட்டமைக்கப்பட்ட, கட்டமைக்கப்படாத மற்றும் அரை கட்டமைக்கப்பட்ட தரவுகளில் செய்யப்படலாம். மிகப் பெரிய தரவுத் தொகுப்புகளில் MapReduce வேலைகளை உருவாக்கி செயல்படுத்துவதற்கான தற்காலிக வழியை அவை வழங்குகின்றன.

அடுத்து, ஹைவ் புரிந்துகொள்வோம். இது ஒரு திறந்த மூல, தரவு சுருக்கம், வினவல் மற்றும் பகுப்பாய்வு ஆகியவற்றிற்கான ஹடூப்பை அடிப்படையாகக் கொண்ட பெட்டா-பைட் அளவிலான தரவுக் கிடங்கு கட்டமைப்பாகும். ஹடூப்பிற்கான ஒரு SQL போன்ற இடைமுகத்தை ஹைவ் வழங்குகிறது. ஹடூப்பில் கோப்புகளைப் படிக்கவும் எழுதவும் ஹைவ் பயன்படுத்தலாம் மற்றும் BI கருவியில் இருந்து உங்கள் அறிக்கைகளை இயக்கலாம். ஹடூப்பின் சில பொதுவான செயல்பாடு:

கிளிக்ஸ்ட்ரீம் தரவு தொகுப்பில் பன்றைப் பயன்படுத்தி ஒரு டெமோவைக் காண்பிக்கிறேன்
நாங்கள் இந்த க்ளிக்ஸ்ட்ரீம் தரவைப் பயன்படுத்துவோம் மற்றும் மாற்றங்கள், சேர்வுகள் மற்றும் குழுக்களைச் செய்வோம்.

ஜாவாவில் சரத் என்றால் என்ன

கிளிக்ஸ்ட்ரீம் என்பது இணையத்தை அணுகும் போது ஒரு பயனரால் செய்யப்பட்ட மவுஸ் கிளிக்குகளின் தொடர்ச்சியாகும், குறிப்பாக சந்தைப்படுத்தல் நோக்கங்களுக்காக ஒரு நபரின் நலன்களை மதிப்பிடுவதற்கு கண்காணிக்கப்படுகிறது. பரிந்துரைகளை உருவாக்க உங்கள் செயல்பாடுகளைக் கண்காணிக்கும் பிளிப்கார்ட் மற்றும் அமேசான் போன்ற ஆன்லைன் சில்லறை வலைத்தளங்களால் இது முக்கியமாகப் பயன்படுத்தப்படுகிறது. நாங்கள் பயன்படுத்திய கிளிக்ஸ்ட்ரீம் தரவு தொகுப்பு பின்வரும் புலங்களைக் கொண்டுள்ளது:

1. வலை பயன்பாடு ஆதரிக்கும் மொழியின் வகை

2. உலாவி வகை

3. இணைப்பு வகை

4. நாட்டின் ஐடி

5. நேர முத்திரை

6. URL

7. பயனர் நிலை

8. பயனர் வகை

இது பொருத்தமான புலங்களுடன் இதுபோல் இருக்கும்.

ஒரு குறிப்பிட்ட இணையதளத்தில் உலாவும்போது பல்வேறு நபர்களால் பயன்படுத்தப்பட்ட உலாவி வகைகளின் பட்டியல் கீழே. இந்த பட்டியலில் இன்டர்நெட் எக்ஸ்ப்ளோரர், கூகிள் குரோம், லின்க்ஸ் போன்ற உலாவிகள் உள்ளன.

இணைய இணைப்பு வகை லேன் / மோடம் / வைஃபை ஆக இருக்கலாம். முழுமையான பட்டியலுக்கு கீழே உள்ள படத்தைக் காண்க:

அடுத்த படத்தில், வலைத்தளம் பார்வையாளர்களை அவர்களின் ஐடிகளுடன் ஈர்த்த நாடுகளின் பட்டியலைக் காண்பீர்கள்.

எல்லா தரவுத் தொகுப்புகளையும் நாங்கள் சேகரித்தவுடன், பிக் கட்டளைகளை இயக்குவதற்காக தொடங்கப்பட்ட பிக்'ஸ் கிரண்ட் ஷெல்லை நாம் தொடங்க வேண்டும்.

கிரண்ட் ஷெல்லைத் தொடங்குவதில் நாம் முதலில் செய்ய வேண்டியது, க்ளிக்ஸ்ட்ரீம் தரவை பிக் உறவில் ஏற்றுவதாகும். ஒரு உறவு என்பது ஒரு அட்டவணையைத் தவிர வேறில்லை. எச்டிஎஃப்எஸ்ஸில் வசிக்கும் கோப்பை பிக் உறவில் ஏற்றுவதற்கு நாங்கள் பயன்படுத்தும் கட்டளை கீழே உள்ளது.

Click_stream ஐ விவரிக்கும் கட்டளையின் மூலம் உறவின் திட்டத்தை நாம் சரிபார்க்க முடியும்.

நாம் இப்போது குறிப்புக் கோப்புகளைச் சேர்க்க வேண்டும், அதில் அவர்களின் ஐடிகளுடன் உள்ள நாடுகளின் பட்டியல் மற்றும் வெவ்வேறு உலாவி வகைகள் பற்றிய விவரங்கள் இருக்கும்.

எங்களிடம் இப்போது இரண்டு குறிப்பு கோப்புகள் உள்ளன, ஆனால் அவை ஒரு உறவை உருவாக்க இணைக்கப்பட வேண்டும்.
இணைப்பு வகையைக் குறிக்க ஒரு connection_ref கட்டளையை இயக்குகிறோம்.

இப்போது எங்களிடம் பணி இணைப்பு மற்றும் நிறுவப்பட்ட உறவு இருப்பதால், அந்த தரவை எவ்வாறு மாற்ற முடியும் என்பதை நாங்கள் உங்களுக்குக் காண்பிப்போம்.
கிளிக் ஸ்ட்ரீமில் உள்ள ஒவ்வொரு பதிவிற்கும், நாங்கள் ஒரு புதிய பதிவை வேறு வடிவத்தில் உருவாக்குவோம், அதாவது மாற்றப்பட்ட தரவு. புதிய வடிவமைப்பில் டைம்ஸ்டாம்ப், உலாவி வகை, நாடு ஐடிகள் மற்றும் இன்னும் சில துறைகள் இருக்கும்.

இரட்டையிலிருந்து முழு எண்ணாக மாற்றவும்

பெரிய தரவைக் குறைக்க வடிகட்டி செயல்பாட்டைச் செய்யலாம். வெவ்வேறு வகையான பயனர்கள் நிர்வாகிகள், விருந்தினர்கள் அல்லது போட்கள். எங்கள் டெமோவில், விருந்தினர்களுக்கான பட்டியலை வடிகட்டியுள்ளேன்.

உங்களுக்கு நினைவிருந்தால், நாட்டின் ஐடி கிளிக் ஸ்ட்ரீமில் உள்ளது, மேலும் நாடுகளின் பெயர்களைக் கொண்ட ஒரு நாடு_ரீஃப் கோப்பை அதன் ஐடிகளுடன் ஏற்றினோம். இவ்வாறு இரண்டு கோப்புகளுக்கிடையில் ஒரு சேரல் செயல்பாட்டைச் செய்யலாம் மற்றும் நுண்ணறிவுகளைப் பெற தரவை ஒன்றிணைக்கலாம்.

நாங்கள் தரவில் சேர்ந்துள்ளோம் என்றால், குழுக்கள் மூலம் பயனர்கள் இருக்கும் வெவ்வேறு நாடுகளை நாம் கண்டுபிடிக்கலாம். இந்தத் தரவு எங்களிடம் கிடைத்ததும், ஒரு குறிப்பிட்ட நாட்டிலிருந்து பயனர்களின் எண்ணிக்கையை அடையாளம் காண ஒரு எண்ணிக்கை செயல்பாட்டைச் செய்யலாம்.

பிக் டேட்டாவிலிருந்து நுண்ணறிவுகளைப் பெறுவது ராக்கெட் அறிவியல் அல்ல. இவை நான் செயல்படுத்திய பல அம்சங்களில் சில மற்றும் ஹைவ், ஹெபேஸ், ஓஸி, ஸ்கூப் மற்றும் ஃப்ளூம் போன்ற கருவிகளைக் கொண்டு இன்னும் ஆராயப்படாத தரவுகளின் புதையல் உள்ளது. ஆகவே, ஹடூப்பைக் கற்றுக்கொள்வதிலிருந்து உங்களைத் தடுத்து நிறுத்துபவர்கள், மாற்ற வேண்டிய நேரம் இது.

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் அவற்றைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.

தொடர்புடைய இடுகைகள்:

ஆர் மற்றும் ஹடூப்பை ஒன்றாகப் பயன்படுத்த 4 வழிகள்

அப்பாச்சி ஹடூப்பிற்கான கிளவுட்ரா சான்றளிக்கப்பட்ட டெவலப்பர் பற்றி எல்லாம்