வரைபடம் சேர Vs. சேர



இந்த இடுகை ஹடூப் வரைபடம் Vs. சேர. வரைபடத்தைக் குறைத்தல், அட்டவணையில் சேருதல், பக்கத்தில் சேருதல், ஹைவ் இல் வரைபட-பக்க சேரல் செயல்பாட்டைப் பயன்படுத்துவதன் நன்மைகள் ஆகியவற்றைக் கற்றுக் கொள்ளுங்கள்

இந்த வலைப்பதிவில், நாங்கள் விவாதிப்போம் வரைபடம் சேர மற்றும் சாதாரண சேரல் செயல்பாட்டில் அதன் நன்மைகள் ஹைவ் .இது ஒரு முக்கியமான கருத்தாகும், இதை செயல்படுத்த நீங்கள் கற்றுக்கொள்ள வேண்டும் .ஆனால் இதைப் பற்றி தெரிந்து கொள்வதற்கு முன், நாம் முதலில் அதன் கருத்தை புரிந்து கொள்ள வேண்டும் ‘சேர்’ நாங்கள் சேரும்போது உள்நாட்டில் என்ன நடக்கும் ஹைவ் .

சேர இரண்டு அட்டவணைகளின் (அல்லது தரவு-அமைப்புகள்) பதிவுகளை இணைக்கும் ஒரு பிரிவு.
எங்களிடம் A மற்றும் B ஆகிய இரண்டு அட்டவணைகள் உள்ளன என்று வைத்துக் கொள்ளுங்கள். அவற்றில் சேர செயல்பாட்டைச் செய்யும்போது, ​​அது அனைத்து நெடுவரிசைகளின் கலவையான o f A மற்றும் B பதிவுகளை வழங்கும்.





இப்போது ஒரு எடுத்துக்காட்டுடன் சாதாரண இணைப்பின் செயல்பாட்டைப் புரிந்துகொள்வோம் ..

எப்போது, ​​நாங்கள் சேர செயல்பாட்டைப் பயன்படுத்துகிறோம், வேலை இரண்டு கட்டங்களைக் கொண்ட ஒரு வரைபடத்தைக் குறைக்கும் பணிக்கு ஒதுக்கப்படும்- a ‘வரைபட நிலை ’மற்றும் ஒரு‘ நிலை குறைக்க ’. வரைபட கட்டத்தின் போது ஒரு மேப்பரின் வேலை 'படி' சேர அட்டவணைகள் மற்றும் தரவு “திரும்ப” தி ‘சேர விசை’ மற்றும் ‘சேர மதிப்பு’ ஒரு இடைநிலை கோப்பில் இணைக்கவும். மேலும், கலக்கு நிலையில், இந்த இடைநிலை கோப்பு பின்னர் வரிசைப்படுத்தப்பட்டு ஒன்றிணைக்கப்படுகிறது. குறைக்கும் கட்டத்தின் போது குறைப்பவரின் பணி இந்த வரிசைப்படுத்தப்பட்ட முடிவை உள்ளீடாக எடுத்து சேரும் பணியை முடிப்பதாகும்.



  • வரைபடத்தில் சேர்வது ஒரு இணைப்பிற்கு ஒத்ததாகும், ஆனால் எல்லா பணிகளும் மேப்பரால் மட்டுமே செய்யப்படும்.

  • பணியை மேம்படுத்த சிறிய அட்டவணைகளுக்கு வரைபட பக்க சேரல் பெரும்பாலும் பொருத்தமானதாக இருக்கும்.



வரைபடப் பக்க சேரல் எவ்வாறு பணியை மேம்படுத்தும்?

எங்களிடம் இரண்டு அட்டவணைகள் உள்ளன என்று வைத்துக் கொள்ளுங்கள், அவற்றில் ஒன்று சிறிய அட்டவணை. ஒரு வரைபடத்தைக் குறைக்கும் பணியை நாங்கள் சமர்ப்பிக்கும் போது, ​​அசல் சேரும் வரைபடத்தை குறைக்கும் பணிக்கு முன் ஒரு வரைபடம் உள்ளூர் பணி உருவாக்கப்படும், இது HDFS இலிருந்து சிறிய அட்டவணையின் தரவைப் படித்து நினைவகத்தில் உள்ள ஹாஷ் அட்டவணையில் சேமிக்கும். படித்த பிறகு, இது இன்-மெமரி ஹாஷ் அட்டவணையை ஒரு ஹாஷ் டேபிள் கோப்பில் வரிசைப்படுத்துகிறது.

அடுத்த கட்டத்தில், அசல் சேரல் வரைபடத்தைக் குறைக்கும் பணி இயங்கும்போது, ​​அது ஹாஷ் அட்டவணை கோப்பில் உள்ள தரவை ஹடூப் விநியோகிக்கப்பட்ட தற்காலிக சேமிப்பிற்கு நகர்த்துகிறது, இது ஒவ்வொரு மேப்பரின் உள்ளூர் வட்டுக்கும் இந்த கோப்புகளை விரிவுபடுத்துகிறது. எனவே அனைத்து மேப்பர்களும் இந்த தொடர்ச்சியான ஹாஷ் டேபிள் கோப்பை மீண்டும் நினைவகத்தில் ஏற்றலாம் மற்றும் முன்பு போலவே சேர வேலைகளையும் செய்யலாம். உகந்த வரைபட இணைப்பின் செயல்பாட்டு ஓட்டம் கீழே உள்ள படத்தில் காட்டப்பட்டுள்ளது. தேர்வுமுறைக்குப் பிறகு, சிறிய அட்டவணையை ஒரு முறை படிக்க வேண்டும். ஒரே கணினியில் பல மேப்பர்கள் இயங்கினால், விநியோகிக்கப்பட்ட கேச் இந்த இயந்திரத்திற்கு ஹாஷ் டேபிள் கோப்பின் ஒரு நகலை மட்டுமே தள்ள வேண்டும்.

வரைபடப் பக்க இணைப்பைப் பயன்படுத்துவதன் நன்மைகள்:

  • வரிசைப்படுத்துவதற்கும் ஒன்றிணைப்பதற்கும் ஏற்படும் செலவைக் குறைக்க வரைபட பக்க இணைப்பு உதவுகிறது கலக்கு மற்றும் குறைக்க நிலைகள்.
  • வரைபட பக்க இணைப்பும் பணியை முடிக்க நேரத்தை குறைப்பதன் மூலம் பணியின் செயல்திறனை மேம்படுத்த உதவுகிறது.

வரைபட பக்க இணைப்பின் தீமைகள்:

  • நீங்கள் வரைபட பக்க சேரல் செயல்பாட்டைச் செய்யும் அட்டவணையில் ஒன்று நினைவகத்திற்கு பொருந்தும் அளவுக்கு சிறியதாக இருக்கும்போது மட்டுமே வரைபட பக்க இணைப்பு போதுமானதாக இருக்கும். எனவே அவை இரண்டிலும் மிகப்பெரிய தரவுகளாக இருக்கும் அட்டவணையில் வரைபட பக்க இணைப்பைச் செய்வது பொருத்தமானதல்ல.

வரைபடத்தைக் குறைப்பதற்கான எளிய எடுத்துக்காட்டு இணைகிறது:

இரண்டு அட்டவணைகளை உருவாக்குவோம்:

  • எம்ப் : பணியாளர் பெயர், பணியாளர் ஐடி மற்றும் அவர் சார்ந்த துறை போன்ற ஒரு பணியாளரின் விவரங்கள் உள்ளன.

  • துறை: திணைக்களத்தின் பெயர், துறை ஐடி மற்றும் பல போன்ற விவரங்களைக் கொண்டுள்ளது.

உருவாக்கப்பட்ட அட்டவணையில் தரவை ஏற்ற பின்வரும் படத்தில் காட்டப்பட்டுள்ளபடி இரண்டு உள்ளீட்டு கோப்புகளை உருவாக்கவும்.

பணியாளர். txt

dept.txt

ஜாவா எடுத்துக்காட்டில் ஸ்கேனர் வகுப்பு

இப்போது, ​​தரவை அட்டவணையில் ஏற்றுவோம்.

செய்வோம் வரைபடம்-பக்க சேர ஒவ்வொரு பணியாளரும் பணிபுரியும் துறைகளின் பட்டியலைப் பிரித்தெடுக்க இரண்டு அட்டவணையில்.

இங்கே, தி இரண்டாவது அட்டவணை துறை ஒரு சிறிய அட்டவணை. நினைவில் கொள்ளுங்கள், எப்போதும் ஒரு நிறுவனத்தில் உள்ள ஊழியர்களின் எண்ணிக்கையை விட துறையின் எண்ணிக்கை குறைவாக இருக்கும்.

இப்போது அதே பணியை சாதாரண குறைப்பு-பக்க இணைப்பின் உதவியுடன் செய்வோம்.

இரண்டையும் இணைக்கும்போது, ​​இரண்டு வேறுபாடுகளையும் நீங்கள் காணலாம்:

  • வரைபடத்தில் குறைத்தல் சேர சாதாரண வேலையில் எடுக்கப்பட்ட நேரத்துடன் ஒப்பிடும்போது குறைந்த நேரத்தில் வேலையை முடித்துவிட்டது.

  • வரைபடத்தைக் குறைக்கும் சேரல் எந்தவொரு குறைப்பாளரின் உதவியும் இல்லாமல் தனது வேலையை முடித்துவிட்டது, அதே நேரத்தில் சாதாரண இணைப்பானது ஒரு குறைப்பவரின் உதவியுடன் இந்த வேலையைச் செயல்படுத்தியது.

எனவே, வரைபடத்தில் சேரவும் அட்டவணையில் ஒன்று குறுகிய காலத்தில் வேலையை முடிக்க நினைவகத்தில் பொருந்தும் அளவுக்கு சிறியதாக இருக்கும்போது உங்கள் சிறந்த பந்தயம்.

இல் நிகழ்நேர சூழல் , உங்களிடம் பெரிய அளவிலான தரவுகளுடன் தரவு-தொகுப்புகள் இருக்கும். எனவே தரவு-தொகுப்புகளில் ஒன்று சிறிய அளவு இருந்தால் பகுப்பாய்வு செய்வதும் தரவை மீட்டெடுப்பதும் அதிக நேரம் எடுக்கும். இதுபோன்ற வழக்குகளில் வரைபடம்-பக்க சேர குறைந்த நேரத்தில் வேலையை முடிக்க உதவும்.

ஹடூப்பை மாஸ்டர் செய்ய ஒரு சிறந்த நேரம் இருந்ததில்லை! எடுரேகாவின் சிறப்பாக வடிவமைக்கப்பட்ட பிக் டேட்டா மற்றும் ஹடூப் பாடநெறியுடன் இப்போது தொடங்கவும்.

மேற்கோள்கள்:
https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919

தொடர்புடைய இடுகைகள்:

7 வழிகள் பெரிய தரவு பயிற்சி உங்கள் நிறுவனத்தை மாற்றும்