ஹைவ் டுடோரியல் - ஹைவ் கட்டிடக்கலை மற்றும் நாசா வழக்கு ஆய்வு



இந்த ஹைவ் டுடோரியல் வலைப்பதிவு ஹைவ் கட்டிடக்கலை மற்றும் ஹைவ் டேட்டா மாடல் பற்றிய ஆழமான அறிவை உங்களுக்கு வழங்குகிறது. அப்பாச்சி ஹைவ் குறித்த நாசா வழக்கு ஆய்வையும் இது விளக்குகிறது.

அப்பாச்சி ஹைவ் பயிற்சி: அறிமுகம்

ஹைவ் என்பது பிக் டேட்டா அனலிட்டிக்ஸ் நிறுவனத்திற்கான தொழில்துறை அளவிலான பயன்படுத்தப்பட்ட கருவியாகும் மற்றும் உங்கள் தொடக்கத்திற்கான சிறந்த கருவியாகும் உடன். இந்த ஹைவ் டுடோரியல் வலைப்பதிவில், அப்பாச்சி ஹைவ் பற்றி ஆழமாக விவாதிப்போம். அப்பாச்சி ஹைவ் என்பது ஒரு தரவுக் கிடங்கு கருவியாகும் , இது பெரிய தரவை வினவுவதற்கும் பகுப்பாய்வு செய்வதற்கும் SQL போன்ற மொழியை வழங்குகிறது. ஹைவ் வளர்ச்சியின் பின்னணியில் உள்ள உந்துதல் SQL டெவலப்பர்கள் மற்றும் ஆய்வாளர்களுக்கான உராய்வு-குறைவான கற்றல் பாதையாகும். ஹைவ் என்பது நிரலாக்கமற்ற பின்னணியைச் சேர்ந்தவர்களுக்கு ஒரு மீட்பர் மட்டுமல்ல, மேப் ரெட்யூஸ் நிரல்களை எழுத நீண்ட நேரம் செலவிடும் புரோகிராமர்களின் பணியையும் குறைக்கிறது. இந்த அப்பாச்சி ஹைவ் டுடோரியல் வலைப்பதிவில், நான் இதைப் பற்றி பேசுவேன்:





அப்பாச்சி ஹைவ் பயிற்சி: ஹைவ் என்றால் என்ன?

அப்பாச்சி ஹைவ் என்பது ஹடூப்பின் மேல் கட்டப்பட்ட ஒரு தரவுக் கிடங்கு அமைப்பு மற்றும் கட்டமைக்கப்பட்ட மற்றும் அரை கட்டமைக்கப்பட்ட தரவை பகுப்பாய்வு செய்யப் பயன்படுகிறது.ஹடூப் மேப்ரூட்ஸின் சிக்கலை ஹைவ் சுருக்கமாகக் கூறுகிறது. அடிப்படையில், இது தரவுகளை கட்டமைப்பதற்கான ஒரு பொறிமுறையை வழங்குகிறது மற்றும் SQL அறிக்கைகளுக்கு ஒத்த HQL (ஹைவ் வினவல் மொழி) இல் எழுதப்பட்ட வினவல்களைச் செய்கிறது. உள்நாட்டில், இந்த வினவல்கள் அல்லது எச்.க்யூ.எல் ஹைவ் கம்பைலரால் வேலைகளை குறைக்கும் வரைபடமாக மாற்றப்படுகிறது. எனவே, ஹடூப்பைப் பயன்படுத்தி உங்கள் தரவை செயலாக்க சிக்கலான மேப்ரூட் திட்டங்களை எழுதுவது பற்றி நீங்கள் கவலைப்பட தேவையில்லை. இது SQL உடன் வசதியாக இருக்கும் பயனர்களை இலக்காகக் கொண்டுள்ளது. அப்பாச்சி ஹைவ் தரவு வரையறை மொழி (டி.டி.எல்), தரவு கையாளுதல் மொழி (டி.எம்.எல்) மற்றும் பயனர் வரையறுக்கப்பட்ட செயல்பாடுகள் (யு.டி.எஃப்) ஆகியவற்றை ஆதரிக்கிறது.

ஆரம்பநிலைக்கான ஹைவ் டுடோரியல் | ஆழத்தில் ஹைவ் புரிந்துகொள்ளுதல் | எடுரேகா



SQL + Hadoop MapReduce = HiveQL

அப்பாச்சி ஹைவ் டுடோரியல்: ஹைவ் கதை - பேஸ்புக்கிலிருந்து அப்பாச்சி வரை

பேஸ்புக் பயன்பாட்டு வழக்கு - ஹைவ் டுடோரியல் - எடுரேகாபடம் : ஹைவ் டுடோரியல் - பேஸ்புக் பயன்பாட்டு வழக்கு

c ++ பெயர்வெளிகளை எவ்வாறு பயன்படுத்துவது

பேஸ்புக்கில் சவால்கள்: தரவுகளின் அதிவேக வளர்ச்சி

2008 க்கு முன்பு, பேஸ்புக்கில் உள்ள அனைத்து தரவு செயலாக்க உள்கட்டமைப்பும் வணிக ரீதியான ஆர்.டி.பி.எம்.எஸ் அடிப்படையில் ஒரு தரவுக் கிடங்கைச் சுற்றி கட்டப்பட்டது. இந்த உள்கட்டமைப்புகள் அந்த நேரத்தில் பேஸ்புக்கின் தேவைகளுக்கு போதுமானதாக இருந்தன. ஆனால், தரவு மிக வேகமாக வளரத் தொடங்கியதும், இந்த மிகப்பெரிய தரவுத்தொகுப்பை நிர்வகித்து செயலாக்குவது மிகப்பெரிய சவாலாக மாறியது. ஒரு பேஸ்புக் கட்டுரையின் படி, 2007 ஆம் ஆண்டில் அமைக்கப்பட்ட 15 காசநோய் தரவிலிருந்து 2009 ஆம் ஆண்டில் 2 பிபி தரவுக்கு அளவிடப்பட்டது. மேலும், பல பேஸ்புக் தயாரிப்புகளில் பார்வையாளர்களின் நுண்ணறிவு, பேஸ்புக் லெக்சிகன், பேஸ்புக் விளம்பரங்கள் போன்ற தரவுகளை பகுப்பாய்வு செய்வது அடங்கும். எனவே, அவை இந்த சிக்கலைச் சமாளிக்க ஒரு அளவிடக்கூடிய மற்றும் பொருளாதார தீர்வு தேவை, எனவே ஹடூப் கட்டமைப்பைப் பயன்படுத்தத் தொடங்கியது.



ஜனநாயகமயமாக்கல் ஹடூப் - வரைபடம்

ஆனால், தரவு வளர்ந்தவுடன், வரைபடத்தைக் குறைக்கும் குறியீடுகளின் சிக்கலானது விகிதாசாரமாக வளர்ந்தது. எனவே, நிரலாக்கமற்ற பின்னணியைக் கொண்டவர்களுக்கு MapReduce நிரல்களை எழுத பயிற்சி அளிப்பது கடினமாகிவிட்டது. மேலும், எளிய பகுப்பாய்வு செய்ய ஒருவர் மேப்ரூட் குறியீட்டின் நூறு வரிகளை எழுத வேண்டும். பேஸ்புக் உள்ளிட்ட பொறியாளர்கள் மற்றும் ஆய்வாளர்களால் SQL பரவலாகப் பயன்படுத்தப்பட்டது, ஆகவே, SQL ஐ ஹடூப்பின் மேல் வைப்பது SQL பின்னணியைக் கொண்ட பயனர்களுக்கு ஹடூப்பை அணுகுவதற்கான தர்க்கரீதியான வழியாகும்.

எனவே, பெரும்பாலான பகுப்பாய்வு தேவைகளுக்கு SQL இன் திறன் மற்றும் ஹடூப்பின் அளவிடுதல் ஆகியவை பிறந்தன அப்பாச்சி ஹைவ் இது HDFS இல் உள்ள தரவுகளில் வினவல்கள் போன்ற SQL ஐ செய்ய அனுமதிக்கிறது. பின்னர், ஹைவ் திட்டம் ஆகஸ்ட் 2008 இல் பேஸ்புக் மூலம் திறக்கப்பட்டது மற்றும் இன்று அப்பாச்சி ஹைவ் என இலவசமாகக் கிடைக்கிறது.

இப்போது, ​​ஹைவ் மிகவும் பிரபலமாக இருக்கும் அம்சங்கள் அல்லது நன்மைகளைப் பார்ப்போம்.

அப்பாச்சி ஹைவ் டுடோரியல்: ஹைவ் நன்மைகள்

  • சிக்கலான MapReduce நிரலை எழுத வேண்டிய அவசியத்தை நீக்குவதால் நிரலாக்க பின்னணியில் இல்லாதவர்களுக்கு இது பயனுள்ளதாக இருக்கும்.
  • விரிவாக்கக்கூடியது மற்றும் அளவிடக்கூடியது கணினியின் செயல்திறனை பாதிக்காமல், வளர்ந்து வரும் அளவு மற்றும் பல்வேறு தரவுகளை சமாளிக்க.
  • இது ஒரு திறமையான ETL (பிரித்தெடுத்தல், உருமாற்றம், சுமை) கருவியாகும்.
  • ஜாவா, பி.எச்.பி, பைதான், சி ++ அல்லது ரூபியில் எழுதப்பட்ட எந்தவொரு கிளையன்ட் பயன்பாட்டையும் ஹைவ் ஆதரிக்கிறது சிக்கன சேவையகம் . (டிபி 2 போன்ற தரவுத்தளத்தை அணுக SQL உடன் உட்பொதிக்கப்பட்ட இந்த கிளையன்ட் பக்க மொழிகளைப் பயன்படுத்தலாம்).
  • ஹைவின் மெட்டாடேட்டா தகவல்கள் ஒரு ஆர்.டி.பி.எம்.எஸ் இல் சேமிக்கப்படுவதால், வினவல் செயல்பாட்டின் போது சொற்பொருள் சோதனைகளைச் செய்வதற்கான நேரத்தை இது கணிசமாகக் குறைக்கிறது.

அப்பாச்சி ஹைவ் பயிற்சி: அப்பாச்சி ஹைவ் எங்கே பயன்படுத்துவது?

அப்பாச்சி ஹைவ் இரு உலகங்களையும் அதாவது SQL தரவுத்தள அமைப்பு மற்றும் கட்டமைப்பு. எனவே, இது ஏராளமான நிறுவனங்களால் பயன்படுத்தப்படுகிறது. இது பெரும்பாலும் தரவுக் கிடங்கிற்காகப் பயன்படுத்தப்படுகிறது, அங்கு நீங்கள் நிகழ்நேர செயலாக்கம் தேவையில்லாத பகுப்பாய்வு மற்றும் தரவுச் செயலாக்கத்தை மேற்கொள்ள முடியும். நீங்கள் அப்பாச்சி ஹைவ் பயன்படுத்தக்கூடிய சில துறைகள் பின்வருமாறு:

  • தரவுக் கிடங்கு
  • தற்காலிக பகுப்பாய்வு

சொல்லப்பட்டபடி, நீங்கள் ஒரு கையால் மட்டுமே கைதட்ட முடியாது, அதாவது ஒவ்வொரு கருவியையும் ஒரே கருவி மூலம் தீர்க்க முடியாது. ஆகையால், நீங்கள் பல களங்களில் பயன்படுத்த ஹைவ் ஐ மற்ற கருவிகளுடன் இணைக்கலாம். எடுத்துக்காட்டாக, அப்பாச்சி ஹைவ் உடன் அட்டவணை தரவு காட்சிப்படுத்தலுக்குப் பயன்படுத்தப்படலாம், ஹைவ் உடனான அப்பாச்சி தேஸ் ஒருங்கிணைப்பு உங்களுக்கு நிகழ்நேர செயலாக்க திறன்களை வழங்கும்.
இந்த அப்பாச்சி ஹைவ் டுடோரியல் வலைப்பதிவில் முன்னேறி, நாசாவின் ஒரு வழக்கு ஆய்வைப் பார்ப்போம், அங்கு காலநிலை மாதிரிகள் மதிப்பீடு செய்யும் போது நாசா விஞ்ஞானிகள் எதிர்கொள்ளும் பிரச்சினையை ஹைவ் எவ்வாறு தீர்த்தார் என்பதை நீங்கள் அறிந்து கொள்வீர்கள்.

ஹைவ் டுடோரியல்: நாசா வழக்கு ஆய்வு

ஒரு காலநிலை மாதிரி என்பது பூமியின் காலநிலையை பாதிக்கும் பல்வேறு காரணிகளின் அடிப்படையில் காலநிலை அமைப்புகளின் கணித பிரதிநிதித்துவம் ஆகும். அடிப்படையில், இது கடல், சூரியன், வளிமண்டலம் போன்ற காலநிலையின் பல்வேறு இயக்கிகளின் தொடர்புகளை விவரிக்கிறதுகாலநிலை அமைப்பின் இயக்கவியல் பற்றிய நுண்ணறிவை வழங்குதல். காலநிலையை பாதிக்கும் காரணிகளின் அடிப்படையில் காலநிலை மாற்றங்களை உருவகப்படுத்துவதன் மூலம் காலநிலை நிலைமைகளை திட்டமிட இது பயன்படுகிறது. நாசாவின் ஜெட் ப்ராபல்ஷன் ஆய்வகம் பல்வேறு வெளிப்புற களஞ்சியங்களில் இருக்கும் தொலைநிலை உணர்திறன் தரவுகளுக்கு எதிராக காலநிலை வெளியீட்டு மாதிரியை பகுப்பாய்வு செய்வதற்கும் மதிப்பீடு செய்வதற்கும் பிராந்திய காலநிலை மாதிரி மதிப்பீட்டு முறையை (ஆர்.சி.எம்.இ.எஸ்) உருவாக்கியுள்ளது.

RCMES (பிராந்திய காலநிலை மாதிரி மதிப்பீட்டு அமைப்பு) இரண்டு கூறுகளைக் கொண்டுள்ளது:

  • RCMED (பிராந்திய காலநிலை மாதிரி மதிப்பீட்டு தரவுத்தளம்):

இது ஒரு அளவிடக்கூடிய கிளவுட் தரவுத்தளமாகும், இது அப்பாச்சி ஓஓடிடி எக்ஸ்டார்கடர்கள், அப்பாச்சி டிக்கா போன்ற பிரித்தெடுத்தல்களைப் பயன்படுத்தி காலநிலை தொடர்பான தொலைநிலை உணர்திறன் தரவு மற்றும் மறு பகுப்பாய்வு தரவை ஏற்றும். இறுதியாக, இது தரவை தரவு அடுக்கு மாதிரியாக மாற்றுகிறது (அட்சரேகை , தீர்க்கரேகை, நேரம், மதிப்பு, உயரம்) மற்றும் அதை எனது SQL தரவுத்தளத்தில் சேமிக்கிறது. விண்வெளி / நேர வினவல்களைச் செய்வதன் மூலம் வாடிக்கையாளர் RCMED இல் உள்ள தரவை மீட்டெடுக்க முடியும். அத்தகைய கேள்விகளின் விளக்கம் இப்போது எங்களுக்கு பொருந்தாது.

  • RCMET (பிராந்திய காலநிலை மாதிரி மதிப்பீட்டு கருவித்தொகுதி):

பல்வேறு வகையான பகுப்பாய்வு மற்றும் மதிப்பீட்டைச் செய்வதற்கு RCMED இல் உள்ள குறிப்புத் தரவை வேறு சில மூலங்களிலிருந்து பெறப்பட்ட காலநிலை மாதிரி வெளியீட்டுத் தரவோடு ஒப்பிடுவதற்கான திறனை இது பயனருக்கு வழங்குகிறது. RCMES இன் கட்டமைப்பைப் புரிந்து கொள்ள கீழே கொடுக்கப்பட்டுள்ள படத்தை நீங்கள் குறிப்பிடலாம்.

RCMED இல் உள்ள குறிப்பு தரவு காலநிலை மாதிரி மதிப்பீட்டிற்கு தேவையான வெவ்வேறு அளவுருக்களின் படி செயற்கைக்கோள் அடிப்படையிலான ரிமோட் சென்சிங்கிலிருந்து வருகிறது. எடுத்துக்காட்டாக - AIRS (வளிமண்டல அகச்சிவப்பு ச er ண்டர்) மேற்பரப்பு காற்று வெப்பநிலை, வெப்பநிலை மற்றும் புவிசார் ஆற்றல் போன்ற அளவுருக்களை வழங்குகிறது, டிஆர்எம்எம் (வெப்பமண்டல மழை அளவீட்டு பணி) மாதாந்திர மழைப்பொழிவை வழங்குகிறது.

MySQL தரவுத்தள அமைப்பைப் பயன்படுத்தி நாசா எதிர்கொள்ளும் சிக்கல்கள்:

  • வடிவத்தின் 6 பில்லியன் டூப்பிள்களுடன் (அட்சரேகை, தீர்க்கரேகை, நேரம், தரவு புள்ளி மதிப்பு, உயரம்) MySQL தரவுத்தளத்தை ஏற்றிய பிறகு, மேலே உள்ள படத்தில் காட்டப்பட்டுள்ளபடி கணினி செயலிழந்தது.
  • முழு அட்டவணையையும் சிறிய துணைக்குழுக்களாகப் பிரித்த பிறகும், தரவைச் செயலாக்கும்போது கணினி மிகப்பெரிய மேல்நிலைகளை உருவாக்கியது.

எனவே, வினவல் திறன் போன்ற SQL உடன் இந்த பெரிய அளவிலான தரவை சேமித்து செயலாக்கக்கூடிய அளவிடக்கூடிய தீர்வு அவர்களுக்கு தேவைப்பட்டது. இறுதியாக, மேலே கூறப்பட்ட சிக்கல்களை சமாளிக்க அப்பாச்சி ஹைவ் பயன்படுத்த முடிவு செய்தனர்.

அப்பாச்சி ஹைவ் எவ்வாறு சிக்கலை தீர்க்க முடியும்?

இப்போது, ​​நாசாவின் ஜேபிஎல் குழுவை அப்பாச்சி ஹைவ் அவர்களின் தீர்வு மூலோபாயத்தில் ஒரு ஒருங்கிணைந்த பகுதியாக சேர்க்கும்படி நம்பவைத்த அம்சங்கள் என்ன என்பதைப் பார்ப்போம்:

  • அப்பாச்சி ஹைவ் ஹடூப்பின் மேல் இயங்குவதால், இது அளவிடக்கூடியது மற்றும் விநியோகிக்கப்பட்ட மற்றும் இணையான முறையில் தரவை செயலாக்க முடியும்.
  • இது ஹைவ் வினவல் மொழியை வழங்குகிறது, இது SQL ஐப் போன்றது, எனவே கற்றுக்கொள்வது எளிது.

ஹைவ் வரிசைப்படுத்தல்:

பின்வரும் படம் அப்பாச்சி ஹைவ் ஒருங்கிணைப்புடன் RCMES கட்டிடக் கலைஞரை விளக்குகிறது:

படம் : ஹைவ் டுடோரியல் - அப்பாச்சி ஹைவ் உடன் ஆர்.சி.எம்.இ.எஸ் கட்டிடக்கலை

மேலேயுள்ள படம் RCMES இல் அப்பாச்சி ஹைவ் பயன்படுத்தப்படுவதைக் காட்டுகிறது. அப்பாச்சி ஹைவ் பயன்படுத்தும்போது நாசா குழு பின்வரும் நடவடிக்கைகளை எடுத்தது:

  • மேலேயுள்ள படத்தில் காட்டப்பட்டுள்ளபடி கிளவுட்ரா மற்றும் அப்பாச்சி ஹடூப்பைப் பயன்படுத்தி ஹைவ் நிறுவியுள்ளனர்.
  • MySQL தரவுத்தளத்திலிருந்து ஹைவ் தரவை உள்வாங்க அவர்கள் அப்பாச்சி ஸ்கூப்பைப் பயன்படுத்தினர்.
  • ஹைவ் பற்றிய வினவல்களைச் செய்வதற்கும் தரவை RCMET க்கு மீட்டெடுப்பதற்கும் அப்பாச்சி OODT ரேப்பர் செயல்படுத்தப்பட்டது.

ஹைவ் உடனான ஆரம்ப தரப்படுத்தல் அவதானிப்புகள்:

  • ஆரம்பத்தில் அவர்கள் 2.5 பில்லியன் தரவு புள்ளிகளை ஒரே அட்டவணையில் ஏற்றி ஒரு எண்ணிக்கையிலான வினவலை நிகழ்த்தினர். உதாரணத்திற்கு, ஹைவ்> டேட்டாபாயிண்ட் இருந்து எண்ணிக்கை (டேட்டாபாயிண்ட்_ஐடி) தேர்ந்தெடுக்கவும். அனைத்து பதிவுகளையும் எண்ண 5-6 நிமிடங்கள் எடுத்தன (முழு 6.8 பில்லியன் பதிவுகளுக்கு 15–17 நிமிடங்கள்).
  • குறைக்கும் கட்டம் வேகமாக இருந்தது, ஆனால் வரைபட கட்டம் மொத்த செயலாக்க நேரத்தின் 95% எடுத்தது. அவர்கள் ஆறு ( 4x குவாட் கோர் ) அமைப்புகள் 24 ஜிபி ரேம் (தோராயமாக) ஒவ்வொரு அமைப்புகளிலும்.
  • கூடுதல் இயந்திரங்களைச் சேர்த்த பிறகும், HDFS தொகுதி அளவை (64 எம்பி, 128 எம்பி, 256 எம்பி) மாற்றுவது மற்றும் பல உள்ளமைவு மாறிகள் (io.வகைபடுத்து.காரணி, i.வகைபடுத்து.mb), எண்ணிக்கையை நிறைவு செய்வதற்கான நேரத்தைக் குறைப்பதில் அவர்களுக்கு அதிக வெற்றி கிடைக்கவில்லை.

ஹைவ் சமூக உறுப்பினர்களிடமிருந்து உள்ளீடுகள்:

இறுதியாக, ஹைவ் சமூகத்தின் உறுப்பினர்கள் மீட்புக்கு வந்து, அவர்களின் தற்போதைய ஹைவ் செயலாக்கங்களுடன் சிக்கல்களைத் தீர்க்க பல்வேறு நுண்ணறிவுகளை வழங்கினர்:

  • எச்.டி.எஃப்.எஸ் வாசிப்பு வேகம் தோராயமாக இருப்பதாக அவர்கள் குறிப்பிட்டுள்ளனர் 60 எம்பி / வி ஒப்பிடும்போது 1 ஜிபி / வி ஒரு உள்ளூர் வட்டு விஷயத்தில், நெட்வொர்க் திறன் மற்றும் பெயர்நோட்டில் பணிச்சுமையைப் பொறுத்து.
  • உறுப்பினர்கள் அதை பரிந்துரைத்தனர் 16 மேப்பர்கள் உள்ளூர் ஹடூப் அல்லாத பணியின் I / O செயல்திறனுடன் பொருந்த அவர்களின் தற்போதைய அமைப்பில் தேவைப்படும்.
  • குறைக்கவும் அவர்கள் பரிந்துரைத்தனர் பிளவு அளவு ஒவ்வொரு மேப்பருக்கும் எண்ணிக்கையை அதிகரிக்கofமேப்பர்கள் மற்றும் எனவே, மேலும் இணையான தன்மையை வழங்குகிறது.
  • இறுதியாக, சமூக உறுப்பினர்கள் அவர்களிடம் சொன்னார்கள் பயன்பாட்டு எண்ணிக்கை (1) குறிப்பிடுவதற்கு பதிலாக எண்ணிக்கை ( datapoint_id) . ஏனென்றால், எண்ணிக்கை (1) விஷயத்தில், குறிப்பு நெடுவரிசை இல்லை, ஆகையால், எண்ணிக்கையைச் செய்யும்போது எந்தவிதமான டிகம்பரஷ்ஷன் மற்றும் தேசமயமாக்கலும் நடைபெறாது.

இறுதியாக, ஹைவ் சமூக உறுப்பினர்கள் வழங்கிய அனைத்து பரிந்துரைகளையும் கணக்கில் எடுத்துக்கொள்வதன் மூலம் நாசா அவர்களின் ஹைவ் கிளஸ்டரை அவர்களின் எதிர்பார்ப்புகளுக்கு ஏற்றவாறு மாற்ற முடிந்தது. எனவே, மேலே குறிப்பிட்டுள்ள கணினி உள்ளமைவுகளைப் பயன்படுத்தி வெறும் 15 வினாடிகளில் பில்லியன் கணக்கான வரிசைகளை அவர்கள் வினவ முடிந்தது.

ஜாவாவில் கிளாஸ் பாதை அமைப்பது எப்படி

அப்பாச்சி ஹைவ் டுடோரியல்: ஹைவ் கட்டிடக்கலை மற்றும் அதன் கூறுகள்

பின்வரும் படம் ஹைவ் கட்டிடக்கலை மற்றும் ஒரு வினவல் சமர்ப்பிக்கப்பட்ட ஓட்டத்தை விவரிக்கிறதுஹைவ்இறுதியாக MapReduce கட்டமைப்பைப் பயன்படுத்தி செயலாக்கப்பட்டது:

படம் : ஹைவ் டுடோரியல் - ஹைவ் கட்டிடக்கலை

மேலே உள்ள படத்தில் காட்டப்பட்டுள்ளபடி, ஹைவ் கட்டிடக்கலை பின்வரும் கூறுகளாக வகைப்படுத்தப்படலாம்:

  • ஹைவ் வாடிக்கையாளர்கள்: JDBC, சிக்கனம் மற்றும் ODBC இயக்கிகளைப் பயன்படுத்தி ஜாவா, சி ++, பைதான் போன்ற பல மொழிகளில் எழுதப்பட்ட பயன்பாட்டை ஹைவ் ஆதரிக்கிறது. எனவே ஒருவர் எப்போதும் அவர்கள் விரும்பும் மொழியில் எழுதப்பட்ட ஹைவ் கிளையன்ட் பயன்பாட்டை எழுதலாம்.
  • ஹைவ் சேவைகள்: அப்பாச்சி ஹைவ் வினவல்களைச் செய்ய சி.எல்.ஐ, வலை இடைமுகம் போன்ற பல்வேறு சேவைகளை வழங்குகிறது. இந்த ஹைவ் டுடோரியல் வலைப்பதிவில் அவை ஒவ்வொன்றையும் விரைவில் ஆராய்வோம்.
  • செயலாக்க கட்டமைப்பு மற்றும் வள மேலாண்மை: உள்நாட்டில்,வினவல்களை இயக்க ஹைவ் மேப் ரெட்யூஸ் கட்டமைப்பை நடைமுறை இயந்திரமாக ஹைவ் பயன்படுத்துகிறது. ஒரு தனி தலைப்பு மற்றும் எனவே, இங்கே விவாதிக்கப்படவில்லை.
  • விநியோகிக்கப்பட்ட சேமிப்பு: ஹடூப்பின் மேல் ஹைவ் நிறுவப்பட்டிருப்பதால், விநியோகிக்கப்பட்ட சேமிப்பகத்திற்கான அடிப்படை HDFS ஐப் பயன்படுத்துகிறது. நீங்கள் குறிப்பிடலாம் HDFS வலைப்பதிவு அதைப் பற்றி மேலும் அறிய.

இப்போது, ​​ஹைவ் கட்டிடக்கலையில் முதல் இரண்டு முக்கிய கூறுகளை ஆராய்வோம்:

1. ஹைவ் வாடிக்கையாளர்கள்:

ஹைவ் மீது வினவல்களைச் செய்வதற்கு அப்பாச்சி ஹைவ் பல்வேறு வகையான கிளையன்ட் பயன்பாடுகளை ஆதரிக்கிறது. இந்த வாடிக்கையாளர்களை மூன்று வகைகளாக வகைப்படுத்தலாம்:

  • சிக்கன வாடிக்கையாளர்கள்: ஹைவ் சேவையகம் அப்பாச்சி சிக்கனத்தை அடிப்படையாகக் கொண்டிருப்பதால், சிக்கனத்தை ஆதரிக்கும் எல்லா நிரலாக்க மொழியிலிருந்தும் கோரிக்கையை இது வழங்க முடியும்.
  • ஜே.டி.பி.சி வாடிக்கையாளர்கள்: வர்க்கம் org இல் வரையறுக்கப்பட்டுள்ள JDBC இயக்கியைப் பயன்படுத்தி ஜாவா பயன்பாடுகளை அதனுடன் இணைக்க ஹைவ் அனுமதிக்கிறது.அப்பாச்சி.ஹடூப்.hive.jdbc.ஹைவ் டிரைவர்.
  • ODBC வாடிக்கையாளர்கள்: ஹைவ் ஓடிபிசி டிரைவர் ஓடிபிசி நெறிமுறையை ஆதரிக்கும் பயன்பாடுகளை ஹைவ் உடன் இணைக்க அனுமதிக்கிறது. (ஜே.டி.பி.சி இயக்கி போலவே, ஹைவ் சேவையகத்துடன் தொடர்பு கொள்ள ஓ.டி.பி.சி இயக்கி சிக்கனத்தைப் பயன்படுத்துகிறது.)

2. ஹைவ் சேவைகள்:

மேலே உள்ள படத்தில் காட்டப்பட்டுள்ளபடி ஹைவ் பல சேவைகளை வழங்குகிறது. அவை ஒவ்வொன்றையும் பார்ப்போம்:

  • ஹைவ் சி.எல்.ஐ (கட்டளை வரி இடைமுகம்): ஹைவ் வழங்கிய இயல்புநிலை ஷெல் இது, உங்கள் ஹைவ் வினவல்களையும் கட்டளைகளையும் நேரடியாக இயக்க முடியும்.
  • அப்பாச்சி ஹைவ் வலை இடைமுகங்கள்: கட்டளை வரி இடைமுகத்தைத் தவிர, ஹைவ் வினவல்கள் மற்றும் கட்டளைகளை செயல்படுத்த வலை அடிப்படையிலான GUI ஐ ஹைவ் வழங்குகிறது.
  • ஹைவ் சர்வர்: ஹைவ் சேவையகம் அப்பாச்சி சிக்கனத்தில் கட்டப்பட்டுள்ளது, எனவே, சிக்கன சேவையகம் என்றும் குறிப்பிடப்படுகிறது, இது வெவ்வேறு வாடிக்கையாளர்களுக்கு ஹைவ் கோரிக்கைகளை சமர்ப்பிக்கவும் இறுதி முடிவை மீட்டெடுக்கவும் அனுமதிக்கிறது.
  • அப்பாச்சி ஹைவ் டிரைவர்: CLI, வலை UI, சிக்கனம், ODBC அல்லது JDBC இடைமுகங்கள் மூலம் ஒரு வாடிக்கையாளரால் சமர்ப்பிக்கப்பட்ட கேள்விகளைப் பெறுவதற்கு இது பொறுப்பு. பின்னர், இயக்கி வினவலை கம்பைலருக்கு அனுப்புகிறது, அங்கு பாகுபடுத்தல், வகை சரிபார்ப்பு மற்றும் சொற்பொருள் பகுப்பாய்வு ஆகியவை மெட்டாஸ்டோரில் உள்ள ஸ்கீமாவின் உதவியுடன் நடைபெறுகின்றன. அடுத்த கட்டத்தில், வரைபடத்தைக் குறைக்கும் பணிகள் மற்றும் எச்டிஎஃப்எஸ் பணிகளின் DAG (டைரக்ட் அசைக்ளிக் வரைபடம்) வடிவத்தில் உகந்த தருக்கத் திட்டம் உருவாக்கப்படுகிறது. இறுதியாக, மரணதண்டனை இயந்திரம் இந்த பணிகளை அவற்றின் சார்புகளின் வரிசையில், ஹடூப்பைப் பயன்படுத்தி செயல்படுத்துகிறது.
  • மெட்டாஸ்டோர்: நீங்கள் மெட்டாஸ்டோர் என்று நினைக்கலாம்அனைத்து ஹைவ் மெட்டாடேட்டா தகவல்களையும் சேமிப்பதற்கான மைய களஞ்சியமாக. ஹைவ் மெட்டாடேட்டாவில் அட்டவணைகள் மற்றும் பகிர்வுகள் போன்ற பல்வேறு வகையான தகவல்கள் உள்ளனHDFS இல் உள்ள தரவைப் படிக்க / எழுத செயல்பாட்டிற்குத் தேவையான நெடுவரிசை, நெடுவரிசை வகை, சீரியலைசர் மற்றும் தேசமயமாக்கல் ஆகியவற்றுடன். மெட்டாஸ்டோர்இரண்டு அடிப்படை அலகுகளைக் கொண்டுள்ளது:
    • மெட்டாஸ்டோரை வழங்கும் சேவைothe அணுகல்rஹைவ் சேவைகள்.
    • HDFS சேமிப்பகத்திலிருந்து தனித்தனியான மெட்டாடேட்டாவிற்கான வட்டு சேமிப்பிடம்.

இப்போது, ​​ஹைவ் மெட்டாஸ்டோரை செயல்படுத்துவதற்கான பல்வேறு வழிகளைப் புரிந்துகொள்வோம்இந்த ஹைவ் டுடோரியலின் அடுத்த பகுதியில்.

அப்பாச்சி ஹைவ் பயிற்சி: மெட்டாஸ்டோர் கட்டமைப்பு

மெட்டாஸ்டோர் மெட்டா தரவுத் தகவலை ஆர்.டி.பி.எம்.எஸ் மற்றும் டேட்டா நியூக்ளியஸ் எனப்படும் ஓப்பன் சோர்ஸ் ஓ.ஆர்.எம் (ஆப்ஜெக்ட் ரிலேஷனல் மாடல்) லேயரைப் பயன்படுத்தி சேமிக்கிறது, இது பொருள் பிரதிநிதித்துவத்தை தொடர்புடைய திட்டமாக மாற்றுகிறது. HDFS க்கு பதிலாக RDBMS ஐத் தேர்ந்தெடுப்பதற்கான காரணம் குறைந்த தாமதத்தை அடைவதே ஆகும். பின்வரும் மூன்று உள்ளமைவுகளில் நாம் மெட்டாஸ்டோரை செயல்படுத்தலாம்:

1. உட்பொதிக்கப்பட்ட மெட்டாஸ்டோர்:

மெட்டாஸ்டோர் சேவை மற்றும் ஹைவ் சேவை இரண்டும் இயல்பாகவே ஒரே ஜே.வி.எம்மில் உட்பொதிக்கப்பட்ட டெர்பி தரவுத்தள உதாரணத்தைப் பயன்படுத்தி உள்ளூர் வட்டில் மெட்டாடேட்டா சேமிக்கப்படும். இது உட்பொதிக்கப்பட்ட மெட்டாஸ்டோர் உள்ளமைவு என்று அழைக்கப்படுகிறது. இந்த வழக்கில், ஒரே நேரத்தில் ஒரு பயனர் மட்டுமே மெட்டாஸ்டோர் தரவுத்தளத்துடன் இணைக்க முடியும். ஹைவ் டிரைவரின் இரண்டாவது நிகழ்வை நீங்கள் தொடங்கினால், பிழை கிடைக்கும். அலகு சோதனைக்கு இது நல்லது, ஆனால் நடைமுறை தீர்வுகளுக்கு அல்ல.

2. உள்ளூர் மெட்டாஸ்டோர்:

இந்த உள்ளமைவு பல ஹைவ் அமர்வுகளை வைத்திருக்க அனுமதிக்கிறது, அதாவது பல பயனர்கள் ஒரே நேரத்தில் மெட்டாஸ்டோர் தரவுத்தளத்தைப் பயன்படுத்தலாம். மேலே காட்டப்பட்டுள்ள அதே ஜே.வி.எம்மில் இயங்கும் ஹைவ் சேவை மற்றும் மெட்டாஸ்டோர் சேவையை விட தனி ஜே.வி.எம் அல்லது வேறு எந்திரத்தில் இயங்கும் மை.எஸ்.கியூ.எல் போன்ற எந்த ஜே.டி.பி.சி இணக்க தரவுத்தளத்தையும் பயன்படுத்துவதன் மூலம் இது அடையப்படுகிறது. பொதுவாக, மிகவும் பிரபலமான தேர்வு ஒரு MySQL சேவையகத்தை மெட்டாஸ்டோர் தரவுத்தளமாக செயல்படுத்த வேண்டும்.

3. தொலை மெட்டாஸ்டோர்:

தொலைநிலை மெட்டாஸ்டோர் உள்ளமைவில், மெட்டாஸ்டோர் சேவை அதன் சொந்த தனி ஜே.வி.எம்மில் இயங்குகிறது, ஆனால் ஹைவ் சேவை ஜே.வி.எம். பிற செயல்முறைகள் சிக்கன நெட்வொர்க் API களைப் பயன்படுத்தி மெட்டாஸ்டோர் சேவையகத்துடன் தொடர்பு கொள்கின்றன. அதிக கிடைக்கும் தன்மையை வழங்க இந்த வழக்கில் ஒன்று அல்லது அதற்கு மேற்பட்ட மெட்டாஸ்டோர் சேவையகங்களை நீங்கள் வைத்திருக்கலாம்.தொலைநிலை மெட்டாஸ்டோரைப் பயன்படுத்துவதன் முக்கிய நன்மை என்னவென்றால், மெட்டாஸ்டோர் தரவுத்தளத்தை அணுக ஒவ்வொரு ஹைவ் பயனருடனும் நீங்கள் ஜே.டி.பி.சி உள்நுழைவு நற்சான்றிதழைப் பகிர்ந்து கொள்ள தேவையில்லை.

அப்பாச்சி ஹைவ் பயிற்சி: தரவு மாதிரி

ஹைவ் தரவை சிறுமணி மட்டத்தில் மூன்று வகைகளாக வகைப்படுத்தலாம்:

  • மேசை
  • பகிர்வு
  • வாளி

அட்டவணைகள்:

ஹைவ் அட்டவணைகள் ஒரு தொடர்புடைய தரவுத்தளத்தில் உள்ள அட்டவணைகள் போலவே இருக்கும். நீங்கள் அவற்றில் வடிகட்டி, திட்டம், சேர மற்றும் தொழிற்சங்க செயல்பாடுகளைச் செய்யலாம். ஹைவ் இல் இரண்டு வகையான அட்டவணைகள் உள்ளன:

1. நிர்வகிக்கப்பட்ட அட்டவணை:

கட்டளை:

அட்டவணையை உருவாக்கவும் (நெடுவரிசை 1 தரவு_ வகை, நெடுவரிசை 2 தரவு_ வகை)

அட்டவணையை நிர்வகிக்கவும் டேபிள் உள்ளிடவும்

பெயர் குறிப்பிடுவது போல (நிர்வகிக்கப்பட்ட அட்டவணை), நிர்வகிக்கப்பட்ட அட்டவணையின் தரவை நிர்வகிக்க ஹைவ் பொறுப்பு. வேறு வார்த்தைகளில் கூறுவதானால், “ஹைவ் தரவை நிர்வகிக்கிறது” என்று சொல்வதன் மூலம், எச்.டி.எஃப்.எஸ் இல் உள்ள ஒரு கோப்பிலிருந்து தரவை ஒரு ஹைவ் இல் ஏற்றினால் நிர்வகிக்கப்பட்ட அட்டவணை அதில் ஒரு DROP கட்டளையை வெளியிடுங்கள், அட்டவணை அதன் மெட்டாடேட்டாவுடன் நீக்கப்படும். எனவே, கைவிடப்பட்டவர்களுக்கு சொந்தமான தரவு நிர்வகிக்கப்பட்ட_விவரம் HDFS இல் இனி எங்கும் இல்லை, அதை நீங்கள் எந்த வகையிலும் மீட்டெடுக்க முடியாது. அடிப்படையில், நீங்கள் HDFS கோப்பு இருப்பிடத்திலிருந்து ஹைவ் கிடங்கு கோப்பகத்திற்கு LOAD கட்டளையை வழங்கும்போது தரவை நகர்த்துகிறீர்கள்.

குறிப்பு: கிடங்கு கோப்பகத்தின் இயல்புநிலை பாதை / பயனர் / ஹைவ் / கிடங்காக அமைக்கப்பட்டுள்ளது. ஒரு ஹைவ் அட்டவணையின் தரவு கிடங்கு_ அடைவில் உள்ளது / table_name (HDFS). ஹைவ்-தளம். Xml இல் உள்ள hive.metastore.warehouse.dir உள்ளமைவு அளவுருவில் கிடங்கு கோப்பகத்தின் பாதையையும் குறிப்பிடலாம்.

2. வெளி அட்டவணை:

கட்டளை:

வெளிப்புற அட்டவணையை உருவாக்கவும் (நெடுவரிசை 1 தரவு_ வகை, நெடுவரிசை 2 தரவு_ வகை) இருப்பிடம் ‘’

லோட் டேட்டா இன்பாத் ‘’ அட்டவணையில்

க்கு வெளிப்புற அட்டவணை , தரவை நிர்வகிக்க ஹைவ் பொறுப்பல்ல. இந்த வழக்கில், நீங்கள் LOAD கட்டளையை வழங்கும்போது, ​​ஹைவ் அதன் கிடங்கு கோப்பகத்தில் தரவை நகர்த்துகிறது. பின்னர், ஹைவ் வெளிப்புற அட்டவணைக்கான மெட்டாடேட்டா தகவலை உருவாக்குகிறது. இப்போது, ​​நீங்கள் ஒரு DROP கட்டளையை வழங்கினால் வெளிப்புற அட்டவணை , வெளிப்புற அட்டவணை தொடர்பான மெட்டாடேட்டா தகவல்கள் மட்டுமே நீக்கப்படும். ஆகையால், எச்.டி.எஃப்.எஸ் கட்டளைகளைப் பயன்படுத்தி கிடங்கு கோப்பகத்திலிருந்து அந்த வெளிப்புற அட்டவணையின் தரவை நீங்கள் இன்னும் பெறலாம்.

பகிர்வுகள்:

கட்டளை:

அட்டவணை அட்டவணை_பெயரை உருவாக்கவும் (நெடுவரிசை 1 தரவு_ வகை, நெடுவரிசை 2 தரவு_ வகை) பகிர்வு செய்யப்பட்டது (பகிர்வு 1 தரவு_ வகை, பகிர்வு 2 தரவு_ வகை, மற்றும் நரகம்.)

ஒரு நெடுவரிசை அல்லது பகிர்வு விசையின் அடிப்படையில் ஒத்த வகை தரவுகளை ஒன்றாக தொகுக்க பகிர்வுகளாக அட்டவணையை ஹைவ் ஏற்பாடு செய்கிறது. ஒவ்வொரு அட்டவணையிலும் ஒரு குறிப்பிட்ட பகிர்வை அடையாளம் காண ஒன்று அல்லது அதற்கு மேற்பட்ட பகிர்வு விசைகள் இருக்கலாம். தரவின் துண்டுகள் குறித்து விரைவான வினவலை இது அனுமதிக்கிறது.

குறிப்பு: பகிர்வுகளை உருவாக்கும் போது செய்யப்படும் பொதுவான தவறு, ஏற்கனவே உள்ள நெடுவரிசை பெயரை பகிர்வு நெடுவரிசையாக குறிப்பிடுவது என்பதை நினைவில் கொள்க. அவ்வாறு செய்யும்போது, ​​நீங்கள் ஒரு பிழையைப் பெறுவீர்கள் - “சொற்பொருள் பகுப்பாய்வில் பிழை: பகிர்வு நெடுவரிசைகளில் நெடுவரிசை மீண்டும் மீண்டும்”.

மாணவர்_ஐடி, பெயர், துறை, ஆண்டு போன்ற சில பொறியியல் கல்லூரியின் மாணவர் தகவல்களைக் கொண்ட ஒரு அட்டவணை மாணவர்_ விவரங்களை நான் வைத்திருக்கும் ஒரு உதாரணத்தை எடுத்துக்கொள்வதன் மூலம் பகிர்வைப் புரிந்துகொள்வோம். இப்போது, ​​துறை நெடுவரிசையின் அடிப்படையில் பகிர்வு செய்தால், அனைத்து மாணவர்களின் தகவல்களும் ஒரு குறிப்பிட்ட துறைக்கு சொந்தமானவை அந்த பகிர்வில் ஒன்றாக சேமிக்கப்படும். இயற்பியல் ரீதியாக, ஒரு பகிர்வு என்பது அட்டவணை அடைவில் ஒரு துணை கோப்பகத்தைத் தவிர வேறில்லை.

எங்கள் மாணவர் விவரங்கள் அட்டவணையில் மூன்று துறைகளுக்கான தரவு எங்களிடம் உள்ளது என்று சொல்லலாம் - சிஎஸ்இ, இசிஇ மற்றும் சிவில். எனவே, கீழேயுள்ள படத்தில் காட்டப்பட்டுள்ளபடி ஒவ்வொரு துறைக்கும் மொத்தம் மூன்று பகிர்வுகள் இருப்போம். மேலும், ஒவ்வொரு துறைக்கும் ஹைவ் டேபிள் கோப்பகத்தின் கீழ் ஒரு தனி துணை அடைவில் வசிக்கும் அந்தத் துறை தொடர்பான அனைத்து தரவுகளும் எங்களிடம் இருக்கும். எடுத்துக்காட்டாக, சிஎஸ்இ துறைகள் தொடர்பான அனைத்து மாணவர் தரவுகளும் பயனர் / ஹைவ் / கிடங்கு / மாணவர்_விவரம் / துறை ஆகியவற்றில் சேமிக்கப்படும். = சிஎஸ்இ. எனவே, சிஎஸ்இ மாணவர்கள் தொடர்பான வினவல்கள் சிஎஸ்இ பகிர்வில் உள்ள தரவுகளை மட்டுமே பார்க்க வேண்டும். பகிர்வு மிகவும் பயனுள்ளதாக இருக்கும், ஏனெனில் இது ஸ்கேன் செய்வதன் மூலம் வினவல் தாமதத்தை குறைக்கிறது தொடர்புடையது முழு தரவு தொகுப்புக்கு பதிலாக பகிர்வு செய்யப்பட்ட தரவு. உண்மையில், நிஜ உலக செயலாக்கங்களில், நீங்கள் நூற்றுக்கணக்கான காசநோய் தரவைக் கையாள்வீர்கள். எனவே, சில வினவல்களுக்கு இந்த பெரிய அளவிலான தரவை ஸ்கேன் செய்வதை கற்பனை செய்து பாருங்கள் 95% நீங்கள் ஸ்கேன் செய்த தரவு உங்கள் வினவலுக்கு பொருந்தாது.

வலைப்பதிவின் வழியாக செல்ல நான் உங்களுக்கு பரிந்துரைக்கிறேன் ஹைவ் கட்டளைகள் ஒரு எடுத்துக்காட்டுடன் பகிர்வுகளை செயல்படுத்த பல்வேறு வழிகளைக் காண்பீர்கள்.

வாளிகள்:

கட்டளைகள்:

அட்டவணை அட்டவணை_பெயரை உருவாக்கவும் (பகிர்வு 1 தரவு_ வகை, பகிர்வு 2 தரவு_ வகை, மற்றும் ஹெலிப்.) மூலம் தெளிவுபடுத்தப்பட்டது (நெடுவரிசை_பெயர் 1, நெடுவரிசை_பெயர் 2,…) வரிசைப்படுத்தப்பட்டது (நெடுவரிசை_பெயர் [ஏஎஸ்சி | டெஸ்க்],…)] எண்_ பக்கெட் பக்கங்களில்

இப்போது, ​​அட்டவணையில் உள்ள ஒரு நெடுவரிசையின் ஹாஷ் செயல்பாட்டின் அடிப்படையில் ஒவ்வொரு பகிர்வையும் அல்லது பகிர்வு செய்யப்படாத அட்டவணையையும் பக்கெட்டுகளாக பிரிக்கலாம். உண்மையில், ஒவ்வொரு வாளியும் பகிர்வு கோப்பகத்தில் அல்லது அட்டவணை அடைவில் (பகிர்வு செய்யப்படாத அட்டவணை) ஒரு கோப்பு மட்டுமே. எனவே, பகிர்வுகளை n வாளிகளாகப் பிரிக்க நீங்கள் தேர்ந்தெடுத்திருந்தால், உங்கள் ஒவ்வொரு பகிர்வு கோப்பகத்திலும் n கோப்புகள் இருக்கும். எடுத்துக்காட்டாக, ஒவ்வொரு பகிர்வையும் 2 வாளிகளாக வாளி செய்துள்ள மேலே உள்ள படத்தை நீங்கள் காணலாம். எனவே, ஒவ்வொரு பகிர்விலும், இரண்டு கோப்புகள் இருக்கும், அவை ஒவ்வொன்றும் சிஎஸ்இ மாணவரின் தரவை சேமிக்கும்.

இரட்டை முழு எண் ஜாவாவாக மாற்றவும்

ஹைவ் வரிசைகளை வாளிகளில் எவ்வாறு விநியோகிக்கிறது?

சூத்திரத்தைப் பயன்படுத்தி ஒரு வரிசையில் வாளி எண்ணை ஹைவ் தீர்மானிக்கிறது: hash_function (bucketing_column) modulo (num_of_buckets) . இங்கே, மசாம்பல்_ செயல்பாடு நெடுவரிசை தரவு வகையைப் பொறுத்தது. எடுத்துக்காட்டாக, நீங்கள் சில நெடுவரிசையின் அடிப்படையில் அட்டவணையை வாளி செய்கிறீர்கள் என்றால், ஐஎன்டி டேட்டாடைப்பின் பயனர்_ஐடி என்று சொல்லலாம், ஹாஷ்_ செயல்பாடு இருக்கும் - hash_function (பயனர்_ஐடி ) user_id இன் முழு எண் மதிப்பு . மேலும், நீங்கள் இரண்டு வாளிகளை உருவாக்கியுள்ளீர்கள் என்று வைத்துக்கொள்வோம், பின்னர் ஒவ்வொரு பகிர்விலும் வாளி 1 க்கு செல்லும் வரிசைகளை கணக்கிடுவதன் மூலம் ஹைவ் தீர்மானிக்கும்: (user_id இன் மதிப்பு) மட்டு (2). ஆகையால், இந்த வழக்கில், பயனர்_ஐடியுடன் கூடிய முழு எண் இலக்கத்துடன் முடிவடையும் வரிசைகள் ஒவ்வொரு பகிர்வுக்கும் ஒத்த அதே வாளியில் இருக்கும். பிற தரவு வகைகளுக்கான ஹாஷ்_ செயல்பாடு கணக்கிட சற்று சிக்கலானது, உண்மையில், ஒரு சரத்திற்கு அது மனிதனால் கூட அடையாளம் காணப்படவில்லை.

குறிப்பு: நீங்கள் அப்பாச்சி ஹைவ் 0.x அல்லது 1.x ஐப் பயன்படுத்துகிறீர்கள் என்றால், நீங்கள் கட்டளையை வழங்க வேண்டும் - வாளி செய்வதற்கு முன் உங்கள் ஹைவ் முனையத்திலிருந்து hive.enforce.bucketing = true ஐ அமைக்கவும். ஒரு நெடுவரிசையை வாளி செய்வதற்கான உட்பிரிவின் மூலம் கிளஸ்டரைப் பயன்படுத்தும் போது சரியான எண்ணிக்கையிலான குறைப்பான் வைத்திருக்க இது உங்களை அனுமதிக்கும். நீங்கள் அதைச் செய்யவில்லை எனில், உங்கள் அட்டவணை கோப்பகத்தில் உருவாக்கப்பட்ட கோப்புகளின் எண்ணிக்கை வாளிகளின் எண்ணிக்கைக்கு சமமாக இல்லை என்பதை நீங்கள் காணலாம். மாற்றாக, set mapred.reduce.task = num_bucket ஐ அமைப்பதன் மூலம் வாளிகளின் எண்ணிக்கைக்கு சமமான குறைப்பவரின் எண்ணிக்கையையும் அமைக்கலாம்.

நமக்கு ஏன் வாளிகள் தேவை?

ஒரு பகிர்வுக்கு வாளி செய்வதற்கு இரண்டு முக்கிய காரணங்கள் உள்ளன:

  • TO வரைபடம் சேர ஒரு தனித்துவமான சேர விசையின் தரவு ஒரே பகிர்வில் இருக்க வேண்டும். உங்கள் பகிர்வு விசை இணைப்பதில் இருந்து வேறுபடும் அந்த நிகழ்வுகளைப் பற்றி என்ன? எனவே, இந்த சந்தர்ப்பங்களில் நீங்கள் சேர விசையைப் பயன்படுத்தி அட்டவணையை வாளி செய்வதன் மூலம் வரைபட பக்க இணைப்பைச் செய்யலாம்.
  • பக்கெட் மாதிரி செயல்முறையை மிகவும் திறமையாக்குகிறது, எனவே, வினவல் நேரத்தைக் குறைக்க அனுமதிக்கிறது.

இந்த ஹைவ் டுடோரியல் வலைப்பதிவை இங்கே முடிக்க விரும்புகிறேன். இந்த ஹைவ் டுடோரியல் வலைப்பதிவைப் பார்த்த பிறகு எனக்கு நன்றாகத் தெரியும், அப்பாச்சி ஹைவ் எளிமையை நீங்கள் உணர்ந்திருப்பீர்கள். முதல், நீங்கள் அனைத்து ஹைவ் அடிப்படைகளையும் கற்றுக்கொண்டீர்கள், அப்பாச்சி ஹைவ் உடனான அனுபவத்தில் சில கைகளை வைத்திருப்பது அதிக நேரம். எனவே, ஹைவ் நிறுவலில் உள்ள இந்த ஹைவ் டுடோரியல் வலைப்பதிவு தொடரின் அடுத்த வலைப்பதிவைப் பார்த்து, அப்பாச்சி ஹைவ் வேலை செய்யத் தொடங்குங்கள்.

இப்போது நீங்கள் அப்பாச்சி ஹைவ் மற்றும் அதன் அம்சங்களைப் புரிந்துகொண்டுள்ளீர்கள், பாருங்கள் உலகெங்கிலும் பரவியுள்ள 250,000 க்கும் மேற்பட்ட திருப்தியான கற்றவர்களின் வலைப்பின்னலுடன் நம்பகமான ஆன்லைன் கற்றல் நிறுவனமான எடுரேகாவால். சில்லறை, சமூக மீடியா, விமான போக்குவரத்து, சுற்றுலா, நிதி களத்தில் நிகழ்நேர பயன்பாட்டு நிகழ்வுகளைப் பயன்படுத்தி எச்டிஎஃப்எஸ், நூல், வரைபடம், பன்றி, ஹைவ், ஹெபேஸ், ஓஸி, ஃப்ளூம் மற்றும் ஸ்கூப் ஆகியவற்றில் நிபுணர்களாக மாற எடூரெகா பிக் டேட்டா ஹடூப் சான்றிதழ் பயிற்சி பாடநெறி உதவுகிறது.

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.