HBase டுடோரியல்: HBase அறிமுகம் மற்றும் பேஸ்புக் வழக்கு ஆய்வு

இந்த HBase டுடோரியல் வலைப்பதிவு HBase & அதன் அம்சங்கள் என்ன என்பதை உங்களுக்கு அறிமுகப்படுத்துகிறது. இது HBase இன் நன்மைகளைப் புரிந்துகொள்ள பேஸ்புக் மெசஞ்சர் வழக்கு ஆய்வையும் உள்ளடக்கியது.

எங்கள் குறிப்பிட்டுள்ளபடி வலைப்பதிவு, HBase எங்கள் ஹடூப் சுற்றுச்சூழல் அமைப்பின் ஒரு முக்கிய பகுதியாகும். எனவே இப்போது, ​​உங்களை HBase டுடோரியல் மூலம் அழைத்துச் செல்ல விரும்புகிறேன், அங்கு நான் உங்களை அப்பாச்சி HBase க்கு அறிமுகப்படுத்துவேன், பின்னர், நாங்கள் பேஸ்புக் மெசஞ்சர் வழக்கு-ஆய்வு மூலம் செல்வோம். இந்த HBase டுடோரியல் வலைப்பதிவில் பின்வரும் தலைப்புகளை நாங்கள் மறைக்கப் போகிறோம்:

அப்பாச்சி HBase டுடோரியல்: வரலாறு

HBase இன் வரலாற்றிலிருந்து ஆரம்பித்து, HBase ஒரு குறிப்பிட்ட காலப்பகுதியில் எவ்வாறு உருவாகியுள்ளது என்பதை அறிவோம்.



HBase இன் வரலாறு - HBase டுடோரியல் - Edureka

  • அப்பாச்சி ஹெச்பேஸ் கூகிளின் பிக்டேபிள் மாதிரியாக வடிவமைக்கப்பட்டுள்ளது, இது தரவுகளை சேகரிக்கவும், வரைபடங்கள், நிதி, பூமி போன்ற பல்வேறு கூகிள் சேவைகளுக்கான கோரிக்கையை வழங்கவும் பயன்படுகிறது.
  • அப்பாச்சி ஹெச்பேஸ் பவர்செட் ஃபார் நேச்சுரல் லாங்வேஜ் தேடலால் ஒரு திட்டமாகத் தொடங்கியது, இது மிகப்பெரிய மற்றும் அரிதான தரவுத் தொகுப்புகளைக் கையாண்டது.
  • அப்பாச்சி HBase முதன்முதலில் பிப்ரவரி 2007 இல் வெளியிடப்பட்டது. பின்னர் ஜனவரி 2008 இல், HBase அப்பாச்சி ஹடூப்பின் துணைத் திட்டமாக மாறியது.
  • 2010 இல், HBase அப்பாச்சியின் உயர்மட்ட திட்டமாக மாறியது.

HBase டுடோரியல் | NoSQL தரவுத்தளங்கள் | எடுரேகா

அப்பாச்சி HBase இன் வரலாற்றைப் பற்றி அறிந்த பிறகு, அப்பாச்சி HBase என்றால் என்ன என்பதை அறிய ஆர்வமாக இருப்பீர்களா? மேலும் நகர்ந்து பார்ப்போம்.

அப்பாச்சி HBase டுடோரியல்: HBase அறிமுகம்

HBase என்பது ஒரு திறந்த மூலமாகும், பல பரிமாண, விநியோகிக்கப்பட்ட, அளவிடக்கூடியது மற்றும் a NoSQL தரவுத்தளம் ஜாவாவில் எழுதப்பட்டது. HBase மேலே இயங்குகிறது HDFS (ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமை) மற்றும் ஹடூப்பிற்கு பிக்டேபிள் போன்ற திறன்களை வழங்குகிறது. சிதறிய தரவுத் தொகுப்புகளின் பெரிய சேகரிப்பை சேமிப்பதற்கான தவறான சகிப்புத்தன்மையை வழங்க இது வடிவமைக்கப்பட்டுள்ளது.

பைதான் அனகோண்டா பயன்படுத்த எப்படி

பெரிய தரவுத் தொகுப்புகளில் விரைவான வாசிப்பு / எழுதுதல் அணுகலை வழங்குவதன் மூலம் HBase அதிக செயல்திறன் மற்றும் குறைந்த தாமதத்தை அடைகிறது. ஆகையால், பெரிய அளவிலான தரவுகளுக்கு விரைவான மற்றும் சீரற்ற அணுகல் தேவைப்படும் பயன்பாடுகளுக்கான தேர்வு HBase ஆகும்.

இது வேகமான மற்றும் சீரற்ற வாசிப்பு-எழுத்துகளின் தேவையை பூர்த்தி செய்ய சுருக்க, நினைவக செயல்பாடுகள் மற்றும் ப்ளூம் வடிப்பான்களை (ஒரு தொகுப்பில் ஒரு மதிப்பு இருக்கிறதா இல்லையா என்பதைக் கூறும் தரவு அமைப்பு) வழங்குகிறது.

ஒரு எடுத்துக்காட்டு மூலம் அதைப் புரிந்துகொள்வோம்: ஜெட் என்ஜின் அழுத்தம் சென்சார், வெப்பநிலை சென்சார், வேக சென்சார் போன்ற பல்வேறு சென்சார்களிடமிருந்து பல்வேறு வகையான தரவை உருவாக்குகிறது, இது இயந்திரத்தின் ஆரோக்கியத்தைக் குறிக்கிறது. விமானத்தின் சிக்கல்கள் மற்றும் நிலையைப் புரிந்துகொள்ள இது மிகவும் பயனுள்ளதாக இருக்கும். தொடர்ச்சியான எஞ்சின் செயல்பாடுகள் ஒரு விமானத்திற்கு 500 ஜிபி தரவை உருவாக்குகின்றன மற்றும் ஒரு நாளைக்கு சுமார் 300 ஆயிரம் விமானங்கள் உள்ளன. எனவே, இதுபோன்ற தரவுகளுக்கு நிகழ்நேரத்தில் பயன்படுத்தப்படும் எஞ்சின் அனலிட்டிக்ஸ் சிக்கல்களை முன்கூட்டியே கண்டறியவும், திட்டமிடப்படாத வேலையில்லா நேரத்தைக் குறைக்கவும் பயன்படுத்தப்படலாம். பெரிய அளவிலான தரவை சேமிக்க விநியோகிக்கப்பட்ட சூழல் இதற்கு தேவைப்படுகிறது வேகமான சீரற்ற வாசிப்பு மற்றும் எழுதுகிறது நிகழ்நேர செயலாக்கத்திற்கு. இங்கே, HBase மீட்புக்கு வருகிறது. எனது அடுத்த வலைப்பதிவில் HBase Read and Writ பற்றி விரிவாகப் பேசுவேன் HBase கட்டிடக்கலை .

எங்களுக்குத் தெரியும், HBase ஒரு NoSQL தரவுத்தளமாகும். எனவே, HBase ஐப் பற்றி மேலும் புரிந்துகொள்வதற்கு முன், முதலில் NoSQL தரவுத்தளங்கள் மற்றும் அதன் வகைகளைப் பற்றி விவாதிக்கலாம்.

அப்பாச்சி HBase டுடோரியல்: NoSQL தரவுத்தளங்கள்

NoSQL என்றால் SQL மட்டுமல்ல . NoSQL தரவுத்தளங்கள் அட்டவணை வடிவங்கள், unkile தொடர்புடைய தரவுத்தளங்கள் தவிர வேறு தரவைக் குறிக்கும் வகையில் வடிவமைக்கப்பட்டுள்ளன. தரவுத்தளங்களில் தரவைக் குறிக்க இது வெவ்வேறு வடிவங்களைப் பயன்படுத்துகிறது, இதனால், அவற்றின் பிரதிநிதித்துவ வடிவமைப்பின் அடிப்படையில் பல்வேறு வகையான NoSQL தரவுத்தளங்கள் உள்ளன. NoSQL தரவுத்தளங்களில் பெரும்பாலானவை கிடைக்கும் தன்மை மற்றும் வேகத்தை சீரான தன்மையைக் கொண்டுள்ளன. இப்போது, ​​நாம் முன்னேறி, பல்வேறு வகையான NoSQL தரவுத்தளங்கள் மற்றும் அவற்றின் பிரதிநிதித்துவ வடிவங்களைப் பற்றி புரிந்துகொள்வோம்.

முக்கிய மதிப்பு கடைகள்:

இது விசைகள் மற்றும் மதிப்புகளைக் கொண்ட ஒரு ஸ்கீமா-குறைவான தரவுத்தளமாகும். ஒவ்வொரு விசையும், பைட்டுகளின் வரிசையான மதிப்பை சுட்டிக்காட்டுகிறது, இது ஒரு சரம், BLOB, XML போன்றவை. எ.கா. லம்போர்கினி ஒரு முக்கிய அம்சமாகும், இது கல்லார்டோ, அவென்டடோர், முர்சியாகோ, ரெவென்டான், டையப்லோ, ஹுராசோன், வெனெனோ, சென்டெனாரியோ போன்றவற்றின் மதிப்பை சுட்டிக்காட்டுகிறது.

முக்கிய மதிப்பு சேமிப்பக தரவுத்தளங்கள்: ஏரோஸ்பைக், கூச்ச்பேஸ், டைனமோ, ஃபேர்காம் சி-ட்ரீஏசிஇ, ஃபவுண்டேஷன் டிபி, ஹைபர்டெக்ஸ், மெம்கேச் டிபி, மம்ப்ஸ், ஆரக்கிள் நோஸ்க்யூல் டேட்டாபேஸ், ஓரியண்ட் டிபி, ரெடிஸ், ரியாக், பெர்க்லி டிபி.

பயன்பாட்டு வழக்கு

முக்கிய மதிப்பு கடைகள் அளவை நன்றாகக் கையாளுகின்றன, மேலும் குறைந்த தாமதத்துடன் படிக்க / எழுதும் செயல்பாடுகளின் நிலையான ஸ்ட்ரீமை செயலாக்குவதில் நல்லது. இது அவர்களுக்கு சரியானதாக அமைகிறதுபயனர் விருப்பம் மற்றும் சுயவிவர கடைகள்,தயாரிப்பு பரிந்துரைகள் எதிர்கால வாடிக்கையாளர் தயாரிப்பு பரிந்துரைகளை இயக்க சில்லறை விற்பனையாளர் இணையதளத்தில் பார்க்கப்படும் சமீபத்திய உருப்படிகள்,விளம்பர சேவை வாடிக்கையாளர் ஷாப்பிங் பழக்கவழக்கங்கள் ஒவ்வொரு வாடிக்கையாளருக்கும் நிகழ்நேரத்தில் தனிப்பயனாக்கப்பட்ட விளம்பரங்கள், கூப்பன்கள் போன்றவற்றை விளைவிக்கும்.

ஆவணம் சார்ந்த :

இது அதே முக்கிய மதிப்பு ஜோடியைப் பின்தொடர்கிறது, ஆனால் இது எக்ஸ்எம்எல், ஜேஎஸ்ஓஎன், பிஎஸ்ஓஎன் போன்ற அரை கட்டமைக்கப்பட்டுள்ளது. இந்த கட்டமைப்புகள் ஆவணங்களாக கருதப்படுகின்றன.

ஆவண அடிப்படையிலான தரவுத்தளங்கள்: அப்பாச்சி கூச்.டி.பி.

பயன்பாடு-வழக்கு

ஆவணம் நெகிழ்வான திட்டத்தை ஆதரிப்பதால், ட்விட்டர், ஈ-காமர்ஸ் வலைத்தளங்கள் போன்ற பல்வேறு சேவைகளில் பயனர் தரவுத்தளங்களை உருவாக்குவதற்கு விரைவான வாசிப்பு எழுதுதல் மற்றும் பகிர்வு செய்வது பொருத்தமானதாக அமைகிறது.

நெடுவரிசை சார்ந்த:

இந்த தரவுத்தளத்தில், தரவு வரிசைகளை விட நெடுவரிசையில் தொகுக்கப்பட்ட கலத்தில் சேமிக்கப்படுகிறது. நெடுவரிசைகள் தர்க்கரீதியாக நெடுவரிசை குடும்பங்களாக தொகுக்கப்பட்டுள்ளன, அவை ஸ்கீமா வரையறையின் போது அல்லது இயக்க நேரத்தில் உருவாக்கப்படலாம்.

இந்த வகையான தரவுத்தளங்கள் ஒரு நெடுவரிசைக்கு ஒத்த அனைத்து கலங்களையும் தொடர்ச்சியான வட்டு நுழைவாக சேமித்து வைக்கின்றன, இதனால் அணுகல் மற்றும் தேடலை மிக வேகமாக செய்கிறது.

நெடுவரிசை அடிப்படையிலான தரவுத்தளங்கள்: HBase, Accumulo, Cassandra, Druid, Vertica.

பயன்பாடு-வழக்கு

இது மிகப்பெரிய சேமிப்பிடத்தை ஆதரிக்கிறது மற்றும் அதன் மீது வேகமாக படிக்க எழுத அனுமதிக்கும். இது ஈ-காமர்ஸ் வலைத்தளம், கூகிள் நிதி மற்றும் பங்குச் சந்தை தரவு, கூகிள் வரைபடங்கள் போன்ற நிதி அமைப்புகளில் வாடிக்கையாளர் நடத்தைகளை சேமிக்க நெடுவரிசை சார்ந்த தரவுத்தளங்களை பொருத்தமானதாக்குகிறது.

வரைபடம் சார்ந்த:

இது ஒரு சரியான நெகிழ்வான வரைகலை பிரதிநிதித்துவம் ஆகும், இது SQL போலல்லாமல் பயன்படுத்தப்படுகிறது. இந்த வகையான தரவுத்தளங்கள் முகவரி அளவிடக்கூடிய சிக்கல்களை எளிதில் தீர்க்கின்றன, ஏனெனில் அதில் விளிம்புகள் மற்றும் முனை ஆகியவை உள்ளன, அவை தேவைகளுக்கு ஏற்ப நீட்டிக்கப்படலாம்.

வரைபட அடிப்படையிலான தரவுத்தளங்கள்: அலெக்ரோ கிராஃப், அரங்கோடிபி, இன்ஃபைனைட் கிராஃப், அப்பாச்சி ஒட்டகச்சிவிங்கி, மார்க்லொஜிக், நியோ 4 ஜே, ஓரியண்ட்டிபி, விர்ச்சுவோசோ, ஸ்டார்டாக்.

ஜாவாவில் லாகர் என்றால் என்ன

பயன்பாட்டு வழக்கு

இது அடிப்படையில் மோசடி கண்டறிதல், நிகழ்நேர பரிந்துரை இயந்திரங்கள் (பெரும்பாலான சந்தர்ப்பங்களில் ஈ-காமர்ஸ்), முதன்மை தரவு மேலாண்மை (எம்.டி.எம்), நெட்வொர்க் மற்றும் ஐ.டி செயல்பாடுகள், அடையாளம் மற்றும் அணுகல் மேலாண்மை (ஐ.ஏ.எம்) போன்றவற்றில் பயன்படுத்தப்படுகிறது.

HBase மற்றும் Cassandra இரண்டு பிரபலமான நெடுவரிசை சார்ந்த தரவுத்தளங்கள். எனவே, இப்போது இதை ஒரு உயர் மட்டத்தில் பேசுகிறோம், HBase க்கும் கசாண்ட்ராவிற்கும் இடையிலான கட்டடக்கலை மற்றும் வேலை வேறுபாடுகளை ஒப்பிட்டு புரிந்துகொள்வோம்.

HBase டுடோரியல்: HBase VS Cassandra

  • ஆரம்பத்தில் பேஸ்புக் உருவாக்கிய டைனமோடிபி (அமேசான்) ஐ அடிப்படையாகக் கொண்டு கசாண்ட்ரா பிக்டேபிள் (கூகிள்) மாதிரியாக உள்ளது.
  • HBase ஹடூப் உள்கட்டமைப்பை (HDFS, ZooKeeper) பயன்படுத்துகிறது, அதே நேரத்தில் கசாண்ட்ரா தனித்தனியாக உருவானது, ஆனால் உங்கள் தேவைகளுக்கு ஏற்ப நீங்கள் ஹடூப் மற்றும் கசாண்ட்ராவை இணைக்கலாம்.
  • HBase இல் பல கூறுகள் உள்ளன, அவை HBase HMaster, ZooKeeper, NameNode, Region Severs போன்றவற்றை ஒன்றாக தொடர்பு கொள்கின்றன. கஸ்ஸாண்ட்ரா ஒரு ஒற்றை முனை வகை, இதில் அனைத்து முனைகளும் சமமாக இருக்கும் மற்றும் அனைத்து செயல்பாடுகளையும் செய்கிறது. எந்த முனையும் ஒருங்கிணைப்பாளராக இருக்க முடியும், இது தோல்வியின் ஒற்றை புள்ளியை நீக்குகிறது.
  • HBase படிக்க ஏற்றது மற்றும் ஒற்றை எழுத்துக்களை ஆதரிக்கிறது, இது கடுமையான நிலைத்தன்மைக்கு வழிவகுக்கிறது. ரேஞ்ச் அடிப்படையிலான ஸ்கேன்களை HBase ஆதரிக்கிறது, இது ஸ்கேனிங் செயல்முறையை வேகமாக செய்கிறது. அதேசமயம் கசாண்ட்ரா ஒற்றை வரிசை வாசிப்புகளை ஆதரிக்கிறது, இது இறுதியில் நிலைத்தன்மையை பராமரிக்கிறது.
  • கசாண்ட்ரா வரம்பு அடிப்படையிலான வரிசை ஸ்கேன்களை ஆதரிக்கவில்லை, இது HBase உடன் ஒப்பிடும்போது ஸ்கேனிங் செயல்முறையை குறைக்கிறது.
  • ஆர்டர் செய்யப்பட்ட பகிர்வை HBase ஆதரிக்கிறது, இதில் ஒரு நெடுவரிசை குடும்பத்தின் வரிசைகள் ரவுக்கி வரிசையில் சேமிக்கப்படுகின்றன, அதேசமயம் காசாண்ட்ரா ஆர்டர் செய்த பகிர்வு ஒரு சவாலாகும். ரோவ்கே பகிர்வு காரணமாக கசாண்ட்ராவுடன் ஒப்பிடும்போது ஸ்கேனிங் செயல்முறை HBase இல் வேகமாக உள்ளது.
  • வாசிப்பு சுமை சமநிலையை HBase ஆதரிக்கவில்லை, ஒரு பிராந்திய சேவையகம் வாசிப்பு கோரிக்கையை வழங்குகிறது மற்றும் தோல்வியுற்றால் மட்டுமே பிரதிகள் பயன்படுத்தப்படுகின்றன. கசாண்ட்ரா வாசிப்பு சுமை சமநிலையை ஆதரிக்கும் அதே வேளை பல்வேறு முனைகளிலிருந்து அதே தரவைப் படிக்க முடியும். இது நிலைத்தன்மையை சமரசம் செய்யலாம்.
  • CAP இல் (நிலைத்தன்மை, கிடைக்கும் தன்மை மற்றும் பகிர்வு-சகிப்புத்தன்மை) தேற்றம் HBase நிலைத்தன்மையையும் கிடைக்கும் தன்மையையும் பராமரிக்கிறது, அதே நேரத்தில் கசாண்ட்ரா கிடைக்கும் தன்மை மற்றும் பகிர்வு-சகிப்புத்தன்மை ஆகியவற்றில் கவனம் செலுத்துகிறது.


இப்போது ஆழ்ந்த டைவ் எடுத்து அப்பாச்சி ஹெச்பேஸின் அம்சங்களைப் புரிந்துகொள்வோம், இது மிகவும் பிரபலமாகிறது.

அப்பாச்சி HBase டுடோரியல்: HBase இன் அம்சங்கள்

  • அணு வாசிப்பு மற்றும் எழுதுதல்: ஒரு வரிசை மட்டத்தில், HBase அணு வாசிப்பு மற்றும் எழுத்தை வழங்குகிறது. ஒரு வாசிப்பு அல்லது எழுதும் செயல்பாட்டின் போது, ​​மற்ற அனைத்து செயல்முறைகளும் எந்தவொரு வாசிப்பு அல்லது எழுதும் செயல்பாடுகளையும் செய்வதிலிருந்து தடுக்கப்படுவதால் இதை விளக்கலாம்.
  • தொடர்ந்து படித்து எழுதுகிறார்: மேலே உள்ள அம்சத்தின் காரணமாக HBase நிலையான வாசிப்புகள் மற்றும் எழுதுகிறது.
  • நேரியல் மற்றும் மட்டு அளவிடுதல்: தரவுத் தொகுப்புகள் எச்டிஎஃப்எஸ் வழியாக விநியோகிக்கப்படுவதால், இது பல்வேறு முனைகளில் நேரியல் அளவிடக்கூடியது, அதே போல் மட்டு அளவிடக்கூடியது, ஏனெனில் இது பல்வேறு முனைகளில் பிரிக்கப்பட்டுள்ளது.
  • அட்டவணைகளின் தானியங்கி மற்றும் உள்ளமைக்கக்கூடிய கூர்மையானது: HBase அட்டவணைகள் கொத்தாக விநியோகிக்கப்படுகின்றன, மேலும் இந்த கொத்துகள் பிராந்தியங்களில் விநியோகிக்கப்படுகின்றன. இந்த பகுதிகளும் கொத்துகளும் பிரிந்து, தரவு வளரும்போது மறுபகிர்வு செய்யப்படுகின்றன.
  • கிளையன்ட் அணுகலுக்கு ஜாவா API ஐப் பயன்படுத்த எளிதானது: நிரல் அணுகலுக்கு ஜாவா ஏபிஐ பயன்படுத்த எளிதானது.
  • சிக்கன நுழைவாயில் மற்றும் REST- முழு வலை சேவைகள்: இது ஜாவா அல்லாத முன் முனைகளுக்கான சிக்கனம் மற்றும் REST API ஐ ஆதரிக்கிறது.
  • கேச் மற்றும் ப்ளூம் வடிப்பான்களைத் தடு: அதிக அளவு வினவல் தேர்வுமுறைக்கு HBase ஒரு தொகுதி கேச் மற்றும் ப்ளூம் வடிப்பான்களை ஆதரிக்கிறது.
  • தானியங்கி தோல்வி ஆதரவு: HDFS உடனான HBase தானாக தோல்வி ஆதரவை வழங்கும் கிளஸ்டர்களில் WAL (முன்னால் பதிவு எழுது) வழங்குகிறது.
  • வரிசைப்படுத்தப்பட்ட ரவுக்கிகள்: வரிசைகளின் வரம்பில் தேடல் செய்யப்படுவதால், HBase ரவுக்கீக்களை ஒரு அகராதி வரிசையில் சேமிக்கிறது. இந்த வரிசைப்படுத்தப்பட்ட ரவுக்கிகள் மற்றும் நேர முத்திரையைப் பயன்படுத்தி, உகந்த கோரிக்கையை உருவாக்கலாம்.

இப்போது இந்த HBase டுடோரியலில் முன்னேறி, HBase ஐப் பயன்படுத்தக்கூடிய பயன்பாட்டு வழக்குகள் மற்றும் காட்சிகள் என்ன என்பதை நான் உங்களுக்கு சொல்கிறேன், பின்னர், நான் HDFS மற்றும் HBase ஐ ஒப்பிடுவேன்.

HBase சிறந்த பொருத்தமாக இருக்கும் காட்சிகளை நோக்கி உங்கள் கவனத்தை ஈர்க்க விரும்புகிறேன்.

HBase டுடோரியல்: நாம் HBase ஐ எங்கே பயன்படுத்தலாம்?

  • எங்களிடம் பெரிய தரவுத் தொகுப்புகள் (மில்லியன் அல்லது பில்லியன்கள் அல்லது வரிசைகள் மற்றும் நெடுவரிசைகள்) உள்ள HBase ஐப் பயன்படுத்த வேண்டும், மேலும் எங்களுக்கு வேகமான, சீரற்ற மற்றும் நிகழ்நேரம் தேவைப்படுகிறது, தரவைப் படிக்கவும் எழுதவும் அணுகலாம்.
  • தரவுத் தொகுப்புகள் பல்வேறு கிளஸ்டர்களில் விநியோகிக்கப்படுகின்றன, மேலும் தரவைக் கையாள எங்களுக்கு அதிக அளவிடுதல் தேவை.
  • பல்வேறு தரவு மூலங்களிலிருந்து தரவு சேகரிக்கப்படுகிறது, இது அரை கட்டமைக்கப்பட்ட அல்லது கட்டமைக்கப்படாத தரவு அல்லது அனைத்தின் கலவையாகும். இதை HBase உடன் எளிதாகக் கையாள முடியும்.
  • நெடுவரிசை சார்ந்த தரவை சேமிக்க விரும்புகிறீர்கள்.
  • உங்களிடம் தரவுத் தொகுப்புகளின் பதிப்புகள் நிறைய உள்ளன, அவை அனைத்தையும் நீங்கள் சேமிக்க வேண்டும்.

நான் பேஸ்புக் மெசஞ்சர் வழக்கு ஆய்வுக்கு செல்வதற்கு முன்,HBase க்கும் HDFS க்கும் இடையிலான வேறுபாடுகள் என்ன என்பதை நான் உங்களுக்கு சொல்கிறேன்.

HBase டுடோரியல்: HBase VS HDFS

எச்டிஎஃப்எஸ் என்பது ஜாவா அடிப்படையிலான விநியோகிக்கப்பட்ட கோப்பு முறைமை ஆகும், இது ஒரு ஹடூப் கிளஸ்டரில் பல முனைகளில் பெரிய தரவை சேமிக்க அனுமதிக்கிறது. எனவே, எச்.டி.எஃப்.எஸ் என்பது விநியோகிக்கப்பட்ட சூழலில் தரவைச் சேமிப்பதற்கான அடிப்படை சேமிப்பக அமைப்பாகும். HDFS என்பது ஒரு கோப்பு முறைமை, அதேசமயம் HBase ஒரு தரவுத்தளம் (NTFS மற்றும் MySQL போன்றது).

HDFS மற்றும் HBase இரண்டும் எந்தவொரு தரவையும் (அதாவது கட்டமைக்கப்பட்ட, அரை கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத) விநியோகிக்கப்பட்ட சூழலில் சேமித்து வைப்பதால், HDFS கோப்பு முறைமைக்கும் NoBQL தரவுத்தளமான HBase க்கும் இடையிலான வேறுபாடுகளைப் பார்ப்போம்.

  • பெரிய தரவுத் தொகுப்புகளுக்குள் சிறிய அளவிலான தரவுகளுக்கு குறைந்த தாமத அணுகலை HBase வழங்குகிறது, அதே நேரத்தில் HDFS அதிக செயலற்ற செயல்பாடுகளை வழங்குகிறது.
  • எச்.டி.எஃப்.எஸ் WORM ஐ ஆதரிக்கும் போது HBase சீரற்ற வாசிப்பு மற்றும் எழுதுகிறது (ஒருமுறை எழுதுங்கள் பல அல்லது பல முறை படிக்கவும்).
  • எச்டிஎஃப்எஸ் அடிப்படையில் அல்லது முதன்மையாக மேப்ரூட் வேலைகள் மூலம் அணுகப்படுகிறது, அதே நேரத்தில் ஹெல்பேஸ் ஷெல் கட்டளைகள், ஜாவா ஏபிஐ, ரெஸ்ட், அவ்ரோ அல்லது சிக்கன் ஏபிஐ மூலம் அணுகப்படுகிறது.

எச்டிஎஃப்எஸ் பெரிய தரவுத் தொகுப்புகளை விநியோகிக்கப்பட்ட சூழலில் சேமித்து, அந்தத் தரவில் தொகுதி செயலாக்கத்தை மேம்படுத்துகிறது. எ.கா. மில்லியன் கணக்கான வாடிக்கையாளர்களின் தரவை விநியோகிக்கப்பட்ட சூழலில் சேமிக்க ஒரு ஈ-காமர்ஸ் வலைத்தளத்திற்கு இது உதவும், இது நீண்ட காலத்திற்கு வளர்ந்தது (4-5 ஆண்டுகள் அல்லது அதற்கு மேற்பட்டதாக இருக்கலாம்). பின்னர் அது அந்தத் தரவின் மீது தொகுதி செயலாக்கத்தை மேம்படுத்துகிறது மற்றும் வாடிக்கையாளர் நடத்தைகள், முறை, தேவைகள் ஆகியவற்றை பகுப்பாய்வு செய்கிறது. எந்த வகை தயாரிப்பு, வாடிக்கையாளர் வாங்குதல் எந்த மாதங்களில் என்பதை நிறுவனம் கண்டுபிடிக்க முடியும். இது காப்பகப்படுத்தப்பட்ட தரவைச் சேமிக்கவும், அதன் மீது தொகுதி செயலாக்கத்தை இயக்கவும் உதவுகிறது.

ஒவ்வொரு நெடுவரிசையும் ஒன்றாகச் சேமிக்கப்படும் ஒரு நெடுவரிசை சார்ந்த முறையில் HBase தரவைச் சேமிக்கும்போது, ​​வாசிப்பு நிகழ்நேர செயலாக்கத்தை விரைவாக மேம்படுத்துகிறது. எ.கா. இதேபோன்ற ஈ-காமர்ஸ் சூழலில், இது மில்லியன் கணக்கான தயாரிப்பு தரவை சேமிக்கிறது. எனவே நீங்கள் மில்லியன் கணக்கான தயாரிப்புகளில் ஒரு பொருளைத் தேடுகிறீர்களானால், அது கோரிக்கை மற்றும் தேடல் செயல்முறையை மேம்படுத்துகிறது, முடிவை உடனடியாக உருவாக்குகிறது (அல்லது நீங்கள் உண்மையான நேரத்தில் சொல்லலாம்). விரிவானது HBase கட்டடக்கலை விளக்கம் , எனது அடுத்த வலைப்பதிவில் உள்ளடக்குவேன்.

எச்டிஎஃப்எஸ் மூலம் ஹெச்பேஸ் விநியோகிக்கப்படுவதை நாங்கள் அறிவோம், எனவே இரண்டின் கலவையும் இரண்டின் நன்மைகளையும், ஒரு பொருத்தமான தீர்வில் பயன்படுத்த ஒரு சிறந்த வாய்ப்பை அளிக்கிறது, ஏனெனில் கீழே உள்ள பேஸ்புக் மெசஞ்சர் வழக்கு ஆய்வில் நாம் காணப்போகிறோம்.

HBase டுடோரியல்: பேஸ்புக் மெசஞ்சர் வழக்கு ஆய்வு

பேஸ்புக் செய்தி தளம் நவம்பர் 2010 இல் அப்பாச்சி கசாண்ட்ராவிலிருந்து HBase க்கு மாற்றப்பட்டது.

பேஸ்புக் மெசஞ்சர் செய்திகள், மின்னஞ்சல், அரட்டை மற்றும் எஸ்எம்எஸ் ஆகியவற்றை நிகழ்நேர உரையாடலில் இணைக்கிறது. இந்த சேவைகளின் தொகுப்பைக் கையாள பேஸ்புக் ஒரு அளவிடக்கூடிய மற்றும் வலுவான உள்கட்டமைப்பை உருவாக்க முயற்சித்தது.

அந்த நேரத்தில் செய்தி உள்கட்டமைப்பு 350 மில்லியன் பயனர்களைக் கையாண்டது, மாதத்திற்கு 15 பில்லியனுக்கும் அதிகமான நபர்களுக்கு நபர் செய்திகளை அனுப்புகிறது. அரட்டை சேவை மாதத்திற்கு 120 பில்லியனுக்கும் அதிகமான செய்திகளை அனுப்பும் 300 மில்லியனுக்கும் அதிகமான பயனர்களை ஆதரிக்கிறது.

பயன்பாட்டைக் கண்காணிப்பதன் மூலம், இரண்டு பொதுவான தரவு வடிவங்கள் வெளிவந்தன:

  • நிலையற்றதாக இருக்கும் தற்காலிக தரவுகளின் குறுகிய தொகுப்பு
  • எப்போதுமே வளர்ந்து வரும் தரவுகளின் தொகுப்பு அரிதாகவே அணுகப்படும்

பேஸ்புக் இந்த இரண்டு பயன்பாட்டு முறைகளுக்கான சேமிப்பக தீர்வைக் கண்டுபிடிக்க விரும்பியதுடன், தற்போதுள்ள செய்திகளின் உள்கட்டமைப்பிற்கு மாற்றாக இருப்பதைக் கண்டறிய அவர்கள் விசாரணையைத் தொடங்கினர்.

முன்னதாக 2008 ஆம் ஆண்டில், அவர்கள் திறந்த-மூல தரவுத்தளத்தைப் பயன்படுத்தினர், அதாவது கஸ்ஸாண்ட்ரா, இது இறுதியில்-நிலைத்தன்மையின் முக்கிய மதிப்புக் கடையாகும், இது ஏற்கனவே இன்பாக்ஸ் தேடலுக்கான போக்குவரத்தை வழங்கும் உற்பத்தியில் இருந்தது. MySQL தரவுத்தளத்தைப் பயன்படுத்துவதற்கும் நிர்வகிப்பதற்கும் அவர்களின் குழுக்களுக்கு சிறந்த அறிவு இருந்தது, எனவே தொழில்நுட்பங்களில் ஒன்றை மாற்றுவது அவர்களுக்கு ஒரு தீவிர கவலையாக இருந்தது.

MySQL, Apache Cassandra, Apache HBase மற்றும் பிற அமைப்புகளின் கிளஸ்டர்களை மதிப்பீடு செய்ய, வெவ்வேறு கட்டமைப்புகளைச் சோதிக்க சில வாரங்கள் செலவிட்டனர். அவர்கள் இறுதியில் HBase ஐத் தேர்ந்தெடுத்தனர்.

பெரிய தரவு தொகுப்புகளை திறமையாக கையாள MySQL தவறியதால், குறியீடுகள் மற்றும் தரவு தொகுப்புகள் பெரிதாக வளர்ந்ததால், செயல்திறன் பாதிக்கப்பட்டது. கசாண்ட்ரா அவர்களின் புதிய செய்திகளின் உள்கட்டமைப்பை சரிசெய்ய கடினமான வடிவத்தை கையாள முடியவில்லை என்று அவர்கள் கண்டார்கள்.

முக்கிய பிரச்சினைகள்:

  • பல்வேறு பேஸ்புக் சேவைகளிலிருந்து தொடர்ந்து வளர்ந்து வரும் தரவின் பெரிய தொகுப்புகளை சேமித்தல்.
  • தரவுத்தளம் தேவைப்படுகிறது, இது அதிக செயலாக்கத்தை மேம்படுத்துகிறது.
  • மில்லியன் கணக்கான கோரிக்கைகளுக்கு சேவை செய்ய உயர் செயல்திறன் தேவை.
  • சேமிப்பு மற்றும் செயல்திறனில் நிலைத்தன்மையை பராமரித்தல்.

படம்: பேஸ்புக் தூதர் எதிர்கொள்ளும் சவால்கள்

இந்த எல்லா சிக்கல்களுக்கும், பேஸ்புக் ஒரு தீர்வைக் கொண்டு வந்தது, அதாவது HBase. பேஸ்புக் அதன் பல்வேறு அம்சங்களால் பேஸ்புக் மெசஞ்சர், அரட்டை, மின்னஞ்சல் போன்றவற்றுக்கு சேவை செய்வதற்காக HBase ஐ ஏற்றுக்கொண்டது.

கசாண்ட்ராவை விட எளிமையான நிலைத்தன்மையுடன் இந்த பணிச்சுமைக்கு HBase மிகச் சிறந்த அளவிடுதல் மற்றும் செயல்திறனுடன் வருகிறது. ஆட்டோ சுமை சமநிலை மற்றும் தோல்வி, சுருக்க ஆதரவு, ஒரு சேவையகத்திற்கு பல துண்டுகள் போன்ற அவற்றின் தேவைகளின் அடிப்படையில் HBase மிகவும் பொருத்தமானது என்று அவர்கள் கண்டறிந்தனர்.

எச்பிஎஸ் பயன்படுத்தும் அடிப்படை கோப்பு முறைமையான எச்டிஎஃப்எஸ், முடிவுக்கு இறுதி செக்சம், பிரதி மற்றும் தானியங்கி சுமை மறு சமநிலை போன்ற பல தேவையான அம்சங்களையும் அவர்களுக்கு வழங்கியது.

ஒரு பட்டியலை வரிசைப்படுத்தவும் c ++

படம்: பேஸ்புக் மெசஞ்சருக்கு ஒரு தீர்வாக HBase

அவர்கள் HBase ஐ ஏற்றுக்கொண்டதால், அவர்கள் முடிவுகளை HBase க்கு மீண்டும் செலுத்துவதில் கவனம் செலுத்தி, அப்பாச்சி சமூகத்துடன் நெருக்கமாக பணியாற்றத் தொடங்கினர்.

எஸ்எம்எஸ், அரட்டைகள் மற்றும் மின்னஞ்சல்கள் போன்ற பல்வேறு மூலங்களிலிருந்து செய்திகள் தரவை ஏற்றுக்கொள்வதால், பயனரின் செய்திக்கான அனைத்து முடிவெடுப்பையும் கையாள அவர்கள் பயன்பாட்டு சேவையகத்தை எழுதினர். இது அதிக எண்ணிக்கையிலான பிற சேவைகளுடன் இடைமுகப்படுத்துகிறது. இணைப்புகள் ஹேஸ்டேக்கில் சேமிக்கப்படுகின்றன (இது HBase இல் வேலை செய்கிறது). அப்பாச்சி ஜூக்கீப்பரின் மேல் ஒரு பயனர் கண்டுபிடிப்பு சேவையையும் அவர்கள் எழுதினர், இது நண்பர் உறவுகள், மின்னஞ்சல் கணக்கு சரிபார்ப்பு, விநியோக முடிவுகள் மற்றும் தனியுரிமை முடிவுகளுக்கான பிற உள்கட்டமைப்பு சேவைகளுடன் பேசுகிறது.

இந்த சேவைகள் ஒவ்வொன்றும் வலுவானவை, நம்பகமானவை மற்றும் நிகழ்நேர செய்தி அமைப்பைக் கையாள நல்ல செயல்திறனை வழங்குகின்றன என்பதை உறுதிப்படுத்த பேஸ்புக் குழு நிறைய நேரம் செலவிட்டது.

இந்த HBase டுடோரியல் வலைப்பதிவு தகவலறிந்ததாக இருக்கும் என்று நம்புகிறேன், நீங்கள் அதை விரும்பினீர்கள். இந்த வலைப்பதிவில், HBase இன் அடிப்படைகள் மற்றும் அதன் அம்சங்களை நீங்கள் அறிந்து கொண்டீர்கள்.எனது அடுத்த வலைப்பதிவில் , நான் விளக்குவேன் HBase இன் கட்டமைப்பு மற்றும் HBase இன் வேலை வேகமாக மற்றும் சீரற்ற வாசிப்பு / எழுதுவதற்கு பிரபலமாகிறது.

இப்போது நீங்கள் HBase இன் அடிப்படைகளை புரிந்து கொண்டீர்கள், பாருங்கள் உலகெங்கிலும் பரவியுள்ள 250,000 க்கும் மேற்பட்ட திருப்தியான கற்றவர்களின் வலைப்பின்னலுடன் நம்பகமான ஆன்லைன் கற்றல் நிறுவனமான எடுரேகாவால். சில்லறை, சமூக மீடியா, விமான போக்குவரத்து, சுற்றுலா, நிதி களத்தில் நிகழ்நேர பயன்பாட்டு நிகழ்வுகளைப் பயன்படுத்தி எச்டிஎஃப்எஸ், நூல், மேப்ரூட், பன்றி, ஹைவ், எச் பேஸ், ஓஸி, ஃப்ளூம் மற்றும் ஸ்கூப் ஆகியவற்றில் நிபுணர்களாக மாற எடூரெகா பிக் டேட்டா ஹடூப் சான்றிதழ் பயிற்சி பாடநெறி உதவுகிறது.

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.