ஸ்பார்க் Vs ஹடூப்: சிறந்த பெரிய தரவு கட்டமைப்பு எது?



இந்த வலைப்பதிவு இடுகை அப்பாச்சி தீப்பொறி Vs ஹடூப் பற்றி பேசுகிறது. வெவ்வேறு காட்சிகளில் தேர்வு செய்ய சரியான பெரிய தரவு கட்டமைப்பு எது என்பது பற்றிய ஒரு யோசனையை இது வழங்கும்.

இரண்டு கட்டமைப்பிற்கும் சரியான சூழலை அமைப்பதற்காக முதலில் ஹடூப் மற்றும் ஸ்பார்க்கை அறிமுகப்படுத்துவதன் மூலம் இந்த அப்பாச்சி ஸ்பார்க் Vs ஹடூப் வலைப்பதிவைத் தொடங்குவேன். பின்னர், முன்னோக்கி நகரும்போது, ​​பெரிய தரவு கட்டமைப்புகள் இரண்டையும் வெவ்வேறு அளவுருக்களில் ஒப்பிட்டு அவற்றின் பலம் மற்றும் பலவீனங்களை பகுப்பாய்வு செய்வோம்.ஆனால், எங்கள் ஒப்பீட்டின் விளைவு என்னவாக இருந்தாலும், ஸ்பார்க் மற்றும் ஹடூப் இரண்டும் முக்கியமான கூறுகள் என்பதை நீங்கள் அறிந்து கொள்ள வேண்டும் .

அப்பாச்சி ஸ்பார்க் Vs ஹடூப்: ஹடூப் அறிமுகம்

ஹடூப் என்பது ஒரு கட்டமைப்பாகும், இது முதலில் பெரிய தரவை விநியோகிக்கப்பட்ட சூழலில் சேமிக்க அனுமதிக்கிறது, இதன் மூலம் நீங்கள் அதை இணையாக செயலாக்க முடியும். ஹடூப்பில் அடிப்படையில் இரண்டு கூறுகள் உள்ளன:





HDFS

HDFS வளங்களின் சுருக்கத்தை உருவாக்குகிறது, அதை உங்களுக்காக எளிதாக்குகிறேன். மெய்நிகராக்கத்தைப் போலவே, எச்டிஎஃப்எஸ் தர்க்கரீதியாக பெரிய தரவைச் சேமிப்பதற்கான ஒரு அலகு என்று நீங்கள் காணலாம், ஆனால் உண்மையில் நீங்கள் உங்கள் தரவை பல முனைகளில் விநியோகிக்கப்பட்ட பாணியில் சேமிக்கிறீர்கள். இங்கே, உங்களிடம் மாஸ்டர்-அடிமை கட்டமைப்பு உள்ளது. எச்டிஎஃப்எஸ் இல், நேமனோட் ஒரு முதன்மை முனை மற்றும் டேட்டானோட்கள் அடிமைகள்.

பெயர்நொட்

டேட்டா நோட்களை (அடிமை முனைகள்) பராமரிக்கும் மற்றும் நிர்வகிக்கும் மாஸ்டர் டீமான் இது. இது கிளஸ்டரில் சேமிக்கப்பட்ட எல்லா கோப்புகளின் மெட்டாடேட்டாவையும் பதிவு செய்கிறது, எ.கா. சேமிக்கப்பட்ட தொகுதிகளின் இடம், கோப்புகளின் அளவு, அனுமதிகள், வரிசைமுறை போன்றவை. இது கோப்பு முறைமை மெட்டாடேட்டாவில் நடக்கும் ஒவ்வொரு மாற்றத்தையும் பதிவு செய்கிறது.



எடுத்துக்காட்டாக, HDFS இல் ஒரு கோப்பு நீக்கப்பட்டால், நேம்நோட் இதை உடனடியாக EditLog இல் பதிவு செய்யும். டேட்டாநோட்கள் நேரலையில் இருப்பதை உறுதிசெய்ய இது ஒரு இதய துடிப்பு மற்றும் கிளஸ்டரில் உள்ள அனைத்து டேட்டா நோட்களிலிருந்தும் ஒரு தொகுதி அறிக்கையைப் பெறுகிறது. இது எச்டிஎஃப்எஸ்ஸில் உள்ள அனைத்து தொகுதிகளின் பதிவையும், எந்த தொகுதிகளில் இந்த தொகுதிகள் சேமிக்கப்படுகின்றன.

டேட்டாநோட்

இவை ஒவ்வொரு அடிமை இயந்திரத்திலும் இயங்கும் அடிமை டெமன்கள். உண்மையான தரவு டேட்டா நோட்களில் சேமிக்கப்படுகிறது. வாடிக்கையாளர்களிடமிருந்து வாசிப்பு மற்றும் எழுதுதல் கோரிக்கைகளுக்கு சேவை செய்வதற்கு அவர்கள் பொறுப்பு. தொகுதிகளை உருவாக்குதல், தொகுதிகள் நீக்குதல் மற்றும் நேம்நோட் எடுத்த முடிவுகளின் அடிப்படையில் அதைப் பிரதிபலித்தல் ஆகியவற்றுக்கும் அவை பொறுப்பு.

எச்டிஎஃப்எஸ் - அப்பாச்சி ஸ்பார்க் Vs ஹடூப் - எடுரேகாYARN

வளங்களை ஒதுக்குவதன் மூலமும் பணிகளை திட்டமிடுவதன் மூலமும் உங்கள் அனைத்து செயலாக்க நடவடிக்கைகளையும் YARN செய்கிறது. இது இரண்டு பெரிய டீமன்களைக் கொண்டுள்ளது, அதாவது. ResourceManager மற்றும் NodeManager .



ResourceManager

இது ஒரு கிளஸ்டர் நிலை (ஒவ்வொரு கிளஸ்டருக்கும் ஒன்று) கூறு மற்றும் முதன்மை கணினியில் இயங்குகிறது. இது வளங்களை நிர்வகிக்கிறது மற்றும் YARN க்கு மேல் இயங்கும் பயன்பாடுகளை அட்டவணைப்படுத்துகிறது.

NodeManager

இது ஒரு முனை நிலை கூறு (ஒவ்வொரு முனையிலும் ஒன்று) மற்றும் ஒவ்வொரு அடிமை கணினியிலும் இயங்குகிறது. ஒவ்வொரு கொள்கலனிலும் கொள்கலன்களை நிர்வகித்தல் மற்றும் வள பயன்பாட்டைக் கண்காணித்தல் பொறுப்பு. இது கணு ஆரோக்கியம் மற்றும் பதிவு நிர்வாகத்தையும் கண்காணிக்கும். புதுப்பித்த நிலையில் இருக்க இது தொடர்ந்து ResourceManager உடன் தொடர்பு கொள்கிறது. எனவே, MapReduce ஐப் பயன்படுத்தி HDFS இல் இணையான செயலாக்கத்தை நீங்கள் செய்யலாம்.

ஹடூப்பைப் பற்றி மேலும் அறிய, நீங்கள் இதைப் பார்க்கலாம் வலைப்பதிவு. இப்போது, ​​நாம் அனைவரும் ஹடூப் அறிமுகத்துடன் அமைக்கப்பட்டிருக்கிறோம், ஸ்பார்க் அறிமுகத்திற்கு செல்லலாம்.

அப்பாச்சி ஸ்பார்க் Vs ஹடூப்: அப்பாச்சி தீப்பொறி அறிமுகம்

அப்பாச்சி ஸ்பார்க் என்பது விநியோகிக்கப்பட்ட கணினி சூழலில் நிகழ்நேர தரவு பகுப்பாய்வுகளுக்கான ஒரு கட்டமைப்பாகும். தரவு செயலாக்கத்தின் வேகத்தை அதிகரிக்க இது நினைவக நினைவகங்களை இயக்குகிறது. நினைவக கணக்கீடுகள் மற்றும் பிற மேம்படுத்தல்களைப் பயன்படுத்துவதால் பெரிய அளவிலான தரவை செயலாக்குவதற்கு இது வேகமானது. எனவே, இதற்கு அதிக செயலாக்க சக்தி தேவைப்படுகிறது.

நெகிழ்திறன் விநியோகிக்கப்பட்ட தரவுத்தொகுப்பு (RDD) என்பது ஸ்பார்க்கின் அடிப்படை தரவு கட்டமைப்பாகும். இது மாறாத விநியோகிக்கப்பட்ட பொருட்களின் தொகுப்பு ஆகும். RDD இல் உள்ள ஒவ்வொரு தரவுத்தொகுப்பும் தருக்க பகிர்வுகளாக பிரிக்கப்பட்டுள்ளது, அவை கிளஸ்டரின் வெவ்வேறு முனைகளில் கணக்கிடப்படலாம். RDD களில் பயனர் வரையறுக்கப்பட்ட வகுப்புகள் உட்பட எந்த வகையான பைதான், ஜாவா அல்லது ஸ்கலா பொருள்களும் இருக்கலாம். தீப்பொறி கூறுகள் அதை வேகமாகவும் நம்பகத்தன்மையுடனும் உருவாக்குகின்றன. அப்பாச்சி தீப்பொறி பின்வரும் கூறுகளைக் கொண்டுள்ளது:

  1. தீப்பொறி கோர் - ஸ்பார்க் கோர் என்பது பெரிய அளவிலான இணையான மற்றும் விநியோகிக்கப்பட்ட தரவு செயலாக்கத்திற்கான அடிப்படை இயந்திரமாகும். மேலும், மையத்தின் மேல் கட்டப்பட்ட கூடுதல் நூலகங்கள் ஸ்ட்ரீமிங், SQL மற்றும் இயந்திர கற்றலுக்கான மாறுபட்ட பணிச்சுமைகளை அனுமதிக்கின்றன. நினைவக மேலாண்மை மற்றும் தவறு மீட்பு, ஒரு கிளஸ்டரில் வேலைகளை திட்டமிடுதல், விநியோகித்தல் மற்றும் கண்காணித்தல் மற்றும் சேமிப்பக அமைப்புகளுடன் தொடர்புகொள்வது ஆகியவற்றுக்கு இது பொறுப்பாகும்
  2. தீப்பொறி ஸ்ட்ரீமிங் - ஸ்பார்க் ஸ்ட்ரீமிங் என்பது ஸ்பார்க்கின் கூறு ஆகும், இது நிகழ்நேர ஸ்ட்ரீமிங் தரவை செயலாக்க பயன்படுகிறது. எனவே, இது கோர் ஸ்பார்க் ஏபிஐக்கு ஒரு பயனுள்ள கூடுதலாகும். இது நேரடி தரவு ஸ்ட்ரீம்களின் உயர்-செயல்திறன் மற்றும் தவறு-சகிப்புத்தன்மை கொண்ட ஸ்ட்ரீம் செயலாக்கத்தை செயல்படுத்துகிறது
  3. தீப்பொறி SQL : ஸ்பார்க் SQL என்பது ஸ்பார்க்கில் ஒரு புதிய தொகுதி, இது ஸ்பார்க்கின் செயல்பாட்டு நிரலாக்க API உடன் தொடர்புடைய செயலாக்கத்தை ஒருங்கிணைக்கிறது. இது SQL வழியாக அல்லது ஹைவ் வினவல் மொழி வழியாக தரவை வினவுவதை ஆதரிக்கிறது. RDBMS உடன் உங்களுக்குத் தெரிந்தவர்களுக்கு, ஸ்பார்க் SQL என்பது உங்கள் முந்தைய கருவிகளிலிருந்து எளிதான மாற்றமாக இருக்கும், அங்கு நீங்கள் பாரம்பரிய தொடர்புடைய தரவு செயலாக்கத்தின் எல்லைகளை நீட்டிக்க முடியும்.
  4. வரைபடம் : வரைபடம் மற்றும் வரைபட-இணையான கணக்கீட்டிற்கான ஸ்பார்க் ஏபிஐ ஆகும். எனவே, இது ஒரு நெகிழக்கூடிய விநியோகிக்கப்பட்ட சொத்து வரைபடத்துடன் ஸ்பார்க் ஆர்.டி.டியை நீட்டிக்கிறது. ஒரு உயர் மட்டத்தில், நெகிழக்கூடிய விநியோகிக்கப்பட்ட சொத்து வரைபடத்தை அறிமுகப்படுத்துவதன் மூலம் கிராஃப்எக்ஸ் ஸ்பார்க் ஆர்.டி.டி சுருக்கத்தை விரிவுபடுத்துகிறது: ஒவ்வொரு வெர்டெக்ஸ் மற்றும் விளிம்பிலும் இணைக்கப்பட்ட பண்புகளைக் கொண்ட ஒரு இயக்கிய மல்டிகிராப்.
  5. எம்.எல்லிப் (இயந்திர கற்றல்): MLlib என்பது இயந்திர கற்றல் நூலகத்தைக் குறிக்கிறது. அப்பாச்சி ஸ்பார்க்கில் இயந்திரக் கற்றலைச் செய்ய ஸ்பார்க் எம்.எல்லிப் பயன்படுத்தப்படுகிறது.

நீங்கள் பார்க்கிறபடி, ஆர், எஸ்.கியூ.எல், பைதான், ஸ்கலா, ஜாவா போன்றவற்றுக்கான ஆதரவு உள்ளிட்ட உயர் மட்ட நூலகங்களுடன் ஸ்பார்க் நிரம்பியுள்ளது. இந்த நிலையான நூலகங்கள் சிக்கலான பணிப்பாய்வுகளில் தடையற்ற ஒருங்கிணைப்புகளை அதிகரிக்கின்றன. இதற்கு மேல், எம்.எல்லிப், கிராஃப்எக்ஸ், எஸ்.கியூ.எல் + டேட்டா ஃப்ரேம்கள், ஸ்ட்ரீமிங் சேவைகள் போன்ற பல்வேறு சேவைகளை அதன் திறன்களை அதிகரிக்க இது அனுமதிக்கிறது.

அப்பாச்சி தீப்பொறியைப் பற்றி மேலும் அறிய, நீங்கள் இதைப் பார்க்கலாம் வலைப்பதிவு. இப்போது அப்பாச்சி ஸ்பார்க் Vs ஹடூப்புக்கு மைதானம் அமைக்கப்பட்டுள்ளது. அப்பாச்சி ஸ்பார்க்கை அவற்றின் பலங்களைப் புரிந்துகொள்ள வெவ்வேறு அளவுருக்களில் ஹடூப்புடன் ஒப்பிட்டுப் பார்ப்போம்.

அப்பாச்சி ஸ்பார்க் Vs ஹடூப்: ஒப்பிட வேண்டிய அளவுருக்கள்

செயல்திறன்

நினைவகத்தில் செயலாக்கத்தைக் கொண்டிருப்பதால் தீப்பொறி வேகமாக உள்ளது. இவை அனைத்தும் நினைவகத்துடன் பொருந்தாத தரவிற்கான வட்டைப் பயன்படுத்தலாம். ஸ்பார்க்கின் நினைவக செயலாக்கம் நிகழ்நேர பகுப்பாய்வுகளுக்கு அருகில் வழங்குகிறது. இது கிரெடிட் கார்டு செயலாக்க அமைப்பு, இயந்திர கற்றல், பாதுகாப்பு பகுப்பாய்வு மற்றும் இன்டர்நெட் ஆஃப் திங்ஸ் சென்சார்களுக்கு ஸ்பார்க்கை பொருத்தமாக்குகிறது.

தரவு வகையைப் பற்றி கவலைப்படாமல், விநியோகிக்கப்பட்ட சூழலில் சேமிக்காமல் பல ஆதாரங்களில் இருந்து தரவை தொடர்ந்து சேகரிக்க ஹடூப் முதலில் அமைக்கப்பட்டது. MapReduce தொகுதி செயலாக்கத்தைப் பயன்படுத்துகிறது. MapReduce நிகழ்நேர செயலாக்கத்திற்காக ஒருபோதும் கட்டப்படவில்லை, YARN க்குப் பின்னால் உள்ள முக்கிய யோசனை விநியோகிக்கப்பட்ட தரவுத்தொகுப்பில் இணையான செயலாக்கம் ஆகும்.

இரண்டையும் ஒப்பிடுவதில் உள்ள சிக்கல் என்னவென்றால், அவை செயலாக்கத்தை வித்தியாசமாகச் செய்கின்றன.

பயன்படுத்த எளிதாக

ஸ்பார்க் ஸ்கலா, ஜாவா, பைதான் மற்றும் ஸ்பார்க் SQL க்கான பயனர் நட்பு API களுடன் வருகிறது. தீப்பொறி SQL SQL உடன் மிகவும் ஒத்திருக்கிறது, எனவே SQL டெவலப்பர்கள் அதைக் கற்றுக்கொள்வது எளிதாகிறது. டெவலப்பர்களுக்கு வினவுவதற்கும் பிற செயல்களைச் செய்வதற்கும் உடனடி கருத்துக்களைக் கொடுப்பதற்கும் ஸ்பார்க் ஒரு ஊடாடும் ஷெல்லை வழங்குகிறது.

ஷெல் பயன்படுத்துவதன் மூலமோ அல்லது ஸ்கூப், ஃப்ளூம் போன்ற பல கருவிகளுடன் ஒருங்கிணைப்பதன் மூலமோ நீங்கள் ஹடூப்பில் தரவை எளிதில் உட்கொள்ளலாம். YARN என்பது ஒரு செயலாக்க கட்டமைப்பாகும், மேலும் இது ஹைவ் மற்றும் பன்றி போன்ற பல கருவிகளுடன் ஒருங்கிணைக்கப்படலாம். எச்.ஐ.வி என்பது ஒரு தரவுக் கிடங்கு கூறு ஆகும், இது SQL போன்ற இடைமுகத்தைப் பயன்படுத்தி விநியோகிக்கப்பட்ட சூழலில் பெரிய தரவுத் தொகுப்புகளைப் படிப்பது, எழுதுவது மற்றும் நிர்வகிக்கிறது. நீங்கள் இதை செல்லலாம் ஹடூப் சுற்றுச்சூழல் அமைப்பு ஹடூப்புடன் ஒருங்கிணைக்கக்கூடிய பல்வேறு கருவிகளைப் பற்றி அறிய வலைப்பதிவு.

செலவுகள்

ஹடூப் மற்றும் ஸ்பார்க் இரண்டும் அப்பாச்சி திறந்த மூல திட்டங்கள், எனவே மென்பொருளுக்கு எந்த செலவும் இல்லை. செலவு உள்கட்டமைப்புடன் மட்டுமே தொடர்புடையது. இரண்டு தயாரிப்புகளும் குறைந்த TCO உடன் பொருட்கள் வன்பொருளில் இயங்கக்கூடிய வகையில் வடிவமைக்கப்பட்டுள்ளன.

அவை வேறுபட்ட வழிகளை இப்போது நீங்கள் யோசித்துக்கொண்டிருக்கலாம். ஹடூப்பில் சேமிப்பகம் மற்றும் செயலாக்கம் வட்டு அடிப்படையிலானது மற்றும் ஹடூப் நிலையான அளவு நினைவகத்தைப் பயன்படுத்துகிறது. எனவே, ஹடூப் மூலம் எங்களுக்கு நிறைய வட்டு இடமும் வேகமான வட்டுகளும் தேவை. வட்டு I / O ஐ விநியோகிக்க ஹடூப்பிற்கு பல அமைப்புகள் தேவை.

மெமரி செயலாக்கத்தில் அப்பாச்சி ஸ்பார்க்கின் காரணமாக இதற்கு நிறைய நினைவகம் தேவைப்படுகிறது, ஆனால் இது ஒரு நிலையான வேகம் மற்றும் வட்டு அளவைக் கையாள முடியும். வட்டு இடம் ஒப்பீட்டளவில் மலிவான பண்டமாக இருப்பதால், செயலாக்கத்திற்கு ஸ்பார்க் வட்டு I / O ஐப் பயன்படுத்துவதில்லை என்பதால், அதற்கு பதிலாக நினைவகத்தில் எல்லாவற்றையும் செயல்படுத்துவதற்கு அதிக அளவு ரேம் தேவைப்படுகிறது. இதனால், ஸ்பார்க் அமைப்பு அதிக செலவை ஏற்படுத்துகிறது.

ஆனால் ஆம், நினைவில் கொள்ள வேண்டிய ஒரு முக்கியமான விஷயம் என்னவென்றால், ஸ்பார்க்கின் தொழில்நுட்பம் தேவையான அமைப்புகளின் எண்ணிக்கையை குறைக்கிறது. இதற்கு அதிக செலவு செய்யும் கணிசமாக குறைவான அமைப்புகள் தேவை. எனவே, கூடுதல் ரேம் தேவையுடன் கூட ஒரு யூனிட் கணக்கீட்டுக்கான செலவுகளை ஸ்பார்க் குறைக்கும் ஒரு புள்ளி இருக்கும்.

தகவல் செயல்முறை

தரவு செயலாக்கத்தில் இரண்டு வகைகள் உள்ளன: தொகுதி செயலாக்கம் மற்றும் நீரோடை செயலாக்கம்.

தொகுதி செயலாக்கம் Vs ஸ்ட்ரீம் செயலாக்கம்

தொகுதி செயலாக்கம் : பெரிய தரவு உலகிற்கு தொகுதி செயலாக்கம் முக்கியமானது. எளிமையான காலப்பகுதியில், தொகுதி செயலாக்கம் ஒரு காலகட்டத்தில் சேகரிக்கப்பட்ட உயர் தரவு அளவுகளுடன் செயல்படுகிறது. தொகுதி செயலாக்க தரவு முதலில் சேகரிக்கப்பட்டு பின்னர் பதப்படுத்தப்பட்ட முடிவுகள் பின்னர் கட்டத்தில் தயாரிக்கப்படும்.

தொகுதி செயலாக்கம் என்பது பெரிய, நிலையான தரவு தொகுப்புகளை செயலாக்குவதற்கான ஒரு திறமையான வழியாகும். பொதுவாக, காப்பகப்படுத்தப்பட்ட தரவுத் தொகுப்புகளுக்கான தொகுதி செயலாக்கத்தை நாங்கள் செய்கிறோம். எடுத்துக்காட்டாக, ஒரு நாட்டின் சராசரி வருமானத்தைக் கணக்கிடுவது அல்லது கடந்த தசாப்தத்தில் மின்வணிகத்தின் மாற்றத்தை மதிப்பீடு செய்தல்.

ஸ்ட்ரீம் செயலாக்கம் : ஸ்ட்ரீம் செயலாக்கம் என்பது பெரிய தரவு உலகில் தற்போதைய போக்கு. நேரத்தின் தேவை வேகம் மற்றும் நிகழ்நேர தகவல், இது நீராவி செயலாக்கம் செய்கிறது. தொகுதி செயலாக்கம் வணிகங்களை உண்மையான நேரத்தில் மாற்றுவதற்கு விரைவாக செயல்பட அனுமதிக்காது, ஸ்ட்ரீம் செயலாக்கம் தேவையில் விரைவான வளர்ச்சியைக் கண்டது.

இப்போது அப்பாச்சி ஸ்பார்க் Vs ஹடூப்பிற்கு திரும்பி வருவது, YARN என்பது அடிப்படையில் ஒரு தொகுதி செயலாக்க கட்டமைப்பாகும். நாங்கள் YARN க்கு ஒரு வேலையைச் சமர்ப்பிக்கும்போது, ​​அது கிளஸ்டரிலிருந்து தரவைப் படிக்கிறது, செயல்பாட்டைச் செய்கிறது மற்றும் முடிவுகளை மீண்டும் கிளஸ்டருக்கு எழுதுகிறது. பின்னர் அது மீண்டும் புதுப்பிக்கப்பட்ட தரவைப் படித்து, அடுத்த செயல்பாட்டைச் செய்கிறது மற்றும் முடிவுகளை மீண்டும் கிளஸ்டருக்கு எழுதுங்கள்.

ஸ்பார்க் இதேபோன்ற செயல்பாடுகளைச் செய்கிறது, ஆனால் இது நினைவக செயலாக்கத்தைப் பயன்படுத்துகிறது மற்றும் படிகளை மேம்படுத்துகிறது. வரைபடங்கள் மற்றும் தொகுப்புகள் போன்ற தரவைப் பார்க்க பயனர்களை வரைபடம் அனுமதிக்கிறது. பயனர்கள் நெகிழக்கூடிய விநியோகிக்கப்பட்ட தரவுத்தொகுப்புகளுடன் (RDD கள்) வரைபடங்களை மாற்றலாம் மற்றும் சேரலாம்.

தவறு சகிப்புத்தன்மை

ஹடூப் மற்றும் ஸ்பார்க் இரண்டும் தவறு சகிப்புத்தன்மையை வழங்குகிறது, ஆனால் இரண்டுமே வெவ்வேறு அணுகுமுறையைக் கொண்டுள்ளன. HDFS மற்றும் YARN இரண்டிற்கும், மாஸ்டர் டீமன்கள் (அதாவது முறையே நேம்நோட் & ரிசோர்ஸ் மேனேஜர்) அடிமை டெமன்களின் இதயத் துடிப்பை சரிபார்க்கின்றன (அதாவது முறையே டேட்டாநோட் & நோட் மேனேஜர்). எந்த அடிமை டீமான் தோல்வியுற்றால், மாஸ்டர் டீமன்கள் நிலுவையில் உள்ள மற்றும் முன்னேற்றத்தில் உள்ள அனைத்து நடவடிக்கைகளையும் மற்றொரு அடிமைக்கு மாற்றியமைக்கிறது. இந்த முறை பயனுள்ளதாக இருக்கும், ஆனால் இது ஒற்றை தோல்வியுடனான செயல்பாடுகளுக்கான நிறைவு நேரங்களை கணிசமாக அதிகரிக்கும். ஹடூப் பொருட்களின் வன்பொருளைப் பயன்படுத்துவதால், தரவைப் பிரதிபலிப்பதன் மூலம் எச்.டி.எஃப்.எஸ் தவறு சகிப்புத்தன்மையை உறுதி செய்யும் மற்றொரு வழி.

நாங்கள் மேலே விவாதித்தபடி, RDD கள் அப்பாச்சி ஸ்பார்க்கின் தொகுதிகள். RDD கள் தீப்பொறிக்கு தவறான சகிப்புத்தன்மையை வழங்குகின்றன. HDFS, HBase, பகிரப்பட்ட கோப்பு முறைமை போன்ற வெளிப்புற சேமிப்பக அமைப்பில் இருக்கும் எந்த தரவுத்தொகுப்பையும் அவை குறிப்பிடலாம். அவற்றை இணையாக இயக்க முடியும்.

RDD கள் செயல்பாடுகள் முழுவதும் நினைவகத்தில் ஒரு தரவுத்தொகுப்பைத் தொடரலாம், இது எதிர்கால செயல்களை 10 மடங்கு வேகமாக செய்கிறது. ஒரு RDD தொலைந்துவிட்டால், அசல் உருமாற்றங்களைப் பயன்படுத்தி அது தானாகவே மறுபரிசீலனை செய்யப்படும். ஸ்பார்க் தவறு-சகிப்புத்தன்மையை இது வழங்குகிறது.

பாதுகாப்பு

அங்கீகாரத்திற்காக கெடெரோஸை ஹடூப் ஆதரிக்கிறார், ஆனால் அதைக் கையாள்வது கடினம். ஆயினும்கூட, அங்கீகாரத்திற்காக எல்.டி.ஏ.பி (லைட்வெயிட் டைரக்டரி அக்சஸ் புரோட்டோகால்) போன்ற மூன்றாம் தரப்பு விற்பனையாளர்களையும் இது ஆதரிக்கிறது. அவை குறியாக்கத்தையும் வழங்குகின்றன. பாரம்பரிய கோப்பு அனுமதிகளையும், அணுகல் கட்டுப்பாட்டு பட்டியல்களையும் (ACL கள்) HDFS ஆதரிக்கிறது. ஹடூப் சேவை நிலை அங்கீகாரத்தை வழங்குகிறது, இது வாடிக்கையாளர்களுக்கு வேலை சமர்ப்பிக்க சரியான அனுமதிகள் இருப்பதை உறுதி செய்கிறது.

பகிரப்பட்ட ரகசியம் வழியாக அங்கீகாரத்தை ஸ்பார்க் தற்போது ஆதரிக்கிறது. தீப்பொறி HDFS உடன் ஒருங்கிணைக்க முடியும், மேலும் இது HDFS ACL கள் மற்றும் கோப்பு-நிலை அனுமதிகளைப் பயன்படுத்தலாம். கெர்பரோஸின் திறனை மேம்படுத்துவதன் மூலம் ஸ்பார்க் YARN இல் இயக்க முடியும்.

ஹடூப் சிறப்பாக பொருந்தக்கூடிய பயன்பாட்டு வழக்குகள்:

  • காப்பக தரவை பகுப்பாய்வு செய்தல். பெரிய அளவிலான தரவை இணையாக செயலாக்க YARN அனுமதிக்கிறது. தரவின் பகுதிகள் வெவ்வேறு டேட்டா நோட்களில் இணையாகவும் தனித்தனியாகவும் செயலாக்கப்படுகின்றன மற்றும் ஒவ்வொரு நோட்மேனேஜரிடமிருந்தும் முடிவுகளை சேகரிக்கின்றன.
  • உடனடி முடிவுகள் தேவையில்லை என்றால். தொகுதி செயலாக்கத்திற்கு ஹடூப் மேப்ரூட்யூஸ் ஒரு நல்ல மற்றும் பொருளாதார தீர்வாகும்.

ஸ்பார்க் சிறப்பாக பொருந்தக்கூடிய பயன்பாட்டு வழக்குகள்:

நிகழ்நேர பெரிய தரவு பகுப்பாய்வு:

நிகழ்நேர தரவு பகுப்பாய்வு என்பது நிகழ்நேர நிகழ்வு ஸ்ட்ரீம்களால் உருவாக்கப்பட்ட தரவை வினாடிக்கு மில்லியன் நிகழ்வுகளின் வீதத்தில் செயலாக்குகிறது, எடுத்துக்காட்டாக ட்விட்டர் தரவு. விநியோகிக்கப்பட்ட செயலாக்கத்துடன் தரவின் ஸ்ட்ரீமிங்கை ஆதரிப்பதற்கான அதன் திறன்களில் ஸ்பார்க்கின் வலிமை உள்ளது. இது தரவின் நிகழ்நேர செயலாக்கத்திற்கு அருகில் வழங்கும் ஒரு பயனுள்ள கலவையாகும். MapReduce இது போன்ற ஒரு நன்மையைக் கொண்டுள்ளது, ஏனெனில் இது பெரிய அளவிலான தரவுகளில் தொகுதி மற்றும் விநியோகிக்கப்பட்ட செயலாக்கத்தை செய்ய வடிவமைக்கப்பட்டுள்ளது. நிகழ்நேர தரவை மேப் ரெட்யூஸில் இன்னும் செயலாக்க முடியும், ஆனால் அதன் வேகம் எங்கும் ஸ்பார்க்குடன் நெருக்கமாக இல்லை.

MapReduce ஐ விட 100 மடங்கு வேகமாக தரவை செயலாக்குவதாக ஸ்பார்க் கூறுகிறது, அதே நேரத்தில் வட்டுகளுடன் 10x வேகமாக.

கோப்புகளை ec2 விண்டோஸ் உதாரணத்திற்கு மாற்றவும்

வரைபட செயலாக்கம்:

பக்க தரவரிசை போன்ற பெரும்பாலான வரைபட செயலாக்க வழிமுறைகள் ஒரே தரவுகளில் பல மறு செய்கைகளைச் செய்கின்றன, இதற்கு செய்தி அனுப்பும் வழிமுறை தேவைப்படுகிறது. ஒரே தரவுகளில் இதுபோன்ற பல மறு செய்கைகளை கையாள மேப் ரெட்ஸை வெளிப்படையாக நிரல் செய்ய வேண்டும். தோராயமாக, இது இதுபோன்றது: வட்டில் இருந்து தரவைப் படியுங்கள் மற்றும் ஒரு குறிப்பிட்ட மறு செய்கைக்குப் பிறகு, முடிவுகளை HDFS க்கு எழுதுங்கள், பின்னர் அடுத்த மறு செய்கைக்கு HDFS இலிருந்து தரவைப் படிக்கவும். இது மிகவும் திறனற்றது, ஏனெனில் இது வட்டில் தரவைப் படிப்பதும் எழுதுவதும் அடங்கும், இதில் கனமான I / O செயல்பாடுகள் மற்றும் தவறு சகிப்புத்தன்மைக்கு கொத்து முழுவதும் தரவு நகலெடுப்பு ஆகியவை அடங்கும். மேலும், ஒவ்வொரு MapReduce மறு செய்கையும் மிக உயர்ந்த செயலற்ற தன்மையைக் கொண்டுள்ளது, மேலும் முந்தைய வேலை முழுமையாக முடிந்த பின்னரே அடுத்த மறு செய்கை தொடங்க முடியும்.

மேலும், செய்தி அனுப்புவதற்கு ஒரு குறிப்பிட்ட முனையின் மதிப்பெண்ணை மதிப்பிடுவதற்கு அண்டை முனைகளின் மதிப்பெண்கள் தேவை. இந்த கணக்கீடுகளுக்கு அதன் அண்டை நாடுகளிடமிருந்து செய்திகள் தேவை (அல்லது வேலையின் பல கட்டங்களில் உள்ள தரவு), இது மேப்ரூட்யூஸ் இல்லாத ஒரு பொறிமுறையாகும். வரைபட செயலாக்க வழிமுறைகளுக்கான திறமையான தளத்தின் தேவையை நிவர்த்தி செய்வதற்காக ப்ரீகல் மற்றும் வரைபடம் போன்ற வெவ்வேறு வரைபட செயலாக்க கருவிகள் வடிவமைக்கப்பட்டுள்ளன. இந்த கருவிகள் வேகமானவை மற்றும் அளவிடக்கூடியவை, ஆனால் இந்த சிக்கலான பல-நிலை வழிமுறைகளை உருவாக்குவதற்கும் பிந்தைய செயலாக்கத்திற்கும் திறமையானவை அல்ல.

அப்பாச்சி தீப்பொறி அறிமுகம் இந்த பிரச்சினைகளை பெருமளவில் தீர்த்தது. ஸ்பார்க் கிராஃப்எக்ஸ் எனப்படும் வரைபட கணக்கீட்டு நூலகத்தைக் கொண்டுள்ளது, இது நம் வாழ்க்கையை எளிதாக்குகிறது. இன்-மெமரி கணக்கீடு மற்றும் உள்ளமைக்கப்பட்ட வரைபட ஆதரவுடன் பாரம்பரிய மேப்ரூட் திட்டங்களை விட ஒன்று அல்லது இரண்டு டிகிரி அளவு மூலம் வழிமுறையின் செயல்திறனை மேம்படுத்துகிறது. நிர்வாகிகள் முழுவதும் செய்திகளை விநியோகிக்க நெட்டி மற்றும் அக்காவின் கலவையை ஸ்பார்க் பயன்படுத்துகிறது. ஹடூப் மற்றும் ஸ்பார்க்கைப் பயன்படுத்தி பேஜ் தரவரிசை வழிமுறையின் செயல்திறனை சித்தரிக்கும் சில புள்ளிவிவரங்களைப் பார்ப்போம்.

மறுபயன்பாட்டு இயந்திர கற்றல் வழிமுறைகள்:

ஏறக்குறைய அனைத்து இயந்திர கற்றல் வழிமுறைகளும் மீண்டும் செயல்படுகின்றன. நாம் முன்பே பார்த்தபடி, செயல்பாட்டு வழிமுறைகள் MapReduce செயலாக்கங்களில் I / O சிக்கல்களைக் கொண்டுள்ளன. MapReduce கரடுமுரடான பணிகளை (பணி-நிலை இணையானது) பயன்படுத்துகிறது, அவை செயல்பாட்டு வழிமுறைகளுக்கு மிகவும் கனமானவை. விநியோகிக்கப்பட்ட கணினி கர்னல், மெசோஸின் உதவியுடன் தீப்பொறி, ஒவ்வொரு மறு செய்கைக்குப் பிறகு இடைநிலை தரவுத்தொகுப்பை தற்காலிகமாக சேமித்து, இந்த தற்காலிக சேமிப்பக தரவுத்தொகுப்பில் பல மறு செய்கைகளை இயக்கும், இது I / O ஐக் குறைக்கிறது மற்றும் தவறான சகிப்புத்தன்மையுடன் வழிமுறையை வேகமாக இயக்க உதவுகிறது.

ஸ்பார்க் எம்.எல்லிப் எனப்படும் உள்ளமைக்கப்பட்ட அளவிடக்கூடிய இயந்திர கற்றல் நூலகத்தைக் கொண்டுள்ளது, இது உயர் தரமான வழிமுறைகளைக் கொண்டுள்ளது, இது மறு செய்கைகளை மேம்படுத்துகிறது மற்றும் சில நேரங்களில் மேப் ரீடூஸில் பயன்படுத்தப்படும் ஒரு பாஸ் தோராயங்களை விட சிறந்த முடிவுகளைத் தருகிறது.

  • விரைவான தரவு செயலாக்கம். எங்களுக்குத் தெரியும், நினைவகம் செயலாக்கத்தை ஸ்பார்க் அனுமதிக்கிறது. இதன் விளைவாக, ரேமில் உள்ள தரவுகளுக்கு ஸ்பார்க் 100 மடங்கு வேகமாகவும், சேமிப்பகத்தில் உள்ள தரவுகளுக்கு 10 மடங்கு வேகமாகவும் இருக்கும்.
  • மறுபயன்பாட்டு செயலாக்கம். ஸ்பார்க்கின் RDD கள் நினைவகத்தில் பல வரைபட செயல்பாடுகளைச் செய்ய அனுமதிக்கின்றன, ஒரு வட்டில் இடைக்கால தரவுத் தொகுப்புகளை எழுத வேண்டிய அவசியமில்லை.
  • நிகழ்நேர செயலாக்கத்திற்கு அருகில். உடனடி வணிக நுண்ணறிவுகளை வழங்க ஸ்பார்க் ஒரு சிறந்த கருவியாகும். கிரெடிட் கார்டின் ஸ்ட்ரீமிங் அமைப்பில் ஸ்பார்க் பயன்படுத்தப்படுவதற்கான காரணம் இதுதான்.

'அப்பாச்சி தீப்பொறி: அப்பாச்சி ஹடூப்பின் கொலையாளி அல்லது மீட்பர்?'

இதற்கு பதில் - ஹடூப் மேப் ரெட்யூஸ் மற்றும் அப்பாச்சி ஸ்பார்க் ஆகியவை ஒருவருக்கொருவர் போட்டியிடவில்லை. உண்மையில், அவை ஒருவருக்கொருவர் நன்றாக பூர்த்தி செய்கின்றன. ஹடூப் பொருட்களின் அமைப்புகளால் பெரிய தரவுத்தொகுப்புகளை கட்டுப்பாட்டுக்குள் கொண்டுவருகிறது. தேவைப்படும் தரவுத் தொகுப்புகளுக்கு ஸ்பார்க் நிகழ்நேர, நினைவக செயலாக்கத்தை வழங்குகிறது. நாங்கள் இணைக்கும்போது, ​​அப்பாச்சி ஸ்பார்க்கின் திறன், அதாவது அதிக செயலாக்க வேகம், முன்கூட்டிய பகுப்பாய்வு மற்றும் பண்டக வன்பொருளில் ஹடூப்பின் குறைந்த செலவு செயல்பாட்டுடன் பல ஒருங்கிணைப்பு ஆதரவு, இது சிறந்த முடிவுகளை அளிக்கிறது. அப்பாச்சி தீப்பொறி திறன்களை ஹடூப் பாராட்டுகிறார். ஹார்டூப்பை ஸ்பார்க்கால் முழுமையாக மாற்ற முடியாது, ஆனால் நல்ல செய்தி என்னவென்றால், ஸ்பார்க்கின் தேவை தற்போது எல்லா நேரத்திலும் உள்ளது! ஸ்பார்க்கை மாஸ்டர் செய்வதற்கும், உங்கள் வழியில் வரும் தொழில் வாய்ப்புகளை அதிகம் பயன்படுத்துவதற்கும் இது சரியான நேரம். இப்போது தொடங்கவும்!

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் விரைவில் உங்களைத் தொடர்புகொள்வோம்.

ரியல் லைஃப் பயன்பாட்டு நிகழ்வுகளுடன் RDD, Spark Streaming, SparkSQL, MLlib, GraphX ​​மற்றும் Scala ஐப் பயன்படுத்தி பெரிய அளவிலான தரவு செயலாக்கத்தை செய்ய ஸ்பார்க்கின் களத்தில் ஒரு தொழிலை உருவாக்க நீங்கள் விரும்பினால், எங்கள் ஊடாடும், நேரடி-ஆன்லைனில் பாருங்கள் இங்கே, இது உங்கள் கற்றல் காலம் முழுவதும் உங்களுக்கு வழிகாட்ட 24 * 7 ஆதரவுடன் வருகிறது.