HDFS பயிற்சி: HDFS மற்றும் அதன் அம்சங்களுக்கான அறிமுகம்



இந்த HDFS டுடோரியல் வலைப்பதிவு HDFS அல்லது Hadoop விநியோகிக்கப்பட்ட கோப்பு முறைமை மற்றும் அதன் அம்சங்களைப் புரிந்துகொள்ள உதவும். அதன் முக்கிய கூறுகளையும் சுருக்கமாக ஆராய்வீர்கள்.

HDFS பயிற்சி

இந்த HDFS டுடோரியல் வலைப்பதிவில் முன்னேறுவதற்கு முன், HDFS தொடர்பான சில பைத்தியம் புள்ளிவிவரங்கள் மூலம் உங்களை அழைத்துச் செல்கிறேன்:

  • 2010 இல், முகநூல் மிகப்பெரிய எச்டிஎஃப்எஸ் கிளஸ்டர் சேமிப்பில் ஒன்று இருப்பதாகக் கூறப்படுகிறது 21 பெட்டாபைட்டுகள் தரவு.
  • 2012 ல், முகநூல் அவர்கள் மிகப்பெரிய ஒற்றை HDFS கிளஸ்டரைக் கொண்டிருப்பதாக அறிவித்தனர் 100 பிபி தரவு .
  • மற்றும் யாகூ ! விட அதிகமாக உள்ளது 100,000 CPU ஓவர் 40,000 சேவையகங்கள் ஹடூப் இயங்குகிறது, அதன் மிகப்பெரிய ஹடூப் கிளஸ்டர் இயங்குகிறது 4,500 முனைகள் . எல்லாம் சொன்னது, Yahoo! கடைகள் 455 பெட்டாபைட்டுகள் HDFS இல் தரவு.
  • உண்மையில், 2013 க்குள், பார்ச்சூன் 50 இல் உள்ள பெரிய பெயர்களில் பெரும்பாலானவை ஹடூப்பைப் பயன்படுத்தத் தொடங்கின.

ஜீரணிக்க மிகவும் கடினமாக இருக்கிறதா? சரி. இல் விவாதிக்கப்பட்டது , ஹடூப்பிற்கு இரண்டு அடிப்படை அலகுகள் உள்ளன - எஸ் torage மற்றும் செயலாக்கம் . ஹடூப்பின் சேமிப்பக பகுதி என்று நான் கூறும்போது, ​​நான் குறிப்பிடுகிறேன் HDFS இது குறிக்கிறது ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமை . எனவே, இந்த வலைப்பதிவில், நான் உங்களை அறிமுகப்படுத்துகிறேன் HDFS .





இங்கே, நான் இதைப் பற்றி பேசுவேன்:

c ++ இல் செயல்பாடு ஓவர்லோடிங்
  • HDFS என்றால் என்ன?
  • HDFS இன் நன்மைகள்
  • HDFS இன் அம்சங்கள்

எச்.டி.எஃப்.எஸ் பற்றி பேசுவதற்கு முன், விநியோகிக்கப்பட்ட கோப்பு முறைமை என்றால் என்ன?



டி.எஃப்.எஸ் அல்லது விநியோகிக்கப்பட்ட கோப்பு முறைமை:

விநியோகிக்கப்பட்ட கோப்பு முறைமை பற்றி பேசுகிறது நிர்வகித்தல் தகவல்கள் , அதாவது. பல கணினிகள் அல்லது சேவையகங்களில் கோப்புகள் அல்லது கோப்புறைகள். வேறு வார்த்தைகளில் கூறுவதானால், டி.எஃப்.எஸ் என்பது ஒரு கோப்பு முறைமையாகும், இது பல முனைகள் அல்லது இயந்திரங்கள் வழியாக ஒரு கிளஸ்டரில் தரவை சேமிக்க அனுமதிக்கிறது மற்றும் பல பயனர்களை தரவை அணுக அனுமதிக்கிறது. எனவே அடிப்படையில், இது உங்கள் கணினியில் கிடைக்கும் கோப்பு முறைமையின் அதே நோக்கத்திற்காக உதவுகிறது, உங்களிடம் NTFS (புதிய தொழில்நுட்ப கோப்பு முறைமை) உள்ள சாளரங்கள் அல்லது மேக்கிற்கு உங்களிடம் HFS (படிநிலை கோப்பு முறைமை) உள்ளது. ஒரே வித்தியாசம் என்னவென்றால், விநியோகிக்கப்பட்ட கோப்பு முறைமையைப் பொறுத்தவரை, நீங்கள் ஒற்றை இயந்திரத்தை விட பல கணினிகளில் தரவை சேமிக்கிறீர்கள். கோப்புகள் நெட்வொர்க் முழுவதும் சேமிக்கப்பட்டிருந்தாலும், ஒரு கணினியில் உட்கார்ந்திருக்கும் ஒரு பயனர் எல்லா தரவும் அந்த இயந்திரத்தில் சேமிக்கப்பட்டிருப்பதைப் போல உணரும் வகையில் டி.எஃப்.எஸ் தரவை ஒழுங்கமைத்து காட்சிப்படுத்துகிறது.

HDFS என்றால் என்ன?

ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமை அல்லது எச்டிஎஃப்எஸ் என்பது ஜாவா அடிப்படையிலான விநியோகிக்கப்பட்ட கோப்பு முறைமை ஆகும், இது ஒரு ஹடூப் கிளஸ்டரில் பல முனைகளில் பெரிய தரவை சேமிக்க உங்களை அனுமதிக்கிறது. எனவே, நீங்கள் ஹடூப்பை நிறுவினால், விநியோகிக்கப்பட்ட சூழலில் தரவைச் சேமிப்பதற்கான அடிப்படை சேமிப்பக அமைப்பாக HDFS ஐப் பெறுவீர்கள்.

அதைப் புரிந்துகொள்ள ஒரு எடுத்துக்காட்டு எடுத்துக்கொள்வோம். ஒவ்வொரு கணினியிலும் 1 காசநோய் வன் கொண்ட பத்து இயந்திரங்கள் அல்லது பத்து கணினிகள் உங்களிடம் இருப்பதாக கற்பனை செய்து பாருங்கள். இப்போது, ​​இந்த பத்து இயந்திரங்களின் மேல் ஒரு தளமாக நீங்கள் ஹடூப்பை நிறுவினால், நீங்கள் ஒரு சேமிப்பக சேவையாக HDFS ஐப் பெறுவீர்கள் என்று HDFS கூறுகிறது. ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமை ஒவ்வொரு இயந்திரமும் எந்தவொரு தரவையும் சேமிப்பதற்காக அவற்றின் தனிப்பட்ட சேமிப்பகத்திற்கு பங்களிக்கும் வகையில் விநியோகிக்கப்படுகிறது.



HDFS பயிற்சி: HDFS இன் நன்மைகள்

1. விநியோகிக்கப்பட்ட சேமிப்பு:

விநியோகிக்கப்பட்ட சேமிப்பு - HDFS பயிற்சி - எடுரேகா

ஹடூப் கிளஸ்டரில் உள்ள பத்து இயந்திரங்களில் ஏதேனும் ஒன்றிலிருந்து நீங்கள் ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமையை அணுகும்போது, ​​10 காசநோய் (பத்து இயந்திரங்களுக்கு மேல் மொத்த சேமிப்பு) சேமிப்பு திறன் கொண்ட ஒரு பெரிய இயந்திரத்தில் நீங்கள் உள்நுழைந்திருப்பதைப் போல உணர்வீர்கள். இதற்கு என்ன பொருள்? இதன் பொருள் நீங்கள் 10 காசநோய் கொண்ட ஒரு பெரிய கோப்பை சேமிக்க முடியும், அவை பத்து இயந்திரங்களில் விநியோகிக்கப்படும் (ஒவ்வொன்றும் 1 காசநோய்).அதனால் தான் உடல் எல்லைகளுக்கு மட்டுப்படுத்தப்படவில்லை ஒவ்வொரு தனி இயந்திரத்தின்.

2. விநியோகிக்கப்பட்ட மற்றும் இணையான கணக்கீடு:

தரவு இயந்திரங்கள் முழுவதும் பிரிக்கப்பட்டிருப்பதால், அதைப் பயன்படுத்திக்கொள்ள இது நம்மை அனுமதிக்கிறது விநியோகிக்கப்பட்ட மற்றும் இணையான கணக்கீடு . மேலே உள்ள எடுத்துக்காட்டு மூலம் இந்த கருத்தை புரிந்து கொள்வோம். ஒரு கணினியில் 1 காசநோய் கோப்பை செயலாக்க 43 நிமிடங்கள் ஆகும் என்று வைத்துக்கொள்வோம். எனவே, இப்போது என்னிடம் சொல்லுங்கள், இதேபோன்ற உள்ளமைவுடன் ஒரு ஹடூப் கிளஸ்டரில் 10 இயந்திரங்கள் இருக்கும்போது அதே 1 காசநோய் கோப்பை செயலாக்க எவ்வளவு நேரம் ஆகும் - 43 நிமிடங்கள் அல்லது 4.3 நிமிடங்கள்? 4.3 நிமிடங்கள், சரி! இங்கே என்ன நடந்தது? ஒவ்வொரு முனைகளும் இணையாக 1 காசநோய் கோப்பின் ஒரு பகுதியுடன் செயல்படுகின்றன. ஆகையால், 43 நிமிடங்களுக்கு முன்னர் எடுக்கும் பணிகள் இப்போது 4.3 நிமிடங்களில் முடிவடைகின்றன, ஏனெனில் வேலை பத்து இயந்திரங்களுக்கு மேல் பிரிக்கப்பட்டுள்ளது.

3. கிடைமட்ட அளவிடுதல்:

SQL சேவையகத்தில் pivot மற்றும் unpivot

கடைசியாக ஆனால் குறைந்தது அல்ல, பேசுவோம் கிடைமட்ட அளவிடுதல் அல்லது வெளியே அளவிடுகிறது ஹடூப்பில். அளவிடுதல் இரண்டு வகைகள் உள்ளன: செங்குத்து மற்றும் கிடைமட்ட . செங்குத்து அளவீடுகளில் (அளவுகோல்), உங்கள் கணினியின் வன்பொருள் திறனை அதிகரிக்கிறீர்கள். வேறு வார்த்தைகளில் கூறுவதானால், நீங்கள் அதிக ரேம் அல்லது சிபியு வாங்கிக் கொண்டு, அதை உங்கள் வலுவான மற்றும் சக்திவாய்ந்ததாக மாற்ற உங்கள் இருக்கும் கணினியில் சேர்க்கிறீர்கள். ஆனால் செங்குத்து அளவிடுதல் அல்லது அளவிடுதல் ஆகியவற்றுடன் தொடர்புடைய சவால்கள் உள்ளன:

  • உங்கள் வன்பொருள் திறனை அதிகரிக்கக்கூடிய வரம்பு எப்போதும் இருக்கும். எனவே, நீங்கள் இயந்திரத்தின் ரேம் அல்லது சிபியுவை அதிகரிப்பதைத் தொடர முடியாது.
  • செங்குத்து அளவீடுகளில், முதலில் உங்கள் கணினியை நிறுத்துங்கள். ரேம் அல்லது சிபியுவை அதிக வலுவான வன்பொருள் அடுக்காக மாற்றுவீர்கள். உங்கள் வன்பொருள் திறனை அதிகரித்த பிறகு, கணினியை மறுதொடக்கம் செய்யுங்கள். உங்கள் கணினியை நீங்கள் நிறுத்தும்போது இந்த நேரம் ஒரு சவாலாக மாறும்.

ஒரு வேளை கிடைமட்ட அளவிடுதல் (அளவுகோல் அவுட்) , தனிப்பட்ட இயந்திரங்களின் வன்பொருள் திறனை அதிகரிப்பதற்கு பதிலாக இருக்கும் கிளஸ்டரில் அதிக முனைகளைச் சேர்க்கிறீர்கள். மற்றும் மிக முக்கியமாக, நீங்கள் முடியும் பயணத்தின்போது கூடுதல் இயந்திரங்களைச் சேர்க்கவும் அதாவது கணினியை நிறுத்தாமல் . ஆகையால், அளவிடும்போது எங்களுக்கு எந்த நேரமும் பசுமை மண்டலமும் இல்லை, இதுபோன்ற எதுவும் இல்லை. நாள் முடிவில், உங்கள் தேவைகளைப் பூர்த்தி செய்வதற்கு இணையாக அதிகமான இயந்திரங்கள் செயல்படும்.

HDFS டுடோரியல் வீடியோ:

எச்.டி.எஃப்.எஸ் தொடர்பான அனைத்து கருத்துகளும் விரிவாக விவாதிக்கப்பட்டுள்ள கீழே கொடுக்கப்பட்டுள்ள வீடியோவை நீங்கள் பார்க்கலாம்:

HDFS பயிற்சி: HDFS இன் அம்சங்கள்

எங்கள் அடுத்த எச்டிஎஃப்எஸ் டுடோரியல் வலைப்பதிவில் எச்டிஎஃப்எஸ் கட்டமைப்பை ஆராயும்போது இந்த அம்சங்களை விரிவாக புரிந்துகொள்வோம். ஆனால், இப்போதைக்கு, HDFS இன் அம்சங்களைப் பற்றிய ஒரு கண்ணோட்டத்தைக் கொண்டிருக்கலாம்:

  • செலவு: எச்.டி.எஃப்.எஸ், பொதுவாக, நீங்கள் ஒவ்வொரு நாளும் பயன்படுத்தும் உங்கள் டெஸ்க்டாப் / லேப்டாப் போன்ற ஒரு பொருள் வன்பொருளில் பயன்படுத்தப்படுகிறது. எனவே, திட்டத்தின் உரிமையின் விலையைப் பொறுத்தவரை இது மிகவும் சிக்கனமானது. நாங்கள் குறைந்த விலையில் பொருட்கள் வன்பொருளைப் பயன்படுத்துவதால், உங்கள் ஹடூப் கிளஸ்டரை அளவிடுவதற்கு நீங்கள் பெரும் தொகையை செலவிட தேவையில்லை. வேறு வார்த்தைகளில் கூறுவதானால், உங்கள் HDFS இல் அதிக முனைகளைச் சேர்ப்பது செலவு குறைந்ததாகும்.
  • தரவுகளின் வகை மற்றும் அளவு: எச்.டி.எஃப்.எஸ் பற்றி நாம் பேசும்போது, ​​பெரிய தரவுகளை சேமிப்பதைப் பற்றி பேசுகிறோம், அதாவது டெராபைட்டுகள் & பெட்டாபைட் தரவு மற்றும் பல்வேறு வகையான தரவுகள். எனவே, நீங்கள் எந்தவொரு தரவையும் எச்.டி.எஃப்.எஸ் இல் சேமிக்கலாம், அது கட்டமைக்கப்பட்டதாகவோ, கட்டமைக்கப்படாமலோ அல்லது அரை கட்டமைக்கப்பட்டதாகவோ இருக்கலாம்.
  • நம்பகத்தன்மை மற்றும் தவறு சகிப்புத்தன்மை: நீங்கள் எச்டிஎஃப்எஸ் இல் தரவைச் சேமிக்கும்போது, ​​கொடுக்கப்பட்ட தரவை தரவுத் தொகுதிகளாகப் பிரித்து, அதை உங்கள் ஹடூப் கிளஸ்டர் முழுவதும் விநியோகிக்கப்பட்ட பாணியில் சேமிக்கிறது. எந்த தரவுத் தொகுதி அமைந்துள்ளது என்பது குறித்த தரவு எந்த தரவு முனைகளில் மெட்டாடேட்டாவில் பதிவு செய்யப்பட்டுள்ளது. பெயர்நொட் மெட்டா தரவு மற்றும் டேட்டாநோட்ஸ் தரவை சேமிப்பதற்கான பொறுப்பு.
    பெயர் முனை தரவையும் பிரதிபலிக்கிறது, அதாவது தரவின் பல நகல்களை பராமரிக்கிறது. தரவின் இந்த பிரதி HDFS ஐ மிகவும் நம்பகமானதாகவும், தவறு சகிப்புத்தன்மையுடனும் செய்கிறது. எனவே, எந்த முனைகளும் தோல்வியுற்றாலும், பிற தரவு முனைகளில் வசிக்கும் பிரதிகளிலிருந்து தரவை மீட்டெடுக்கலாம். இயல்பாக, பிரதி காரணி 3. எனவே, நீங்கள் 1 ஜிபி கோப்பை எச்டிஎஃப்எஸ் இல் சேமித்து வைத்தால், அது இறுதியாக 3 ஜிபி இடத்தை ஆக்கிரமிக்கும். பெயர் முனை அவ்வப்போது மெட்டாடேட்டாவை புதுப்பித்து, நகலெடுக்கும் காரணியை சீராக பராமரிக்கிறது.
  • தரவு ஒருமைப்பாடு: தரவு ஒருங்கிணைப்பு எனது HDFS இல் சேமிக்கப்பட்ட தரவு சரியானதா இல்லையா என்பதைப் பற்றி பேசுகிறது. எச்.டி.எஃப்.எஸ் அதன் செக்ஸத்திற்கு எதிராக சேமிக்கப்பட்ட தரவின் ஒருமைப்பாட்டை தொடர்ந்து சரிபார்க்கிறது. இது ஏதேனும் தவறுகளைக் கண்டால், அது அதைப் பற்றிய பெயர் முனைக்குத் தெரிவிக்கிறது. பின்னர், பெயர் முனை கூடுதல் புதிய பிரதிகளை உருவாக்குகிறது, எனவே சிதைந்த நகல்களை நீக்குகிறது.
  • உயர் செயல்திறன்: செயல்திறன் என்பது ஒரு யூனிட் நேரத்தில் செய்யப்படும் வேலையின் அளவு. கோப்பு முறைமையிலிருந்து தரவை எவ்வளவு விரைவாக அணுகலாம் என்பது பற்றி இது பேசுகிறது. அடிப்படையில், இது கணினி செயல்திறனைப் பற்றிய நுண்ணறிவை உங்களுக்கு வழங்குகிறது. கணக்கீட்டை மேம்படுத்துவதற்கு நாங்கள் பத்து இயந்திரங்களை கூட்டாகப் பயன்படுத்திய மேற்கண்ட எடுத்துக்காட்டில் நீங்கள் பார்த்தது போல. அங்கு இருந்து செயலாக்க நேரத்தை குறைக்க முடிந்தது 43 நிமிடங்கள் வெறும் 4.3 நிமிடங்கள் எல்லா இயந்திரங்களும் இணையாக செயல்படுவதால். எனவே, தரவை இணையாக செயலாக்குவதன் மூலம், செயலாக்க நேரத்தை நாங்கள் பெருமளவில் குறைத்தோம், இதனால் அதிக செயல்திறனை அடைந்தோம்.
  • தரவு இடம்: செயலாக்க அலகுக்கு தரவை விட செயலாக்க அலகு தரவுக்கு நகர்த்துவது பற்றி தரவு இருப்பிடம் பேசுகிறது. எங்கள் பாரம்பரிய அமைப்பில், தரவை பயன்பாட்டு அடுக்குக்கு கொண்டு வந்து பின்னர் செயலாக்குகிறோம். ஆனால் இப்போது, ​​கட்டமைப்பு மற்றும் தரவின் பெரிய அளவு காரணமாக, தரவை பயன்பாட்டு அடுக்குக்கு கொண்டு வருவதுபிணைய செயல்திறனை குறிப்பிடத்தக்க அளவிற்கு குறைக்கவும்.எனவே, எச்.டி.எஃப்.எஸ் இல், கணக்கீட்டு பகுதியை தரவு வசிக்கும் தரவு முனைகளுக்கு கொண்டு வருகிறோம். எனவே, நீங்கள் தரவை நகர்த்தவில்லை, நிரல் அல்லது செயல்முறையை கொண்டு வருகிறீர்கள்தரவுக்கு ஒரு பகுதி.

எனவே இப்போது, ​​HDFS மற்றும் அதன் அம்சங்களைப் பற்றி உங்களுக்கு ஒரு சுருக்கமான யோசனை உள்ளது. ஆனால் என்னை நம்புங்கள் தோழர்களே, இது பனிப்பாறையின் முனை மட்டுமே. என் அடுத்த , நான் ஆழமாக முழுக்குவேன் HDFS கட்டமைப்பு HDFS இன் வெற்றியின் பின்னணியில் உள்ள ரகசியங்களை நான் வெளியிடுவேன். உங்கள் தலையில் சிந்தித்துப் பார்க்கும் எல்லா கேள்விகளுக்கும் நாங்கள் ஒன்றாக பதிலளிப்போம்:

  • ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமையில் தரவைப் படிக்கும்போது அல்லது எழுதும்போது திரைக்குப் பின்னால் என்ன நடக்கும்?
  • எச்டிஎஃப்எஸ் மிகவும் தவறான சகிப்புத்தன்மையை ஏற்படுத்தும் ரேக் விழிப்புணர்வு போன்ற வழிமுறைகள் யாவை?
  • ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமை எவ்வாறு பிரதிகளை நிர்வகிக்கிறது மற்றும் உருவாக்குகிறது?
  • தொகுதி செயல்பாடுகள் என்றால் என்ன?

இப்போது நீங்கள் HDFS மற்றும் அதன் அம்சங்களைப் புரிந்துகொண்டுள்ளீர்கள், பாருங்கள் உலகெங்கிலும் பரவியுள்ள 250,000 க்கும் மேற்பட்ட திருப்தியான கற்றவர்களின் வலைப்பின்னலுடன் நம்பகமான ஆன்லைன் கற்றல் நிறுவனமான எடுரேகாவால். சில்லறை, சமூக மீடியா, விமான போக்குவரத்து, சுற்றுலா, நிதி களத்தில் நிகழ்நேர பயன்பாட்டு நிகழ்வுகளைப் பயன்படுத்தி எச்டிஎஃப்எஸ், நூல், வரைபடம், பன்றி, ஹைவ், ஹெபேஸ், ஓஸி, ஃப்ளூம் மற்றும் ஸ்கூப் ஆகியவற்றில் நிபுணர்களாக மாற எடூரெகா பிக் டேட்டா ஹடூப் சான்றிதழ் பயிற்சி பாடநெறி உதவுகிறது.

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.

ஜாவாவில் டோஸ்ட்ரிங் முறை என்ன?