பெரிய தரவு பயிற்சி
பெரிய தரவு, இந்த வார்த்தையை நீங்கள் முன்பு கேள்விப்பட்டிருக்கவில்லையா? உங்களிடம் உள்ளது என்று நான் நம்புகிறேன். கடந்த 4 முதல் 5 ஆண்டுகளில், எல்லோரும் பிக் டேட்டா பற்றி பேசுகிறார்கள். ஆனால் இந்த பெரிய தரவு சரியாக என்னவென்று உங்களுக்குத் தெரியுமா, இது நம் வாழ்வில் எவ்வாறு தாக்கத்தை ஏற்படுத்துகிறது மற்றும் நிறுவனங்கள் ஏன் நிபுணர்களை வேட்டையாடுகின்றன ? இந்த பிக் டேட்டா டுடோரியலில், பிக் டேட்டா பற்றிய முழுமையான பார்வையை தருகிறேன்.
இந்த பெரிய தரவு டுடோரியலில் நான் உள்ளடக்கும் தலைப்புகள் கீழே:
- பெரிய தரவுகளின் கதை
- பெரிய தரவு ஓட்டுநர் காரணிகள்
- பெரிய தரவு என்றால் என்ன?
- பெரிய தரவு பண்புகள்
- பெரிய தரவு வகைகள்
- பெரிய தரவுகளின் எடுத்துக்காட்டுகள்
- பெரிய தரவுகளின் பயன்பாடுகள்
- பெரிய தரவுடன் சவால்கள்
இந்த பிக் டேட்டா டுடோரியலை ஒரு சிறுகதையுடன் தொடங்குவேன்.
பெரிய தரவுகளின் கதை
பண்டைய நாட்களில், குதிரை ஓடும் வண்டியில் மக்கள் ஒரு கிராமத்திலிருந்து மற்றொரு கிராமத்திற்குச் செல்வது வழக்கம், ஆனால் நேரம் செல்ல செல்ல கிராமங்கள் நகரங்களாக மாறி மக்கள் பரவின. ஒரு ஊரிலிருந்து மற்ற ஊருக்குப் பயணிப்பதற்கான தூரமும் அதிகரித்தது. எனவே, சாமான்களுடன் நகரங்களுக்கு இடையில் பயணம் செய்வது ஒரு பிரச்சினையாக மாறியது. இந்த சிக்கலைத் தீர்க்க, நீல நிறத்தில் இருந்து, ஒரு ஸ்மார்ட் ஃபெல்லா பரிந்துரைத்தார், நாங்கள் ஒரு குதிரைக்கு மாப்பிள்ளை மற்றும் உணவளிக்க வேண்டும். இந்த தீர்வை நான் பார்க்கும்போது, அது அவ்வளவு மோசமானதல்ல, ஆனால் ஒரு குதிரை யானையாக மாறக்கூடும் என்று நினைக்கிறீர்களா? நான் அப்படி நினைக்கவில்லை. மற்றொரு புத்திசாலி பையன், 1 குதிரை வண்டியை இழுப்பதற்கு பதிலாக, ஒரே வண்டியை இழுக்க 4 குதிரைகள் இருப்போம். இந்த தீர்வைப் பற்றி நீங்கள் என்ன நினைக்கிறீர்கள்? இது ஒரு அருமையான தீர்வு என்று நான் நினைக்கிறேன். இப்போது, மக்கள் குறைந்த நேரத்தில் அதிக தூரம் பயணிக்க முடியும், மேலும் அதிகமான சாமான்களை எடுத்துச் செல்லலாம்.
அதே கருத்து பிக் டேட்டாவிலும் பொருந்தும். பிக் டேட்டா கூறுகிறது, இன்று வரை, எங்கள் சேவையகங்களில் தரவை சேமிப்பதில் நாங்கள் சரியாக இருந்தோம், ஏனெனில் தரவின் அளவு மிகவும் குறைவாக இருந்தது, மேலும் இந்த தரவை செயலாக்குவதற்கான நேரமும் சரி. ஆனால் இப்போது இந்த தற்போதைய தொழில்நுட்ப உலகில், தரவு மிக வேகமாக வளர்ந்து வருகிறது, மேலும் மக்கள் தரவை நிறைய முறை நம்பியுள்ளனர். தரவு வளர்ந்து வரும் வேகம், எந்த சேவையகத்திலும் தரவை சேமிக்க இயலாது.
ஜாவாவில் ஒரு வகுப்பின் உதாரணம் என்ன
பிக் டேட்டா டுடோரியலில் உள்ள இந்த வலைப்பதிவின் மூலம், பிக் டேட்டாவின் ஆதாரங்களை ஆராய்வோம், அவை பாரம்பரிய அமைப்புகள் சேமித்து செயலாக்கத் தவறிவிட்டன.
பெரிய தரவு ஓட்டுநர் காரணிகள்
பூமியின் தரவின் அளவு பல காரணங்களுக்காக அதிவேகமாக வளர்ந்து வருகிறது. பல்வேறு ஆதாரங்களும் எங்கள் அன்றாட நடவடிக்கைகளும் ஏராளமான தரவை உருவாக்குகின்றன. இணையத்தின் கண்டுபிடிப்புடன், உலகம் முழுவதும் ஆன்லைனில் சென்றுவிட்டது, நாம் செய்யும் ஒவ்வொன்றும் டிஜிட்டல் தடயத்தை விட்டு விடுகின்றன. ஸ்மார்ட் பொருள்கள் ஆன்லைனில் செல்வதால், தரவு வளர்ச்சி விகிதம் வேகமாக அதிகரித்துள்ளது. பிக் டேட்டாவின் முக்கிய ஆதாரங்கள் சமூக ஊடக தளங்கள், சென்சார் நெட்வொர்க்குகள், டிஜிட்டல் படங்கள் / வீடியோக்கள், செல்போன்கள், கொள்முதல் பரிவர்த்தனை பதிவுகள், வலை பதிவுகள், மருத்துவ பதிவுகள், காப்பகங்கள், இராணுவ கண்காணிப்பு, இணையவழி, சிக்கலான அறிவியல் ஆராய்ச்சி மற்றும் பல. இந்த தகவல்கள் அனைத்தும் சில குவிண்டிலியன் பைட்டுகள் தரவைக் கொண்டுள்ளன. 2020 ஆம் ஆண்டில், தரவு அளவுகள் சுமார் 40 ஜெட்டாபைட்டுகளாக இருக்கும், இது கிரகத்தின் ஒவ்வொரு தானிய மணலையும் எழுபத்தைந்து பெருக்கச் செய்வதற்கு சமம்.
பெரிய தரவு என்றால் என்ன?
பிக் டேட்டா என்பது பெரிய மற்றும் சிக்கலான தரவுத் தொகுப்புகளின் தொகுப்பிற்குப் பயன்படுத்தப்படும் ஒரு சொல், இது கிடைக்கக்கூடிய தரவுத்தள மேலாண்மை கருவிகள் அல்லது பாரம்பரிய தரவு செயலாக்க பயன்பாடுகளைப் பயன்படுத்தி சேமித்து செயலாக்குவது கடினம். இந்தத் தரவைப் பிடிப்பது, நிர்வகித்தல், சேமித்தல், தேடுதல், பகிர்வு, பரிமாற்றம், பகுப்பாய்வு மற்றும் காட்சிப்படுத்தல் ஆகியவை சவாலில் அடங்கும்.
பெரிய தரவு பண்புகள்
பெரிய தரவை வரையறுக்கும் ஐந்து பண்புகள்: தொகுதி, வேகம், வெரைட்டி, வேராசிட்டி மற்றும் மதிப்பு.
VOLUME
தொகுதி என்பது ‘தரவின் அளவு’ என்பதைக் குறிக்கிறது, இது நாளுக்கு நாள் மிக வேகமாக வளர்ந்து வருகிறது. மனிதர்கள், இயந்திரங்கள் மற்றும் சமூக ஊடகங்களில் அவற்றின் தொடர்புகளால் உருவாக்கப்பட்ட தரவுகளின் அளவு மிகப்பெரியது. 2020 க்குள் 40 ஜெட்டாபைட்டுகள் (40,000 எக்சாபைட்டுகள்) உருவாக்கப்படும் என்று ஆராய்ச்சியாளர்கள் கணித்துள்ளனர், இது 2005 ல் இருந்து 300 மடங்கு அதிகரிப்பு ஆகும்.
வெலோசிட்டி
ஒவ்வொரு நாளும் வெவ்வேறு மூலங்கள் தரவை உருவாக்கும் வேகம் என வேகம் வரையறுக்கப்படுகிறது. தரவுகளின் இந்த ஓட்டம் மிகப்பெரியது மற்றும் தொடர்ச்சியானது. மொபைலில் தற்போது 1.03 பில்லியன் டெய்லி ஆக்டிவ் பயனர்கள் (பேஸ்புக் DAU) உள்ளனர், இது ஆண்டுக்கு 22% அதிகரிப்பு ஆகும். சமூக ஊடகங்களில் பயனர்களின் எண்ணிக்கை எவ்வளவு வேகமாக வளர்ந்து வருகிறது என்பதையும், தினசரி தரவு எவ்வளவு விரைவாக உருவாக்கப்படுகிறது என்பதையும் இது காட்டுகிறது. நீங்கள் வேகத்தை கையாள முடிந்தால், நீங்கள் நுண்ணறிவுகளை உருவாக்கலாம் மற்றும் நிகழ்நேர தரவுகளின் அடிப்படையில் முடிவுகளை எடுக்க முடியும்.
மாறுபாடு
பிக் டேட்டாவுக்கு பங்களிக்கும் பல ஆதாரங்கள் இருப்பதால், அவை உருவாக்கும் தரவு வகை வேறுபட்டது. இது கட்டமைக்கப்பட்ட, அரை கட்டமைக்கப்பட்ட அல்லது கட்டமைக்கப்படாததாக இருக்கலாம். எனவே, ஒவ்வொரு நாளும் பல்வேறு வகையான தரவு உருவாக்கப்படுகிறது. முன்னதாக, எக்செல் மற்றும் தரவுத்தளங்களிலிருந்து தரவைப் பெறுவதற்கு நாங்கள் பயன்படுத்தினோம், இப்போது தரவு கீழே உள்ள படத்தில் காட்டப்பட்டுள்ளபடி படங்கள், ஆடியோக்கள், வீடியோக்கள், சென்சார் தரவு போன்ற வடிவங்களில் வருகிறது. எனவே, இந்த வகையான கட்டமைக்கப்படாத தரவு தரவைப் பிடிக்கவும், சேமிக்கவும், சுரங்கப்படுத்தவும் பகுப்பாய்வு செய்யவும் சிக்கல்களை உருவாக்குகிறது.
உண்மைத்தன்மை
தரவு முரண்பாடு மற்றும் முழுமையற்ற தன்மை காரணமாக கிடைக்கக்கூடிய தரவின் சந்தேகம் அல்லது நிச்சயமற்ற தன்மையை வேராசிட்டி குறிக்கிறது. கீழேயுள்ள படத்தில், அட்டவணையில் சில மதிப்புகள் இல்லை என்பதை நீங்கள் காணலாம். மேலும், ஒரு சில மதிப்புகள் ஏற்றுக்கொள்வது கடினம், எடுத்துக்காட்டாக - 3 வது வரிசையில் 15000 குறைந்தபட்ச மதிப்பு, அது சாத்தியமில்லை. இந்த முரண்பாடு மற்றும் முழுமையற்ற தன்மை வெராசிட்டி.
கிடைக்கும் தரவு சில நேரங்களில் குழப்பமானதாக இருக்கலாம் மற்றும் நம்புவது கடினம். பல வகையான பெரிய தரவுகளுடன், ஹேஷ்டேக்குகள், சுருக்கங்கள், எழுத்துப்பிழைகள் மற்றும் பேச்சு வார்த்தை கொண்ட ட்விட்டர் இடுகைகளைப் போல தரம் மற்றும் துல்லியம் கட்டுப்படுத்துவது கடினம். தரவில் தரம் மற்றும் துல்லியம் இல்லாததற்கு தொகுதி பெரும்பாலும் காரணம்.- தரவின் நிச்சயமற்ற தன்மை காரணமாக, 3 வணிகத் தலைவர்களில் 1 பேர் முடிவுகளை எடுக்க அவர்கள் பயன்படுத்தும் தகவல்களை நம்ப மாட்டார்கள்.
- ஒரு கணக்கெடுப்பில் 27% பதிலளித்தவர்கள் தங்கள் தரவு எவ்வளவு தவறானது என்று தெரியவில்லை என்று கண்டறியப்பட்டது.
- மோசமான தரவு தரம் அமெரிக்க பொருளாதாரத்திற்கு ஆண்டுக்கு 1 3.1 டிரில்லியன் செலவாகிறது.
மதிப்பு
தொகுதி, வேகம், வெரைட்டி மற்றும் வேராசிட்டி பற்றி விவாதித்த பிறகு, பிக் டேட்டாவைப் பார்க்கும்போது மற்றொரு வி கணக்கில் எடுத்துக்கொள்ளப்பட வேண்டும், அதாவது மதிப்பு. பெரியதை அணுகுவது நல்லது மற்றும் நல்லதுதகவல்கள்ஆனாலும்நாம் அதை மதிப்பாக மாற்ற முடியாவிட்டால் அது பயனற்றது. இதை மதிப்பாக மாற்றுவதன் மூலம், பெரிய தரவை பகுப்பாய்வு செய்யும் நிறுவனங்களின் நன்மைகளை இது சேர்க்கிறதா? பிக் டேட்டாவில் செயல்படும் அமைப்பு அதிக ROI ஐ (முதலீட்டில் வருமானம்) அடைகிறதா? பிக் டேட்டாவில் பணியாற்றுவதன் மூலம் அது அவர்களின் லாபத்தை சேர்க்கும் வரை, அது பயனற்றது.
பிக் டேட்டாவைப் பற்றி மேலும் அறிய கீழேயுள்ள எங்கள் பெரிய தரவு வீடியோவைப் பார்க்கவும்:
தொடக்கக்காரர்களுக்கான பெரிய தரவு பயிற்சி | பெரிய தரவு என்றால் என்ன | எடுரேகா
வெரைட்டியில் விவாதிக்கப்பட்டபடி, ஒவ்வொரு நாளும் வெவ்வேறு வகையான தரவு உருவாக்கப்படுகிறது. எனவே, இப்போது தரவு வகைகளைப் புரிந்துகொள்வோம்:
பெரிய தரவு வகைகள்
பெரிய தரவு மூன்று வகைகளாக இருக்கலாம்:
- கட்டமைக்கப்பட்ட
- அரை கட்டமைக்கப்பட்ட
- கட்டமைக்கப்படாதது
கட்டமைக்கப்பட்ட
ஒரு நிலையான வடிவத்தில் சேமித்து செயலாக்கக்கூடிய தரவு கட்டமைக்கப்பட்ட தரவு என அழைக்கப்படுகிறது. ஒரு தொடர்புடைய தரவுத்தள மேலாண்மை அமைப்பில் (RDBMS) சேமிக்கப்பட்ட தரவு ‘கட்டமைக்கப்பட்ட’ தரவுகளின் ஒரு எடுத்துக்காட்டு. ஒரு நிலையான திட்டத்தை கொண்டிருப்பதால் கட்டமைக்கப்பட்ட தரவை செயலாக்குவது எளிது. இதுபோன்ற தரவை நிர்வகிக்க கட்டமைக்கப்பட்ட வினவல் மொழி (SQL) பெரும்பாலும் பயன்படுத்தப்படுகிறது.
அரை கட்டமைக்கப்பட்ட
அரை-கட்டமைக்கப்பட்ட தரவு என்பது ஒரு தரவு மாதிரியின் முறையான கட்டமைப்பைக் கொண்டிருக்காத ஒரு வகை தரவு, அதாவது ஒரு தொடர்புடைய டிபிஎம்எஸ்ஸில் அட்டவணை வரையறை, ஆனால் இருப்பினும் குறிச்சொற்கள் மற்றும் பிற குறிப்பான்கள் போன்ற சில நிறுவன பண்புகளை சொற்பொருள் கூறுகளை பிரிக்க எளிதாக்குகிறது ஆய்வு செய்ய. எக்ஸ்எம்எல் கோப்புகள் அல்லது JSON ஆவணங்கள் அரை கட்டமைக்கப்பட்ட தரவுகளின் எடுத்துக்காட்டுகள்.
கட்டமைக்கப்படாதது
அறியப்படாத படிவத்தைக் கொண்ட மற்றும் RDBMS இல் சேமிக்க முடியாத தரவு மற்றும் கட்டமைக்கப்பட்ட வடிவமாக மாற்றப்படாவிட்டால் பகுப்பாய்வு செய்ய முடியாது, இது கட்டமைக்கப்படாத தரவு என அழைக்கப்படுகிறது. உரை கோப்புகள் மற்றும் படங்கள், ஆடியோக்கள், வீடியோக்கள் போன்ற மல்டிமீடியா உள்ளடக்கங்கள் கட்டமைக்கப்படாத தரவுகளுக்கு எடுத்துக்காட்டு. கட்டமைக்கப்படாத தரவு மற்றவர்களை விட விரைவாக வளர்ந்து வருகிறது, வல்லுநர்கள் ஒரு நிறுவனத்தில் 80 சதவீத தரவு கட்டமைக்கப்படவில்லை என்று கூறுகிறார்கள்.
இப்போது வரை, பிக் டேட்டாவின் அறிமுகத்தை நான் உள்ளடக்கியுள்ளேன். மேலும், இந்த பிக் டேட்டா டுடோரியல் பிக் டேட்டாவில் எடுத்துக்காட்டுகள், பயன்பாடுகள் மற்றும் சவால்களைப் பற்றி பேசுகிறது.
பெரிய தரவுகளின் எடுத்துக்காட்டுகள்
தினமும் மில்லியன் கணக்கான பைட்டுகள் தரவைப் பதிவேற்றுகிறோம். உலகின் 90% தரவு கடந்த இரண்டு ஆண்டுகளில் உருவாக்கப்பட்டது.
- வால்மார்ட் விட அதிகமாக கையாளுகிறது 1 மில்லியன் ஒவ்வொரு மணி நேரமும் வாடிக்கையாளர் பரிவர்த்தனைகள்.
- பேஸ்புக் கடைகள், அணுகல்கள் மற்றும் பகுப்பாய்வு 30+ பெட்டாபைட்டுகள் பயனர் உருவாக்கிய தரவு.
- 230+ மில்லியன் ட்வீட்டுகள் ஒவ்வொரு நாளும் உருவாக்கப்படுகின்றன.
- விட 5 பில்லியன் உலகெங்கிலும் உள்ள மக்கள் மொபைல் போன்களில் அழைக்கிறார்கள், குறுஞ்செய்தி அனுப்புகிறார்கள், ட்வீட் செய்கிறார்கள் மற்றும் உலாவுகிறார்கள்.
- YouTube பயனர்கள் பதிவேற்றுகிறார்கள் 48 மணி நேரம் நாளின் ஒவ்வொரு நிமிடமும் புதிய வீடியோ.
- அமேசான் கையாளுகிறது 15 மில்லியன் தயாரிப்புகளை பரிந்துரைக்க வாடிக்கையாளர் கிளிக் ஒரு நாளைக்கு பயனர் தரவை ஸ்ட்ரீம் செய்க.
- 294 பில்லியன் மின்னஞ்சல்கள் ஒவ்வொரு நாளும் அனுப்பப்படுகின்றன. ஸ்பேம்களைக் கண்டறிய சேவைகள் இந்தத் தரவை பகுப்பாய்வு செய்கின்றன.
- நவீன கார்கள் நெருக்கமாக உள்ளன 100 சென்சார்கள் இது எரிபொருள் நிலை, டயர் அழுத்தம் போன்றவற்றை கண்காணிக்கிறது, ஒவ்வொரு வாகனமும் நிறைய சென்சார் தரவை உருவாக்குகிறது.
பெரிய தரவுகளின் பயன்பாடுகள்
பெரிய தரவு பயன்பாடுகளால் பயனடைகிற நபர்களைப் பற்றி பேசாமல் தரவைப் பற்றி பேச முடியாது. இன்று கிட்டத்தட்ட அனைத்து தொழில்களும் பிக் டேட்டா பயன்பாடுகளை ஒன்று அல்லது வேறு வழியில் கொண்டு வருகின்றன.
- சிறந்த உடல்நலம் : நோயாளியின் தரவின் பெட்டாபைட்டுகளைப் பயன்படுத்துவதன் மூலம், அமைப்பு அர்த்தமுள்ள தகவல்களைப் பிரித்தெடுக்கலாம், பின்னர் நோயாளியின் மோசமான நிலையை முன்கூட்டியே கணிக்கக்கூடிய பயன்பாடுகளை உருவாக்கலாம்.
- தொலை தொடர்பு : தொலைத் தொடர்புத் துறைகள் தகவல்களைச் சேகரித்து, பகுப்பாய்வு செய்து வெவ்வேறு பிரச்சினைகளுக்கு தீர்வுகளை வழங்குகின்றன. பிக் டேட்டா பயன்பாடுகளைப் பயன்படுத்துவதன் மூலம், தொலைத் தொடர்பு நிறுவனங்கள் தரவு பாக்கெட் இழப்பை கணிசமாகக் குறைக்க முடிந்தது, இது நெட்வொர்க்குகள் அதிக சுமை கொண்டால் நிகழ்கிறது, இதனால், தங்கள் வாடிக்கையாளர்களுக்கு தடையற்ற இணைப்பை வழங்குகிறது.
- சில்லறை : சில்லறை விற்பனையானது சில இறுக்கமான ஓரங்களைக் கொண்டுள்ளது, மேலும் இது பெரிய தரவுகளின் மிகப் பெரிய பயனாளிகளில் ஒன்றாகும். சில்லறை விற்பனையில் பெரிய தரவைப் பயன்படுத்துவதன் அழகு நுகர்வோர் நடத்தையைப் புரிந்துகொள்வதாகும். அமேசானின் பரிந்துரை இயந்திரம் நுகர்வோரின் உலாவல் வரலாற்றின் அடிப்படையில் ஆலோசனையை வழங்குகிறது.
- போக்குவரத்து கட்டுப்பாடு : உலகளவில் பல நகரங்களுக்கு போக்குவரத்து நெரிசல் ஒரு பெரிய சவாலாக உள்ளது. நகரங்கள் அதிக மக்கள் தொகை கொண்டதாக இருப்பதால் தரவு மற்றும் சென்சார்களின் பயனுள்ள பயன்பாடு போக்குவரத்தை சிறப்பாக நிர்வகிக்க முக்கியமாக இருக்கும்.
- உற்பத்தி : உற்பத்தித் துறையில் பெரிய தரவைப் பகுப்பாய்வு செய்வது கூறு குறைபாடுகளைக் குறைக்கலாம், தயாரிப்பு தரத்தை மேம்படுத்தலாம், செயல்திறனை அதிகரிக்கும் மற்றும் நேரத்தையும் பணத்தையும் மிச்சப்படுத்தும்.
- தேடல் தரம் : ஒவ்வொரு முறையும் நாங்கள் Google இலிருந்து தகவல்களைப் பிரித்தெடுக்கும்போது, அதற்கான தரவை ஒரே நேரத்தில் உருவாக்குகிறோம். கூகிள் இந்தத் தரவைச் சேமித்து அதன் தேடல் தரத்தை மேம்படுத்த அதைப் பயன்படுத்துகிறது.
யாரோ சரியாகச் சொன்னார்கள்: 'தோட்டத்தில் எல்லாம் ரோஸி அல்ல!' . இந்த பிக் டேட்டா டுடோரியலில் இப்போது வரை, பிக் டேட்டாவின் ரோஸி படத்தை உங்களுக்குக் காட்டியுள்ளேன். ஆனால் பெரிய தரவைப் பயன்படுத்துவது அவ்வளவு எளிதானது என்றால், எல்லா நிறுவனங்களும் இதில் முதலீடு செய்யும் என்று நீங்கள் நினைக்கவில்லையா? நான் உங்களுக்கு வெளிப்படையாகச் சொல்கிறேன், அது அப்படி இல்லை. நீங்கள் பிக் டேட்டாவுடன் பணிபுரியும் போது பல சவால்கள் உள்ளன.
ஜாவாவில் என்ன செய்கிறது
இப்போது நீங்கள் பிக் டேட்டா மற்றும் அதன் பல்வேறு அம்சங்களை நன்கு அறிந்திருக்கிறீர்கள், பிக் டேட்டா டுடோரியலில் இந்த வலைப்பதிவின் அடுத்த பகுதி பிக் டேட்டா எதிர்கொள்ளும் சில முக்கிய சவால்களில் சில வெளிச்சங்களை வெளிப்படுத்தும்.
def __init __ (self) மலைப்பாம்பு
பெரிய தரவுடன் சவால்கள்
பிக் டேட்டாவுடன் வரும் சில சவால்களை நான் உங்களுக்கு சொல்கிறேன்:
- தரவு தரம் - இங்கே பிரச்சினை 4வதுவி அதாவது வெராசிட்டி. இங்கே தரவு மிகவும் குழப்பமான, சீரற்ற மற்றும் முழுமையற்றது. அமெரிக்காவில் ஒவ்வொரு ஆண்டும் அழுக்கு தரவு நிறுவனங்களுக்கு 600 பில்லியன் டாலர் செலவாகும்.
- கண்டுபிடிப்பு - பிக் டேட்டாவில் நுண்ணறிவைக் கண்டுபிடிப்பது ஒரு வைக்கோலில் ஒரு ஊசியைக் கண்டுபிடிப்பது போன்றது. வடிவங்கள் மற்றும் நுண்ணறிவுகளைக் கண்டறிய மிகவும் சக்திவாய்ந்த வழிமுறைகளைப் பயன்படுத்தி பெட்டாபைட் தரவை பகுப்பாய்வு செய்வது மிகவும் கடினம்.
- சேமிப்பு - ஒரு நிறுவனத்திற்கு எவ்வளவு தரவு இருக்கிறதோ, அதை நிர்வகிப்பதில் சிக்கல்கள் மிகவும் சிக்கலானதாக மாறும். இங்கே எழும் கேள்வி “அதை எங்கே சேமிப்பது?”. எங்களுக்கு ஒரு சேமிப்பக அமைப்பு தேவை, இது தேவைக்கேற்ப எளிதாகவோ அல்லது குறைவாகவோ அளவிட முடியும்.
- பகுப்பாய்வு - பிக் டேட்டாவைப் பொறுத்தவரை, பெரும்பாலான நேரங்களில் நாம் எந்த வகையான தரவைக் கையாளுகிறோம் என்பது பற்றி எங்களுக்குத் தெரியாது, எனவே தரவை பகுப்பாய்வு செய்வது இன்னும் கடினம்.
- பாதுகாப்பு - தரவு மிகப்பெரிய அளவில் இருப்பதால், அதைப் பாதுகாப்பாக வைத்திருப்பது மற்றொரு சவால். இதில் பயனர் அங்கீகாரம், பயனரை அடிப்படையாகக் கொண்ட அணுகலைக் கட்டுப்படுத்துதல், தரவு அணுகல் வரலாறுகளைப் பதிவு செய்தல், தரவு குறியாக்கத்தின் சரியான பயன்பாடு போன்றவை அடங்கும்.
- திறமை இல்லாதது - முக்கிய நிறுவனங்களில் நிறைய பெரிய தரவுத் திட்டங்கள் உள்ளன, ஆனால் போதுமான அளவு டொமைன் அறிவைக் கொண்ட டெவலப்பர்கள், தரவு விஞ்ஞானிகள் மற்றும் ஆய்வாளர்களின் ஒரு அதிநவீன குழு இன்னும் ஒரு சவாலாக உள்ளது.
ஹடூப் டு மீட்பு
பிக் டேட்டா சவால்களைச் சமாளிக்க எங்களுக்கு ஒரு மீட்பர் இருக்கிறார் - அதன் ஹடூப் . ஹடூப் ஒரு திறந்த மூலமாகும், இது ஜாவா அடிப்படையிலான நிரலாக்க கட்டமைப்பாகும், இது விநியோகிக்கப்பட்ட கணினி சூழலில் மிகப் பெரிய தரவுத் தொகுப்புகளை சேமித்து செயலாக்குவதை ஆதரிக்கிறது. இது அப்பாச்சி மென்பொருள் அறக்கட்டளை நிதியுதவி செய்யும் அப்பாச்சி திட்டத்தின் ஒரு பகுதியாகும்.
ஹடூப் அதன் விநியோகிக்கப்பட்ட செயலாக்கத்துடன், பாரம்பரிய நிறுவன தரவுக் கிடங்கைக் காட்டிலும் பெரிய அளவிலான கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத தரவை மிகவும் திறமையாகக் கையாளுகிறது. ஆயிரக்கணக்கான பொருட்கள் வன்பொருள் முனைகளைக் கொண்ட கணினிகளில் பயன்பாடுகளை இயக்கவும், ஆயிரக்கணக்கான டெராபைட் தரவைக் கையாளவும் ஹடூப் சாத்தியமாக்குகிறது. நிறுவனங்கள் ஹடூப்பை ஏற்றுக்கொள்கின்றன, ஏனெனில் இது ஒரு திறந்த மூல மென்பொருள் மற்றும் பொருட்கள் வன்பொருளில் (உங்கள் தனிப்பட்ட கணினி) இயங்க முடியும்.பொருட்களின் வன்பொருள் மிகவும் மலிவானது என்பதால் ஆரம்ப செலவு சேமிப்பு வியத்தகுது. நிறுவனத் தரவு அதிகரிக்கும் போது, அதைச் சேமிக்க நீங்கள் பறக்கையில் மேலும் பல பொருட்களின் வன்பொருளைச் சேர்க்க வேண்டும், எனவே, ஹடூப் சிக்கனமானவர் என்பதை நிரூபிக்கிறது.கூடுதலாக, ஹடூப் அதன் பின்னால் ஒரு வலுவான அப்பாச்சி சமூகத்தைக் கொண்டுள்ளது, அது அதன் முன்னேற்றத்திற்கு தொடர்ந்து பங்களிக்கிறது.
முன்பு வாக்குறுதியளித்தபடி, பிக் டேட்டா டுடோரியலில் இந்த வலைப்பதிவின் மூலம், பிக் டேட்டாவில் அதிகபட்ச நுண்ணறிவுகளை நான் உங்களுக்கு வழங்கியுள்ளேன். இது பிக் டேட்டா டுடோரியலின் முடிவு. இப்போது, அடுத்த கட்டமாக ஹடூப்பை அறிந்து கற்றுக் கொள்ள வேண்டும். எங்களுக்கு ஒரு உள்ளது ஹடூப் டுடோரியலின் தொடர் முழுமையான ஹடூப் சுற்றுச்சூழல் அமைப்பு பற்றிய விரிவான அறிவை வழங்கும் வலைப்பதிவுகள்.
ஆல் தி பெஸ்ட், ஹேப்பி ஹடூப்பிங்!
பிக் டேட்டா என்றால் என்ன என்பதை இப்போது நீங்கள் புரிந்து கொண்டீர்கள், பாருங்கள் உலகெங்கிலும் பரவியுள்ள 250,000 க்கும் மேற்பட்ட திருப்தியான கற்றவர்களின் வலைப்பின்னலுடன் நம்பகமான ஆன்லைன் கற்றல் நிறுவனமான எடுரேகாவால். சில்லறை, சமூக மீடியா, விமான போக்குவரத்து, சுற்றுலா, நிதி களத்தில் நிகழ்நேர பயன்பாட்டு நிகழ்வுகளைப் பயன்படுத்தி எச்டிஎஃப்எஸ், நூல், வரைபடம், பன்றி, ஹைவ், ஹெபேஸ், ஓஸி, ஃப்ளூம் மற்றும் ஸ்கூப் ஆகியவற்றில் நிபுணர்களாக மாற எடூரெகா பிக் டேட்டா ஹடூப் சான்றிதழ் பயிற்சி பாடநெறி உதவுகிறது.
எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.
தொடர்புடைய இடுகைகள்: