உலகம் பெரிய தரவுகளின் சகாப்தத்தில் நுழைந்தவுடன், அதன் சேமிப்பின் தேவையும் அதிகரித்தது. இது 2010 வரை நிறுவனத் தொழில்களுக்கான முக்கிய சவாலாகவும் அக்கறையாகவும் இருந்தது. தரவைச் சேமிப்பதற்கான ஒரு கட்டமைப்பையும் தீர்வுகளையும் உருவாக்குவதில் முக்கிய கவனம் இருந்தது. இப்போது ஹடூப் மற்றும் பிற கட்டமைப்புகள் சேமிப்பக சிக்கலை வெற்றிகரமாக தீர்க்கும்போது, கவனம் இந்த தரவின் செயலாக்கத்திற்கு மாறிவிட்டது. டேட்டா சயின்ஸ் இங்கே ரகசிய சாஸ். ஹாலிவுட் அறிவியல் புனைகதை திரைப்படங்களில் நீங்கள் காணும் அனைத்து யோசனைகளும் உண்மையில் தரவு அறிவியலால் உண்மையில் மாறக்கூடும். தரவு அறிவியல் என்பது செயற்கை நுண்ணறிவின் எதிர்காலம். எனவே, தரவு அறிவியல் என்றால் என்ன, அது உங்கள் வணிகத்திற்கு எவ்வாறு மதிப்பு சேர்க்க முடியும் என்பதைப் புரிந்துகொள்வது மிகவும் முக்கியம்.
எடுரேகா 2019 தொழில்நுட்ப தொழில் வழிகாட்டி முடிந்தது! வழிகாட்டியில் வெப்பமான வேலை பாத்திரங்கள், துல்லியமான கற்றல் பாதைகள், தொழில் பார்வை மற்றும் பல. பதிவிறக்க Tamil இப்போது.இந்த வலைப்பதிவில், நான் பின்வரும் தலைப்புகளை உள்ளடக்குவேன்.
- தரவு அறிவியல் என்றால் என்ன?
- தரவு அறிவியல் ஏன்?
- தரவு விஞ்ஞானி யார்?
- வணிக நுண்ணறிவு (பிஐ) மற்றும் தரவு அறிவியல் ஆகியவற்றிலிருந்து இது எவ்வாறு வேறுபடுகிறது?
- பயன்பாட்டு வழக்கின் உதவியுடன் தரவு அறிவியலின் வாழ்க்கைச் சுழற்சி
இந்த வலைப்பதிவின் முடிவில், தரவு அறிவியல் என்றால் என்ன என்பதையும், நம்மைச் சுற்றியுள்ள சிக்கலான மற்றும் பெரிய தரவுகளின் தொகுப்பிலிருந்து அர்த்தமுள்ள நுண்ணறிவுகளைப் பெறுவதில் அதன் பங்கு என்ன என்பதையும் நீங்கள் புரிந்து கொள்ள முடியும்.தரவு அறிவியலில் ஆழமான அறிவைப் பெற, நீங்கள் நேரலைக்கு பதிவு செய்யலாம் 24/7 ஆதரவு மற்றும் வாழ்நாள் அணுகலுடன் எடுரேகாவால்.
தரவு அறிவியல் என்றால் என்ன?
தரவு விஞ்ஞானம் என்பது பல்வேறு கருவிகள், வழிமுறைகள் மற்றும் இயந்திர கற்றல் கொள்கைகளின் கலவையாகும், இது மூல தரவுகளிலிருந்து மறைக்கப்பட்ட வடிவங்களைக் கண்டறியும் குறிக்கோளுடன் உள்ளது. ஆனால் புள்ளிவிவர வல்லுநர்கள் பல ஆண்டுகளாக என்ன செய்கிறார்கள் என்பதிலிருந்து இது எவ்வாறு வேறுபடுகிறது?
விளக்குவதற்கும் கணிப்பதற்கும் உள்ள வித்தியாசத்தில் பதில் உள்ளது.
மேலே உள்ள படத்திலிருந்து நீங்கள் பார்க்க முடியும் என, ஒரு தரவு ஆய்வாளர்தரவின் வரலாற்றை செயலாக்குவதன் மூலம் என்ன நடக்கிறது என்பதை பொதுவாக விளக்குகிறது. மறுபுறம், தரவு விஞ்ஞானி அதிலிருந்து நுண்ணறிவுகளைக் கண்டறிய ஆய்வு பகுப்பாய்வு செய்வதோடு மட்டுமல்லாமல், எதிர்காலத்தில் ஒரு குறிப்பிட்ட நிகழ்வின் நிகழ்வை அடையாளம் காண பல்வேறு மேம்பட்ட இயந்திர கற்றல் வழிமுறைகளையும் பயன்படுத்துகிறார். ஒரு தரவு விஞ்ஞானி பல கோணங்களில் இருந்து தரவைப் பார்ப்பார், சில நேரங்களில் முன்பு அறியப்படாத கோணங்கள்.
எனவே, தரவு அறிவியல் முதன்மையாக முன்கணிப்பு காரண பகுப்பாய்வு, பரிந்துரைக்கப்பட்ட பகுப்பாய்வு (முன்கணிப்பு மற்றும் முடிவு அறிவியல்) மற்றும் இயந்திர கற்றல் ஆகியவற்றைப் பயன்படுத்தி முடிவுகளையும் கணிப்புகளையும் எடுக்கப் பயன்படுகிறது.
- முன்கணிப்பு காரண பகுப்பாய்வு - எதிர்காலத்தில் ஒரு குறிப்பிட்ட நிகழ்வின் சாத்தியக்கூறுகளை கணிக்கக்கூடிய ஒரு மாதிரியை நீங்கள் விரும்பினால், நீங்கள் முன்கணிப்பு காரண பகுப்பாய்வுகளைப் பயன்படுத்த வேண்டும். நீங்கள் கிரெடிட்டில் பணத்தை வழங்குகிறீர்கள் எனில், வாடிக்கையாளர்கள் எதிர்கால கடன் தொகையை சரியான நேரத்தில் செலுத்துவதற்கான சாத்தியக்கூறு உங்களுக்கு கவலையாக உள்ளது. எதிர்கால கொடுப்பனவுகள் சரியான நேரத்தில் வருமா இல்லையா என்பதைக் கணிக்க வாடிக்கையாளரின் கட்டண வரலாற்றில் முன்கணிப்பு பகுப்பாய்வுகளைச் செய்யக்கூடிய ஒரு மாதிரியை இங்கே நீங்கள் உருவாக்கலாம்.
- பரிந்துரைக்கப்பட்ட பகுப்பாய்வு: அதன் சொந்த முடிவுகளை எடுக்கும் புத்திசாலித்தனத்தையும், அதை மாறும் அளவுருக்கள் மூலம் மாற்றும் திறனையும் கொண்ட ஒரு மாதிரியை நீங்கள் விரும்பினால், அதற்கான பரிந்துரைப்பு பகுப்பாய்வு உங்களுக்கு நிச்சயமாக தேவை. ஒப்பீட்டளவில் இந்த புதிய புலம் என்பது ஆலோசனைகளை வழங்குவதாகும். வேறு வார்த்தைகளில் கூறுவதானால், இது பரிந்துரைக்கப்பட்ட செயல்கள் மற்றும் அதனுடன் தொடர்புடைய விளைவுகளை முன்னறிவிப்பது மட்டுமல்லாமல் பரிந்துரைக்கிறது.
இதற்கு சிறந்த எடுத்துக்காட்டு கூகிளின் சுய-ஓட்டுநர் கார், நான் முன்பு விவாதித்தேன். வாகனங்கள் சேகரித்த தரவுகளை சுய-ஓட்டுநர் கார்களுக்கு பயிற்சி அளிக்க பயன்படுத்தலாம். இந்தத் தரவில் உளவுத்துறையைக் கொண்டுவர நீங்கள் வழிமுறைகளை இயக்கலாம். இது உங்கள் காரை எப்போது திரும்ப வேண்டும், எந்த பாதையில் செல்ல வேண்டும் போன்ற முடிவுகளை எடுக்க உதவும்,எப்போது மெதுவாக அல்லது வேகப்படுத்த வேண்டும்.
- கணிப்புகளைச் செய்வதற்கான இயந்திர கற்றல் - உங்களிடம் ஒரு நிதி நிறுவனத்தின் பரிவர்த்தனை தரவு இருந்தால், எதிர்கால போக்கை தீர்மானிக்க ஒரு மாதிரியை உருவாக்க வேண்டும் என்றால், இயந்திர கற்றல் வழிமுறைகள் சிறந்த பந்தயம். இது மேற்பார்வையிடப்பட்ட கற்றலின் முன்னுதாரணத்தின் கீழ் வருகிறது. உங்கள் கணினிகளைப் பயிற்றுவிக்கக்கூடிய தரவை நீங்கள் ஏற்கனவே வைத்திருப்பதால் இது மேற்பார்வை என அழைக்கப்படுகிறது. எடுத்துக்காட்டாக, மோசடி கண்டறிதல் மாதிரியை மோசடி கொள்முதல் பற்றிய வரலாற்று பதிவைப் பயன்படுத்தி பயிற்சி அளிக்க முடியும்.
- முறை கண்டுபிடிப்புக்கான இயந்திர கற்றல் - நீங்கள் கணிப்புகளைச் செய்யக்கூடிய அளவுருக்கள் உங்களிடம் இல்லையென்றால், தரவுத்தொகுப்பில் மறைக்கப்பட்ட வடிவங்களை நீங்கள் கண்டுபிடிக்க வேண்டும், அர்த்தமுள்ள கணிப்புகளைச் செய்ய முடியும். இது மேற்பார்வை செய்யப்படாத மாதிரியைத் தவிர வேறொன்றுமில்லை, ஏனெனில் உங்களிடம் குழுவாக எந்த முன் லேபிள்களும் இல்லை. முறை கண்டுபிடிப்புக்கு பயன்படுத்தப்படும் மிகவும் பொதுவான வழிமுறை க்ளஸ்டரிங் ஆகும்.
நீங்கள் ஒரு தொலைபேசி நிறுவனத்தில் பணிபுரிகிறீர்கள் என்று சொல்லலாம், ஒரு பிராந்தியத்தில் கோபுரங்களை வைப்பதன் மூலம் நீங்கள் ஒரு பிணையத்தை நிறுவ வேண்டும். பின்னர், அந்த கோபுர இருப்பிடங்களைக் கண்டறிய நீங்கள் கிளஸ்டரிங் நுட்பத்தைப் பயன்படுத்தலாம், இது அனைத்து பயனர்களும் உகந்த சமிக்ஞை வலிமையைப் பெறுவதை உறுதி செய்யும்.
தரவு பகுப்பாய்வு மற்றும் தரவு அறிவியலுக்கு மேலே விவரிக்கப்பட்ட அணுகுமுறைகளின் விகிதம் எவ்வாறு வேறுபடுகிறது என்பதைப் பார்ப்போம். கீழேயுள்ள படத்தில் நீங்கள் காணக்கூடியது, தரவு பகுப்பாய்வுஒரு குறிப்பிட்ட அளவிற்கு விளக்க பகுப்பாய்வு மற்றும் முன்கணிப்பு ஆகியவை அடங்கும். மறுபுறம், தரவு அறிவியல் என்பது முன்கணிப்பு காரண பகுப்பாய்வு மற்றும் இயந்திர கற்றல் பற்றியது.
ஜாவாவில் ஓவர்லோடிங் மற்றும் மேலெழுதும்
டேட்டா சயின்ஸ் என்றால் என்னவென்று இப்போது உங்களுக்குத் தெரியும், முதலில் அது ஏன் தேவைப்பட்டது என்பதற்கான காரணத்தைக் கண்டுபிடிப்போம்.
தரவு அறிவியல் ஏன்?
- பாரம்பரியமாக, எங்களிடம் இருந்த தரவு பெரும்பாலும் கட்டமைக்கப்பட்ட மற்றும் சிறிய அளவில் இருந்தது, இது எளிய BI கருவிகளைப் பயன்படுத்தி பகுப்பாய்வு செய்யப்படலாம்.இல் உள்ள தரவு போலல்லாமல்பாரம்பரிய அமைப்புகள் பெரும்பாலும் கட்டமைக்கப்பட்டவை, இன்று பெரும்பாலான தரவு கட்டமைக்கப்படாதது அல்லது அரை கட்டமைக்கப்பட்டவை. கீழே கொடுக்கப்பட்டுள்ள படத்தில் உள்ள தரவு போக்குகளைப் பார்ப்போம், இது 2020 ஆம் ஆண்டில், 80% க்கும் அதிகமான தரவு கட்டமைக்கப்படாது என்பதைக் காட்டுகிறது.
இந்தத் தரவு நிதி பதிவுகள், உரை கோப்புகள், மல்டிமீடியா படிவங்கள், சென்சார்கள் மற்றும் கருவிகள் போன்ற பல்வேறு மூலங்களிலிருந்து உருவாக்கப்படுகிறது. எளிய BI கருவிகள் இந்த பெரிய அளவு மற்றும் பல்வேறு தரவை செயலாக்க திறன் கொண்டவை அல்ல. இதனால்தான் செயலாக்க, பகுப்பாய்வு மற்றும் அர்த்தமுள்ள நுண்ணறிவுகளை வரைவதற்கு எங்களுக்கு மிகவும் சிக்கலான மற்றும் மேம்பட்ட பகுப்பாய்வு கருவிகள் மற்றும் வழிமுறைகள் தேவை.
டேட்டா சயின்ஸ் மிகவும் பிரபலமடைய ஒரே காரணம் இதுவல்ல. ஆழமாக தோண்டி பல்வேறு களங்களில் தரவு அறிவியல் எவ்வாறு பயன்படுத்தப்படுகிறது என்பதைப் பார்ப்போம்.
- வாடிக்கையாளரின் கடந்த உலாவல் வரலாறு, கொள்முதல் வரலாறு, வயது மற்றும் வருமானம் போன்ற தரவுகளிலிருந்து உங்கள் வாடிக்கையாளர்களின் துல்லியமான தேவைகளைப் புரிந்து கொள்ள முடிந்தால் எப்படி. இந்த எல்லா தரவையும் உங்களிடம் முன்பே வைத்திருந்தீர்கள் என்பதில் சந்தேகமில்லை, ஆனால் இப்போது பரந்த அளவு மற்றும் பல்வேறு தரவுகளுடன், நீங்கள் மாதிரிகளை மிகவும் திறம்பட பயிற்றுவிக்கலாம் மற்றும் தயாரிப்பை உங்கள் வாடிக்கையாளர்களுக்கு மிகவும் துல்லியமாக பரிந்துரைக்கலாம். இது உங்கள் நிறுவனத்திற்கு அதிக வியாபாரத்தைக் கொடுக்கும் என்பதால் இது ஆச்சரியமாக இருக்காது?
- தரவு அறிவியலின் பங்கைப் புரிந்துகொள்ள வேறுபட்ட காட்சியை எடுத்துக் கொள்வோம் முடிவெடுப்பது.உங்களை வீட்டிற்கு ஓட்டுவதற்கான புத்திசாலித்தனம் உங்கள் காரில் இருந்தால் எப்படி? சுய-ஓட்டுநர் கார்கள் அதன் சுற்றுப்புறங்களின் வரைபடத்தை உருவாக்க ரேடார்கள், கேமராக்கள் மற்றும் ஒளிக்கதிர்கள் உள்ளிட்ட சென்சார்களிடமிருந்து நேரடி தரவை சேகரிக்கின்றன. இந்தத் தரவின் அடிப்படையில், எப்போது வேகப்படுத்த வேண்டும், எப்போது வேகப்படுத்த வேண்டும், எப்போது முந்திக்கொள்ள வேண்டும், எங்கு திரும்ப வேண்டும் - மேம்பட்ட இயந்திர கற்றல் வழிமுறைகளைப் பயன்படுத்துதல் போன்ற முடிவுகளை இது எடுக்கிறது.
- முன்கணிப்பு பகுப்பாய்வுகளில் தரவு அறிவியல் எவ்வாறு பயன்படுத்தப்படலாம் என்பதைப் பார்ப்போம். வானிலை முன்னறிவிப்பை ஒரு உதாரணமாக எடுத்துக்கொள்வோம். மாதிரிகள் உருவாக்க கப்பல்கள், விமானம், ரேடார்கள், செயற்கைக்கோள்கள் ஆகியவற்றிலிருந்து தரவை சேகரித்து பகுப்பாய்வு செய்யலாம். இந்த மாதிரிகள் வானிலை முன்னறிவிப்பது மட்டுமல்லாமல், எந்தவொரு இயற்கை பேரழிவுகளும் ஏற்படும் என்று கணிக்க உதவும். முன்பே பொருத்தமான நடவடிக்கைகளை எடுக்கவும், பல விலைமதிப்பற்ற உயிர்களை காப்பாற்றவும் இது உங்களுக்கு உதவும்.
தரவு அறிவியல் அதன் தோற்றத்தை உருவாக்கும் அனைத்து களங்களையும் காண கீழேயுள்ள விளக்கப்படத்தைப் பார்ப்போம்.
தரவு விஞ்ஞானி யார்?
தரவு விஞ்ஞானிகளில் பல வரையறைகள் உள்ளன. எளிமையான சொற்களில், தரவு விஞ்ஞானி என்பது தரவு அறிவியல் கலையை கடைப்பிடிப்பவர்.'தரவு விஞ்ஞானி' என்ற சொல் உள்ளதுஒரு தரவு விஞ்ஞானி புள்ளிவிவரங்கள் அல்லது கணிதம் என்பதை விஞ்ஞான துறைகள் மற்றும் பயன்பாடுகளிலிருந்து நிறைய தகவல்களை ஈர்க்கிறார் என்ற உண்மையை கருத்தில் கொண்ட பிறகு உருவாக்கப்பட்டது.
தரவு விஞ்ஞானி என்ன செய்வார்?
தரவு விஞ்ஞானிகள் சில விஞ்ஞான துறைகளில் தங்கள் வலுவான நிபுணத்துவத்துடன் சிக்கலான தரவு சிக்கல்களை சிதைப்பவர்கள். அவர்கள் கணிதம், புள்ளிவிவரம், கணினி அறிவியல் போன்ற பல கூறுகளுடன் வேலை செய்கிறார்கள் (அவர்கள் இந்த அனைத்து துறைகளிலும் நிபுணராக இல்லாவிட்டாலும்).ஒரு நிறுவனத்தின் வளர்ச்சி மற்றும் மேம்பாட்டிற்கு முக்கியமான தீர்வுகளை கண்டுபிடிப்பதிலும் முடிவுகளை எட்டுவதிலும் அவை சமீபத்திய தொழில்நுட்பங்களைப் பயன்படுத்துகின்றன. கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத வடிவங்களிலிருந்து கிடைக்கக்கூடிய மூல தரவுகளுடன் ஒப்பிடும்போது தரவு விஞ்ஞானிகள் தரவை மிகவும் பயனுள்ள வடிவத்தில் வழங்குகிறார்கள்.
தரவு விஞ்ஞானியைப் பற்றி மேலும் அறிய நீங்கள் இந்த கட்டுரையைப் பார்க்கலாம்
மேலும் நகரும், இப்போது BI பற்றி விவாதிக்கலாம். பிசினஸ் இன்டலிஜென்ஸ் (பிஐ) பற்றியும் நீங்கள் கேள்விப்பட்டிருக்கலாம் என்று நான் நம்புகிறேன். பெரும்பாலும் தரவு அறிவியல் BI உடன் குழப்பமடைகிறது. நான் சில சுருக்கமாகவும் தெளிவாகவும் கூறுவேன்இரண்டிற்கும் இடையிலான முரண்பாடுகள் சிறந்த புரிதலைப் பெற உங்களுக்கு உதவும். பார்ப்போம்.
பிசினஸ் இன்டலிஜென்ஸ் (பிஐ) வெர்சஸ் டேட்டா சயின்ஸ்
- வணிக நுண்ணறிவு (பிஐ) அடிப்படையில் வணிகப் போக்குகளை விவரிக்க பின்னடைவு மற்றும் நுண்ணறிவைக் கண்டறிய முந்தைய தரவை பகுப்பாய்வு செய்கிறது. வெளிப்புற மற்றும் உள் மூலங்களிலிருந்து தரவை எடுக்கவும், அதைத் தயாரிக்கவும், அதில் வினவல்களை இயக்கவும் மற்றும் டாஷ்போர்டுகளை உருவாக்கவும் BI உங்களுக்கு உதவுகிறதுகாலாண்டு வருவாய் பகுப்பாய்வுஅல்லது வணிக சிக்கல்கள். எதிர்காலத்தில் சில நிகழ்வுகளின் தாக்கத்தை BI மதிப்பீடு செய்யலாம்.
- தரவு அறிவியல் என்பது மிகவும் முன்னோக்கு நோக்குடைய அணுகுமுறையாகும், இது கடந்த கால அல்லது தற்போதைய தரவுகளை பகுப்பாய்வு செய்வதிலும், தகவலறிந்த முடிவுகளை எடுக்கும் நோக்கத்துடன் எதிர்கால விளைவுகளை கணிப்பதிலும் கவனம் செலுத்தும் ஒரு ஆய்வு வழி. “என்ன” மற்றும் “எப்படி” நிகழ்வுகள் நிகழ்கின்றன என்ற திறந்தநிலை கேள்விகளுக்கு இது பதிலளிக்கிறது.
சில மாறுபட்ட அம்சங்களைப் பார்ப்போம்.
அம்சங்கள் | வணிக நுண்ணறிவு (BI) | தரவு அறிவியல் |
தரவு மூலங்கள் | கட்டமைக்கப்பட்ட (பொதுவாக SQL, பெரும்பாலும் தரவுக் கிடங்கு) | கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத இரண்டும் (பதிவுகள், மேகக்கணி தரவு, SQL, NoSQL, உரை) |
அணுகுமுறை | புள்ளிவிவரம் மற்றும் காட்சிப்படுத்தல் | புள்ளிவிவரம், இயந்திர கற்றல், வரைபட பகுப்பாய்வு, நரம்பியல் மொழியியல் நிரலாக்க (என்.எல்.பி) |
கவனம் செலுத்துங்கள் | கடந்த காலமும் நிகழ்காலமும் | தற்போதைய மற்றும் எதிர்கால |
கருவிகள் | பென்டாஹோ, மைக்ரோசாப்ட் பிஐ,QlikView, ஆர் | ரேபிட்மினர், பிக்எம்எல், வெக்கா, ஆர் |
இது தரவு அறிவியல் என்றால் என்ன, இப்போது தரவு அறிவியலின் வாழ்க்கைச் சுழற்சியைப் புரிந்துகொள்வோம்.
தரவு அறிவியல் திட்டங்களில் செய்யப்படும் ஒரு பொதுவான தவறு, தரவு சேகரிப்பு மற்றும் பகுப்பாய்விற்கு விரைந்து செல்வது, தேவைகளைப் புரிந்து கொள்ளாமல் அல்லது வணிக சிக்கலை சரியாக வடிவமைக்காமல். எனவே, திட்டத்தின் சீரான செயல்பாட்டை உறுதிப்படுத்த தரவு அறிவியலின் வாழ்க்கைச் சுழற்சி முழுவதும் அனைத்து கட்டங்களையும் நீங்கள் பின்பற்றுவது மிகவும் முக்கியம்.
தரவு அறிவியலின் வாழ்க்கை சுழற்சி
தரவு அறிவியல் வாழ்க்கை சுழற்சியின் முக்கிய கட்டங்களின் சுருக்கமான பார்வை இங்கே:
கட்டம் 1 - கண்டுபிடிப்பு: நீங்கள் திட்டத்தைத் தொடங்குவதற்கு முன், பல்வேறு விவரக்குறிப்புகள், தேவைகள், முன்னுரிமைகள் மற்றும் தேவையான பட்ஜெட்டைப் புரிந்துகொள்வது அவசியம். சரியான கேள்விகளைக் கேட்கும் திறனை நீங்கள் கொண்டிருக்க வேண்டும்.திட்டத்தை ஆதரிக்க மக்கள், தொழில்நுட்பம், நேரம் மற்றும் தரவு ஆகியவற்றின் அடிப்படையில் தேவையான ஆதாரங்கள் உங்களிடம் இருக்கிறதா என்று இங்கே மதிப்பீடு செய்கிறீர்கள்.இந்த கட்டத்தில், நீங்கள் வணிக சிக்கலை வடிவமைக்க வேண்டும் மற்றும் சோதிக்க ஆரம்ப கருதுகோள்களை (IH) உருவாக்க வேண்டும்.
கட்டம் 2 - தரவு தயாரித்தல்: இந்த கட்டத்தில், உங்களுக்கு பகுப்பாய்வு சாண்ட்பாக்ஸ் தேவைப்படுகிறது, இதில் திட்டத்தின் முழு காலத்திற்கும் நீங்கள் பகுப்பாய்வுகளைச் செய்யலாம். மாடலிங் செய்வதற்கு முன் நீங்கள் ஆராய வேண்டும், முன் செயலாக்கம் மற்றும் நிபந்தனை தரவு. மேலும், சாண்ட்பாக்ஸில் தரவைப் பெற நீங்கள் ETLT (பிரித்தெடுத்தல், உருமாற்றம், சுமை மற்றும் உருமாற்றம்) செய்வீர்கள். கீழே உள்ள புள்ளிவிவர பகுப்பாய்வு ஓட்டத்தைப் பார்ப்போம்.
தரவு சுத்தம், மாற்றம் மற்றும் காட்சிப்படுத்தல் ஆகியவற்றிற்கு நீங்கள் R ஐப் பயன்படுத்தலாம். இது வெளிநாட்டினரைக் கண்டுபிடித்து மாறிகள் இடையே ஒரு உறவை ஏற்படுத்த உதவும்.நீங்கள் தரவை சுத்தம் செய்து தயாரித்தவுடன், ஆய்வு செய்ய வேண்டிய நேரம் இதுபகுப்பாய்வுஅதன் மீது. அதை நீங்கள் எவ்வாறு அடையலாம் என்று பார்ப்போம்.
கட்டம் 3 - மாதிரி திட்டமிடல்: இங்கே, மாறிகள் இடையே உறவுகளை வரைய முறைகள் மற்றும் நுட்பங்களை நீங்கள் தீர்மானிப்பீர்கள்.இந்த உறவுகள் அடுத்த கட்டத்தில் நீங்கள் செயல்படுத்தும் வழிமுறைகளுக்கான தளத்தை அமைக்கும்.பல்வேறு புள்ளிவிவர சூத்திரங்கள் மற்றும் காட்சிப்படுத்தல் கருவிகளைப் பயன்படுத்தி நீங்கள் ஆய்வு தரவு பகுப்பாய்வு (EDA) ஐப் பயன்படுத்துவீர்கள்.
பல்வேறு மாதிரி திட்டமிடல் கருவிகளைப் பார்ப்போம்.
- ஆர் மாடலிங் திறன்களின் முழுமையான தொகுப்பைக் கொண்டுள்ளது மற்றும் விளக்க மாதிரிகள் உருவாக்க ஒரு நல்ல சூழலை வழங்குகிறது.
- SQL பகுப்பாய்வு சேவைகள் பொதுவான தரவு சுரங்க செயல்பாடுகள் மற்றும் அடிப்படை முன்கணிப்பு மாதிரிகள் பயன்படுத்தி தரவுத்தள பகுப்பாய்வுகளை செய்ய முடியும்.
- SAS / ACCESS ஹடூப்பிலிருந்து தரவை அணுக பயன்படுத்தலாம் மற்றும் மீண்டும் மீண்டும் செய்யக்கூடிய மற்றும் மீண்டும் பயன்படுத்தக்கூடிய மாதிரி ஓட்ட வரைபடங்களை உருவாக்க பயன்படுகிறது.
இருப்பினும், பல கருவிகள் சந்தையில் உள்ளன, ஆனால் ஆர் என்பது பொதுவாக பயன்படுத்தப்படும் கருவி.
இப்போது உங்கள் தரவின் தன்மை பற்றிய நுண்ணறிவுகளைப் பெற்றுள்ளீர்கள், மேலும் வழிமுறைகளைப் பயன்படுத்த முடிவு செய்துள்ளீர்கள். அடுத்த கட்டத்தில், நீங்கள் செய்வீர்கள்விண்ணப்பிக்கவும்வழிமுறை மற்றும் ஒரு மாதிரியை உருவாக்குதல்.
கட்டம் 4 - மாதிரி கட்டிடம்: இந்த கட்டத்தில், பயிற்சி மற்றும் சோதனை நோக்கங்களுக்காக தரவுத்தொகுப்புகளை உருவாக்குவீர்கள். இங்கே yஉங்கள் தற்போதைய கருவிகள் மாதிரிகளை இயக்குவதற்கு போதுமானதா அல்லது அதற்கு மிகவும் வலுவான சூழல் (வேகமான மற்றும் இணையான செயலாக்கம் போன்றவை) தேவையா என்பதை கருத்தில் கொள்ள வேண்டும். மாதிரியை உருவாக்க வகைப்பாடு, சங்கம் மற்றும் கிளஸ்டரிங் போன்ற பல்வேறு கற்றல் நுட்பங்களை நீங்கள் பகுப்பாய்வு செய்வீர்கள்.
பின்வரும் கருவிகள் மூலம் நீங்கள் மாதிரி கட்டிடத்தை அடையலாம்.
கட்டம் 5 - செயல்படுதல்: இந்த கட்டத்தில், நீங்கள் இறுதி அறிக்கைகள், விளக்கங்கள், குறியீடு மற்றும் தொழில்நுட்ப ஆவணங்களை வழங்குகிறீர்கள்.கூடுதலாக, சில நேரங்களில் ஒரு பைலட் திட்டமும் நிகழ்நேர உற்பத்தி சூழலில் செயல்படுத்தப்படுகிறது. இது முழு வரிசைப்படுத்தலுக்கு முன் சிறிய அளவிலான செயல்திறன் மற்றும் பிற தொடர்புடைய தடைகள் பற்றிய தெளிவான படத்தை உங்களுக்கு வழங்கும்.
கட்டம் 6 results முடிவுகளை தொடர்பு கொள்ளுங்கள்: முதல் கட்டத்தில் நீங்கள் திட்டமிட்டிருந்த உங்கள் இலக்கை நீங்கள் அடைய முடிந்ததா என்பதை இப்போது மதிப்பீடு செய்வது முக்கியம். எனவே, கடைசி கட்டத்தில், நீங்கள் அனைத்து முக்கிய கண்டுபிடிப்புகளையும் அடையாளம் கண்டு, பங்குதாரர்களுடன் தொடர்புகொண்டு, முடிவுகளை தீர்மானிக்கிறீர்கள்திட்டத்தின் 1 ஆம் கட்டத்தில் உருவாக்கப்பட்ட அளவுகோல்களின் அடிப்படையில் ஒரு வெற்றி அல்லது தோல்வி.
இப்போது, மேலே விவரிக்கப்பட்ட பல்வேறு கட்டங்களை உங்களுக்கு விளக்க ஒரு வழக்கு ஆய்வு செய்வேன்.
வழக்கு ஆய்வு: நீரிழிவு தடுப்பு
நீரிழிவு நோய் ஏற்படுவதை நாம் கணித்து, அதைத் தடுக்க முன்பே தகுந்த நடவடிக்கைகளை எடுக்க முடிந்தால் என்ன செய்வது?
இந்த பயன்பாட்டு வழக்கில், நாம் முன்னர் விவாதித்த முழு வாழ்க்கைச் சுழற்சியையும் நீரிழிவு நோய் பயன்படுத்துவதைக் கணிப்போம். பல்வேறு படிகளைப் பார்ப்போம்.
html மற்றும் xml இடையே வேறுபாடு
படி 1:
- முதலில்,மருத்துவ வரலாற்றின் அடிப்படையில் தரவை சேகரிப்போம்கட்டம் 1 இல் விவாதிக்கப்பட்ட நோயாளியின். கீழே உள்ள மாதிரி தரவை நீங்கள் குறிப்பிடலாம்.
- நீங்கள் பார்க்க முடியும் என, கீழே குறிப்பிட்டுள்ளபடி எங்களிடம் பல்வேறு பண்புக்கூறுகள் உள்ளன.
பண்புக்கூறுகள்:
- npreg - கர்ப்பிணி எத்தனை முறை
- குளுக்கோஸ் - பிளாஸ்மா குளுக்கோஸ் செறிவு
- பிபி - இரத்த அழுத்தம்
- தோல் - ட்ரைசெப்ஸ் தோல் மடங்கு தடிமன்
- bmi - உடல் நிறை குறியீட்டு
- ped - நீரிழிவு வம்சாவளி செயல்பாடு
- வயது - வயது
- வருமானம் - வருமானம்
படி 2:
- இப்போது, எங்களிடம் தரவு கிடைத்ததும், தரவு பகுப்பாய்விற்கான தரவை சுத்தம் செய்து தயாரிக்க வேண்டும்.
- இந்தத் தரவு காணாமல் போன மதிப்புகள், வெற்று நெடுவரிசைகள், திடீர் மதிப்புகள் மற்றும் தவறான தரவு வடிவம் போன்ற பல முரண்பாடுகளைக் கொண்டுள்ளது, அவை சுத்தம் செய்யப்பட வேண்டும்.
- இங்கே, வெவ்வேறு பண்புகளின் கீழ் தரவை ஒரே அட்டவணையில் ஒழுங்கமைத்துள்ளோம் - இது மிகவும் கட்டமைக்கப்பட்டதாக தோன்றுகிறது.
- கீழே உள்ள மாதிரி தரவைப் பார்ப்போம்.
இந்தத் தரவு நிறைய முரண்பாடுகளைக் கொண்டுள்ளது.
- நெடுவரிசையில் npreg , “ஒன்று” இல் எழுதப்பட்டுள்ளதுசொற்கள்,அதேசமயம் அது 1 போன்ற எண் வடிவத்தில் இருக்க வேண்டும்.
- நெடுவரிசையில் பிபி மதிப்புகளில் ஒன்று 6600 என்பது சாத்தியமற்றது (குறைந்தது மனிதர்களுக்கு) பிபி போன்ற பெரிய மதிப்புக்கு செல்ல முடியாது.
- நீங்கள் பார்க்க முடியும் என வருமானம் நெடுவரிசை காலியாக உள்ளது மற்றும் நீரிழிவு நோயைக் கணிப்பதில் எந்த அர்த்தமும் இல்லை. எனவே, அதை இங்கே வைத்திருப்பது தேவையற்றது மற்றும் அட்டவணையில் இருந்து அகற்றப்பட வேண்டும்.
- எனவே, வெளியீட்டாளர்களை அகற்றி, பூஜ்ய மதிப்புகளை நிரப்புவதன் மூலம் மற்றும் தரவு வகையை இயல்பாக்குவதன் மூலம் இந்தத் தரவை சுத்தம் செய்து முன் செயலாக்குவோம். நீங்கள் நினைவில் வைத்திருந்தால், இது எங்கள் இரண்டாம் கட்டமாகும், இது தரவு முன் செயலாக்கம் ஆகும்.
- இறுதியாக, கீழே காட்டப்பட்டுள்ளபடி சுத்தமான தரவைப் பெறுகிறோம், அவை பகுப்பாய்விற்குப் பயன்படுத்தப்படலாம்.
படி 3:
3 ஆம் கட்டத்தில் முன்னர் விவாதித்தபடி இப்போது சில பகுப்பாய்வுகளை செய்வோம்.
- முதலில், தரவை பகுப்பாய்வு சாண்ட்பாக்ஸில் ஏற்றுவோம், அதில் பல்வேறு புள்ளிவிவர செயல்பாடுகளைப் பயன்படுத்துவோம். எடுத்துக்காட்டாக, ஆர் போன்ற செயல்பாடுகள் உள்ளன விவரிக்கிறது இது காணாமல் போன மதிப்புகள் மற்றும் தனித்துவமான மதிப்புகளின் எண்ணிக்கையை எங்களுக்கு வழங்குகிறது. சுருக்கமான செயல்பாட்டையும் நாம் பயன்படுத்தலாம், இது சராசரி, சராசரி, வரம்பு, நிமிடம் மற்றும் அதிகபட்ச மதிப்புகள் போன்ற புள்ளிவிவர தகவல்களை வழங்கும்.
- பின்னர், தரவு விநியோகம் குறித்த நியாயமான யோசனையைப் பெற ஹிஸ்டோகிராம், லைன் வரைபடங்கள், பாக்ஸ் ப்ளாட்டுகள் போன்ற காட்சிப்படுத்தல் நுட்பங்களைப் பயன்படுத்துகிறோம்.
படி 4:
இப்போது, முந்தைய படியிலிருந்து பெறப்பட்ட நுண்ணறிவுகளின் அடிப்படையில், இந்த வகையான சிக்கலுக்கு சிறந்த பொருத்தம் முடிவு மரம். எப்படி என்று பார்ப்போம்?
- என்பதால், போன்ற பகுப்பாய்விற்கான முக்கிய பண்புகளை நாங்கள் ஏற்கனவே வைத்திருக்கிறோம் npreg, bmi , முதலியன, எனவே பயன்படுத்துவோம்கட்டமைக்க மேற்பார்வை கற்றல் நுட்பம் aஇங்கே மாதிரி.
- மேலும், நாங்கள் குறிப்பாக முடிவு மரத்தைப் பயன்படுத்தினோம், ஏனென்றால் எல்லா பண்புகளையும் ஒரே நேரத்தில் கவனத்தில் எடுத்துக்கொள்கிறோம்நேரியல் உறவு மற்றும் நேரியல் அல்லாத உறவைக் கொண்டவை. எங்கள் விஷயத்தில், எங்களுக்கு இடையே ஒரு நேரியல் உறவு உள்ளது npreg மற்றும் வயது, அதேசமயம் இடையேயான நேரியல் உறவு npreg மற்றும் ped .
- முடிவெடுக்கும் மர மாதிரிகள் மிகவும் வலுவானவை, ஏனெனில் பல்வேறு மரங்களை உருவாக்க பல்வேறு பண்புக்கூறுகளைப் பயன்படுத்தலாம், பின்னர் அதிகபட்ச செயல்திறனுடன் ஒன்றை செயல்படுத்தலாம்.
எங்கள் முடிவு மரத்தைப் பார்ப்போம்.
SQL சேவையகத்தில் pivot மற்றும் unpivot
இங்கே, மிக முக்கியமான அளவுரு குளுக்கோஸின் நிலை, எனவே இது எங்கள் ரூட் முனை. இப்போது, தற்போதைய கணு மற்றும் அதன் மதிப்பு அடுத்த முக்கியமான அளவுருவை எடுக்க வேண்டும் என்பதை தீர்மானிக்கிறது. நாம் முடிவைப் பெறும் வரை இது தொடர்கிறது pos அல்லது நெக் . போஸ் என்றால் நீரிழிவு நோயின் போக்கு நேர்மறையானது மற்றும் நெக் என்றால் நீரிழிவு நோயின் போக்கு எதிர்மறையானது.
முடிவு மரத்தை செயல்படுத்துவது பற்றி மேலும் அறிய நீங்கள் விரும்பினால், இந்த வலைப்பதிவைப் பார்க்கவும்
படி 5:
இந்த கட்டத்தில், எங்கள் முடிவுகள் பொருத்தமானவையா என்று சோதிக்க ஒரு சிறிய பைலட் திட்டத்தை இயக்குவோம். செயல்திறன் தடைகள் ஏதேனும் இருந்தால் நாங்கள் பார்ப்போம். முடிவுகள் துல்லியமாக இல்லாவிட்டால், மாதிரியை மாற்றியமைத்து மீண்டும் உருவாக்க வேண்டும்.
படி 6:
திட்டத்தை வெற்றிகரமாக நிறைவேற்றியதும், முழு வரிசைப்படுத்தலுக்கான வெளியீட்டைப் பகிர்வோம்.
தரவு விஞ்ஞானியாக இருப்பது முடிந்ததை விட எளிதானது. எனவே, நீங்கள் ஒரு தரவு விஞ்ஞானியாக இருக்க வேண்டியது என்ன என்பதைப் பார்ப்போம்.ஒரு தரவு விஞ்ஞானிக்கு அடிப்படையில் திறன்கள் தேவைகீழே காட்டப்பட்டுள்ளபடி மூன்று முக்கிய பகுதிகளிலிருந்து.
மேலே உள்ள படத்தில் நீங்கள் காணக்கூடியது போல, நீங்கள் பல்வேறு கடின திறன்களையும் மென்மையான திறன்களையும் பெற வேண்டும். நீங்கள் நன்றாக இருக்க வேண்டும் புள்ளிவிவரங்கள் மற்றும் கணிதம் தரவை பகுப்பாய்வு செய்ய மற்றும் காட்சிப்படுத்த. சொல்ல வேண்டும் என்றில்லை, இயந்திர வழி கற்றல் தரவு அறிவியலின் இதயத்தை உருவாக்குகிறது, மேலும் நீங்கள் அதில் நல்லவராக இருக்க வேண்டும். மேலும், நீங்கள் ஒரு திடமான புரிதலைக் கொண்டிருக்க வேண்டும் களம் வணிக சிக்கல்களை தெளிவாக புரிந்து கொள்ள நீங்கள் வேலை செய்கிறீர்கள். உங்கள் பணி இங்கே முடிவதில்லை. நல்லது தேவைப்படும் பல்வேறு வழிமுறைகளை செயல்படுத்தும் திறன் உங்களுக்கு இருக்க வேண்டும் குறியீட்டு திறன்கள். இறுதியாக, நீங்கள் சில முக்கிய முடிவுகளை எடுத்தவுடன், அவற்றை நீங்கள் பங்குதாரர்களுக்கு வழங்குவது முக்கியம். எனவே, நல்லது தொடர்பு உங்கள் திறமைகளுக்கு நிச்சயமாக பிரவுனி புள்ளிகளை சேர்க்கும்.
டேட்டா சயின்ஸ் என்றால் என்ன என்பதையும், வலைப்பதிவில் நாங்கள் விவாதித்த அனைத்தையும் விளக்கும் இந்த டேட்டா சயின்ஸ் வீடியோ டுடோரியலைப் பார்க்கும்படி கேட்டுக்கொள்கிறேன். மேலே சென்று, வீடியோவை ரசித்து, நீங்கள் என்ன நினைக்கிறீர்கள் என்று சொல்லுங்கள்.
தரவு அறிவியல் என்றால் என்ன? தரவு அறிவியல் பாடநெறி - ஆரம்பநிலைகளுக்கான தரவு அறிவியல் பயிற்சி | எடுரேகா
இந்த எடுரேகா டேட்டா சயின்ஸ் பாடநெறி வீடியோ தரவு விஞ்ஞானத்தின் தேவை, தரவு அறிவியல் என்றால் என்ன, வணிகத்திற்கான தரவு அறிவியல் பயன்பாட்டு வழக்குகள், பிஐ vs தரவு அறிவியல், தரவு பகுப்பாய்வு கருவிகள், தரவு அறிவியல் வாழ்க்கை சுழற்சி மற்றும் டெமோவுடன் உங்களை அழைத்துச் செல்லும்.
முடிவில், எதிர்காலம் தரவு விஞ்ஞானிகளுக்கு சொந்தமானது என்று சொல்வது தவறல்ல. 2018 ஆம் ஆண்டின் இறுதிக்குள் சுமார் ஒரு மில்லியன் தரவு விஞ்ஞானிகளின் தேவை இருக்கும் என்று கணிக்கப்பட்டுள்ளது. மேலும் மேலும் தரவு முக்கிய வணிக முடிவுகளை இயக்குவதற்கான வாய்ப்புகளை வழங்கும். நம்மைச் சுற்றியுள்ள தரவுகளால் ஏமாற்றப்பட்ட உலகைப் பார்க்கும் விதத்தை இது விரைவில் மாற்றப்போகிறது. எனவே, ஒரு தரவு விஞ்ஞானி மிகவும் திறமையான மற்றும் மிகவும் சிக்கலான சிக்கல்களைத் தீர்க்க உந்துதல் பெற வேண்டும்.
எனது வலைப்பதிவைப் படித்து மகிழ்ந்தீர்கள், தரவு அறிவியல் என்றால் என்ன என்று புரிந்து கொண்டீர்கள் என்று நம்புகிறேன்.எங்கள் பாருங்கள் இங்கே, இது பயிற்றுவிப்பாளர் தலைமையிலான நேரடி பயிற்சி மற்றும் நிஜ வாழ்க்கை திட்ட அனுபவத்துடன் வருகிறது.