அப்பாச்சி பன்றியில் ஆபரேட்டர்கள்: பகுதி 1- ரிலேஷனல் ஆபரேட்டர்கள்

இந்த இடுகை அப்பாச்சி பன்றியில் ஆபரேட்டர்கள் பற்றி விவரிக்கிறது. அப்பாச்சி பன்றியில் ஆபரேட்டர்களுக்கான இந்த இடுகையைப் பாருங்கள்: பகுதி 1 - ரிலேஷனல் ஆபரேட்டர்கள்.

இந்த இடுகை அப்பாச்சி பன்றில் உள்ள ஆபரேட்டர்களைப் பற்றியது.அப்பாச்சி பிக் ஜாவாவின் அறிவு இல்லாமல் சிக்கலான தரவு மாற்றங்களை எழுத உங்களுக்கு உதவுகிறது, இது மிகவும் முக்கியமானது .ஆபரேட்டர்களுக்குச் செல்வதற்கு முன், பன்றி மற்றும் பன்றி லத்தீன் என்றால் என்ன, அவற்றை இயக்கக்கூடிய வெவ்வேறு முறைகள் ஆகியவற்றை விரைவாகப் பார்ப்போம்.

அப்பாச்சி பன்றி என்றால் என்ன?

அப்பாச்சி பிக் என்பது ஹடூப் மற்றும் வரைபடத்தைக் குறைக்கும் தளத்தைப் பயன்படுத்தி பெரிய தரவுத் தொகுப்புகளை வினவுவதற்கான உயர் மட்ட நடைமுறை மொழியாகும். இது ஜாவா தொகுப்பாகும், அங்கு ஜே.வி.எம்மில் இயங்கும் எந்த மொழி செயலாக்கத்திலிருந்தும் ஸ்கிரிப்ட்களை இயக்க முடியும். செயல்பாட்டு செயல்முறைகளில் இது பெரிதும் பயன்படுத்தப்படுகிறது.



அப்பாச்சி பிக், SQL போன்ற வினவல்களை விநியோகிக்கப்பட்ட தரவுத்தொகுப்பில் அனுமதிப்பதன் மூலம் ஹடூப்பின் பயன்பாட்டை எளிதாக்குகிறது மற்றும் பெரிய அளவிலான தரவை விரைவாகவும் திறமையாகவும் செயலாக்க சிக்கலான பணிகளை உருவாக்குவதை சாத்தியமாக்குகிறது. பிக்கின் சிறந்த அம்சம் என்னவென்றால், இது சேர, குழு மற்றும் மொத்தம் போன்ற பல தொடர்புடைய அம்சங்களை ஆதரிக்கிறது.

பிக் ஒரு ஈ.டி.எல் கருவியைப் போலவே அதிகம் ஒலிக்கிறது என்று எனக்குத் தெரியும், மேலும் இது ஈ.டி.எல் கருவிகளுடன் பொதுவான பல அம்சங்களைக் கொண்டுள்ளது. ஆனால் பிக் ஓவர் ஈடிஎல் கருவிகளின் நன்மை என்னவென்றால், அது ஒரே நேரத்தில் பல சேவையகங்களில் இயங்க முடியும்.

அப்பாச்சி பிக் லத்தீன் என்றால் என்ன?

அப்பாச்சி பன்றி வரைபடத்தின் மீது எளிமையான நடைமுறை மொழி சுருக்கத்தை உருவாக்குகிறது, அப்பாச்சி பிக் லத்தீன் எனப்படும் ஹடூப் பயன்பாடுகளுக்கான மிகவும் கட்டமைக்கப்பட்ட வினவல் மொழி (SQL) போன்ற இடைமுகத்தை அம்பலப்படுத்துகிறது, எனவே தனி வரைபடத்தைக் குறைக்கும் பயன்பாட்டை எழுதுவதற்கு பதிலாக, நீங்கள் அப்பாச்சியில் ஒரு ஸ்கிரிப்டை எழுதலாம் பிக் லத்தீன் தானாக இணையாக ஒரு கிளஸ்டர் முழுவதும் விநியோகிக்கப்படுகிறது. எளிமையான சொற்களில், பிக் லத்தீன், ஒரு உள்ளீட்டை எடுத்து வெளியீட்டை உருவாக்கும் எளிய அறிக்கைகளின் வரிசை. உள்ளீடு மற்றும் வெளியீட்டு தரவு பைகள், வரைபடங்கள், டுபில்கள் மற்றும் அளவிடுதல் ஆகியவற்றைக் கொண்டுள்ளது.

அப்பாச்சி பன்றி செயல்படுத்தல் முறைகள்:

அப்பாச்சி பன்றிக்கு இரண்டு மரணதண்டனை முறைகள் உள்ளன:

பெரிய தரவு பகுப்பாய்வின் பயன்பாடுகள்
  • உள்ளூர் பயன்முறை

‘லோக்கல் பயன்முறையில்’, உங்கள் கணினி அமைப்பில் உள்ள உள்ளூர் கோப்பகத்திலிருந்து மூல தரவு எடுக்கப்படும். ‘Pig –x local’ கட்டளையைப் பயன்படுத்தி MapReduce பயன்முறையைக் குறிப்பிடலாம்.

அப்பாச்சி பன்றியில் ஆபரேட்டர்கள் - 1

  • MapReduce பயன்முறை:

MapReduce பயன்முறையில் பன்றை இயக்க, உங்களுக்கு ஹடூப் கிளஸ்டர் மற்றும் HDFS நிறுவலுக்கான அணுகல் தேவை. MapReduce பயன்முறையை ‘பன்றி’ கட்டளையைப் பயன்படுத்தி குறிப்பிடலாம்.

அப்பாச்சி பன்றி ஆபரேட்டர்கள்:

அப்பாச்சி பிக் ஆபரேட்டர்கள் என்பது ஹடூப் மற்றும் வரைபடத்தைக் குறைக்கும் தளத்தைப் பயன்படுத்தி பெரிய தரவுத் தொகுப்புகளை வினவுவதற்கான உயர் மட்ட நடைமுறை மொழியாகும். ஒரு பிக் லத்தீன் அறிக்கை என்பது ஒரு ஆபரேட்டராகும், இது ஒரு உறவை உள்ளீடாக எடுத்து மற்றொரு உறவை வெளியீடாக உருவாக்குகிறது. இந்த ஆபரேட்டர்கள் தரவை இயக்க பிக் லத்தீன் வழங்கும் முக்கிய கருவிகள். வரிசைப்படுத்துதல், தொகுத்தல், சேருதல், திட்டமிடல் மற்றும் வடிகட்டுதல் மூலம் அதை மாற்ற அவை உங்களை அனுமதிக்கின்றன.

கட்டளைகளை இயக்க இரண்டு கோப்புகளை உருவாக்குவோம்:

எங்களிடம் ‘முதல்’ மற்றும் ‘இரண்டாவது’ என்ற பெயரில் இரண்டு கோப்புகள் உள்ளன. முதல் கோப்பில் மூன்று புலங்கள் உள்ளன: பயனர், url & id.

இரண்டாவது கோப்பில் இரண்டு புலங்கள் உள்ளன: url & மதிப்பீடு. இந்த இரண்டு கோப்புகளும் CSV கோப்புகள்.

அப்பாச்சி பன்றி ஆபரேட்டர்களை இவ்வாறு வகைப்படுத்தலாம்: தொடர்புடைய மற்றும் நோயறிதல்.

தொடர்புடைய ஆபரேட்டர்கள்:

தரவை இயக்க பிக் லத்தீன் வழங்கும் முக்கிய கருவிகள் ரிலேஷனல் ஆபரேட்டர்கள். வரிசைப்படுத்துதல், தொகுத்தல், சேருதல், திட்டமிடல் மற்றும் வடிகட்டுதல் மூலம் தரவை மாற்ற இது உங்களை அனுமதிக்கிறது. இந்த பிரிவு அடிப்படை தொடர்புடைய ஆபரேட்டர்களை உள்ளடக்கியது.

சுமை:

கோப்பு முறைமை அல்லது எச்டிஎஃப்எஸ் சேமிப்பகத்திலிருந்து தரவை ஒரு பன்றி உறவில் ஏற்றுவதற்கு LOAD ஆபரேட்டர் பயன்படுத்தப்படுகிறது.

இந்த எடுத்துக்காட்டில், சுமை ஆபரேட்டர் ‘முதல்’ கோப்பிலிருந்து தரவை ஏற்றி உறவு ‘ஏற்றுதல் 1’ ஐ உருவாக்குகிறது. புலப் பெயர்கள் பயனர், url, ஐடி.

ஒவ்வொரு:

இந்த ஆபரேட்டர் தரவின் நெடுவரிசைகளின் அடிப்படையில் தரவு மாற்றங்களை உருவாக்குகிறது. உறவிலிருந்து புலங்களைச் சேர்க்க அல்லது அகற்ற இது பயன்படுகிறது. தரவுகளின் நெடுவரிசைகளுடன் பணிபுரிய FOREACH-GENERATE செயல்பாட்டைப் பயன்படுத்தவும்.

வெளிநாட்டு முடிவு:

வடிகட்டி:

இந்த ஆபரேட்டர் ஒரு நிபந்தனையின் அடிப்படையில் உறவிலிருந்து டூப்பிள்களைத் தேர்ந்தெடுக்கிறார்.

இந்த எடுத்துக்காட்டில், ‘ஐடி’ நிலை 8 ஐ விட அதிகமாக இருக்கும்போது பதிவை ‘லோடிங் 1’ இலிருந்து வடிகட்டுகிறோம்.

வடிகட்டி முடிவு:

சேர்:

பொதுவான புலம் மதிப்புகளின் அடிப்படையில் இரண்டு அல்லது அதற்கு மேற்பட்ட உறவுகளின் உள், ஈக்விஜாயின் இணைவைச் செய்ய JOIN ஆபரேட்டர் பயன்படுத்தப்படுகிறது. JOIN ஆபரேட்டர் எப்போதும் ஒரு உள் சேரலை செய்கிறது. உள் சேரும் பூஜ்ய விசைகளை புறக்கணிக்கிறது, எனவே சேருவதற்கு முன்பு அவற்றை வடிகட்டுவது அர்த்தமுள்ளதாக இருக்கும்.

இந்த எடுத்துக்காட்டில், ‘ஏற்றுதல் 1’ மற்றும் ‘ஏற்றுதல் 2’ இலிருந்து ‘url’ நெடுவரிசையின் அடிப்படையில் இரு உறவுகளிலும் சேரவும்.

எடுத்துக்காட்டுகளுடன் ஆரம்பநிலைக்கு pl sql

சேர முடிவு:

உத்தரவின் படி:

ஒன்று அல்லது அதற்கு மேற்பட்ட புலங்களின் அடிப்படையில் ஒரு உறவை வரிசைப்படுத்த ஆர்டர் பை பயன்படுத்தப்படுகிறது. ஏஎஸ்சி மற்றும் டிஇஎஸ்சி சொற்களைப் பயன்படுத்தி ஏறுவரிசையில் அல்லது இறங்கு வரிசையில் வரிசைப்படுத்தலாம்.

கீழேயுள்ள எடுத்துக்காட்டில், மதிப்பீடுகள் புலத்தில் ஏற்றுதல் வரிசையில் தரவை வரிசைப்படுத்துகிறோம்.

முடிவு மூலம் ஆர்டர் :

DISTINCT:

ஒரு உறவில் நகல் டூப்பிள்களை வேறுபடுத்துகிறது. கீழே உள்ளீட்டுக் கோப்பை எடுத்துக்கொள்வோம் amr, தனம், 8 மற்றும் amr, myblog, 10 கோப்பில் இரண்டு முறை. இந்த கோப்பில் உள்ள தரவுகளில் நாம் தனித்தனியாகப் பயன்படுத்தும்போது, ​​நகல் உள்ளீடுகள் அகற்றப்படும்.

DISTINCT முடிவு:

ஸ்டோர்:

கோப்பு முறைமையில் முடிவுகளைச் சேமிக்க ஸ்டோர் பயன்படுத்தப்படுகிறது.

இங்கே நாம் சேமிக்கிறோம் ஏற்றுதல் 3 பெயரிடப்பட்ட கோப்பில் தரவு சேமித்தல் HDFS இல்.

ஸ்டோர் முடிவு:

குழு:

GROUP ஆபரேட்டர் குழுக்கள் ஒரே குழு விசையுடன் (முக்கிய புலம்) டூப்பிள்களை ஒன்றாக இணைக்கின்றன. குழு விசையில் ஒன்றுக்கு மேற்பட்ட புலங்கள் இருந்தால், முக்கிய புலம் ஒரு துணியாக இருக்கும், இல்லையெனில் அது குழு விசையின் அதே வகையாக இருக்கும். ஒரு GROUP செயல்பாட்டின் விளைவாக ஒரு குழுவிற்கு ஒரு டூப்பிள் அடங்கிய ஒரு உறவு உள்ளது.

இந்த எடுத்துக்காட்டில், குழு வது

நெடுவரிசை url மூலம் e relation ‘loading1’.

குழு முடிவு:

கூட்டுறவு:

COGROUP என்பது GROUP ஆபரேட்டரைப் போன்றது. வாசிப்புக்கு, புரோகிராமர்கள் வழக்கமாக ஒரு உறவு மட்டுமே ஈடுபடும்போது GROUP ஐப் பயன்படுத்துவார்கள் மற்றும் பல உறவுகள் ஈடுபடும்போது COGROUP ஐப் பயன்படுத்துகிறார்கள்.

இந்த எடுத்துக்காட்டு குழுவில் இரு உறவுகளிலும் url புலத்தால் ‘ஏற்றுதல் 1’ மற்றும் ‘ஏற்றுதல் 2’ குழு.

COGROUP முடிவு:

கிராஸ்:

இரண்டு அல்லது அதற்கு மேற்பட்ட உறவுகளின் குறுக்கு தயாரிப்பு (கார்ட்டீசியன் தயாரிப்பு) கணக்கிட CROSS ஆபரேட்டர் பயன்படுத்தப்படுகிறது.

ஏற்றுதல் 1 மற்றும் ஏற்றுதல் 2 இல் குறுக்கு தயாரிப்பு பயன்படுத்துதல்.

கிராஸ் முடிவு:

அளவு:

வெளியீட்டு டூப்பிள்களின் எண்ணிக்கையை கட்டுப்படுத்த LIMIT ஆபரேட்டர் பயன்படுத்தப்படுகிறது. குறிப்பிட்ட வெளியீட்டு டூப்பிள்களின் எண்ணிக்கை உறவில் உள்ள டுபில்களின் எண்ணிக்கையை சமமாகவோ அல்லது அதிகமாகவோ இருந்தால், வெளியீடு உறவில் உள்ள அனைத்து டூப்பிள்களையும் உள்ளடக்கும்.

வரம்பு முடிவு:

SPLIT:

சில வெளிப்பாட்டின் அடிப்படையில் ஒரு உறவின் உள்ளடக்கங்களை இரண்டு அல்லது அதற்கு மேற்பட்ட உறவுகளாகப் பிரிக்க SPLIT ஆபரேட்டர் பயன்படுத்தப்படுகிறது. வெளிப்பாட்டில் கூறப்பட்டுள்ள நிபந்தனைகளைப் பொறுத்து.

ஏற்றுதல் 2 ஐ x மற்றும் y என இரண்டு உறவுகளாகப் பிரிக்கவும். ஏற்றுதல் 2 ஆல் உருவாக்கப்பட்ட x உறவு மதிப்பீடு 8 ஐ விட அதிகமாக உள்ள புலங்களையும், y உறவில் மதிப்பீடு 8 ஐ விடக் குறைவாகவோ அல்லது சமமாகவோ இருக்கும் புலங்களைக் கொண்டுள்ளது.

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் அவற்றைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.

தொடர்புடைய இடுகைகள்:

ஜாவா நிரல்களை எவ்வாறு தொகுப்பது

அப்பாச்சி பன்றியில் ஆபரேட்டர்கள் - கண்டறியும் ஆபரேட்டர்கள்

அப்பாச்சி பன்றியில் யுடிஎஃப் உருவாக்க படிகள்