தீப்பொறி திரட்டிகள் விளக்கப்பட்டுள்ளன: அப்பாச்சி தீப்பொறி



இந்த அப்பாச்சி ஸ்பார்க் வலைப்பதிவு ஸ்பார்க் திரட்டிகளை விரிவாக விளக்குகிறது. எடுத்துக்காட்டுகளுடன் தீப்பொறி திரட்டல் பயன்பாட்டைக் கற்றுக்கொள்ளுங்கள். தீப்பொறி குவிப்பான்கள் ஹடூப் மேப்ரெடூஸ் கவுண்டர்கள் போன்றவை.

பிருத்விராஜ் போஸ் வழங்கினார்

தீப்பொறி திரட்டிகளைப் பற்றி நீங்கள் தெரிந்து கொள்ள வேண்டிய விஷயங்களைப் பற்றிய வலைப்பதிவு இங்கே.உடன் பெரும்பாலான ஐ.டி தேர்வாளர்கள் வேட்டையாடும் ஒரு முக்கிய திறமையாக இருப்பதால், தொழில்துறையில் அதன் வளர்ச்சி மற்றும் தேவை அதன் தொடக்கத்திலிருந்தே அதிவேகமானது.





குவிப்பான்கள் என்றால் என்ன?

திரட்டிகள் என்பது இயக்கிகள் முழுவதும் தகவல்களைத் திரட்டுவதற்குப் பயன்படுத்தப்படும் மாறிகள். எடுத்துக்காட்டாக, எத்தனை பதிவுகள் சிதைந்துள்ளன அல்லது ஒரு குறிப்பிட்ட நூலக ஏபிஐ எத்தனை முறை அழைக்கப்பட்டது போன்ற தரவு அல்லது ஏபிஐ நோயறிதலுடன் இந்த தகவல் தொடர்புடையது.

எங்களுக்கு ஏன் குவிப்பான்கள் தேவை என்பதைப் புரிந்து கொள்ள, ஒரு சிறிய உதாரணத்தைப் பார்ப்போம்.



இந்த முக்கிய சொல்லைப் பயன்படுத்த 6 வழிகள் யாவை?

மத்திய கொல்கத்தா பிராந்தியத்தைச் சுற்றியுள்ள ஒரு சங்கிலி கடைகளின் பரிவர்த்தனைகளின் கற்பனை பதிவு இங்கே.

logs-Spark-accumulators

4 புலங்கள் உள்ளன,

புலம் 1 -> நகரம்



புலம் 2 -> இடம்

புலம் 3 -> விற்கப்பட்ட பொருளின் வகை

புலம் 4 -> விற்கப்பட்ட பொருளின் மதிப்பு

இருப்பினும், பதிவுகள் சிதைக்கப்படலாம். எடுத்துக்காட்டாக, இரண்டாவது வரி ஒரு வெற்று வரி, நான்காவது வரி சில பிணைய சிக்கல்களைப் புகாரளிக்கிறது, கடைசியாக கடைசி வரி பூஜ்ஜியத்தின் விற்பனை மதிப்பைக் காட்டுகிறது (இது நடக்காது!).

வெற்று பதிவுகளின் எண்ணிக்கை (வெற்று கோடுகள்), பிணையம் எத்தனை முறை தோல்வியுற்றது, ஒரு வகை இல்லாத எந்தவொரு தயாரிப்பு அல்லது பூஜ்ஜிய விற்பனை எத்தனை முறை கூட பதிவு செய்யப்பட்டுள்ளது என்பதை அறிய பரிவர்த்தனை பதிவை பகுப்பாய்வு செய்ய நாம் குவிப்பான்களைப் பயன்படுத்தலாம். முழு மாதிரி பதிவைக் காணலாம் இங்கே .
எந்தவொரு செயல்பாட்டிற்கும் திரட்டிகள் பொருந்தும்,
1. பரிமாற்றம் -> f (x, y) = f (y, x) , மற்றும்
2. துணை -> f (f (x, y), z) = f (f (x, z), y) = f (f (y, z), x)
உதாரணத்திற்கு, தொகை மற்றும் அதிகபட்சம் செயல்பாடுகள் மேலே உள்ள நிபந்தனைகளை பூர்த்தி செய்கின்றன சராசரி இல்லை.

தீப்பொறி திரட்டிகளை ஏன் பயன்படுத்த வேண்டும்?

இப்போது நமக்கு ஏன் குவிப்பான்கள் தேவை, கீழேயுள்ள குறியீட்டில் காட்டப்பட்டுள்ளபடி மாறிகளை ஏன் பயன்படுத்தக்கூடாது.

php mysql_fetch_
மேலே உள்ள குறியீட்டின் சிக்கல் என்னவென்றால், இயக்கி மாறியை அச்சிடும் போது வெற்று கோடுகள் அதன் மதிப்பு பூஜ்ஜியமாக இருக்கும். ஏனென்றால், ஒவ்வொரு குறியீட்டாளருக்கும் இந்த குறியீட்டை ஸ்பார்க் அனுப்பும்போது, ​​அந்த நிர்வாகிக்கு மாறிகள் உள்ளூர் ஆகின்றன, மேலும் அதன் புதுப்பிக்கப்பட்ட மதிப்பு இயக்கிக்கு மீண்டும் அனுப்பப்படாது. இந்த சிக்கலைத் தவிர்க்க நாம் செய்ய வேண்டும் வெற்று கோடுகள் ஒவ்வொரு எக்ஸிகியூட்டரிலும் இந்த மாறிக்கான அனைத்து புதுப்பிப்புகளும் இயக்கிக்கு மீண்டும் ஒளிபரப்பப்படும் ஒரு குவிப்பான். எனவே மேலே உள்ள குறியீட்டை இவ்வாறு எழுத வேண்டும்,

இது குவிப்பான் என்று உத்தரவாதம் அளிக்கிறது வெற்று கோடுகள் ஒவ்வொரு நிர்வாகியிலும் புதுப்பிக்கப்படுகிறது மற்றும் புதுப்பிப்புகள் மீண்டும் இயக்கிக்கு அனுப்பப்படும்.

சுருக்க வர்க்கத்திற்கும் இடைமுகத்திற்கும் இடையில் வேறுபாடு

நெட்வொர்க் பிழைகள் அல்லது பூஜ்ஜிய விற்பனை மதிப்பு போன்றவற்றுக்கான பிற கவுண்டர்களை நாங்கள் செயல்படுத்தலாம். மற்ற கவுண்டர்களை செயல்படுத்துவதோடு முழு மூலக் குறியீட்டையும் காணலாம் இங்கே .

ஹடூப் வரைபடம்-குறைப்பு பற்றி அறிந்தவர்கள், ஸ்பார்க்கின் குவிப்பான்கள் ஹடூப்பின் வரைபட-குறைப்பு கவுண்டர்களைப் போலவே இருப்பதைக் கவனிப்பார்கள்.

கேவியட்ஸ்

குவிப்பான்களைப் பயன்படுத்தும் போது, ​​புரோகிராமர்களாகிய நாம் அறிந்திருக்க வேண்டிய சில எச்சரிக்கைகள் உள்ளன,

  1. உள்ளே கணக்கீடுகள் மாற்றங்கள் சோம்பேறியாக மதிப்பிடப்படுகிறது, எனவே ஒரு நடவடிக்கை RDD இல் நடக்கிறது மாற்றங்கள் செயல்படுத்தப்படவில்லை. இதன் விளைவாக, உள்ளே பயன்படுத்தப்படும் குவிப்பான்கள் போன்றவை செயல்படுகின்றன வரைபடம் () அல்லது வடிகட்டி() சில தவிர செயல்படுத்தப்படாது நடவடிக்கை RDD இல் நடக்கும்.
  2. குவிப்பான்களைப் புதுப்பிக்க தீப்பொறி உத்தரவாதம் அளிக்கிறது உள்ளே செயல்கள் ஒரே ஒரு முறை மட்டும் . எனவே ஒரு பணி மறுதொடக்கம் செய்யப்பட்டு பரம்பரை மீண்டும் கணக்கிடப்பட்டாலும், குவிப்பான்கள் ஒரு முறை மட்டுமே புதுப்பிக்கப்படும்.
  3. இதற்கு ஸ்பார்க் உத்தரவாதம் அளிக்கவில்லை மாற்றங்கள் . எனவே ஒரு பணி மறுதொடக்கம் செய்யப்பட்டு பரம்பரை மீண்டும் கணக்கிடப்பட்டால், குவிப்பான்கள் ஒன்றுக்கு மேற்பட்ட முறை புதுப்பிக்கப்படும் போது விரும்பத்தகாத பக்க விளைவுகள் ஏற்பட வாய்ப்புள்ளது.

பாதுகாப்பான பக்கத்தில் இருக்க, எப்போதும் செயல்களுக்குள் மட்டுமே குவிப்பான்களைப் பயன்படுத்துங்கள்.
குறியீடு இங்கே இதை எவ்வாறு அடைவது என்பதற்கான எளிய மற்றும் பயனுள்ள உதாரணத்தைக் காட்டுகிறது.
குவிப்பான்கள் பற்றிய கூடுதல் தகவலுக்கு, படிக்கவும் இது .

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துப் பிரிவில் அவற்றைக் குறிப்பிடுங்கள், நாங்கள் உங்களிடம் திரும்புவோம்.

தொடர்புடைய இடுகைகள்:

அப்பாச்சி ஸ்பார்க் இணைத்தல் பைக்கி விளக்கினார்