தீப்பொறி ஸ்ட்ரீமிங்கில் சாளரத்துடன் கூடிய மாநில மாற்றங்கள்



இந்த வலைப்பதிவு இடுகை ஸ்பார்க் ஸ்ட்ரீமிங்கில் சாளரத்துடன் மாநில மாற்றங்களை விவாதிக்கிறது. ஸ்டேட்-ஃபுல் டி-ஸ்ட்ரீம்களைப் பயன்படுத்தி தொகுதிகள் முழுவதும் தரவைக் கண்காணிப்பது பற்றி அனைத்தையும் அறிக.

பிருத்விராஜ் போஸ் வழங்கினார்

இந்த வலைப்பதிவில் அப்பாச்சி ஸ்பார்க்கின் நிலைமாற்றங்களின் சாளரக் கருத்து பற்றி விவாதிப்போம்.





மாநில மாற்றம் என்றால் என்ன?

ஸ்பார்க் ஸ்ட்ரீமிங் ஒரு மைக்ரோ பேட்ச் கட்டமைப்பைப் பயன்படுத்துகிறது, அங்கு உள்வரும் தரவு டிஸ்க்ரெடிஸ் ஸ்ட்ரீம்கள் (டிஸ்ட்ரீம்ஸ்) எனப்படும் மைக்ரோ பேட்ச்களாக தொகுக்கப்படுகிறது, இது அடிப்படை நிரலாக்க சுருக்கமாகவும் செயல்படுகிறது. டி.எஸ்.டிரீம்கள் உள்நாட்டில் நெகிழ்திறன் விநியோகிக்கப்பட்ட தரவுத்தொகுப்புகளை (ஆர்.டி.டி) கொண்டுள்ளன, மேலும் இந்த நிலையான ஆர்.டி.டி மாற்றங்கள் மற்றும் செயல்களைச் செய்யலாம்.



ஸ்ட்ரீமிங்கில், தொகுதிகள் முழுவதும் தரவைக் கண்காணிக்க எங்களுக்கு ஒரு பயன்பாட்டு வழக்கு இருந்தால், எங்களுக்கு மாநில-முழு DStreams தேவை.

எடுத்துக்காட்டாக, பயனர் அமர்வின் போது ஒரு வலைத்தளத்தின் பயனரின் தொடர்புகளை நாங்கள் கண்காணிக்கலாம் அல்லது ஒரு குறிப்பிட்ட ட்விட்டர் ஹேஷ்டேக்கை காலப்போக்கில் கண்காணிக்கலாம் மற்றும் உலகெங்கிலும் உள்ள பயனர்கள் இதைப் பற்றி பேசுகிறார்கள் என்பதைப் பார்க்கலாம்.

மாநில-முழு மாற்றத்தின் வகைகள்.



மாநில-முழு DStreams இரண்டு வகைகளாகும் - சாளர அடிப்படையிலான கண்காணிப்பு மற்றும் முழு அமர்வு கண்காணிப்பு.

மாநில கண்காணிப்புக்கு அனைத்து உள்வரும் தரவையும் முக்கிய மதிப்பு ஜோடிகளாக மாற்ற வேண்டும், அதாவது முக்கிய மாநிலங்களை தொகுதிகள் முழுவதும் கண்காணிக்க முடியும். இது ஒரு முன் நிபந்தனை.

மேலும் நாம் சோதனைச் சாவடியை இயக்க வேண்டும், இது ஒரு கருத்து, பின்னர் வலைப்பதிவுகளில் விவாதிப்போம்.

> சாளர அடிப்படையிலான கண்காணிப்பு

சாளர அடிப்படையிலான கண்காணிப்பில் உள்வரும் தொகுதிகள் நேர இடைவெளியில் தொகுக்கப்படுகின்றன, அதாவது ஒவ்வொரு ‘x’ விநாடிகளிலும் குழு தொகுதிகள். இந்த தொகுதிகளில் மேலும் கணக்கீடுகள் ஸ்லைடு இடைவெளிகளைப் பயன்படுத்தி செய்யப்படுகின்றன.

எடுத்துக்காட்டாக, சாளர இடைவெளி = 3 வினாடிகள் மற்றும் ஸ்லைடு இடைவெளி = 2 வினாடிகள் எனில், உள்வரும் தரவுகள் அனைத்தும் ஒவ்வொரு 3 விநாடிகளிலும் தொகுப்பாக தொகுக்கப்படும், மேலும் இந்த தொகுதிகளின் கணக்கீடுகள் ஒவ்வொரு 2 விநாடிகளிலும் நடக்கும். மாற்றாக, கடைசி 3 வினாடிகளில் வந்த தொகுதிகளில் ஒவ்வொரு 2 விநாடிகளிலும் கணக்கீடுகளைச் செய்யலாம்.

spark-streaming-dstream-window

மேலே உள்ள வரைபடத்தில், உள்வரும் தொகுதிகள் ஒவ்வொரு 3 யூனிட் நேரங்களுக்கும் (சாளர இடைவெளி) தொகுக்கப்படுவதையும், கணக்கீடுகள் ஒவ்வொரு 2 யூனிட் நேரத்திற்கும் (ஸ்லைடு இடைவெளி) செய்யப்படுவதையும் காண்கிறோம்.
குறிப்பு: அப்பாச்சி ஃபிளிங்கைப் போலல்லாமல், அப்பாச்சி ஸ்பார்க்கிற்கு சாளரத்தை வீழ்த்துவதற்கான கருத்து இல்லை, எல்லா சாளரங்களும் நெகிழ்ந்து கொண்டிருக்கின்றன.

தீ

சாளர அடிப்படையிலான மாற்றங்களுக்கான பிரபலமான API ஆகும்

PairDStreamFunctions.reduceByKeyAndWindow .

override vs overload c ++

இந்த API இன் பல சுமை பதிப்புகள் உள்ளன, அதிக அளவுருக்களைக் கொண்ட ஒன்றைப் பார்ப்போம். இந்த விளக்கத்திற்குப் பிறகு, இந்த API இன் மீதமுள்ள சுமை பதிப்புகள் சுய விளக்கமாக இருக்க வேண்டும்.

வருமானம்: மாற்றப்பட்ட டிஸ்ட்ரீம் [(கே, வி)]

குறைக்கும் செயல்பாடு : துணை செயல்பாட்டைக் குறைக்கிறது.

invReduceFunc : மேலே உள்ள தலைகீழ் செயல்பாடு குறைக்கிறது. உள்வரும் மற்றும் வெளிச்செல்லும் தொகுதிகளின் திறமையான கணிப்பீட்டிற்கு இது தேவைப்படுகிறது. இந்த செயல்பாட்டின் உதவியுடன் வெளிச்செல்லும் தொகுதிகளின் மதிப்பு மேலே உள்ள செயல்பாட்டின் திரட்டப்பட்ட மதிப்பிலிருந்து கழிக்கப்படுகிறது. எடுத்துக்காட்டாக, அந்தந்த விசைகளுக்கான உள்வரும் மதிப்புகளின் தொகையை நாம் கணக்கிடுகிறோம் என்றால், வெளிச்செல்லும் தொகுதிகளுக்கு அந்தந்த விசைகளுக்கான மதிப்புகளைக் கழிப்போம் (அவை தற்போதைய தொகுப்பில் இருந்தால் அவை புறக்கணிக்கப்படும்).

சாளர காலம் : தொகுப்புகளை தொகுப்பதற்கான நேர அலகுகள், இது தொகுதி இடைவெளியின் பலமாக இருக்க வேண்டும்.

slideDuration : கணக்கிடுவதற்கான நேர அலகுகள், இது தொகுதி இடைவெளியின் பலமாக இருக்க வேண்டும். பகிர்வுகள் : விளைவாக வரும் டிஸ்ட்ரீமை சேமிக்க பயன்படுத்த வேண்டிய பகிர்வு. பகிர்வு பகிர்வு பற்றிய கூடுதல் தகவலுக்கு இது .

filterFunc : காலாவதியான விசை-மதிப்பு ஜோடிகளை வடிகட்டுவதற்கான செயல்பாடு, அதாவது, ஒரு விசைக்கான புதுப்பிப்பைப் பெறாவிட்டால், அதை அகற்ற விரும்பலாம்.

இங்கே ஒரு நிரல் சாக்கெட் ஸ்ட்ரீமில் இருந்து வரும் சொற்களை எண்ண. 4 வினாடிகளின் சாளர இடைவெளி மற்றும் 2 வினாடிகளின் ஸ்லைடு இடைவெளியுடன் மேலே உள்ள செயல்பாட்டின் ஓவர்லோட் பதிப்பைப் பயன்படுத்தினோம்.

எனது அடுத்த வலைப்பதிவில் முழு அமர்வு கண்காணிப்பு மற்றும் சோதனைச் சாவடி பற்றி எழுதுவேன்.

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.

தொடர்புடைய இடுகைகள்:

ஒளிபரப்பு மாறுபாடுகளுடன் விநியோகிக்கப்பட்ட கேச்சிங்