பைத்தானுடன் தீப்பொறி அறிமுகம் - ஆரம்பநிலைக்கு பைஸ்பார்க்



அப்பாச்சி ஸ்பார்க் பிக் டேட்டா & அனலிட்டிக்ஸ் உலகத்தை கையகப்படுத்தியுள்ளது மற்றும் பைதான் இன்று தொழில்துறையில் பயன்படுத்தப்படும் மிகவும் அணுகக்கூடிய நிரலாக்க மொழிகளில் ஒன்றாகும். எனவே இந்த வலைப்பதிவில், இரு உலகங்களிலிருந்தும் சிறந்ததைப் பெற பைஸ்பார்க் (பைத்தானுடன் கூடிய தீப்பொறி) பற்றி அறிந்து கொள்வோம்.

பிக் டேட்டா AND உடன் கையாளுதல் மற்றும் பணிபுரியும் போது மிகவும் பரவலாக பயன்படுத்தப்படும் கட்டமைப்பாகும் பைதான் தரவு பகுப்பாய்வு, இயந்திர கற்றல் மற்றும் பலவற்றிற்கான மிகவும் பரவலாக பயன்படுத்தப்படும் நிரலாக்க மொழிகளில் ஒன்றாகும். எனவே, அவற்றை ஏன் ஒன்றாகப் பயன்படுத்தக்கூடாது? இங்குதான் பைத்தானுடன் தீப்பொறி எனவும் அறியப்படுகிறது பைஸ்பார்க் உள்ளே வருகிறதுதிபடம்.

அப்பாச்சி ஸ்பார்க் டெவலப்பருக்கு சராசரியாக, 000 110,000 பா சம்பளத்துடன், ஸ்பார்க் தொழில்துறையில் அதிகம் பயன்படுத்தப்படுகிறது என்பதில் சந்தேகமில்லை. ஏனெனில்அதன்பணக்கார நூலக தொகுப்பு, பைதான் பயன்படுத்துகிறதுதிஇன்று தரவு விஞ்ஞானிகள் மற்றும் பகுப்பாய்வு வல்லுநர்கள் பெரும்பான்மையானவர்கள். பைத்தானை ஸ்பார்க்குடன் ஒருங்கிணைப்பது சமூகத்திற்கு ஒரு பெரிய பரிசாக இருந்தது. ஸ்பார்க் ஸ்கலா மொழியில் உருவாக்கப்பட்டது, இது ஜாவாவுடன் மிகவும் ஒத்திருக்கிறது. இது தீப்பொறி பெரிய தரவு செயலாக்கத்திற்கான ஜே.வி.எம் க்கான நிரல் குறியீட்டை பைட்கோடாக தொகுக்கிறது. பைத்தானுடன் ஸ்பார்க்கை ஆதரிக்க, அப்பாச்சி ஸ்பார்க் சமூகம் பைஸ்பார்க்கை வெளியிட்டது.அப்போதிருந்து, இந்த இரண்டு உலகங்களிலும் சிறந்ததை இணைத்தபின் வந்த பலவிதமான நன்மைகள் காரணமாக தொழில் முழுவதும் மிகவும் விரும்பப்படும் திறன்களில் ஒன்றாக அறியப்படுகிறது.பைதான் வலைப்பதிவுடன் இந்த தீப்பொறியில், பின்வரும் தலைப்புகளைப் பற்றி விவாதிப்பேன்.





அப்பாச்சி தீப்பொறி அறிமுகம்

அப்பாச்சி ஸ்பார்க் என்பது ஒரு திறந்த மூல கிளஸ்டர்-கம்ப்யூட்டிங் கட்டமைப்பாகும் நிகழ்நேர செயலாக்கம் அப்பாச்சி மென்பொருள் அறக்கட்டளை உருவாக்கியது. முழு கிளஸ்டர்களையும் மறைமுகமாக நிரலாக்க ஒரு இடைமுகத்தை ஸ்பார்க் வழங்குகிறது தரவு இணையானது மற்றும் தவறு-சகிப்புத்தன்மை.



அப்பாச்சி ஸ்பார்க்கின் சில அம்சங்கள் கீழே உள்ளன, இது மற்ற கட்டமைப்புகளை விட ஒரு விளிம்பை அளிக்கிறது:

தீப்பொறி அம்சங்கள் - பைத்தானுடன் தீப்பொறி - எடுரேகா

  • வேகம்: இது பாரம்பரிய பெரிய அளவிலான தரவு செயலாக்க கட்டமைப்பை விட 100 மடங்கு வேகமாக உள்ளது.
  • சக்திவாய்ந்த கேச்சிங்: எளிய நிரலாக்க அடுக்கு சக்திவாய்ந்த கேச்சிங் மற்றும் வட்டு நிலைத்தன்மையின் திறன்களை வழங்குகிறது.
  • வரிசைப்படுத்தல்: மெசோஸ், நூல் வழியாக ஹடூப் அல்லது ஸ்பார்க்கின் சொந்த கிளஸ்டர் மேலாளர் வழியாக பயன்படுத்தப்படலாம்.
  • நிகழ் நேரம்: நிகழ்நேரம்நினைவக கணக்கீடு காரணமாக கணக்கீடு மற்றும் குறைந்த தாமதம்.
  • பாலிகிளாட்: இது மிக முக்கியமான ஒன்றாகும்அம்சங்கள்இந்த கட்டமைப்பை ஸ்கலா, ஜாவா, பைதான் மற்றும் ஆர்.

பைத்தானுக்கு ஏன் செல்ல வேண்டும்?

ஸ்பார்க் ஸ்கேலாவில் வடிவமைக்கப்பட்டிருந்தாலும், இது பைத்தானை விட கிட்டத்தட்ட 10 மடங்கு வேகமாக செய்கிறது, ஆனால் ஸ்கலா வேகமாக இருக்கும்போது மட்டுமே பயன்படுத்தப்படும் கோர்களின் எண்ணிக்கை குறைவாக உள்ளது . இப்போதெல்லாம் பெரும்பாலான பகுப்பாய்வு மற்றும் செயல்முறைக்கு அதிக எண்ணிக்கையிலான கோர்கள் தேவைப்படுவதால், ஸ்கலாவின் செயல்திறன் நன்மை அவ்வளவு இல்லை.



புரோகிராமர்களுக்கு பைதான் ஒப்பீட்டளவில் எளிதானது கற்றுக்கொள்ள அதன் தொடரியல் மற்றும் நிலையான நூலகங்கள் காரணமாக. மேலும், இது ஒரு மாறும் தட்டச்சு செய்யப்பட்ட மொழி, அதாவது RDD க்கள் பல வகையான பொருட்களை வைத்திருக்க முடியும்.

ஸ்கலா இருந்தாலும் SparkMLlib அது இல்லை இயந்திர கற்றல் மற்றும் என்.எல்.பி.க்கு போதுமான நூலகங்கள் மற்றும் கருவிகள் நோக்கங்களுக்காக. மேலும், ஸ்கலாவில் தரவு காட்சிப்படுத்தல் இல்லை.

பைஸ்பார்க் பயிற்சி | பைத்தானுடன் அப்பாச்சி தீப்பொறி | எடுரேகா

புதிய புதுப்பிப்புகளைப் பெற எங்கள் யூடியூப் சேனலுக்கு குழுசேரவும் ..!

பைதான் (பைஸ்பார்க்) உடன் தீப்பொறியை அமைத்தல்

உங்களுக்கு எப்படி தெரியும் என்று நம்புகிறேன் .எனவே, நீங்கள் வந்தவுடன் unzipped தீப்பொறி கோப்பு, நிறுவப்பட்ட அது அதற்கான பாதையைச் சேர்த்தது .bashrc கோப்பு, நீங்கள் தட்டச்சு செய்ய வேண்டும்மூல .bashrc

ஏற்றுமதி SPARK_HOME = /usr/lib/hadoop/spark-2.1.0-bin-hadoop2.7 ஏற்றுமதி PATH = $ PATH: /usr/lib/hadoop/spark-2.1.0-bin-hadoop2.7/bin

பைஸ்பார்க் ஷெல் திறக்க நீங்கள் கட்டளையை தட்டச்சு செய்ய வேண்டும்./bin/pyspark

தொழிலில் தீப்பொறி

அப்பாச்சி ஸ்பார்க் போன்ற அற்புதமான அம்சங்கள் இருப்பதால் நினைவக செயலாக்கம் , polyglot மற்றும் வேகமான செயலாக்கம் உலகெங்கிலும் உள்ள பல நிறுவனங்களால் பல்வேறு தொழில்களில் பல்வேறு நோக்கங்களுக்காக பயன்படுத்தப்படுகின்றன:

யாகூ அப்பாச்சி ஸ்பார்க்கை அதன் இயந்திர கற்றல் திறன்களுக்காக அதன் செய்திகள், வலைப்பக்கங்கள் மற்றும் இலக்கு விளம்பரங்களுக்காக தனிப்பயனாக்க பயன்படுத்துகிறது. எந்த வகையான செய்திகளைக் கண்டுபிடிக்க அவர்கள் பைத்தானுடன் ஸ்பார்க்கைப் பயன்படுத்துகிறார்கள் - பயனர்கள் ஒவ்வொரு வகை செய்திகளையும் படிக்க எந்த வகையான பயனர்கள் ஆர்வமாக இருப்பார்கள் என்பதைக் கண்டறிய செய்திகளைப் படிக்கவும் வகைப்படுத்தவும் பயனர்கள் ஆர்வமாக உள்ளனர்.

டிரிப் அட்வைசர் அதன் வாடிக்கையாளர்களுக்கு சிறந்த ஹோட்டல் விலைகளைக் கண்டறிய நூற்றுக்கணக்கான வலைத்தளங்களை ஒப்பிட்டு மில்லியன் கணக்கான பயணிகளுக்கு ஆலோசனைகளை வழங்க அப்பாச்சி தீப்பொறியைப் பயன்படுத்துகிறது. ஹோட்டல்களின் மதிப்புரைகளை படிக்கக்கூடிய வடிவத்தில் படிக்கவும் செயலாக்கவும் எடுக்கப்பட்ட நேரம் அப்பாச்சி ஸ்பார்க்கின் உதவியுடன் செய்யப்படுகிறது.

உலகின் மிகப்பெரிய இ-காமர்ஸ் தளங்களில் ஒன்று அலிபாபா அதன் ஈ-காமர்ஸ் இயங்குதளத்தில் நூற்றுக்கணக்கான பெட்டாபைட் தரவை பகுப்பாய்வு செய்வதற்காக உலகின் மிகப்பெரிய அப்பாச்சி ஸ்பார்க் வேலைகளில் சிலவற்றை இயக்குகிறது.

பைஸ்பார்க் ஸ்பார்க் கான்டெக்ஸ்ட் மற்றும் டேட்டா ஃப்ளோ

ஸ்பார்க் வித் பைத்தானைப் பற்றி பேசுகையில், RDD களுடன் பணிபுரிவது Py4j நூலகத்தால் சாத்தியமானது. பைஸ்பார்க் ஷெல் பைதான் API ஐ தீப்பொறி மையத்துடன் இணைக்கிறது மற்றும் தீப்பொறி சூழலைத் துவக்குகிறது. தீப்பொறி சூழல் எந்த தீப்பொறி பயன்பாட்டின் இதயம்.

  1. தீப்பொறி சூழல் உள் சேவைகளை அமைத்து, தீப்பொறி செயல்படுத்தும் சூழலுக்கான இணைப்பை நிறுவுகிறது.
  2. இயக்கி நிரலில் உள்ள ஸ்பார்க் கான்டெக்ஸ்ட் பொருள் அனைத்து விநியோகிக்கப்பட்ட செயல்முறையையும் ஒருங்கிணைக்கிறது மற்றும் வள ஒதுக்கீட்டை அனுமதிக்கிறது.
  3. கிளஸ்டர் மேலாளர்கள் எக்ஸிகியூட்டர்களை வழங்குகிறார்கள், அவை தர்க்கத்துடன் ஜே.வி.எம் செயல்முறை.
  4. SparkContext பொருள் பயன்பாட்டை நிர்வாகிகளுக்கு அனுப்புகிறது.
  5. ஒவ்வொரு நிர்வாகியிலும் ஸ்பார்க் கான்டெக்ஸ்ட் பணிகளை இயக்குகிறது.

பைஸ்பார்க் கே.டி.டி பயன்பாட்டு வழக்கு

இப்போது ஒரு பயன்பாட்டு வழக்கைப் பார்ப்போம் KDD’99 கோப்பை (சர்வதேச அறிவு கண்டுபிடிப்பு மற்றும் தரவு சுரங்க கருவிகள் போட்டி).அசல் தரவுத்தொகுப்பு மிகப் பெரியதாக இருப்பதால் இங்கே நாம் தரவுத்தொகுப்பின் ஒரு பகுதியை எடுத்துக்கொள்வோம்

இறக்குமதி urllib f = urllib.urlretrieve ('http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz', 'kddcup.data_10_percent.gz')

RDD ஐ உருவாக்குதல்:
இப்போது நாம் இந்த கோப்பை பயன்படுத்தலாம் எங்கள் RDD ஐ உருவாக்கவும் .

data_file = './kddcup.data_10_percent.gz' raw_data = sc.textFile (data_file)

வடிகட்டுதல்:

எத்தனை இயல்பானவை என்று எண்ண விரும்புகிறோம் என்று வைத்துக்கொள்வோம். எங்கள் தரவுத்தொகுப்பில் உள்ள தொடர்புகள். நம்மால் முடியும் வடிகட்டி எங்கள் raw_data RDD பின்வருமாறு.

normal_raw_data = raw_data.filter (லாம்ப்டா x: 'இயல்பானது. x இல்)

எண்ணிக்கை:

இப்போது நம்மால் முடியும் எண்ணிக்கை புதிய RDD இல் எத்தனை கூறுகள் உள்ளன.

நேர இறக்குமதி நேரத்திலிருந்து t0 = நேரம் () normal_count = normal_raw_data.count () tt = time () - t0 அச்சு '{normal' இயல்பான 'இடைவினைகள் உள்ளன. வடிவமைப்பு (இயல்பான_கணக்கு) அச்சு' எண்ணிக்கை}} வினாடிகளில் முடிந்தது. (சுற்று (tt, 3%))

வெளியீடு:

97278 'இயல்பான' இடைவினைகள் 5.951 வினாடிகளில் நிறைவு செய்யப்பட்டுள்ளன

விவரணையாக்கம்:

இதில்வழக்குஎங்கள் தரவு கோப்பை CSV வடிவமைக்கப்பட்ட ஒன்றாக படிக்க விரும்புகிறோம். RDD இல் உள்ள ஒவ்வொரு உறுப்புக்கும் பின்வருமாறு ஒரு லாம்ப்டா செயல்பாட்டைப் பயன்படுத்துவதன் மூலம் இதைச் செய்யலாம். இங்கே நாம் பயன்படுத்துவோம் வரைபடம் () மற்றும் () மாற்றத்தை எடுத்துக் கொள்ளுங்கள்.

டேலண்ட் எட்ல் டூல் டுடோரியல் பி.டி.எஃப்
pprint இறக்குமதியிலிருந்து pprint csv_data = raw_data.map (lambda x: x.split (',')) t0 = time () head_rows = csv_data.take (5) tt = time () - t0 print 'பாகுபடுத்தி {} வினாடிகளில் முடிந்தது '. வடிவமைப்பு (சுற்று (tt, 3%) pprint (head_rows [0])

வெளியீடு:

பாகுபடுத்தல் 1.715 வினாடிகளில் முடிந்தது [u'0 ', u'tcp', u'http ', u'SF', u'181 ', u'5450', u'0 ', u'0' ,. . u'normal. ']

பிரித்தல்:

இப்போது RDD இல் உள்ள ஒவ்வொரு உறுப்புகளையும் ஒரு முக்கிய மதிப்பு ஜோடியாக வைத்திருக்க விரும்புகிறோம், அங்கு விசை குறிச்சொல் (எ.கா. சாதாரண ) மற்றும் மதிப்பு என்பது CSV வடிவமைக்கப்பட்ட கோப்பில் வரிசையை குறிக்கும் உறுப்புகளின் முழு பட்டியலாகும். நாங்கள் பின்வருமாறு தொடரலாம். இங்கே நாம் பயன்படுத்துகிறோம் line.split () மற்றும் வரைபடம் ().

def parse_interaction (line): elems = line.split (',') tag = elems [41] return (tag, elems) key_csv_data = raw_data.map (parse_interaction) head_rows = key_csv_data.take (5) pprint (head_rows [0] )
 வெளியீடு: (u'normal. ', [u'0', u'tcp ', u'http', u'SF ', u'181', u'5450 ', u'0', u'0 ', u' 0.00 ', u'1.00', .... அசாதாரணமானது. '])

சேகரிப்பு நடவடிக்கை:

இங்கே நாம் சேகரிப்பு () செயலைப் பயன்படுத்தப் போகிறோம். இது RDD இன் அனைத்து கூறுகளையும் நினைவகத்தில் பெறும். இந்த காரணத்திற்காக, பெரிய RDD களுடன் பணிபுரியும் போது அதை கவனமாகப் பயன்படுத்த வேண்டும்.

t0 = நேரம் () all_raw_data = raw_data.collect () tt = time () - t0 print 'data} வினாடிகளில் சேகரிக்கப்பட்ட தரவு. வடிவமைப்பு (சுற்று (tt, 3%))

வெளியீடு:

17.927 வினாடிகளில் தரவு சேகரிக்கப்பட்டது

நிச்சயமாக நாங்கள் முன்பு பயன்படுத்திய வேறு எந்த செயலையும் விட இது அதிக நேரம் எடுத்தது. RDD இன் ஒரு பகுதியைக் கொண்ட ஒவ்வொரு ஸ்பார்க் தொழிலாளி முனையும் அதன் பகுதியை மீட்டெடுக்க ஒருங்கிணைக்கப்பட வேண்டும், பின்னர் எல்லாவற்றையும் ஒன்றாகக் குறைக்க வேண்டும்.

முந்தைய அனைத்தையும் இணைக்கும் கடைசி எடுத்துக்காட்டு, அனைத்தையும் சேகரிக்க விரும்புகிறோம்சாதாரணமுக்கிய மதிப்பு ஜோடிகளாக இடைவினைகள்.

# கோப்பு தரவு_ கோப்பு = 'இலிருந்து தரவைப் பெறுக.' lambda x: x [0] == 'normal.') # எல்லாவற்றையும் சேகரிக்கவும் t0 = நேரம் () all_normal = normal_key_interactions.collect () tt = time () - t0 normal_count = len (all_normal) print 'data} வினாடிகளில் சேகரிக்கப்பட்ட தரவு '. வடிவமைப்பு (சுற்று (tt, 3)) அச்சு' normal normal 'இயல்பான' இடைவினைகள் உள்ளன. வடிவமைப்பு (இயல்பான_கணக்கு)

வெளியீடு:

12.485 வினாடிகளில் சேகரிக்கப்பட்ட தரவு 97278 சாதாரண தொடர்புகள் உள்ளன

எனவே இது தான், நண்பர்களே!

பைதான் வலைப்பதிவுடன் இந்த தீப்பொறியை நீங்கள் ரசித்தீர்கள் என்று நம்புகிறேன். நீங்கள் இதைப் படிக்கிறீர்கள் என்றால், வாழ்த்துக்கள்! நீங்கள் இனி பைஸ்பார்க்கிற்கு புதியவர் அல்ல. உங்கள் கணினிகளில் இந்த எளிய உதாரணத்தை இப்போது முயற்சிக்கவும்.

பைஸ்பார்க்கின் அடிப்படைகளை இப்போது நீங்கள் புரிந்து கொண்டீர்கள், பாருங்கள் உலகெங்கிலும் பரவியுள்ள 250,000 க்கும் மேற்பட்ட திருப்தியான கற்றவர்களின் வலைப்பின்னலுடன் நம்பகமான ஆன்லைன் கற்றல் நிறுவனமான எடுரேகாவால். எடுரேகா பைஸ்பார்க் பயன்படுத்தி பைதான் ஸ்பார்க் சான்றிதழ் பயிற்சி பைத்தானைப் பயன்படுத்தி வெற்றிகரமான ஸ்பார்க் டெவலப்பராக மாறுவதற்கும், கிளவுட்ரா ஹடூப் மற்றும் ஸ்பார்க் டெவலப்பர் சான்றிதழ் தேர்வுக்கு (சி.சி.ஏ .175) உங்களைத் தயாரிப்பதற்கும் தேவையான அறிவு மற்றும் திறன்களை உங்களுக்கு வழங்க வடிவமைக்கப்பட்டுள்ளது.

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.