ஸ்பார்க் எம்.எல்லிப் - அப்பாச்சி தீப்பொறியின் இயந்திர கற்றல் நூலகம்



இந்த ஸ்பார்க் எம்.எல்லிப் வலைப்பதிவு அப்பாச்சி ஸ்பார்க்கின் இயந்திர கற்றல் நூலகத்திற்கு உங்களை அறிமுகப்படுத்தும். இது ஸ்பார்க் எம்.எல்.லிப் பயன்படுத்தி ஒரு திரைப்பட பரிந்துரை அமைப்பு திட்டத்தை உள்ளடக்கியது.

ஸ்பார்க் எம்.எல்லிப் அப்பாச்சி ஸ்பார்க்கின் இயந்திர கற்றல் கூறு.ஸ்பார்க்கின் முக்கிய ஈர்ப்புகளில் ஒன்று கணக்கீட்டை பெருமளவில் அளவிடுவதற்கான திறன் ஆகும், மேலும் இது இயந்திர கற்றல் வழிமுறைகளுக்கு உங்களுக்குத் தேவையானது. ஆனால் வரம்பு என்னவென்றால், அனைத்து இயந்திர கற்றல் வழிமுறைகளையும் திறம்பட இணைக்க முடியாது. ஒவ்வொரு வழிமுறையும் இணையான தன்மைக்கு அதன் சொந்த சவால்களைக் கொண்டுள்ளன, இது பணி இணையாக இருந்தாலும் அல்லது தரவு இணையாக இருந்தாலும் சரி.

வரிசை முறை c ++

இயந்திர கற்றல் வழிமுறைகள் மற்றும் பயன்பாடுகளை உருவாக்குவதற்கான ஒரு உண்மையான தளமாக ஸ்பார்க் மாறி வருகிறது.சரி, நீங்கள் பார்க்கலாம் வலைப்பதிவுடன் முன்னேறுவதற்கு முன்பு தொழில் வல்லுநர்களால் நிர்வகிக்கப்படுகிறது.ஸ்பார்க் எம்.எல்.லிபில் பணிபுரியும் டெவலப்பர்கள் ஸ்பார்க் கட்டமைப்பில் அளவிடக்கூடிய மற்றும் சுருக்கமான முறையில் மேலும் அதிகமான இயந்திர வழிமுறைகளை செயல்படுத்துகின்றனர். இந்த வலைப்பதிவின் மூலம், இயந்திர கற்றல், ஸ்பார்க் எம்.எல்லிப், அதன் பயன்பாடுகள், வழிமுறைகள் மற்றும் மூவி பரிந்துரை அமைப்பின் முழுமையான பயன்பாட்டு வழக்கு ஆகியவற்றைக் கற்றுக்கொள்வோம்.





பின்வரும் வலைப்பதிவுகள் இந்த வலைப்பதிவில் விவரிக்கப்படும்:

  1. இயந்திர கற்றல் என்றால் என்ன?
  2. தீப்பொறி MLlib கண்ணோட்டம்
  3. தீப்பொறி MLlib கருவிகள்
  4. MLlib வழிமுறைகள்
  5. வழக்கு - திரைப்பட பரிந்துரை அமைப்பு பயன்படுத்தவும்

இயந்திர கற்றல் என்றால் என்ன?

செயற்கை நுண்ணறிவில் முறை அங்கீகாரம் மற்றும் கணக்கீட்டு கற்றல் கோட்பாட்டின் ஆய்வில் இருந்து உருவானது, இயந்திர கற்றல் தரவுகளிலிருந்து கற்றுக் கொள்ளக்கூடிய மற்றும் கணிப்புகளைச் செய்யக்கூடிய வழிமுறைகளின் ஆய்வு மற்றும் கட்டுமானத்தை ஆராய்கிறது - இத்தகைய வழிமுறைகள் தரவு உந்துதல் கணிப்புகள் அல்லது முடிவுகளை எடுப்பதன் மூலம் கண்டிப்பாக நிலையான நிரல் வழிமுறைகளைப் பின்பற்றுகின்றன. , மாதிரி உள்ளீடுகளிலிருந்து ஒரு மாதிரியை உருவாக்குவதன் மூலம்.



இயந்திர கற்றல் - தீப்பொறி எம்.எல்லிப் - எடுரேகா படம்: இயந்திர கற்றல் கருவிகள்

இயந்திர கற்றல் கணக்கீட்டு புள்ளிவிவரங்களுடன் நெருக்கமாக தொடர்புடையது, இது கணினிகளின் பயன்பாட்டின் மூலம் முன்கணிப்பு செய்வதிலும் கவனம் செலுத்துகிறது. இது கணித தேர்வுமுறைக்கு வலுவான உறவுகளைக் கொண்டுள்ளது, இது முறைகள், கோட்பாடு மற்றும் பயன்பாட்டு களங்களை புலத்திற்கு வழங்குகிறது. தரவு பகுப்பாய்வு துறையில், இயந்திர கற்றல் என்பது சிக்கலான மாதிரிகள் மற்றும் வழிமுறைகளை வகுக்கப் பயன்படும் ஒரு முறையாகும், இது வணிக ரீதியான பயன்பாட்டில் முன்கணிப்பு பகுப்பாய்வு என அழைக்கப்படுகிறது.

இயந்திர கற்றல் பணிகளில் மூன்று பிரிவுகள் உள்ளன:



  1. மேற்பார்வை கற்றல் : மேற்பார்வை கற்றல் என்பது நீங்கள் உள்ளீட்டு மாறிகள் (x) மற்றும் வெளியீட்டு மாறி (Y) ஆகியவற்றைக் கொண்டிருக்கும், மேலும் உள்ளீட்டிலிருந்து வெளியீட்டிற்கு மேப்பிங் செயல்பாட்டைக் கற்றுக்கொள்ள ஒரு வழிமுறையைப் பயன்படுத்துகிறீர்கள்.
  2. மேற்பார்வை செய்யப்படாத கற்றல் : மேற்பார்வை செய்யப்படாத கற்றல் என்பது ஒரு வகை இயந்திர கற்றல் வழிமுறையாகும், இது பெயரிடப்பட்ட பதில்கள் இல்லாமல் உள்ளீட்டுத் தரவைக் கொண்ட தரவுத்தொகுப்புகளிலிருந்து அனுமானங்களை வரைய பயன்படுகிறது.
  3. வலுவூட்டல் கற்றல் : ஒரு கணினி நிரல் ஒரு மாறும் சூழலுடன் தொடர்பு கொள்கிறது, அதில் அது ஒரு குறிப்பிட்ட இலக்கைச் செய்ய வேண்டும் (வாகனம் ஓட்டுவது அல்லது எதிராளிக்கு எதிராக விளையாடுவது போன்றவை). நிரல் அதன் சிக்கல் இடத்திற்கு செல்லும்போது வெகுமதிகள் மற்றும் தண்டனைகளின் அடிப்படையில் கருத்து வழங்கப்படுகிறது.இந்த கருத்து வலுவூட்டல் கற்றல் என்று அழைக்கப்படுகிறது.

தீப்பொறி MLlib கண்ணோட்டம்

அப்பாச்சி ஸ்பார்க்கில் இயந்திரக் கற்றலைச் செய்ய ஸ்பார்க் எம்.எல்லிப் பயன்படுத்தப்படுகிறது. MLlib பிரபலமான வழிமுறைகள் மற்றும் பயன்பாடுகளைக் கொண்டுள்ளது.

MLlib கண்ணோட்டம்:

  • spark.mllib RDD களின் மேல் கட்டப்பட்ட அசல் API ஐக் கொண்டுள்ளது. இது தற்போது பராமரிப்பு பயன்முறையில் உள்ளது.
  • spark.ml டேட்டாஃப்ரேம்களின் மேல் கட்டப்பட்ட உயர் நிலை API ஐ வழங்குகிறதுஎம்.எல் குழாய்வழிகளை உருவாக்குதல். spark.ml இந்த நேரத்தில் ஸ்பார்க்கின் முதன்மை இயந்திர கற்றல் API ஆகும்.

தீப்பொறி MLlib கருவிகள்

ஸ்பார்க் எம்.எல்லிப் பின்வரும் கருவிகளை வழங்குகிறது:

  • எம்.எல் வழிமுறைகள்: ML வழிமுறைகள் MLlib இன் மையத்தை உருவாக்குகின்றன. வகைப்பாடு, பின்னடைவு, கிளஸ்டரிங் மற்றும் கூட்டு வடிகட்டுதல் போன்ற பொதுவான கற்றல் வழிமுறைகள் இதில் அடங்கும்.
  • அம்சம்: அம்சம் பிரித்தெடுத்தல், மாற்றம், பரிமாணக் குறைப்பு மற்றும் தேர்வு ஆகியவை அம்சமயமாக்கலில் அடங்கும்.
  • குழாய்வழிகள்: எம்.எல் பைப்லைன்களை நிர்மாணித்தல், மதிப்பீடு செய்தல் மற்றும் சரிப்படுத்தும் கருவிகளை பைப்லைன்கள் வழங்குகின்றன.
  • நிலைத்தன்மை: வழிமுறைகள், மாதிரிகள் மற்றும் பைப்லைன்களை சேமிக்கவும் ஏற்றவும் விடாமுயற்சி உதவுகிறது.
  • பயன்பாடுகள்: பயன்பாடுகள்நேரியல் இயற்கணிதம், புள்ளிவிவரங்கள் மற்றும் தரவு கையாளுதலுக்காக.

MLlib வழிமுறைகள்

ஸ்பார்க் எம்.எல்.லிபில் பிரபலமான வழிமுறைகள் மற்றும் பயன்பாடுகள்:

  1. அடிப்படை புள்ளிவிவரங்கள்
  2. பின்னடைவு
  3. வகைப்பாடு
  4. பரிந்துரை அமைப்பு
  5. கிளஸ்டரிங்
  6. பரிமாண குறைப்பு
  7. அம்சம் பிரித்தெடுத்தல்
  8. உகப்பாக்கம்

இவற்றில் சிலவற்றை விரிவாகப் பார்ப்போம்.

அடிப்படை புள்ளிவிவரங்கள்

அடிப்படை புள்ளிவிவரங்கள் இயந்திர கற்றல் நுட்பங்களில் மிக அடிப்படையானது. இவை பின்வருமாறு:

  1. சுருக்கம் புள்ளிவிவரம் : எடுத்துக்காட்டுகளில் சராசரி, மாறுபாடு, எண்ணிக்கை, அதிகபட்சம், நிமிடம் மற்றும் நம்பன்ஜெரோஸ் ஆகியவை அடங்கும்.
  2. தொடர்புகள் : ஸ்பியர்மேன் மற்றும் பியர்சன் தொடர்புகளைக் கண்டறிய சில வழிகள்.
  3. அடுக்கு மாதிரி : இவற்றில் sampleBykey மற்றும் sampleByKeyExact ஆகியவை அடங்கும்.
  4. அனுமான சோதனை : பியர்சனின் சி-ஸ்கொயர் சோதனை என்பது கருதுகோள் சோதனைக்கு ஒரு எடுத்துக்காட்டு.
  5. சீரற்ற தரவு உருவாக்கம் : சீரற்ற தரவை உருவாக்க ரேண்டம்ஆர்டிடிகள், இயல்பான மற்றும் பாய்சன் பயன்படுத்தப்படுகின்றன.

பின்னடைவு

பின்னடைவு பகுப்பாய்வு என்பது மாறிகள் இடையேயான உறவுகளை மதிப்பிடுவதற்கான புள்ளிவிவர செயல்முறை ஆகும். சார்பு மாறி மற்றும் ஒன்று அல்லது அதற்கு மேற்பட்ட சுயாதீன மாறிகளுக்கு இடையிலான உறவில் கவனம் செலுத்தும்போது பல மாறிகள் மாடலிங் மற்றும் பகுப்பாய்வு செய்வதற்கான பல நுட்பங்கள் இதில் அடங்கும். மேலும் குறிப்பாக, சுயாதீன மாறிகள் ஏதேனும் மாறுபடும் போது சார்பு மாறியின் பொதுவான மதிப்பு எவ்வாறு மாறுகிறது என்பதைப் புரிந்துகொள்ள பின்னடைவு பகுப்பாய்வு உதவுகிறது, மற்ற சுயாதீன மாறிகள் நிலையானதாக இருக்கும்.

பின்னடைவு பகுப்பாய்வு கணிப்பு மற்றும் முன்கணிப்புக்கு பரவலாகப் பயன்படுத்தப்படுகிறது, அங்கு அதன் பயன்பாடு இயந்திர கற்றல் துறையில் கணிசமான ஒன்றுடன் ஒன்று உள்ளது. சுயாதீன மாறிகளில் எது சார்பு மாறியுடன் தொடர்புடையது என்பதைப் புரிந்து கொள்ளவும், இந்த உறவுகளின் வடிவங்களை ஆராயவும் பின்னடைவு பகுப்பாய்வு பயன்படுத்தப்படுகிறது. தடைசெய்யப்பட்ட சூழ்நிலைகளில், சுயாதீன மற்றும் சார்பு மாறிகளுக்கு இடையேயான காரண உறவுகளை ஊகிக்க பின்னடைவு பகுப்பாய்வு பயன்படுத்தப்படலாம்.

வகைப்பாடு

வகைப்பாடு ஒரு வகை அவதானிப்பு (அல்லது நிகழ்வுகள்) அடங்கிய அவதானிப்புகள் (அல்லது நிகழ்வுகள்) அடங்கிய தரவின் பயிற்சித் தொகுப்பின் அடிப்படையில், ஒரு புதிய அவதானிப்பு எந்த வகை வகைகளுக்கு (துணை மக்கள்) அடையாளம் காணப்படுவதில் சிக்கல் உள்ளது. இது மாதிரி அங்கீகாரத்திற்கு ஒரு எடுத்துக்காட்டு.

இங்கே, ஒரு எடுத்துக்காட்டு கொடுக்கப்பட்ட மின்னஞ்சலை “ஸ்பேம்” அல்லது “ஸ்பேம் அல்லாத” வகுப்புகளுக்கு ஒதுக்குவது அல்லது நோயாளியின் கவனிக்கப்பட்ட பண்புகள் (பாலினம், இரத்த அழுத்தம், சில அறிகுறிகளின் இருப்பு அல்லது இல்லாதிருத்தல், விவரிக்கப்பட்டுள்ளபடி கொடுக்கப்பட்ட நோயாளிக்கு ஒரு நோயறிதலை வழங்குதல். போன்றவை).

பரிந்துரை அமைப்பு

TO பரிந்துரை அமைப்பு தகவல் வடிகட்டுதல் அமைப்பின் துணைப்பிரிவாகும், இது ஒரு பயனர் ஒரு பொருளுக்கு கொடுக்கும் “மதிப்பீடு” அல்லது “விருப்பம்” ஐ கணிக்க முற்படுகிறது. சமீபத்திய ஆண்டுகளில் பரிந்துரை அமைப்புகள் பிரபலமடைந்துள்ளன, மேலும் அவை திரைப்படங்கள், இசை, செய்தி, புத்தகங்கள், ஆராய்ச்சி கட்டுரைகள், தேடல் வினவல்கள், சமூக குறிச்சொற்கள் மற்றும் பொதுவாக தயாரிப்புகள் உள்ளிட்ட பல்வேறு பகுதிகளில் பயன்படுத்தப்படுகின்றன.

பரிந்துரை அமைப்புகள் பொதுவாக இரண்டு வழிகளில் ஒன்றில் பரிந்துரைகளின் பட்டியலை உருவாக்குகின்றன - கூட்டு மற்றும் உள்ளடக்க அடிப்படையிலான வடிகட்டுதல் அல்லது ஆளுமை அடிப்படையிலான அணுகுமுறை மூலம்.

  1. கூட்டு வடிகட்டுதல் ஒரு பயனரின் கடந்தகால நடத்தை (முன்னர் வாங்கிய அல்லது தேர்ந்தெடுக்கப்பட்ட உருப்படிகள் மற்றும் / அல்லது அந்த உருப்படிகளுக்கு வழங்கப்பட்ட எண் மதிப்பீடுகள்) மற்றும் பிற பயனர்களால் எடுக்கப்பட்ட ஒத்த முடிவுகளிலிருந்து ஒரு மாதிரியை உருவாக்குவதற்கான அணுகுமுறைகள். இந்த மாதிரி பின்னர் பயனருக்கு ஆர்வமுள்ள உருப்படிகளை (அல்லது பொருட்களுக்கான மதிப்பீடுகள்) கணிக்கப் பயன்படுகிறது.
  2. உள்ளடக்க அடிப்படையிலான வடிகட்டுதல் அணுகுமுறைகள் ஒத்த பண்புகளைக் கொண்ட கூடுதல் உருப்படிகளை பரிந்துரைக்க பொருளின் தொடர்ச்சியான தனித்துவமான பண்புகளைப் பயன்படுத்துகின்றன.

மேலும், இந்த அணுகுமுறைகள் பெரும்பாலும் கலப்பின பரிந்துரை அமைப்புகளாக இணைக்கப்படுகின்றன.

கிளஸ்டரிங்

கிளஸ்டரிங் ஒரே குழுவில் உள்ள பொருட்கள் (ஒரு கொத்து என அழைக்கப்படுபவை) மற்ற குழுக்களில் (கொத்துகள்) இருப்பதை விட ஒருவருக்கொருவர் மிகவும் ஒத்ததாக (ஏதோவொரு வகையில் அல்லது இன்னொன்று) ஒத்திருக்கும் வகையில் ஒரு பொருளின் தொகுப்பை தொகுக்கும் பணி. எனவே, இது ஆய்வு தரவு சுரங்கத்தின் முக்கிய பணியாகும், மேலும் இயந்திர தரவு கற்றல், முறை அங்கீகாரம், பட பகுப்பாய்வு, தகவல் மீட்டெடுப்பு, உயிர் தகவல்தொடர்பு, தரவு சுருக்க மற்றும் கணினி கிராபிக்ஸ் உள்ளிட்ட பல துறைகளில் பயன்படுத்தப்படும் புள்ளிவிவர தரவு பகுப்பாய்விற்கான பொதுவான நுட்பமாகும்.

பரிமாண குறைப்பு

பரிமாண குறைப்பு முதன்மை மாறிகள் தொகுப்பைப் பெறுவதன் மூலம், பரிசீலனையில் உள்ள சீரற்ற மாறிகளின் எண்ணிக்கையைக் குறைக்கும் செயல்முறையாகும். இது அம்சத் தேர்வு மற்றும் அம்சம் பிரித்தெடுத்தல் என பிரிக்கப்படலாம்.

  1. அம்சத் தேர்வு: அம்சத் தேர்வு அசல் மாறிகளின் துணைக்குழுவைக் காண்கிறது (அம்சங்கள் அல்லது பண்புக்கூறுகள் என்றும் அழைக்கப்படுகிறது).
  2. அம்சம் பிரித்தெடுத்தல்: இது உயர் பரிமாண இடைவெளியில் தரவை குறைந்த பரிமாணங்களின் இடமாக மாற்றுகிறது. முதன்மை உபகரண பகுப்பாய்வு (பிசிஏ) போலவே தரவு மாற்றமும் நேரியல் ஆக இருக்கலாம், ஆனால் பல நேரியல் பரிமாணக் குறைப்பு நுட்பங்களும் உள்ளன.

அம்சம் பிரித்தெடுத்தல்

அம்சம் பிரித்தெடுத்தல் அளவிடப்பட்ட தரவுகளின் ஆரம்ப தொகுப்பிலிருந்து தொடங்கி தகவல் மற்றும் தேவையற்றதாக இருக்க வேண்டும் என்பதற்காக பெறப்பட்ட பெறப்பட்ட மதிப்புகளை (அம்சங்களை) உருவாக்குகிறது, அடுத்தடுத்த கற்றல் மற்றும் பொதுமைப்படுத்தல் நடவடிக்கைகளுக்கு உதவுகிறது, மேலும் சில சந்தர்ப்பங்களில் சிறந்த மனித விளக்கங்களுக்கு வழிவகுக்கிறது. இது பரிமாணக் குறைப்புடன் தொடர்புடையது.

உகப்பாக்கம்

உகப்பாக்கம் சிறந்த தேர்வுகிடைக்கக்கூடிய சில மாற்று வழிகளிலிருந்து உறுப்பு (சில அளவுகோல்களைப் பொறுத்தவரை).

எளிமையான விஷயத்தில், அனுமதிக்கப்பட்ட தொகுப்பிலிருந்து உள்ளீட்டு மதிப்புகளை முறையாகத் தேர்ந்தெடுத்து செயல்பாட்டின் மதிப்பைக் கணக்கிடுவதன் மூலம் ஒரு உண்மையான செயல்பாட்டை அதிகப்படுத்துவது அல்லது குறைப்பது ஒரு தேர்வுமுறை சிக்கல் ஆகும். தேர்வுமுறை கோட்பாடு மற்றும் நுட்பங்களை பிற சூத்திரங்களுக்கான பொதுமைப்படுத்தல் பயன்பாட்டு கணிதத்தின் பெரிய பகுதியைக் கொண்டுள்ளது. மிகவும் பொதுவாக, தேர்வுமுறை என்பது வரையறுக்கப்பட்ட டொமைன் (அல்லது உள்ளீடு) கொடுக்கப்பட்ட சில புறநிலை செயல்பாட்டின் “சிறந்த கிடைக்கக்கூடிய” மதிப்புகளைக் கண்டுபிடிப்பதை உள்ளடக்குகிறது.பல்வேறு வகையான புறநிலை செயல்பாடுகள் மற்றும் பல்வேறு வகையான களங்கள் உட்பட.

வழக்கு - திரைப்பட பரிந்துரை அமைப்பு பயன்படுத்தவும்

சிக்கல் அறிக்கை: அப்பாச்சி ஸ்பார்க்கைப் பயன்படுத்தி பயனரின் விருப்பங்களின் அடிப்படையில் திரைப்படங்களை பரிந்துரைக்கும் மூவி பரிந்துரை அமைப்பை உருவாக்க.

எங்கள் தேவைகள்:

எனவே, எங்கள் திரைப்பட பரிந்துரை முறையை உருவாக்குவதற்கான தேவைகளை மதிப்பிடுவோம்:

  1. பெரிய அளவிலான தரவை செயலாக்கவும்
  2. பல மூலங்களிலிருந்து உள்ளீடு
  3. பயன்படுத்த எளிதானது
  4. வேகமாக செயலாக்கம்

நாம் மதிப்பிட முடியும் எனஎங்கள் தேவைகள், குறுகிய காலத்தில் பெரிய தரவை செயலாக்க சிறந்த பெரிய தரவு கருவி எங்களுக்கு தேவை. எனவே, அப்பாச்சி தீப்பொறி எங்கள் மூவி பரிந்துரை அமைப்பை செயல்படுத்த சரியான கருவி.

இப்போது எங்கள் கணினிக்கான ஓட்ட வரைபடத்தைப் பார்ப்போம்.

நாம் பார்க்க முடியும் என, பின்வருபவை ஸ்பார்க் ஸ்ட்ரீமிங்கிலிருந்து ஸ்ட்ரீமிங்கைப் பயன்படுத்துகின்றன. நாம் நிகழ்நேரத்தில் ஸ்ட்ரீம் செய்யலாம் அல்லது ஹடூப் எச்.டி.எஃப்.எஸ்ஸிலிருந்து தரவைப் படிக்கலாம்.

தரவுத்தொகுப்பைப் பெறுதல்:

எங்கள் மூவி பரிந்துரை அமைப்புக்கு, ஐஎம்டிபி, ராட்டன் டொமாட்டோஸ் மற்றும் டைம்ஸ் மூவி மதிப்பீடுகள் போன்ற பல பிரபலமான வலைத்தளங்களிலிருந்து பயனர் மதிப்பீடுகளைப் பெறலாம். இந்த தரவுத்தொகுப்பு CSV கோப்புகள், உரை கோப்புகள் a போன்ற பல வடிவங்களில் கிடைக்கிறதுnd தரவுத்தளங்கள். வலைத்தளங்களிலிருந்து தரவை நேரடியாக ஸ்ட்ரீம் செய்யலாம் அல்லது அவற்றை பதிவிறக்கம் செய்து சேமிக்கலாம்எங்கள் உள்ளூர் கோப்பு முறைமை அல்லது HDFS.

தரவுத்தொகுதி:

பிரபலமான வலைத்தளங்களிலிருந்து தரவுத்தொகுப்பை எவ்வாறு சேகரிப்பது என்பதை கீழே உள்ள படம் காட்டுகிறது.

தரவை ஸ்பார்க்கிற்குள் ஸ்ட்ரீம் செய்தவுடன், இது ஓரளவு தெரிகிறது.

இயந்திர வழி கற்றல்:

முழு பரிந்துரை முறையும் இயந்திர கற்றல் வழிமுறையை அடிப்படையாகக் கொண்டது மாற்று குறைந்த சதுரங்கள் . இங்கே, ALS என்பது ஒரு வகை பின்னடைவு பகுப்பாய்வு ஆகும், அங்கு தரவு புள்ளிகளுக்கு இடையில் ஒரு கோட்டை வரைய பின்னடைவு பயன்படுத்தப்படுகிறது, இதனால் ஒவ்வொரு தரவு புள்ளியிலிருந்தும் தூரத்தின் சதுரங்களின் தொகை குறைக்கப்படுகிறது. எனவே, இந்த வரி பின்னர் சுயாதீன மாறியின் மதிப்பை பூர்த்தி செய்யும் செயல்பாட்டின் மதிப்புகளை கணிக்க பயன்படுத்தப்படுகிறது.

வரைபடத்தில் உள்ள நீலக்கோடு சிறந்த பொருத்தம் கொண்ட பின்னடைவு கோடு. இந்த வரியைப் பொறுத்தவரை, டி பரிமாணத்தின் மதிப்பு குறைந்தபட்சம். மற்ற எல்லா சிவப்பு கோடுகளும் எப்போதும் தரவுத்தொகுப்பிலிருந்து ஒட்டுமொத்தமாக இருக்கும்.

தீப்பொறி MLlib செயல்படுத்தல்:

  1. பிற திரைப்படங்களுக்கான மதிப்பீடுகளின் அடிப்படையில் குறிப்பிட்ட திரைப்படங்களுக்கான பயனர்களின் மதிப்பீடுகளை கணிக்க நாங்கள் கூட்டு வடிகட்டலை (சிஎஃப்) பயன்படுத்துவோம்.
  2. குறிப்பிட்ட திரைப்படத்திற்கான பிற பயனர்களின் மதிப்பீட்டோடு இதை நாங்கள் ஒத்துழைக்கிறோம்.
  3. எங்கள் இயந்திர கற்றலிலிருந்து பின்வரும் முடிவுகளைப் பெற, நாங்கள் ஸ்பார்க் SQL இன் டேட்டாஃப்ரேம், தரவுத்தொகுப்பு மற்றும் SQL சேவையைப் பயன்படுத்த வேண்டும்.

எங்கள் திட்டத்திற்கான போலி குறியீடு இங்கே:

org.apache.spark.mllib.recommendation.ALS இறக்குமதி org.apache.spark.mllib.recommendation.Rating இறக்குமதி org.apache.spark.SparkConf // தேவையான பிற தொகுப்புகளை இறக்குமதி செய்யுங்கள் மூவி {டெஃப் பிரதான (args: வரிசை [சரம்] ) {val conf = new SparkConf (). setAppName ('Movie'). setMaster ('local [2]') val sc = new SparkContext (conf) val rawData = sc.textFile ('* மூவி CSV கோப்பிலிருந்து தரவைப் படியுங்கள் * ') //rawData.first () val rawRatings = rawData.map (* தாவல் டிலிமிட்டரில் rawData ஐப் பிரிக்கவும் *) val மதிப்பீடுகள் = rawRatings.map {* பயனர், திரைப்படம் மற்றும் மதிப்பீட்டின் வரைபட வழக்கு வரிசை *} // தரவு வால் மாதிரியைப் பயிற்றுவித்தல் = ALS.train (மதிப்பீடுகள், 50, 5, 0.01) model.userFeatures model.userFeatures.count model.productFeatures.count val prededRating = * திரைப்படம் 123 க்கான பயனர் 789 ஐ கணிக்கவும் * val userId = * பயனர் 789 * val K = 10 val topKRecs = model.recommendProducts (* K இன் குறிப்பிட்ட மதிப்புக்கு பயனருக்கான பரிந்துரை) println (topKRecs.mkString ('')) val movies = sc.textFile ('* திரைப்பட பட்டியல் தரவைப் படியுங்கள் *') மதிப்பு தலைப்புகள் = movies.map (line => line.split ('|'). எடுத்துக் கொள்ளுங்கள் ( 2)). வரைபடம் (வரிசை => (வரிசை (0) .இது, வரிசை (1)). சேகரிக்கவும்அஸ்மேப் () வால் தலைப்புகள் ஆர்.டி.டி = மூவிஸ்மாப் (வரி => வரி. ஸ்பிளிட் ('|'). எடுத்துக்கொள்ளுங்கள் (2) ) .மாப் (வரிசை => (வரிசை (0) .இது, வரிசை (1))). கேச் () தலைப்புகள் (123) வால் மூவிஸ்ஃபோர்யூசர் = மதிப்பீடுகள். * பயனரைத் தேடு 789 * val sqlContext = * SQL சூழலை உருவாக்கு * வால் திரைப்படங்கள் பரிந்துரைக்கப்படுகின்றன = சதுர கான்டெக்ஸ்ட். * பயனர் 789 க்கான மதிப்பீடுகளை வரிசைப்படுத்தவும் * .மாப் (* மதிப்பீட்டை திரைப்பட தலைப்புக்கு வரைபடம் *). * மதிப்பீட்டை அச்சிடுக * மதிப்பு முடிவுகள் = moviesForUser.sortBy (-_. மதிப்பீடு) .தொடக்கம் (30) .மாப் (மதிப்பீடு => (தலைப்புகள் (மதிப்பீடு. தயாரிப்பு), மதிப்பீடு.ரேட்டிங்))}}

நாங்கள் கணிப்புகளை உருவாக்கியதும், முடிவுகளை RDBMS அமைப்பில் சேமிக்க ஸ்பார்க் SQL ஐப் பயன்படுத்தலாம். மேலும், இது ஒரு வலை பயன்பாட்டில் காட்டப்படும்.

முடிவுகள்:

படம்: பயனர் 77 க்கு பரிந்துரைக்கப்பட்ட திரைப்படங்கள்

ஹர்ரே! அப்பாச்சி தீப்பொறியைப் பயன்படுத்தி மூவி பரிந்துரை அமைப்பை வெற்றிகரமாக உருவாக்கியுள்ளோம். இதன் மூலம், ஸ்பார்க் எம்.எல்லிப் வழங்க வேண்டிய பல பிரபலமான வழிமுறைகளில் ஒன்றை நாங்கள் உள்ளடக்கியுள்ளோம். தரவு அறிவியல் வழிமுறைகளில் வரவிருக்கும் வலைப்பதிவுகளில் இயந்திர கற்றல் பற்றி மேலும் அறிந்து கொள்வோம்.

முன்னோக்கி எடுத்துக்கொண்டால், நீங்கள் அப்பாச்சி ஸ்பார்க்கை ஸ்பார்க் டுடோரியல், ஸ்பார்க் ஸ்ட்ரீமிங் டுடோரியலுடன் தொடர்ந்து கற்றுக் கொள்ளலாம், மற்றும் தீப்பொறி நேர்காணல் கேள்விகள்.எடுரேகா ஆன்லைனில் சிறந்த கற்றல் அனுபவத்தை வழங்குவதற்காக அர்ப்பணிக்கப்பட்டுள்ளது.

எங்கள் பாருங்கள் நான் f நீங்கள் ஸ்பார்க்கைக் கற்றுக் கொள்ள விரும்புகிறீர்கள் மற்றும் ஸ்பார்க்கின் களத்தில் ஒரு தொழிலை உருவாக்கி, உண்மையான வாழ்க்கை பயன்பாட்டு நிகழ்வுகளுடன் RDD, Spark Streaming, SparkSQL, MLlib, GraphX ​​மற்றும் Scala ஐப் பயன்படுத்தி பெரிய அளவிலான தரவு செயலாக்கத்தை செய்ய நிபுணத்துவத்தை உருவாக்க விரும்புகிறீர்கள்.