கே கற்றல்: வலுவூட்டல் கற்றல் பற்றி நீங்கள் தெரிந்து கொள்ள வேண்டியது எல்லாம்



இந்த கட்டுரை பைத்தான் குறியீடு வழியாக வலுவூட்டல் கற்றலின் அழகான ஒப்புமை மூலம் கியூ-கற்றல் பற்றிய விரிவான மற்றும் விரிவான அறிவை வழங்குகிறது.

மற்றும் ஒரு சில களங்கள், அவை தொழில்துறையின் சிறந்த புஸ்வேர்டுகளில் ஒன்றாகும் மற்றும் ஒரு நல்ல காரணத்திற்காக. மனித நடத்தை பிரதிபலிக்கும் இயந்திரங்களை இயக்குவதே அதன் முக்கிய குறிக்கோள் என்று கருதி AI 2020 க்குள் 2.3 மில்லியன் வேலைகளை உருவாக்கப் போகிறது. ஒற்றைப்படை இல்லையா? எனவே, இன்று நாம் பின்வரும் வரிசையில் வலுவூட்டல் கற்றலின் கட்டுமானத் தொகுதியான Q கற்றல் பற்றி விவாதிக்கப் போகிறோம்:

வலுவூட்டல் கற்றல் என்றால் என்ன?

நம்முடைய அன்றாட வாழ்க்கையைப் பார்ப்போம். நாங்கள் சூழலில் ஏராளமான பணிகளைச் செய்கிறோம், அவற்றில் சில பணிகள் வெகுமதிகளைத் தருகின்றன, சிலவற்றில் இல்லை. நாங்கள் வெவ்வேறு பாதைகளைத் தேடிக்கொண்டிருக்கிறோம், எந்த பாதை வெகுமதிகளுக்கு வழிவகுக்கும் என்பதைக் கண்டறிய முயற்சிக்கிறோம், எங்கள் செயலின் அடிப்படையில் இலக்குகளை அடைவதற்கான எங்கள் உத்திகளை மேம்படுத்துகிறோம். இது எனது நண்பர்கள் வலுவூட்டல் கற்றலின் எளிமையான ஒப்புமைகளில் ஒன்றாகும்.





ஆர்வத்தின் முக்கிய பகுதிகள்:

  • சுற்றுச்சூழல்
  • செயல்
  • வெகுமதி
  • நிலை

வலுவூட்டல் கற்றல் - q கற்றல்



வலுவூட்டல் கற்றல் என்பது இயந்திரக் கற்றலின் கிளை ஆகும், இது அமைப்புகள் தங்கள் சொந்த முடிவுகளின் விளைவுகளிலிருந்து கற்றுக்கொள்ள அனுமதிக்கிறது. முடிவெடுப்பது தொடர்ச்சியாக இருக்கும் ஒரு குறிப்பிட்ட வகையான சிக்கலை இது தீர்க்கிறது, மேலும் குறிக்கோள் நீண்ட காலமாகும்.

கே-கற்றல் செயல்முறை

எங்கள் சிக்கல் அறிக்கையுடன் Q கற்றல் என்ன என்பதை இங்கே புரிந்துகொள்வோம். வலுவூட்டல் கற்றல் தீர்வின் முக்கிய கூறுகளை வரையறுக்க இது நமக்கு உதவும், அதாவது முகவர்கள், சுற்றுச்சூழல், செயல்கள், வெகுமதிகள் மற்றும் மாநிலங்கள்.

ஆட்டோமொபைல் தொழிற்சாலை ஒப்புமை:



நாங்கள் ரோபோக்கள் நிறைந்த ஆட்டோமொபைல் தொழிற்சாலையில் இருக்கிறோம். இந்த ரோபோக்கள் ஒரு காரை ஒன்று சேர்ப்பதற்குத் தேவையான பகுதிகளை வெளிப்படுத்துவதன் மூலம் தொழிற்சாலை தொழிலாளர்களுக்கு உதவுகின்றன. இந்த வெவ்வேறு பாகங்கள் 9 நிலையங்களில் தொழிற்சாலைக்குள் வெவ்வேறு இடங்களில் அமைந்துள்ளன. பாகங்களில் சேஸ், வீல்ஸ், டாஷ்போர்டு, எஞ்சின் மற்றும் பல உள்ளன. தொழிற்சாலை மாஸ்டர் சேஸ் நிறுவப்படும் இடத்திற்கு அதிக முன்னுரிமை அளித்துள்ளது. இங்கே அமைப்பைப் பார்ப்போம்:

மாநிலங்களில்:

ஒரு குறிப்பிட்ட சந்தர்ப்பத்தில் ஒரு ரோபோ இருக்கும் இடம் அதன் நிலை என்று அழைக்கப்படுகிறது. பெயர்களால் நினைவில் கொள்வதை விட குறியீடு செய்வது எளிது என்பதால். இருப்பிடத்தை எண்களுக்கு வரைபடமாக்குவோம்.

ஜாவாவுக்கான பாதையை எவ்வாறு அமைப்பது

செயல்கள்:

எந்தவொரு இடத்திற்கும் ரோபோக்கள் மேற்கொண்ட நகர்வுகளைத் தவிர செயல்கள் எதுவும் இல்லை. ஒரு ரோபோ எல் 2 இடத்தில் இருப்பதைக் கவனியுங்கள், அது நகரக்கூடிய நேரடி இடங்கள் எல் 5, எல் 1 மற்றும் எல் 3 ஆகும். இதைக் காட்சிப்படுத்தினால் இதை நன்றாக புரிந்துகொள்வோம்:

வெகுமதிகள்:

ஒரு மாநிலத்திலிருந்து நேரடியாக மற்றொரு மாநிலத்திற்குச் சென்றதற்காக ரோபோவுக்கு வெகுமதி வழங்கப்படும். எடுத்துக்காட்டாக, நீங்கள் L2 இலிருந்து நேரடியாக L5 ஐ அடையலாம் மற்றும் நேர்மாறாகவும். எனவே, இரண்டிலும் 1 வெகுமதி வழங்கப்படும். வெகுமதி அட்டவணையைப் பார்ப்போம்:

தொழிற்சாலை மாஸ்டர் சேஸ் இருப்பிடத்திற்கு முன்னுரிமை அளித்தபோது நினைவில் கொள்ளுங்கள். இது எல் 7 ஆக இருந்தது, எனவே இந்த உண்மையை எங்கள் வெகுமதி அட்டவணையில் இணைக்கப் போகிறோம். எனவே, (எல் 7, எல் 7) இடத்தில் மிகப் பெரிய எண்ணிக்கையை (எங்கள் விஷயத்தில் 999) ஒதுக்குவோம்.

பெல்மேன் சமன்பாடு

இப்போது ஒரு ரோபோ ஒரு புள்ளியில் இருந்து பி க்கு செல்ல வேண்டும் என்று வைத்துக்கொள்வோம். இது ஒரு நேர்மறையான வெகுமதியை வழங்கும் பாதையை தேர்வு செய்யும். அதற்காக நாங்கள் அதைப் பின்பற்றுவதற்கான தடம் அடிப்படையில் ஒரு வெகுமதியை வழங்குகிறோம்.

ரோபோ இரண்டு அல்லது அதற்கு மேற்பட்ட பாதைகளைக் காணக்கூடிய இடையில் எங்கிருந்தோ தொடங்கினால் என்ன செய்வது. இதனால் ரோபோ ஒரு முடிவை எடுக்க முடியாது, இது முதன்மையாக நடக்கிறது, ஏனெனில் அது இல்லை நினைவு . இங்குதான் பெல்மேன் சமன்பாடு படத்தில் வருகிறது.

வி (கள்) = அதிகபட்சம் (ஆர் (கள், அ) + & # 120632 வி (கள் ’))

எங்கே:

  • s = ஒரு குறிப்பிட்ட நிலை
  • a = செயல்
  • s '= ரோபோ s இலிருந்து செல்லும் நிலை
  • & # 120632 = தள்ளுபடி காரணி
  • ஆர் (கள், அ) = ஒரு வெகுமதி செயல்பாடு, இது ஒரு நிலை (கள்) மற்றும் செயல் (அ) எடுத்து வெகுமதி மதிப்பை வெளியிடுகிறது
  • வி (கள்) = ஒரு குறிப்பிட்ட நிலையில் இருப்பதன் மதிப்பு

இப்போது இலக்குக்குக் கீழே உள்ள தொகுதிக்கு 1 வெகுமதி கிடைக்கும், இது மிக உயர்ந்த வெகுமதி, ஆனால் மற்ற தொகுதிக்கு என்ன? சரி, இங்குதான் தள்ளுபடி காரணி வருகிறது. 0.9 என்ற தள்ளுபடி காரணியைக் கருதி, எல்லா தொகுதிகளையும் ஒவ்வொன்றாக நிரப்புவோம்.

மார்கோவ் முடிவு செயல்முறை

ஒரு ரோபோ ஆரஞ்சுத் தொகுதியில் இருப்பதாக கற்பனை செய்து பாருங்கள். ஆனால் சற்று செயலிழந்தாலும் ரோபோ மேலே செல்வதை விட எந்த பாதையில் செல்ல வேண்டும் என்று குழப்பமடையும்.

எனவே முடிவெடுக்கும் செயல்முறையை நாங்கள் மாற்ற வேண்டும். அது வேண்டும் ஓரளவு சீரற்ற மற்றும் ஓரளவு ரோபோவின் கட்டுப்பாட்டில் உள்ளது . ஓரளவு சீரற்றது, ஏனெனில் ரோபோ எப்போது செயலிழந்து போகும் என்பது எங்களுக்குத் தெரியாது, ஓரளவு கட்டுப்பாட்டில் இருக்கும், ஏனெனில் இது இன்னும் ரோபோவின் முடிவுதான். இது மார்கோவ் முடிவு செயல்முறைக்கான தளத்தை உருவாக்குகிறது.

ஒரு மார்கோவ் முடிவு செயல்முறை (எம்.டி.பி) என்பது ஒரு தனித்துவமான நேர சீரற்ற கட்டுப்பாட்டு செயல்முறையாகும். முடிவுகள் ஓரளவு சீரற்றதாகவும், முடிவெடுப்பவரின் கட்டுப்பாட்டின் கீழ் இருக்கும் சூழ்நிலைகளிலும் மாடலிங் முடிவெடுப்பதற்கான கணித கட்டமைப்பை இது வழங்குகிறது.

எனவே எங்கள் அசல் பெல்மேன் சமன்பாட்டைப் பயன்படுத்தி அதில் மாற்றங்களைச் செய்யப் போகிறோம். நமக்குத் தெரியாதது அடுத்த நிலை அதாவது. s ’. ஒரு திருப்பத்தின் அனைத்து சாத்தியங்களும் நமக்குத் தெரிந்தவை, சமன்பாட்டை மாற்றுவோம்.

வி (கள்) = அதிகபட்சம் (ஆர் (கள், அ) + & # 120632 வி (கள்))

வி (கள்) = அதிகபட்சம் (ஆர் (கள், அ) + & # 120632 & சிக்மாs ’பி (கள், அ, கள் ’) வி (கள் '))

தரவு சுருக்கம் c ++

பி (கள், அ, கள் ’): மாநிலத்திலிருந்து நகரும் நிகழ்தகவு கள் க்கு s ’ செயலுடன் க்கு

& சிக்மாs ’பி (கள், அ, கள் ’) வி (கள் ’): ரோபோவின் சீரற்ற எதிர்பார்ப்புகள்

வி (கள்) = அதிகபட்சம் (ஆர் (கள், அ) + & # 120632 ((0.8 வி (அறை)மேலே)) + (0.1 வி (அறைகீழ்) +….))

இப்போது, ​​Q கற்றலுக்கு மாற்றுவோம். கே-கற்றல் ஒரு செயலின் தரத்தை மதிப்பிடுவதற்கான ஒரு யோசனையை முன்வைக்கிறது, அது ஒரு மாநிலத்திற்கு நகர்த்தப்படுவதற்கு எடுக்கப்படும் மாநிலத்தின் சாத்தியமான மதிப்பை தீர்மானிப்பதை விட.

ஒரு குறிப்பிட்ட மாநிலத்திற்குச் செல்வதற்கான செயல்களின் தரத்தை மதிப்பிடுவதற்கான யோசனையை நாம் இணைத்துக்கொண்டால் இதுதான் நமக்குக் கிடைக்கும். புதுப்பிக்கப்பட்ட பெல்மேன் சமன்பாட்டிலிருந்து அவற்றை அகற்றினால் அதிகபட்சம் கூறு, சாத்தியமான செயலுக்கு ஒரே ஒரு தடம் மட்டுமே நாங்கள் கருதுகிறோம், இது ஒன்றும் இல்லை தரம் நடவடிக்கை.

கே (கள், அ) = (ஆர் (கள், அ) + & # 120632 & சிக்மாs ’பி (கள், அ, கள் ’) வி (கள் '))

செயலின் தரத்தை அளவிடும் இந்த சமன்பாட்டில், Q (கள், அ) இன் சாத்தியமான அனைத்து மதிப்புகளிலும் V (கள்) அதிகபட்சம் என்று நாம் கருதலாம். எனவே Q () இன் செயல்பாட்டுடன் v (களை) மாற்றுவோம்.

கே (கள், அ) = (ஆர் (கள், அ) + & # 120632 & சிக்மாs ’பி (கள், அ, கள் ’) அதிகபட்ச Q (கள் ’, அ’))

Q கற்றலின் இறுதி சமன்பாட்டிற்கு ஒரு படி மேலே தான் இருக்கிறோம். நாங்கள் ஒரு அறிமுகப்படுத்தப் போகிறோம் தற்காலிக வேறுபாடு காலப்போக்கில் சூழலில் ஏற்படும் மாற்றங்களுடன் Q- மதிப்புகளைக் கணக்கிட. Q இன் மாற்றத்தை நாம் எவ்வாறு கவனிக்கிறோம்?

TD (கள், a) = (R (கள், a) + & # 120632 & சிக்மாs ’பி (கள், அ, கள் ’) அதிகபட்ச Q (கள் ’, a’)) - Q (கள், அ)

புதிய Q (கள், a) ஐ ஒரே சூத்திரத்துடன் மீண்டும் கணக்கிட்டு, முன்னர் அறியப்பட்ட Q (கள், a) ஐ அதிலிருந்து கழிக்கிறோம். எனவே, மேற்கண்ட சமன்பாடு பின்வருமாறு:

கேடி(கள், அ) = கேt-1(கள், அ) + α டி.டி.டி(கள், அ)

கேடி(கள், அ) = தற்போதைய Q- மதிப்பு

கேt-1(கள், அ) = முந்தைய Q- மதிப்பு

ஜாவாவில் அதிகபட்ச குவியல் செயல்படுத்தல்

கேடி(கள், அ) = கேt-1(கள், அ) + α (ஆர் (கள், அ) + & # 120632 அதிகபட்ச Q (கள் ’, அ’)-கேt-1(கள், அ))

கே கற்றல் டெமோ: NumPy

நான் பயன்படுத்தப் போகிறேன் Q கற்றல் எவ்வாறு செயல்படுகிறது என்பதை நிரூபிக்க NumPy.

படி 1: இறக்குமதி, அளவுருக்கள், மாநிலங்கள், செயல்கள் மற்றும் வெகுமதிகள்

எண்ணற்ற எண்ணை np காமா = 0.75 # தள்ளுபடி காரணி ஆல்பா = 0.9 # கற்றல் விகிதம் இடம்_டொ_ஸ்டேட் = {'எல் 1': 0, 'எல் 2': 1, 'எல் 3': 2, 'எல் 4': 3, 'எல் 5': 4, ' L6 ': 5,' L7 ': 6,' L8 ': 7,' L9 ': 8} செயல்கள் = [0,1,2,3,4,5,6,7,8] வெகுமதிகள் = np.array ( [[0,1,0,0,0,0,0,0,0], [1,0,1,0,0,0,0,0,0], [0,1,0,0, 0,1,0,0,0], [0,0,0,0,0,0,1,0,0], [0,1,0,0,0,0,0,1,0] , [0,0,1,0,0,0,0,0,0], [0,0,0,1,0,0,0,1,0], [0,0,0,0, 1,0,1,0,1], [0,0,0,0,0,0,0,1,0]])

படி 2: இருப்பிடங்களுக்கான வரைபடக் குறியீடுகள்

இருப்பிடத்திற்கான state_to_location = dict ((மாநிலம், இருப்பிடம்), இருப்பிடத்தில் உள்ள நிலை_ to_state.items ())

படி 3: Q கற்றல் செயல்முறையைப் பயன்படுத்தி உகந்த வழியைப் பெறுங்கள்

def get_optimal_route (start_location, end_location): rewards_new = np.copy (வெகுமதிகள்) end_state = location_to_state [end_location] rewards_new [end_state, end_state] = 999 Q = np.array (np.zeros ([9,9])) # Q- வரம்பில் i க்கான கற்றல் செயல்முறை (1000): # ஒரு சீரற்ற நிலையை எடுப்பது current_state = np.random.randint (0,9) # பைத்தான் மேல் வரம்புக்குட்பட்ட விளையாட்டு_செயல்பாடுகளை விலக்குகிறது = [] # வரம்பில் j க்கான புதிய வெகுமதி மேட்ரிக்ஸ் மூலம் மீண்டும் நிகழ்கிறது ( 9): வெகுமதிகள்_புதியதாக இருந்தால் [நடப்பு_நிலையம், ஜே]> 0: இயக்கக்கூடிய_செயல்பாடுகள்.அப்பண்ட் (ஜே) # அடுத்த நிலைக்கு இட்டுச்செல்லும் ஒரு சீரற்ற செயலைத் தேர்வுசெய்க . தொடக்க இருப்பிட வழியுடன் உகந்த வழியைத் தொடங்கவும் = [தொடக்க_இருப்பு] # அடுத்த_ இருப்பிடத்தைத் தொடங்குவதன் மூலம் அடுத்த_ இருப்பிடத்தைத் தொடங்கவும் next_location = star t_location # இறுதி இடத்திற்குச் செல்ல தேவையான மறு செய்கைகளின் எண்ணிக்கையைப் பற்றி எங்களுக்குத் தெரியாது, அதேசமயம் லூப் மறு செய்கைக்கு ஒரு சிறந்த தேர்வாக இருக்கும் (அடுத்த_ இருப்பிடம்! = end_location): # தொடக்க நிலையை பெறுதல் தொடக்க_நிலையம் = இருப்பிடம்_நிலையம் [தொடக்க_ இருப்பிடம்] # தொடக்க நிலை தொடர்பான மிக உயர்ந்த Q- மதிப்பைப் பெறுங்கள் next_state = np.argmax (Q [start_state,]) # அடுத்த மாநிலத்தின் குறியீட்டைப் பெற்றோம். ஆனால் அதற்கான கடிதம் நமக்குத் தேவை. next_location = state_to_location [next_state] route.append (next_location) # அடுத்த மறு செய்கைக்கான தொடக்க இருப்பிடத்தைப் புதுப்பிக்கவும் start_location = next_location return route

படி 4: வழியை அச்சிடுக

அச்சிடு (get_optimal_route ('L1', 'L9'))

வெளியீடு:

இதன் மூலம், நாங்கள் Q- கற்றலின் முடிவுக்கு வருகிறோம். தற்காலிக வேறுபாடு, பெல்மேன் சமன்பாடு மற்றும் பல போன்ற பல்வேறு சார்புகளுடன் Q கற்றலின் செயல்பாட்டை நீங்கள் அறிந்து கொண்டீர்கள் என்று நம்புகிறேன்.

எடுரேகா மேற்பார்வையிடப்பட்ட கற்றல், மேற்பார்வை செய்யப்படாத கற்றல் மற்றும் இயற்கை மொழி செயலாக்கம் போன்ற நுட்பங்களில் உங்களைத் தேர்ச்சி பெறச் செய்கிறது. ஆழ்ந்த கற்றல், வரைகலை மாதிரிகள் மற்றும் வலுவூட்டல் கற்றல் போன்ற செயற்கை நுண்ணறிவு மற்றும் இயந்திர கற்றலில் சமீபத்திய முன்னேற்றங்கள் மற்றும் தொழில்நுட்ப அணுகுமுறைகள் குறித்த பயிற்சி இதில் அடங்கும்.