லீனியர் பாகுபாடு பகுப்பாய்வு என்பது மிகவும் பிரபலமான இயந்திர கற்றல் நுட்பமாகும், இது வகைப்பாடு சிக்கல்களை தீர்க்க பயன்படுகிறது. இந்த நுட்பத்தின் பின்னால் உள்ளுணர்வு மற்றும் கணிதத்தை புரிந்து கொள்ள இந்த கட்டுரையில் முயற்சிப்போம். இல் எல்.டி.ஏ செயல்படுத்த ஒரு எடுத்துக்காட்டு ஆர் வழங்கப்படுகிறது.
- நேரியல் பாகுபாடு பகுப்பாய்வு அனுமானம்
- உள்ளுணர்வு
- எல்.டி.ஏவின் கணித விளக்கம்
- மாதிரி அளவுருக்களைக் கற்றல்
- ஆர் இல் எடுத்துக்காட்டு
எனவே பின்னர் தொடங்குவோம்
நேரியல் பாகுபாடு பகுப்பாய்வு அனுமானம்
நேரியல் பாகுபாடு பகுப்பாய்வு பின்வரும் அனுமானங்களை அடிப்படையாகக் கொண்டது:
சார்பு மாறி ஒய் தனித்துவமானது. இந்த கட்டுரையில் நாம் சார்பு மாறி பைனரி மற்றும் வர்க்க மதிப்புகளை எடுக்கும் என்று கருதுவோம் {+1, -1} . வகுப்பைச் சேர்ந்த மாதிரியின் நிகழ்தகவு +1 , அதாவது பி (ஒய் = +1) = ப . எனவே, வகுப்பைச் சேர்ந்த மாதிரியின் நிகழ்தகவு -ஒன் இருக்கிறது 1-ப .
சுயாதீன மாறி (கள்) எக்ஸ் காஸியன் விநியோகங்களிலிருந்து வந்தவை. காஸியன் விநியோகத்தின் சராசரி வர்க்க லேபிளைப் பொறுத்தது ஒய் . அதாவது என்றால் ஒய் நான் = +1 , பின்னர் சராசரி எக்ஸ் நான் இருக்கிறது & # 120583 +1 , இல்லையெனில் அது & # 120583 -ஒன் . மாறுபாடு & # 120590 2 இரு வகுப்புகளுக்கும் ஒன்றுதான். கணித ரீதியாக பேசும், எக்ஸ் | (ஒய் = +1) ~ என் (& # 120583 +1 , & # 120590 2 ) மற்றும் எக்ஸ் | (ஒய் = -1) ~ என் (& # 120583 -ஒன் , & # 120590 2 ) , எங்கே என் சாதாரண விநியோகத்தைக் குறிக்கிறது.
இந்த தகவலுடன் கூட்டு விநியோகத்தை உருவாக்க முடியும் பி (எக்ஸ், ஒய்) சுயாதீன மற்றும் சார்பு மாறிக்கு. எனவே, எல்.டி.ஏ இன் வகுப்பைச் சேர்ந்தது உருவாக்கும் வகைப்படுத்தி மாதிரிகள் . நெருங்கிய தொடர்புடைய உற்பத்தி வகைப்பாடு என்பது இருபடி பாகுபாடு பகுப்பாய்வு (QDA) ஆகும். இது எல்.டி.ஏ-வின் ஒரே மாதிரியான அனுமானங்களை அடிப்படையாகக் கொண்டது, வர்க்க மாறுபாடுகள் வேறுபட்டவை என்பதைத் தவிர.
லீனியர் பாகுபாடு பகுப்பாய்வு கட்டுரையுடன் தொடரலாம் மற்றும் பார்ப்போம்
உள்ளுணர்வு
இதற்கான வகுப்பு நிபந்தனை காஸியன் விநியோகங்களைக் கவனியுங்கள் எக்ஸ் வகுப்பு கொடுக்கப்பட்டது ஒய் . கீழேயுள்ள படம் விநியோகங்களின் அடர்த்தி செயல்பாடுகளைக் காட்டுகிறது. இந்த படத்தில், என்றால் ஒய் = +1 , பின்னர் சராசரி எக்ஸ் 10 மற்றும் என்றால் ஒய் = -1 , சராசரி 2. மாறுபாடு இரண்டு நிகழ்வுகளிலும் 2 ஆகும்.
இப்போது ஒரு புதிய மதிப்பை வைத்துக்கொள்வோம் எக்ஸ் எங்களுக்கு வழங்கப்படுகிறது. இதை மட்டும் குறிக்கலாம் எக்ஸ் நான் . இதற்கான பெரும்பாலும் வகுப்பு லேபிளை தீர்மானிப்பதே பணி எக்ஸ் நான் , அதாவது. ஒய் நான் . எளிமைக்கு நிகழ்தகவு என்று கருதுங்கள் ப வகுப்பிற்கு சொந்தமான மாதிரி +1 வர்க்கத்தைச் சேர்ந்தது போன்றது -ஒன் , அதாவது. p = 0.5 .
உள்ளுணர்வாக, என்றால் என்று சொல்வது அர்த்தமுள்ளதாக இருக்கிறது எக்ஸ் நான் நெருக்கமாக உள்ளது & # 120583 +1 அதை விட & # 120583 -ஒன் , பின்னர் அது அதிகமாக இருக்கும் ஒய் நான் = +1 . மேலும் முறையாக, ஒய் நான் = +1 if:
| x நான் - & # 120583 +1 |<|x நான் - & # 120583 -ஒன் |
நிலையான விலகலால் இருபுறமும் இயல்பாக்குகிறது:
| x நான் - & # 120583 +1 | / & # 120590<|x நான் - & # 120583 -ஒன் | / & # 120590
இருபுறமும் சதுரம்:
(எக்ஸ் நான் - & # 120583 +1 ) 2 / & # 120590 2 <(x நான் - & # 120583 -ஒன் ) 2 / & # 120590 2
எக்ஸ் நான் 2 / & # 120590 2 + & # 120583 +1 2 / & # 120590 2 - 2 எக்ஸ் நான் & # 120583 +1 / & # 120590 2
2 எக்ஸ் நான் (& # 120583 -ஒன் - & # 120583 +1 ) / & # 120590 2 - (& # 120583 -ஒன் 2 / & # 120590 2 - & # 120583 +1 2 / & # 120590 2 )<0
-2 எக்ஸ் நான் (& # 120583 -ஒன் - & # 120583 +1 ) / & # 120590 2 + (& # 120583 -ஒன் 2 / & # 120590 2 - & # 120583 +1 2 / & # 120590 2 )> 0
மேற்கண்ட வெளிப்பாடு வடிவம் கொண்டது bx நான் + c> 0 எங்கே b = -2 (& # 120583 -ஒன் - & # 120583 +1 ) / & # 120590 2 மற்றும் c = (& # 120583 -ஒன் 2 / & # 120590 2 - & # 120583 +1 2 / & # 120590 2 ) .
சமன்பாட்டின் வடிவம் என்பது வெளிப்படையானது நேரியல் , எனவே நேரியல் பாகுபாடு பகுப்பாய்வு என்று பெயர்.
ஜாவா எடுத்துக்காட்டில் மாற்றக்கூடிய வகுப்பு
லீனியர் பாகுபாடு பகுப்பாய்வு கட்டுரையுடன் தொடரலாம்,
எல்.டி.ஏவின் கணித விளக்கம்
எல்.டி.ஏவுக்கான வெளிப்பாட்டின் கணித வழித்தோன்றல் போன்ற கருத்துக்களை அடிப்படையாகக் கொண்டது பேயஸ் விதி மற்றும் பேயஸ் உகந்த வகைப்படுத்தி . ஆர்வமுள்ள வாசகர்கள் இந்த கருத்துகளைப் பற்றி மேலும் படிக்க ஊக்குவிக்கப்படுகிறார்கள். வெளிப்பாட்டைப் பெற ஒரு வழியைக் காணலாம் இங்கே .
எங்களுடைய குறிப்பிட்ட வழக்கிற்கு நேரடியாக வெளிப்பாட்டை வழங்குவோம் ஒய் இரண்டு வகுப்புகள் எடுக்கும் {+1, -1} . முந்தைய பிரிவில் காட்டப்பட்டுள்ள உள்ளுணர்வை பொதுவான வழக்குக்கு நீட்டிப்போம் எக்ஸ் பல பரிமாணமாக இருக்கலாம். உள்ளன என்று சொல்லலாம் க்கு சுதந்திர மாறிகள். இந்த வழக்கில், வர்க்கம் என்றால் பொருள் & # 120583 -ஒன் மற்றும் & # 120583 +1 பரிமாணங்களின் திசையன்களாக இருக்கும் k * 1 மற்றும் மாறுபாடு-கோவாரன்ஸ் மேட்ரிக்ஸ் & # 120622 பரிமாணங்களின் அணி k * k .
வகைப்படுத்தி செயல்பாடு இவ்வாறு கொடுக்கப்பட்டுள்ளது
Y = h (X) = அடையாளம் (ஆ டி எக்ஸ் + சி)
எங்கே,
b = -2 & # 120622 -ஒன் (& # 120583 -ஒன் - & # 120583 +1 )
c = & # 120583 -ஒன் டி & # 120622 -ஒன் & # 120583 -ஒன் - & # 120583 -ஒன் டி & # 120622 -ஒன் & # 120583 -ஒன் {-2 ln (1-p) / p}
அடையாளம் செயல்பாடு திரும்பும் +1 வெளிப்பாடு என்றால் b டி x + c> 0 , இல்லையெனில் அது திரும்பும் -ஒன் . இல் உள்ள இயற்கை பதிவு சொல் c வர்க்க நிகழ்தகவுகள் இரு வகுப்புகளுக்கும் சமமாக இருக்கக்கூடாது என்ற உண்மையை சரிசெய்ய உள்ளது, அதாவது. ப (0, 1) க்கு இடையில் எந்த மதிப்பும் இருக்கக்கூடும், 0.5 க்கு மட்டுமல்ல.
மாதிரி அளவுருக்களைக் கற்றல்
உடன் தரவுத்தொகுப்பு கொடுக்கப்பட்டுள்ளது என் தரவு புள்ளிகள் (எக்ஸ் ஒன்று , ஒய் ஒன்று ), (எக்ஸ் 2 , ஒய் 2 ),… (எக்ஸ் n , ஒய் n ) , நாம் மதிப்பிட வேண்டும் ப, & # 120583 -ஒன் , & # 120583 +1 மற்றும் & # 120622 . ஒரு புள்ளிவிவர மதிப்பீட்டு நுட்பம் அதிகபட்ச வாய்ப்பு மதிப்பீடு இந்த அளவுருக்களை மதிப்பிடுவதற்கு பயன்படுத்தப்படுகிறது. மேலே உள்ள அளவுருக்களுக்கான வெளிப்பாடுகள் கீழே கொடுக்கப்பட்டுள்ளன.
& # 120583 +1 = (1 / என் +1 ) * & # 120506 i: yi = + 1 எக்ஸ் நான்
& # 120583 -ஒன் = (1 / என் -ஒன் ) * & # 120506 i: yi = -1 எக்ஸ் நான்
p = N. +1 / என்
& # 120622 = (1 / N) * & # 120506நான் = 1: என் (எக்ஸ் நான் - & # 120583 நான் ) (எக்ஸ் நான் - & # 120583 நான் ) டி
எங்கே என் +1 = y இன் மாதிரிகளின் எண்ணிக்கை நான் = +1 மற்றும் என் -ஒன் = y இன் மாதிரிகளின் எண்ணிக்கை நான் = -1 .
மேற்கண்ட வெளிப்பாடுகளுடன், எல்.டி.ஏ மாதிரி முடிந்தது. மேலேயுள்ள வெளிப்பாடுகளைப் பயன்படுத்தி மாதிரி அளவுருக்களை ஒருவர் மதிப்பிடலாம் மற்றும் சுயாதீன மாறியின் எந்த புதிய உள்ளீட்டு மதிப்பின் வகுப்பு லேபிளைப் பெற அவற்றை வகைப்படுத்தி செயல்பாட்டில் பயன்படுத்தலாம். எக்ஸ் .
லீனியர் பாகுபாடு பகுப்பாய்வு கட்டுரையுடன் தொடரலாம் மற்றும் பார்ப்போம்
ஆர் இல் எடுத்துக்காட்டு
பின்வரும் குறியீடு இரண்டு சுயாதீன மாறிகள் கொண்ட போலி தரவு தொகுப்பை உருவாக்குகிறது எக்ஸ் 1 மற்றும் எக்ஸ் 2 மற்றும் ஒரு சார்பு மாறி ஒய் . க்கு எக்ஸ் 1 மற்றும் எக்ஸ் 2 , இரண்டு பன்முக காஸியன் விநியோகங்களிலிருந்து மாதிரியை உருவாக்குவோம் & # 120583 -ஒன் = (2, 2) மற்றும் & # 120583 +1 = (6, 6) . மாதிரிகள் 40% வகுப்பைச் சேர்ந்தவை +1 மற்றும் 60% வகுப்பைச் சேர்ந்தவர்கள் -ஒன் , எனவே p = 0.4 .
நூலகம் (ggplot2) நூலகம் (MASS) நூலகம் (mvtnorm) # சீரற்ற பிவாரியேட் காஸியன் மாதிரிக்கான மாறுபாடு கோவாரன்ஸ் மேட்ரிக்ஸ் var_covar = அணி (தரவு = c (1.5, 0.3, 0.3, 1.5), nrow = 2) # வகுப்பு + 1 எக்ஸ்ப்ளஸ் 1<- rmvnorm(400, mean = c(6, 6), sigma = var_covar) # Random bivariate gaussian samples for class -1 Xminus1 <- rmvnorm(600, mean = c(2, 2), sigma = var_covar) #Samples for the dependent variable Y_samples <- c(rep(1, 400), rep(-1, 600)) #Combining the independent and dependent variables into a dataframe dataset <- as.data.frame(cbind(rbind(Xplus1, Xminus1), Y_samples)) colnames(dataset) <- c('X1', 'X2', 'Y') dataset$Y <- as.character(dataset$Y) #Plot the above samples and color by class labels ggplot(data = dataset)+ geom_point(aes(X1, X2, color = Y))
மேலே உள்ள படத்தில், நீல புள்ளிகள் வகுப்பிலிருந்து மாதிரிகளைக் குறிக்கின்றன +1 மற்றும் சிவப்பு நிறங்கள் வகுப்பிலிருந்து மாதிரியைக் குறிக்கும் -ஒன் . மாதிரிகளுக்கு இடையில் சில ஒன்றுடன் ஒன்று உள்ளது, அதாவது வகுப்புகளை ஒரு எளிய வரியுடன் முழுமையாக பிரிக்க முடியாது. வேறு வார்த்தைகளில் கூறுவதானால் அவை சரியாக இல்லை நேரியல் பிரிக்கக்கூடியது .
மேலே உள்ள தரவைப் பயன்படுத்தி எல்.டி.ஏ மாதிரியை இப்போது பயிற்றுவிப்போம்.
# மேலே உள்ள தரவுத்தொகுப்பு lda_model ஐப் பயன்படுத்தி LDA மாதிரியைப் பயன்படுத்தவும்<- lda(Y ~ X1 + X2, data = dataset) #Print the LDA model lda_model
வெளியீடு:
குழுக்களின் முன் நிகழ்தகவுகள்:
-இலவன்
0.6 0.4
குழு என்றால்:
எக்ஸ் 1 எக்ஸ் 2
-1 1.928108 2.010226
1 5.961004 6.015438
நேரியல் பாகுபாடுகளின் குணகங்கள்:
எல்.டி 1
எக்ஸ் 1 0.5646116
எக்ஸ் 2 0.5004175
ஒருவர் பார்க்கிறபடி, வர்க்கம் என்பது மாதிரியால் கற்றுக் கொள்ளப்பட்ட வகுப்புகள் (1.928108, 2.010226) -ஒன் மற்றும் (5.961004, 6.015438) வகுப்பிற்கு +1 . இந்த வழிமுறைகள் வர்க்கத்திற்கு மிக நெருக்கமானவை, இந்த சீரற்ற மாதிரிகளை உருவாக்க நாங்கள் பயன்படுத்தினோம். குழுவிற்கான முந்தைய நிகழ்தகவு +1 அளவுருவுக்கான மதிப்பீடு ஆகும் ப . தி b திசையன் என்பது நேரியல் பாகுபாடு குணகம்.
அதே தரவுக்கான வர்க்க லேபிள்களைக் கணிக்க மேலே உள்ள மாதிரியை இப்போது பயன்படுத்துவோம்.
எல்.டி.ஏ மாதிரி y_pred ஐப் பயன்படுத்தி மேலே உள்ள தரவுத்தொகுப்பில் உள்ள ஒவ்வொரு மாதிரிக்கும் வகுப்பை முன்னறிவித்தல்<- predict(lda_model, newdata = dataset)$class #Adding the predictions as another column in the dataframe dataset$Y_lda_prediction <- as.character(y_pred) #Plot the above samples and color by actual and predicted class labels dataset$Y_actual_pred <- paste(dataset$Y, dataset$Y_lda_prediction, sep=',') ggplot(data = dataset)+ geom_point(aes(X1, X2, color = Y_actual_pred))
மேலே உள்ள படத்தில், ஊதா மாதிரிகள் வகுப்பிலிருந்து வந்தவை +1 அவை எல்.டி.ஏ மாதிரியால் சரியாக வகைப்படுத்தப்பட்டன. இதேபோல், சிவப்பு மாதிரிகள் வகுப்பிலிருந்து வந்தவை -ஒன் அவை சரியாக வகைப்படுத்தப்பட்டன. நீல நிறங்கள் வகுப்பிலிருந்து வந்தவை +1 ஆனால் தவறாக வகைப்படுத்தப்பட்டன -ஒன் . பச்சை நிறங்கள் வகுப்பைச் சேர்ந்தவை -ஒன் அவை என வகைப்படுத்தப்பட்டன +1 . தவறான வகைப்படுத்தல்கள் நடக்கின்றன, ஏனெனில் இந்த மாதிரிகள் அவற்றின் உண்மையான வர்க்க சராசரியை விட மற்ற வர்க்க சராசரிக்கு (மையம்) நெருக்கமாக உள்ளன.
இது இந்த கட்டுரையின் முடிவிற்கு நம்மைக் கொண்டுவருகிறது, பாருங்கள் உலகெங்கிலும் பரவியுள்ள 250,000 க்கும் மேற்பட்ட திருப்தியான கற்றவர்களின் வலைப்பின்னலுடன் நம்பகமான ஆன்லைன் கற்றல் நிறுவனமான எடுரேகாவால். ஆர் பயிற்சியுடன் எடுரேகாவின் தரவு பகுப்பாய்வு ஆர் புரோகிராமிங், டேட்டா கையாளுதல், ஆய்வு தரவு பகுப்பாய்வு, தரவு காட்சிப்படுத்தல், டேட்டா மைனிங், பின்னடைவு, சென்டிமென்ட் பகுப்பாய்வு மற்றும் சில்லறை, சமூக ஊடகங்களில் நிஜ வாழ்க்கை வழக்கு ஆய்வுகளுக்கு ஆர் ஸ்டுடியோவைப் பயன்படுத்துதல் ஆகியவற்றில் நிபுணத்துவம் பெற உதவும்.
எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? இந்த கட்டுரையின் கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், விரைவில் நாங்கள் உங்களைத் தொடர்புகொள்வோம்.