இல் , எங்களுக்கு வழக்கமாக 2 வெவ்வேறு வகையான பயன்பாட்டு வழக்குகள் உள்ளன, , மற்றும் பிரச்சனை. வகைப்படுத்தல் மாதிரியின் துல்லியத்தை கணக்கிடுவதற்கு குழப்ப மேட்ரிக்ஸ் உதவுகிறது, இது வகைப்பாடு மாதிரியின் செயல்திறனை விவரிக்க மறைமுகமாக உதவுகிறது. ஒரு மாதிரியை மதிப்பீடு செய்யும்போது இது மிக முக்கியமான படியாகும். இந்த கட்டுரையில் பின்வரும் தலைப்புகளை நான் உள்ளடக்குவேன்:
1. குழப்ப மேட்ரிக்ஸ் என்றால் என்ன?
2. குழப்ப மேட்ரிக்ஸின் துல்லியம் மற்றும் கூறுகள்
3. துல்லியம், நினைவுகூருதல் மற்றும் எஃப்-அளவீட்டு
4. பைதான் மற்றும் ஸ்க்லார்னைப் பயன்படுத்தி ஒரு குழப்ப மேட்ரிக்ஸை உருவாக்குதல்
குழப்ப மேட்ரிக்ஸ் என்றால் என்ன?
ஒரு குழப்ப மேட்ரிக்ஸ் என்பது கணிக்கப்பட்ட முடிவுகளின் ஒப்பீட்டு சுருக்கம் மற்றும் எந்த வகைப்பாடு சிக்கல் பயன்பாட்டு வழக்கின் உண்மையான முடிவுகள். சில பயிற்சி தரவுகளுடன் பயிற்சியளிக்கப்பட்ட பின்னர் மாதிரியின் செயல்திறனை தீர்மானிக்க ஒப்பீட்டு சுருக்கம் மிகவும் அவசியம். பைனரி வகைப்பாடு பயன்பாட்டு வழக்குக்கு, ஒரு குழப்ப மேட்ரிக்ஸ் என்பது 2 × 2 மேட்ரிக்ஸ் ஆகும், இது கீழே காட்டப்பட்டுள்ளதுவகுப்பு 1 மதிப்பு கணிக்கப்பட்டுள்ளது இ.ஜி: 1 | வகுப்பு 2 மதிப்பு கணிக்கப்பட்டுள்ளது இ.ஜி: 0 | |
உண்மையான வகுப்பு 1 மதிப்பு இ.ஜி: 1 | TP (உண்மையான நேர்மறை) | எஃப்.என் (தவறான எதிர்மறை) |
உண்மையான வகுப்பு 2 மதிப்பு இ.ஜி: 0 | FP (தவறான நேர்மறை) | TN (உண்மையான எதிர்மறை) |
மேலே உள்ள படத்திலிருந்து:
எங்களிடம் உள்ளது,
- உண்மையான வகுப்பு 1 மதிப்பு = 1 இது பைனரி முடிவில் நேர்மறை மதிப்புக்கு ஒத்ததாகும்.
- உண்மையான வகுப்பு 2 மதிப்பு = 0 இது பைனரி விளைவுகளில் எதிர்மறை மதிப்புக்கு ஒத்ததாகும்.
குழப்ப மேட்ரிக்ஸின் இடது பக்க குறியீடு அடிப்படையில் உண்மையான மதிப்புகளைக் குறிக்கிறது மற்றும் மேல் நெடுவரிசை கணிக்கப்பட்ட மதிப்புகளைக் குறிக்கிறது.
நாம் ஒரு குழப்ப மேட்ரிக்ஸை உருவாக்கும்போது பல்வேறு கூறுகள் உள்ளன. கூறுகள் கீழே குறிப்பிடப்பட்டுள்ளன
நேர்மறை (பி): முன்னறிவிக்கப்பட்ட முடிவு நேர்மறையானது (எடுத்துக்காட்டு: படம் ஒரு பூனை)
எதிர்மறை (என்): முன்னறிவிக்கப்பட்ட முடிவு எதிர்மறையானது (எடுத்துக்காட்டு: படங்கள் பூனை அல்ல)
உண்மையான நேர்மறை (TP): இங்கே TP அடிப்படையில் கணிக்கப்பட்டதைக் குறிக்கிறது மற்றும் உண்மையான மதிப்புகள் 1 (உண்மை)
உண்மையான எதிர்மறை (TN): இங்கே TN கணிக்கப்பட்டதைக் குறிக்கிறது மற்றும் உண்மையான மதிப்பு 0 (தவறு)
தவறான எதிர்மறை (FN): இங்கே எஃப்என் கணிக்கப்பட்ட மதிப்பு 0 (எதிர்மறை) மற்றும் உண்மையான மதிப்பு 1 என்பதைக் குறிக்கிறது. இங்கே இரண்டு மதிப்புகளும் பொருந்தவில்லை. எனவே இது தவறான எதிர்மறை.
தவறான நேர்மறை (FP): இங்கே FP கணிக்கப்பட்ட மதிப்பு 1 (நேர்மறை) மற்றும் உண்மையான மதிப்பு 0 என்பதைக் குறிக்கிறது. இங்கே மீண்டும் இரண்டு மதிப்புகளும் பொருந்தவில்லை. எனவே இது தவறான நேர்மறையானது.
குழப்ப மேட்ரிக்ஸின் துல்லியம் மற்றும் கூறுகள்
குழப்ப மேட்ரிக்ஸ் உருவாக்கப்பட்டு, அனைத்து கூறுகளின் மதிப்புகளையும் நாங்கள் தீர்மானித்த பிறகு, துல்லியத்தை கணக்கிடுவது எங்களுக்கு மிகவும் எளிதானது. எனவே, இதை நன்கு புரிந்துகொள்ள கூறுகளைப் பார்ப்போம்.- வகைப்பாடு துல்லியம்
மேலே உள்ள சூத்திரத்திலிருந்து, TP (True Positive) மற்றும் TN (True Negative) ஆகியவற்றின் தொகை சரியான கணிக்கப்பட்ட முடிவுகள். எனவே சதவீதத்தில் துல்லியத்தை கணக்கிட, மற்ற எல்லா கூறுகளுடன் பிரிக்கிறோம். இருப்பினும், துல்லியத்தில் சில சிக்கல்கள் உள்ளன, அதை நாம் முழுமையாக நம்ப முடியாது.
எங்கள் தரவுத்தொகுப்பு முற்றிலும் சமநிலையற்றது என்பதைக் கருத்தில் கொள்வோம். இந்த சூழ்நிலையில், சிக்கல் அறிக்கையின் அடிப்படையில் 98% துல்லியம் நல்லது அல்லது கெட்டது. எனவே இன்னும் சில முக்கிய சொற்கள் உள்ளன, அவை நாம் கணக்கிடும் துல்லியம் குறித்து உறுதியாக இருக்க உதவும். விதிமுறைகள் கீழே கொடுக்கப்பட்டுள்ளன:
- TPR (உண்மையான நேர்மறை வீதம்) அல்லது உணர்திறன்:
உணர்திறன் என்றும் அழைக்கப்படும் உண்மையான நேர்மறை வீதம் (TP + FN) ஆல் குறிக்கப்படும் மொத்த உண்மையான நேர்மறைகளைப் பொறுத்து உண்மையான நேர்மறையின் சதவீதத்தை அளவிடுகிறது.
வகுப்பு 1 மதிப்பு கணிக்கப்பட்டுள்ளது இ.ஜி: 1 | வகுப்பு 2 மதிப்பு கணிக்கப்பட்டுள்ளது இ.ஜி: 0 | மொத்தம் | |
உண்மையான வகுப்பு 1 மதிப்பு இ.ஜி: 1 | TP (உண்மையான நேர்மறை) | எஃப்.என் (தவறான எதிர்மறை) | மொத்த உண்மையான நேர்மறைகள் |
உண்மையான வகுப்பு 2 மதிப்புஇரண்டு சரம் ஒப்பிடுவது எப்படி இ.ஜி: 0 | FP (தவறான நேர்மறை) | TN (உண்மையான எதிர்மறை) | மொத்த உண்மையான எதிர்மறைகள் |
- டி.என்.ஆர் (உண்மையான எதிர்மறை வீதம்) அல்லது தனித்துவம்:
உண்மையான எதிர்மறை வீதம் அல்லது தனித்தன்மை மொத்த எதிர்மறைகளைப் பொறுத்து உண்மையான எதிர்மறைகளின் விகிதத்தை அளவிடுகிறது
வகுப்பு 1 மதிப்பு கணிக்கப்பட்டுள்ளது இ.ஜி: 1 | வகுப்பு 2 மதிப்பு கணிக்கப்பட்டுள்ளது இ.ஜி: 0 | மொத்தம் | |
உண்மையான வகுப்பு 1 மதிப்பு இ.ஜி: 1 | TP (உண்மையான நேர்மறை) | எஃப்.என் (தவறான எதிர்மறை) | மொத்த உண்மையான நேர்மறைகள் |
உண்மையான வகுப்பு 2 மதிப்பு இ.ஜி: 0 | FP (தவறான நேர்மறை) | TN (உண்மையான எதிர்மறை) | மொத்த உண்மையான எதிர்மறைகள் |
டி.என்.ஆர் = உண்மையான எதிர்மறை / (உண்மையான எதிர்மறை + தவறான நேர்மறை)
- தவறான நேர்மறை விகிதம் (FPR):
தவறான நேர்மறை விகிதம் என்பது கணிக்கப்பட்ட நேர்மறை முடிவுகளின் மொத்த எண்ணிக்கையில் (TP + FP) கணிக்கப்பட்ட தவறான நேர்மறை (FP) சதவீதமாகும்.
வகுப்பு 1 மதிப்பு கணிக்கப்பட்டுள்ளது இ.ஜி: 1 | வகுப்பு 2 மதிப்பு கணிக்கப்பட்டுள்ளது இ.ஜி: 0 | |
உண்மையான வகுப்பு 1 மதிப்பு EG: 1 | TP (உண்மையான நேர்மறை) | எஃப்.என் (தவறான எதிர்மறை) |
உண்மையான வகுப்பு 2 மதிப்பு EG: 0 | FP (தவறான நேர்மறை) | TN (உண்மையான எதிர்மறை) |
மொத்த கணிக்கப்பட்ட நேர்மறை தொகை | மொத்த கணிக்கப்பட்ட எதிர்மறையின் தொகை |
- தவறான எதிர்மறை வீதம் (FNR):
தவறான எதிர்மறை விகிதம் என்பது கணிக்கப்பட்ட எதிர்மறை முடிவுகளின் மொத்த எண்ணிக்கையில் (TN + FN) கணிக்கப்பட்ட தவறான எதிர்மறை (FP) சதவீதமாகும்.
துல்லியம், நினைவுகூருதல் மற்றும் எஃப்-அளவீட்டு
- நினைவுகூருங்கள்:
திரும்ப அழைப்பது உண்மையான நேர்மறை விகிதத்திற்கு ஒத்ததாகும், மேலும் இது அனைத்து நேர்மறை மதிப்புகளுக்கும் சரியாக கணிக்கப்பட்ட நேர்மறை மதிப்புகளின் (TP) மொத்த எண்ணிக்கையின் விகிதமாகும்.
- துல்லியம்:
துல்லியமானது அடிப்படையில் மாதிரி நேர்மறையானது என்று கணிக்கப்பட்ட அனைத்து புள்ளிகளையும் குறிக்கிறது, அவற்றில் எந்த சதவீதம் உண்மையில் நேர்மறையானது என்பதைக் குறிக்கிறது.
துல்லியம் மற்றும் நினைவுகூரல் என்பது அளவீட்டு முடிவுகள், அவை மேலே உள்ள சூத்திரங்களிலிருந்து காட்டப்பட்டுள்ளபடி நேர்மறை வகுப்பில் கவனம் செலுத்துகின்றன.
- எஃப்-அளவீட்டு
எனவே எஃப்-மெஷர் என்பது துல்லியமான மற்றும் நினைவுகூரும் நுட்பத்தை இணைக்கும் ஒரு நுட்பமாகும், மேலும் இது வழக்கமான எண்கணித சராசரி இடத்தில் ஹார்மோனிக் மீனைப் பயன்படுத்துகிறது, இதன் காரணமாக தீவிர மதிப்புகள் தண்டிக்கப்படுகின்றன. எஃப்-அளவீடு எஃப் 1-ஸ்கோர் என்றும் அழைக்கப்படுகிறது, மேலும் இது கீழே உள்ள சூத்திரத்தால் வழங்கப்படுகிறது.
ஒரு எடுத்துக்காட்டைக் கருத்தில் கொண்டு, துல்லியம், துல்லியம், நினைவுகூருதல் மற்றும் எஃப் 1 மதிப்பெண் ஆகியவற்றை எவ்வாறு கணக்கிடுவது என்று பார்ப்போம்.
என் = 165 | ஆம் என்று கணிக்கப்பட்டுள்ளது | இல்லை என்று கணிக்கப்பட்டுள்ளது |
உண்மையான ஆம் | TP = 150 | FN = 10 |
தற்போதைய எண் | FP = 20 | TN = 100 |
- துல்லியம் = (TP + TN) / (TP + TN + FP + FN) = (150 + 100) / (150 + 100 + 20 + 10) = 0.89
- நினைவுகூருங்கள் = TP / (TP + FN) = 150 / (150 + 10) = 0.93
- துல்லியம்: TP / (TP + FP) = 150 / (150 + 20) = 0.88
- எஃப்-அளவீட்டு = (2 * நினைவுகூருங்கள் * துல்லியம்) / (நினைவுகூருங்கள் + வழங்கல்) = (2 * 0.93 * 0.88) / (0.93 + 0.88) = 0.90
பைதான் மற்றும் ஸ்க்லார்னைப் பயன்படுத்தி ஒரு குழப்ப மேட்ரிக்ஸை உருவாக்குதல்
ஸ்கைலார்ன் நூலகத்துடன் பைதான் பயன்படுத்தி ஒரு குழப்ப மேட்ரிக்ஸை எவ்வாறு உருவாக்கலாம் என்பதற்கான உதாரணத்தை இப்போது பார்ப்போம்.
ஒன்று. ஆரம்பத்தில், உண்மையான தரவுகளின் சில பட்டியலையும், கீழே காட்டப்பட்டுள்ளபடி துல்லியத்தை சரிபார்க்க கணிக்கப்பட்டதையும் உருவாக்குவோம்
குழப்ப மேட்ரிக்ஸ் உருவாக்கத்திற்கான # பைதான் ஸ்கிரிப்ட். real_data = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1,0,1] கணிக்கப்பட்ட_டேட்டா = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1]
2. கீழே காட்டப்பட்டுள்ளபடி குழப்ப மேட்ரிக்ஸை ஸ்க்லார்ன் நூலகத்திலிருந்து இறக்குமதி செய்ய வேண்டும்:
sklearn.metrics இலிருந்து இறக்குமதி குழப்பம்_மாட்ரிக்ஸ்
3. அடுத்து, கீழே காட்டப்பட்டுள்ளபடி குழப்ப மேட்ரிக்ஸை உருவாக்குவோம்:
இறுதி_ முடிவுகள் = குழப்பம்_மாட்ரிக்ஸ் (உண்மையான_ தரவு, கணிக்கப்பட்ட_ தரவு)
நான்கு. இப்போது நாம் கீழே சென்று நூலகத்தை இறக்குமதி செய்வதன் மூலம் துல்லியத்தை கணக்கிடலாம்:
sklearn.metrics இலிருந்து இறக்குமதி துல்லியம்_ ஸ்கோர் துல்லியம் = துல்லியம்_ ஸ்கோர் (உண்மையான_ தரவு, கணிக்கப்பட்ட_ தரவு)
5. இறுதியாக, கீழே காட்டப்பட்டுள்ளபடி F1- மதிப்பெண் அல்லது F- அளவீட்டைக் கணக்கிடுகிறோம்:
sklearn.metrics இறக்குமதி classification_report report = classification_report (உண்மையான_ தரவு, கணிக்கப்பட்ட_ தரவு)
முழுமையான குறியீடு கீழே:
real_data = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1,0,1] கணிக்கப்பட்ட_டேட்டா = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1] sklearn.metrics இறக்குமதி குழப்பம்_மாட்ரிக்ஸ் இறுதி_ முடிவுகள் = குழப்பம்_மாட்ரிக்ஸ் (உண்மையான_ தரவு, கணிக்கப்பட்ட_தட்டா) அச்சு (இறுதி_ முடிவுகள்) sklearn.metrics இறக்குமதி துல்லியம்_ மதிப்பெண் துல்லியம் = துல்லியம்_ மதிப்பெண் (உண்மையான_ தரவு, கணிக்கப்பட்ட_ தரவு) உண்மையான_ தரவு, கணிக்கப்பட்ட_ தரவு) அச்சு (துல்லியம்) அச்சு (அறிக்கை)
எனவே, இதன் மூலம், இந்த கட்டுரையின் முடிவுக்கு வருகிறோம். குழப்ப மேட்ரிக்ஸ் பற்றிய உங்கள் குழப்பங்கள் அனைத்தும் இப்போது தீர்க்கப்பட்டுள்ளன என்று நம்புகிறேன்.
எடுரேகா பின்னடைவு, கிளஸ்டரிங், முடிவு மரங்கள், சீரற்ற காடு, நேவ் பேய்ஸ் மற்றும் கியூ-கற்றல் போன்ற பல்வேறு இயந்திர கற்றல் வழிமுறைகளில் நிபுணத்துவம் பெற உதவுகிறது. பைத்தான் பயிற்சியைப் பயன்படுத்தி இந்த இயந்திர கற்றல் புள்ளிவிவரங்கள், நேரத் தொடர் மற்றும் மேற்பார்வை, மேற்பார்வை செய்யப்படாத மற்றும் வலுவூட்டல் வழிமுறைகள் போன்ற இயந்திர கற்றல் வழிமுறைகளின் பல்வேறு வகுப்புகளின் கருத்துக்களை உங்களுக்கு வெளிப்படுத்துகிறது. தரவு அறிவியல் சான்றிதழ் பாடநெறி முழுவதும், மீடியா, ஹெல்த்கேர், சோஷியல் மீடியா, ஏவியேஷன், எச்.ஆர் பற்றிய நிஜ வாழ்க்கை வழக்கு ஆய்வுகளை நீங்கள் தீர்ப்பீர்கள்.