க்ரைம் தரவுத்தொகுப்பில் கே-அதாவது க்ளஸ்டரிங் செயல்படுத்துதல்



அமெரிக்க குற்ற தரவுத்தொகுப்பில் Kmeans க்ளஸ்டரிங் செயல்படுத்தல்

இந்த வலைப்பதிவில், கே-க்ளஸ்டரிங் என்றால் என்ன, பல்வேறு அமெரிக்க மாநிலங்களில் சேகரிக்கப்பட்ட குற்றவியல் தரவுகளில் அதை எவ்வாறு செயல்படுத்தலாம் என்பதை நீங்கள் புரிந்துகொள்வீர்கள். 1973 ஆம் ஆண்டில் 50 அமெரிக்க மாநிலங்களில் ஒவ்வொன்றிலும் 100,000 குடியிருப்பாளர்களைக் கைது செய்வதில் தாக்குதல், கொலை மற்றும் கற்பழிப்பு போன்ற குற்றங்கள் தரவுகளில் உள்ளன. தரவுகளை பகுப்பாய்வு செய்வதோடு நீங்கள் இதைப் பற்றியும் அறிந்து கொள்வீர்கள்:

    • கொத்துக்களின் உகந்த எண்ணிக்கையைக் கண்டறிதல்.
    • விலகலைக் குறைத்தல்
    • முழங்கை வளைவை உருவாக்கி பகுப்பாய்வு செய்தல்.
  • கே-வழிமுறையின் வழிமுறையைப் புரிந்துகொள்வது.

பகுப்பாய்வோடு ஆரம்பிக்கலாம். தரவு பின்வருமாறு தெரிகிறது:





dataset

இந்த தரவுத்தொகுப்பைப் பதிவிறக்க படத்தைக் கிளிக் செய்க

இந்த தரவுத்தொகுப்பு தேவையா? அதைப் பதிவிறக்க மேலே உள்ள படத்தைக் கிளிக் செய்க.



முதலில் பகுப்பாய்விற்கான தரவைத் தயாரிப்போம். அவ்வாறு செய்ய, தரவில் இருக்கும் எந்த NA மதிப்புகளையும் அகற்றி தரவை மேட்ரிக்ஸாக மாற்ற வேண்டும்.

> குற்றம் 0 குற்றம் str (குற்றம்) எண் [1:50, 1: 4] 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ... - attr (*, 'dimnames') = 2 பட்டியல் .. $: chr [1 : 50] 'அலபாமா' 'அலாஸ்கா' 'அரிசோனா' 'ஆர்கன்சாஸ்' ... .. $: chr [1: 4] 'கொலை' 'தாக்குதல்' 'அர்பன் பாப்' 'கற்பழிப்பு'

கொத்துக்களின் எண்ணிக்கையை 5 ஆகக் கொள்வோம். Kmeans () செயல்பாடு உள்ளீட்டுத் தரவையும், தரவைக் கொத்தாகக் கொண்டிருக்கும் கொத்துக்களின் எண்ணிக்கையையும் எடுக்கும். தொடரியல்: kmeans (தரவு, k) இங்கு k என்பது கொத்து மையங்களின் எண்ணிக்கை.

> cl வகுப்பு (cl) [1] 'kmeans'

கிளஸ்டரிங் பகுப்பாய்வு:



தரவு அறிவியல் அது என்ன
> str (cl) 9 $ கிளஸ்டரின் பட்டியல்: பெயரிடப்பட்ட எண்ணாக [1:50] 5 3 3 5 3 5 4 5 3 5 ... ..- attr (*, 'names') = chr [1:50] ' அலபாமா '' அலாஸ்கா '' அரிசோனா '' ஆர்கன்சாஸ் '... $ மையங்கள்: எண் [1: 5, 1: 4] 2.95 6.11 12.14 5.59 11.3 ... ..- attr (*,' dimnames ') = 2 பட்டியல் .. .. $: chr [1: 5] '1' '2' '3' '4' ... .. .. $: chr [1: 4] 'கொலை' 'தாக்குதல்' 'அர்பன் பாப்' 'கற்பழிப்பு '$ totss: num 355808 $ withinss: num [1: 5] 4548 2286 16272 1480 3653 $ tot.withinss: num 28240 $ betweenss: num 327568 $ size: int [1: 5] 10 9 14 10 7 $ iter: int 3 $ ifault: int 0 - attr (*, 'class') = chr 'kmeans'

Str () செயல்பாடு kmeans இன் கட்டமைப்பை வழங்குகிறது, இதில் உள்ளக, betweenss போன்ற பல்வேறு அளவுருக்கள் உள்ளன, பகுப்பாய்வு செய்வதன் மூலம் kmeans இன் செயல்திறனை நீங்கள் கண்டுபிடிக்க முடியும்.

betweenss: சதுரங்களின் தொகைக்கு இடையில், அதாவது இன்ட்ராக்ளஸ்டர் ஒற்றுமை

உள்ளே: சதுரத் தொகைக்குள், அதாவது இடைச்செருகல் ஒற்றுமை

totwithinss: அனைத்து கிளஸ்டர்களின் அனைத்து உள்ளீடுகளின் கூட்டுத்தொகை, அதாவது மொத்த உள்-கிளஸ்டர் ஒற்றுமை

ஒரு நல்ல கிளஸ்டரிங், ஆரம்பத்தில் தேர்ந்தெடுக்கப்பட்ட ‘கே’ கிளஸ்டர்களின் எண்ணிக்கையைப் பொறுத்து, இன்வென்ஸின் குறைந்த மதிப்பு மற்றும் பெட்வீன்ஸின் அதிக மதிப்பைக் கொண்டிருக்கும். ‘K’ இன் உகந்த மதிப்பை எவ்வாறு கண்டுபிடிப்பது என்று பார்ப்போம்.

‘K’ இன் உகந்த மதிப்பைக் கண்டறிதல்

‘K’ இன் உகந்த மதிப்பு, குறைந்தபட்ச விலகலுடன் கூடிய ஒருங்கிணைந்த தொகுப்புகளைக் கொடுக்கும் மதிப்பு. பெரிய விலகல், மோசமாக உருவாகும் கொத்துகள்.

விலகல்:

ஒவ்வொரு கொத்துக்களிலிருந்தும் ‘உள்ளுக்குள்’ அடிப்படையில் விலகலைக் கணக்கிட முடியும். ஒரு குறிப்பிட்ட கிளஸ்டரின் ‘உள்ளுக்குள்’ மதிப்பு குறைவாக, அதிக அடர்த்தியான மக்கள்தொகை இருக்கும், இதனால் குறைந்தபட்ச விலகல்.

kmeans.wss.k<- function(crime, k){ km = kmeans(crime, k) return (km$tot.withinss) }

இந்த செயல்பாடு தரவையும் k இன் மதிப்பையும் எடுத்துக்கொண்டு அதற்கான ‘km $ totwithinss’ ஐ வழங்குகிறது. ‘கிமீ $ டாட்விடின்ஸ்’ என்பது சதுரங்களின் மொத்தக் கூட்டுத்தொகையாகும், இதனால் உருவாக்கப்பட்ட அனைத்து 5 கிளஸ்டர்களுக்கும் உட்பட்டது உட்பட.தொகை (உள்ளுக்குள்). ‘கிமீ $ டாட்விடின்ஸின்’ அதிக மதிப்பு, விலகல் அதிகமாக இருக்கும்.

K = 5 க்கு, உள்ளே 24417.02 ஆகும்

> kmeans.wss.k (குற்றம், 5) [1] 24417.02

K இன் மதிப்பை 5 முதல் 10 ஆக உயர்த்துவோம், வித்தியாசத்தைக் கவனிப்போம்.

> kmeans.wss.k (குற்றம், 10) [1] 11083.04

K இன் மதிப்பு அதிகரிக்கும்போது, ​​விலகல் குறைகிறது என்பதைக் காணலாம்.

‘Km $ totwithinss’ இன் வெவ்வேறு மதிப்புகளை நாம் எடுத்து, அவற்றை விலகலுக்கும் k இன் மதிப்புக்கும் இடையிலான உறவைக் கண்டறிய ஒரு வரைபடத்தில் திட்டமிடலாம். பின்வரும் செயல்பாடு நமக்கு அதைச் செய்கிறது:

> kmeans.dis maxk = 10> dis = kmeans.dis (குற்றம், அதிகபட்சம்)> சதி (1: அதிகபட்சம், dis, வகை = 'b', xlab = 'கொத்துக்களின் எண்ணிக்கை', + ylab = 'விலகல்', + col = 'நீலம்')

டா டா !!! இவ்வாறு எங்களுடன் பிரபலமான முழங்கை வளைவு உள்ளது.

முழங்கை வளைவு:

K இன் ஒவ்வொரு மதிப்புக்கும் ‘k’, கொத்துக்களின் எண்ணிக்கை மற்றும் ‘டாட்விடின்ஸ்’ (அல்லது விலகல்) ஆகியவற்றுக்கு இடையேயான சதி இது. கொத்துக்களின் எண்ணிக்கை குறைவாக இருக்கும்போது நீங்கள் காணலாம், படிப்படியாக விலகல் குறைகிறது, ஆனால் நாம் k இன் மதிப்பை அதிகரித்துக் கொண்டே இருப்பதால், விலகல் மதிப்புகளைக் குறைக்கும் விகிதம் நிலையானதாகிறது.

K இன் இந்த மதிப்பு விலகல் விகிதம் நிலையானதாக மாறும் உகந்த மதிப்பு. இங்கே k = 4.

கொத்து முடிவுகளை ஆர் எவ்வாறு எங்களுக்கு வழங்கினார் என்பதைப் புரிந்துகொள்ள சில அனிமேஷனைப் பயன்படுத்துவோம்.

> நூலகம் (அனிமேஷன்)> cl<- kmeans.ani(crime, 4)

Kmeans க்ளஸ்டரிங் அல்காரிதம்:

கே-க்ளஸ்டரிங் செயல்படும் வழிமுறையைப் புரிந்துகொள்வோம்:

படி 1. K = 4 எனில், நாங்கள் 4 சீரற்ற புள்ளிகளைத் தேர்ந்தெடுத்து, அவை கொத்துக்களை உருவாக்குவதற்கான கிளஸ்டர் மையங்களாக கருதுகிறோம்.

படி 2. நாங்கள் இடத்திலிருந்து ஒரு சீரற்ற தரவு புள்ளியை எடுத்து 4 கிளஸ்டர் மையங்களிலிருந்தும் அதன் தூரத்தைக் கண்டுபிடிப்போம். தரவு புள்ளி பச்சை கிளஸ்டர் மையத்திற்கு மிக அருகில் இருந்தால், அது பச்சை நிறத்தில் இருக்கும், அதேபோல் அனைத்து புள்ளிகளும் 4 கிளஸ்டர்களில் வகைப்படுத்தப்படுகின்றன.

படி # 3. இப்போது நாம் அனைத்து பச்சை புள்ளிகளின் சென்ட்ராய்டைக் கணக்கிட்டு அந்த புள்ளியை அந்த கிளஸ்டருக்கான கிளஸ்டர் மையமாக ஒதுக்குகிறோம்.

ஒரு சுருக்க வர்க்கத்திற்கும் இடைமுகத்திற்கும் என்ன வித்தியாசம்?

இதேபோல், நாங்கள் 4 வண்ண (கொத்து) புள்ளிகளுக்கும் சென்ட்ராய்டுகளைக் கணக்கிட்டு புதிய சென்ட்ராய்டுகளை கிளஸ்டர் மையங்களாக ஒதுக்குகிறோம்.

படி # 4. படி -2 மற்றும் படி -3 மீண்டும் இயங்குகின்றன, கொத்து மையங்கள் ஒரு கட்டத்தில் ஒன்றிணைந்து இனி நகரும் வரை.

ஜாவா எடுத்துக்காட்டு குறியீட்டில் கட்டளை வரி வாதங்கள்


இவ்வாறு, நாம் ஒன்றிணைந்த கொத்து மையங்களை அடைகிறோம்.

தரவு 4 கொத்துகளாக பிரிக்கப்பட்டிருப்பதைக் காணலாம். கொத்து மையங்கள்:

> cl $ மையங்கள் கொலை தாக்குதல் அர்பன் பாப் கற்பழிப்பு டெக்சாஸ் 4.740741 104.8519 62.96296 16.10 லூசியானா 10.907143 219.9286 71.71429 25.95 தென் கரோலினா 13.375000 284.5000 46.25000 25.05 நியூ மெக்சிகோ 11.040000 298.0000 77.60000 32.68

கிளஸ்டர் மையமாக ‘நியூ மெக்ஸிகோ’ உடன் கிளஸ்டர் -4 மிகப் பெரிய குற்ற விகிதத்தைக் கொண்டுள்ளது.

கிளஸ்டர் -3 மற்றும் கிளஸ்டர் -2 பின்தொடர்.

ஒவ்வொரு மாநிலத்திற்கும் ஒரு கொத்து ஒதுக்கப்பட்டுள்ளது, அதைப் பொறுத்து அதன் குற்றத் தரத்தை இப்போது நாம் கணிக்க முடியும். வெளியீடு பின்வருமாறு:

எங்களுக்கு ஒரு கேள்வி கிடைத்ததா? கருத்துகள் பிரிவில் இதைக் குறிப்பிடவும், நாங்கள் உங்களைத் தொடர்புகொள்வோம்.

தொடர்புடைய இடுகைகள்: