आर्टिफिकल इंटेलिजेंस

मशीन लर्निंग अल्गोरिदमसह ओव्हरफिटिंग टाळण्याचे 6 मार्ग

- जाहिरात-

मशीन लर्निंग मॉडेल विकसित करण्याची प्रक्रिया आव्हानात्मक आणि वेळखाऊ असू शकते. म्हणून, ते सर्वोपरि आहे मॉडेल विकसित करण्यासाठी डेटा वैज्ञानिक जे स्थिर आणि अचूक आहेत. 

सर्व मॉडेल नवीन डेटावर चांगले कार्य करणार नसले तरी, आपण निवडलेल्या अल्गोरिदमसह ओव्हरफिटिंग कमी करण्यासाठी काही पावले उचलू शकता.

1 – बायस-व्हेरिअन्स ट्रेडऑफ समजून घ्या

मशीन लर्निंग अल्गोरिदम आपल्या डेटासेटमधील इनपुट वैशिष्ट्यांमधील जटिल संबंध शिकण्याचा एक सामान्य मार्ग म्हणजे या बिंदूंद्वारे वक्र बसवणे. तथापि, वर्किंग मेमरी किंवा कंप्युट पॉवरमधील अडथळ्यांमुळे, जटिल फंक्शन्स थेट लागू केल्याने कमी-फिट केलेले मॉडेल (म्हणजे, प्रशिक्षण सेटमध्ये उपस्थित असलेल्या सर्व संरचना कॅप्चर न करणारे) होऊ शकतात. या अंडर-फिटिंगची भरपाई करण्यासाठी, काही प्रकारचे नियमितीकरण आवश्यक आहे. दुसरीकडे, एक मॉडेल जे खूप सोपे आहे ते तुमच्या डेटासेटमधील महत्त्वपूर्ण संरचना कॅप्चर करण्यात अयशस्वी होऊ शकते आणि परिणामी एक ओव्हर-फिट मॉडेल होऊ शकते. अशा परिस्थितीत, अधिक जटिल प्रकारचे नियमितीकरण लागू केल्याने ही समस्या दुरुस्त होणार नाही कारण ती रचना खरोखरच तुमच्या प्रशिक्षण संचामध्ये उपस्थित आहेत.

नियमानुसार, तुम्ही तुमचा L2-नॉर्म (उर्फ रिज रिग्रेशन गुणांक) कमी केल्यामुळे प्रमाणीकरण संच किंवा चाचणी संचावरील तुमची अचूकता वाढतच चालली आहे, असे तुम्हाला दिसल्यास, तुम्हाला पूर्वाग्रह आणि भिन्नता यांच्यात चांगला समतोल सापडला असेल.

तसेच वाचा: मशीन लर्निंग: यशस्वी व्यवसाय संस्कृतीचे भविष्य

2 - तुमच्या अल्गोरिदमसाठी नियमितीकरण वापरा

एखादे मॉडेल किती चांगले आहे याचे परिमाणवाचक माप म्हणून सरासरी स्क्वेअर एरर किंवा R2 स्कोअरचा अर्थ लावणे सोपे असले तरी, हे फसवणूक करणारे असू शकते. उदाहरणार्थ, रीग्रेशनच्या बाबतीत, खूप नियमितीकरण लागू केल्याने नवीन डेटा (प्रशिक्षणासाठी डेटा वापरला जात नाही) वर फिटिंग कमी होते आणि खराब कामगिरी होते. दुसरीकडे, जेव्हा तुम्ही पुरेसे नियमितीकरण लागू करत नाही, तेव्हा तुमचे मॉडेल अत्याधिक गुंतागुंतीचे होऊ शकते आणि ओव्हरफिटिंग होण्याची शक्यता असते.

म्हणून, प्रत्येक अल्गोरिदमसाठी तुम्ही छान प्रिंट वाचणे आणि त्यानुसार पॅरामीटराइज करणे महत्त्वाचे आहे. क्रॉस-व्हॅलिडेशन स्कोअर किंवा ROC वक्र आणि लिफ्ट चार्ट सारख्या शिकण्याच्या वक्रांमधून, "चांगले" मॉडेल काय बनवते याचे योग्य माप निवडा. हे तुम्हाला तुमच्या डेटासेटमध्ये अधिक वजन किंवा अधिक निरीक्षणे जोडल्याने चांगले परिणाम मिळतील याविषयी काही मार्गदर्शन मिळेल.

3 - भिन्न ऑप्टिमायझेशन अल्गोरिदम वापरून पहा

तुम्ही निवडलेल्या ऑप्टिमायझेशन अल्गोरिदमचा अंतिम मॉडेलवर मोठा प्रभाव पडू शकतो. रेखीय आणि लॉजिस्टिक रीग्रेशनसाठी ग्रेडियंट डिसेंट पद्धती चांगल्या प्रकारे कार्य करू शकतात, परंतु त्यांना मर्यादित मेमरी BFGS (L-BFGS) किंवा संयुग्मित ग्रेडियंट (CG) सारख्या अधिक प्रगत अल्गोरिदमने बदलले पाहिजे. सुदैवाने आजकाल अशी बरीच पॅकेजेस आहेत जी तुम्हाला क्रॉस-व्हॅलिडेशन स्कोअर वापरून वेगवेगळ्या अल्गोरिदमची झटपट तुलना करू देतात. तुमच्या विशिष्ट समस्येवर अवलंबून, तुम्ही ऑप्टिमायझेशन दरम्यान शिक्षण दर हायपर पॅरामीटर थेट ट्यून करू शकता.

4 – विविध नुकसान कार्ये आणि नियमितीकरण उद्दिष्टे वापरून पहा

वर्गीकरण करत असताना, तुम्हाला चुकीचे सकारात्मक किंवा खोटे नकारात्मक टाळायचे आहे की नाही यावर अवलंबून, विविध नुकसान कार्ये किंवा नियमितीकरण उद्दिष्टे वापरून पाहणे महत्त्वाचे आहे. उदाहरणार्थ, बहु-श्रेणी वर्गीकरणामध्ये संतुलित बायनरी आणि वन-वि-सर्व (OAA) पद्धती वापरल्याने तुम्हाला खरे धन आणि खोटे धनामधील ट्रेडऑफवर अधिक नियंत्रण मिळेल.

तसेच वाचा: आपल्याला मशीन लर्निंग अभियंता बनू इच्छित असल्यास आपल्याला 7 पावले माहित असणे आवश्यक आहे

5 – एकाच वेळी विविध मॉडेल्स प्रशिक्षित करा

एकदा तुम्हाला एक चांगला प्रशिक्षण संच आणि मॉडेल आर्किटेक्चर सापडल्यानंतर, तुमच्या डेटावर एकाच वेळी विविध प्रकारचे मॉडेल चालवण्याचा प्रयत्न करा. एक उदाहरण म्हणून, मजकूर वर्गीकरणासाठी, शब्द एम्बेडिंगसह स्टॅक केलेले विरळ ऑटोएनकोडर तसेच डीप बिलीफ नेट डीप न्यूरल नेटवर्क्स वापरणे मनोरंजक असू शकते. तसेच, भिन्न इनपुट वैशिष्ट्ये वापरून पहा, जरी ती आवश्यक वाटत नसली तरीही. हे लक्षात घेणे महत्त्वाचे आहे की तुम्हाला प्रत्येक अल्गोरिदम एकाच सेटवर प्रशिक्षित करण्याची परवानगी नाही किंवा तुमचे चांगुलपणाचे उपाय पक्षपाती असतील. तथापि, बर्‍याच समस्यांसाठी, प्रत्येक अल्गोरिदमला तुमच्या डेटासेटच्या एका अंशावर प्रशिक्षित करणे शक्य आहे जे पूर्वी यादृच्छिकपणे बदलल्याशिवाय नमुना केले गेले आहे.

6 – वैशिष्ट्य महत्त्व मेट्रिक वापरून भिन्न अल्गोरिदम आणि नियमन उद्दिष्टे वापरून पहा

प्रतिगमन किंवा वर्गीकरण समस्येमध्ये कोणती वैशिष्ट्ये महत्त्वाची आहेत याचे मूल्यांकन करण्यासाठी वापरल्या जाणार्‍या सर्वात सामान्य साधनांपैकी एकाला वैशिष्ट्य महत्त्व म्हणतात. ते या प्रश्नाचे उत्तर देते की "आमच्या मॉडेलच्या नमुन्याबाहेरील संचावरील कार्यप्रदर्शन कमी होण्यापूर्वी तुम्हाला हे वैशिष्ट्य किती बदलावे लागेल?" अनेक अल्गोरिदम अशी माहिती थेट देत नाहीत आणि म्हणून प्रत्येक स्वतंत्र व्हेरिएबल किती महत्त्वाचे आहे हे ठरवणे एक अभ्यासक म्हणून तुमच्यावर अवलंबून असेल. तथापि, जर तुमचा अल्गोरिदम काही नियमित नुकसान प्रदान करत असेल तर वैशिष्ट्य महत्त्व मेट्रिकसह येण्यासाठी क्रॉस-व्हॅलिडेशन स्कोअर वापरला जाऊ शकतो.

तसेच वाचा: शीर्ष 15 मशीन लर्निंग मुलाखत प्रश्न आणि उत्तरे

निष्कर्ष:

मशीन लर्निंग हे एक विस्तीर्ण क्षेत्र आहे आणि तुमच्या महानतेच्या शोधात अनेक अडचणी टाळता येतील. सर्वोत्कृष्ट हायपर पॅरामीटर्स कसे निवडायचे यावरील टिपा तुमच्या शोधाच्या प्रवासात एक चांगला प्रारंभ बिंदू म्हणून काम करतात, परंतु लक्षात ठेवा – शिकणे कधीही थांबवू नका!

इन्स्टाग्रामवर आमचे अनुसरण करा (iquuniquenewsonline) विनामूल्य नियमित बातम्या अद्यतने मिळविण्यासाठी

संबंधित लेख

परत शीर्षस्थानी बटण