ఎలక్ట్రికల్ ఇంజనీరింగ్ మరియు ఎలక్ట్రానిక్ టెక్నాలజీ జర్నల్

మెషిన్ లెర్నింగ్ సమస్యను చేరుకోవడానికి మార్గంపై గైడ్

మాన్సి ప్రియ  

నేడు, అల్గారిథమ్‌లు బజ్ పదాల లాంటివి. ప్రతి ఒక్కరూ వివిధ రకాల అల్గారిథమ్‌లను నేర్చుకోవడం కోసం వెళుతున్నారు - లాజిస్టిక్ రిగ్రెషన్, రాండమ్‌ఫారెస్ట్‌లు, డెసిషన్ ట్రెస్, SVMలు, గ్రేడియంట్ బూస్టింగ్ అల్గారిథమ్‌లు, న్యూరల్ నెట్‌వర్క్‌లు మొదలైనవి.. ప్రతిరోజూ కొత్త అల్గారిథమ్‌లు తయారు చేయబడుతున్నాయి. కానీ డేటా సైన్స్ కేవలం డేటాకు భిన్నమైన అల్గారిథమ్‌లను వర్తింపజేయడం లేదు. ఏదైనా అల్గారిథమ్‌ని వర్తింపజేయడానికి ముందు, మీరు మీ డేటాను అర్థం చేసుకోవాలి ఎందుకంటే అది మీ అల్గారిథమ్‌ల పనితీరును తర్వాత మెరుగుపరచడంలో మీకు సహాయం చేస్తుంది. ఏదైనా సమస్య కోసం, ఖచ్చితత్వాన్ని మెరుగుపరచడానికి డేటా తయారీ, మోడల్ ప్లానింగ్, మోడల్ బిల్డింగ్ మరియు మోడల్ మూల్యాంకనం వంటి అదే దశలను పునరావృతం చేయాలి. మేము నేరుగా మోడల్ బిల్డింగ్‌కి వెళితే, ఒక పునరావృతం తర్వాత మేము దిశారహితంగా ఉంటాము. ఏదైనా మెషిన్ లెర్నింగ్ సమస్యను చేరుకోవడానికి నాకు కొన్ని నిర్వచించిన దశలు ఉన్నాయి: వ్యాపార మార్కెట్‌పై మంచి అవగాహనతో మీ సమస్యను సరిగ్గా అర్థం చేసుకోవడం నేను సూచించే మొదటి దశ. ఇలాంటి దృశ్యం లేదు: ఇక్కడ డేటా ఉంది, ఇదిగో అల్గారిత్‌మాండ్ బామ్! సరైన వ్యాపార అవగాహన రాబోయే దశల్లో డేటాను ఇన్‌హ్యాండ్ చేయడంలో మీకు సహాయం చేస్తుంది. ఉదాహరణకు, మీకు బ్యాంకింగ్ సిస్టమ్ గురించి ఎలాంటి ఆలోచన లేకపోతే, కస్టమర్ యొక్క ఆదాయం వంటి ఐఫా ఫీచర్‌ను చేర్చాలా వద్దా అని అర్థం చేసుకోలేరు. మీ సమస్యకు సంబంధించిన డేటాను సేకరించడం తదుపరి దశ. మీరు మీ కంపెనీలో అంతర్గతంగా కలిగి ఉన్న డేటా కాకుండా, మీరు బాహ్య డేటా మూలాన్ని కూడా జోడించాలి. ఉదాహరణకు, విక్రయాల అంచనా కోసం మీరు మీ ఉత్పత్తి విక్రయాల కోసం మార్కెట్ దృశ్యాన్ని అర్థం చేసుకోవాలి. GDP మీ అమ్మకాలను ప్రభావితం చేయవచ్చు లేదా జనాభా ప్రభావితం కావచ్చు. కాబట్టి, అటువంటి బాహ్య డేటాను సేకరించండి. భవిష్యత్తులో మీ మోడల్‌ని అమలు చేసినప్పుడు మీరు ఉపయోగించే ఏదైనా బాహ్య డేటా మీకు అందుబాటులో ఉండాలనే వాస్తవాన్ని కూడా గుర్తుంచుకోండి. మీరు మీ మోడల్‌లో జనాభాను ఉపయోగించినట్లయితే, వచ్చే ఏడాది కూడా మీరు తదుపరి సంవత్సరంలో అంచనాలను పొందడానికి ఈ డేటాను సేకరించగలరు. వారి డేటాసెట్‌కు బాహ్య డేటా యొక్క ప్రాముఖ్యతను గుర్తించకుండా వారి అంతర్గత డేటాను మాత్రమే ఉపయోగించే చాలా మంది వ్యక్తులను నేను చూశాను. కానీ వాస్తవానికి, బాహ్య లక్షణాలు మా వినియోగ విషయంలో మంచి ప్రభావాన్ని కలిగి ఉంటాయి. ఇప్పుడు మీరు మీ సమస్యకు సంబంధించిన మొత్తం డేటాను సేకరించిన తర్వాత, మీరు దానిని శిక్షణ మరియు పరీక్ష కోసం తప్పనిసరిగా విభజించాలి. చాలా మంది డేటా శాస్త్రవేత్తలు థీడేటాను రెండు భాగాలుగా విభజించడానికి 70/30 నియమాన్ని అనుసరిస్తారు: శిక్షణ మరియు పరీక్ష సెట్. చాలా మంది డేటాను మూడు భాగాలుగా విభజించడానికి 60/20/20 నియమాన్ని అనుసరిస్తారు: శిక్షణ సెట్, టెస్ట్‌సెట్ మరియు ధ్రువీకరణ సెట్. నేను రెండవ ఎంపికను ఇష్టపడతాను ఎందుకంటే ఈ సందర్భంలో మీరు మీ మోడల్‌ని మెరుగుపరచడానికి టెస్ట్ సెట్‌ని మరియు వాస్తవ దృష్టాంతంలో మీ మోడల్ యొక్క తుది ధృవీకరణ కోసం ధ్రువీకరణ సెట్‌ని ఉపయోగిస్తారు. దానితో. నేను డిఫాల్ట్ లోన్ ప్రిడిక్షన్ సమస్యపై పని చేస్తున్నాను. నా ఖచ్చితత్వం 78%. రుణాలకు సంబంధించిన ఆర్థిక వ్యవస్థలను నిర్వహిస్తున్న వ్యక్తి వద్దకు నా సమస్యను చెప్పాను.

నిరాకరణ: ఈ సారాంశం ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ టూల్స్ ఉపయోగించి అనువదించబడింది మరియు ఇంకా సమీక్షించబడలేదు లేదా నిర్ధారించబడలేదు