మాన్సి ప్రియ
నేడు, అల్గారిథమ్లు బజ్ పదాల లాంటివి. ప్రతి ఒక్కరూ వివిధ రకాల అల్గారిథమ్లను నేర్చుకోవడం కోసం వెళుతున్నారు - లాజిస్టిక్ రిగ్రెషన్, రాండమ్ఫారెస్ట్లు, డెసిషన్ ట్రెస్, SVMలు, గ్రేడియంట్ బూస్టింగ్ అల్గారిథమ్లు, న్యూరల్ నెట్వర్క్లు మొదలైనవి.. ప్రతిరోజూ కొత్త అల్గారిథమ్లు తయారు చేయబడుతున్నాయి. కానీ డేటా సైన్స్ కేవలం డేటాకు భిన్నమైన అల్గారిథమ్లను వర్తింపజేయడం లేదు. ఏదైనా అల్గారిథమ్ని వర్తింపజేయడానికి ముందు, మీరు మీ డేటాను అర్థం చేసుకోవాలి ఎందుకంటే అది మీ అల్గారిథమ్ల పనితీరును తర్వాత మెరుగుపరచడంలో మీకు సహాయం చేస్తుంది. ఏదైనా సమస్య కోసం, ఖచ్చితత్వాన్ని మెరుగుపరచడానికి డేటా తయారీ, మోడల్ ప్లానింగ్, మోడల్ బిల్డింగ్ మరియు మోడల్ మూల్యాంకనం వంటి అదే దశలను పునరావృతం చేయాలి. మేము నేరుగా మోడల్ బిల్డింగ్కి వెళితే, ఒక పునరావృతం తర్వాత మేము దిశారహితంగా ఉంటాము. ఏదైనా మెషిన్ లెర్నింగ్ సమస్యను చేరుకోవడానికి నాకు కొన్ని నిర్వచించిన దశలు ఉన్నాయి: వ్యాపార మార్కెట్పై మంచి అవగాహనతో మీ సమస్యను సరిగ్గా అర్థం చేసుకోవడం నేను సూచించే మొదటి దశ. ఇలాంటి దృశ్యం లేదు: ఇక్కడ డేటా ఉంది, ఇదిగో అల్గారిత్మాండ్ బామ్! సరైన వ్యాపార అవగాహన రాబోయే దశల్లో డేటాను ఇన్హ్యాండ్ చేయడంలో మీకు సహాయం చేస్తుంది. ఉదాహరణకు, మీకు బ్యాంకింగ్ సిస్టమ్ గురించి ఎలాంటి ఆలోచన లేకపోతే, కస్టమర్ యొక్క ఆదాయం వంటి ఐఫా ఫీచర్ను చేర్చాలా వద్దా అని అర్థం చేసుకోలేరు. మీ సమస్యకు సంబంధించిన డేటాను సేకరించడం తదుపరి దశ. మీరు మీ కంపెనీలో అంతర్గతంగా కలిగి ఉన్న డేటా కాకుండా, మీరు బాహ్య డేటా మూలాన్ని కూడా జోడించాలి. ఉదాహరణకు, విక్రయాల అంచనా కోసం మీరు మీ ఉత్పత్తి విక్రయాల కోసం మార్కెట్ దృశ్యాన్ని అర్థం చేసుకోవాలి. GDP మీ అమ్మకాలను ప్రభావితం చేయవచ్చు లేదా జనాభా ప్రభావితం కావచ్చు. కాబట్టి, అటువంటి బాహ్య డేటాను సేకరించండి. భవిష్యత్తులో మీ మోడల్ని అమలు చేసినప్పుడు మీరు ఉపయోగించే ఏదైనా బాహ్య డేటా మీకు అందుబాటులో ఉండాలనే వాస్తవాన్ని కూడా గుర్తుంచుకోండి. మీరు మీ మోడల్లో జనాభాను ఉపయోగించినట్లయితే, వచ్చే ఏడాది కూడా మీరు తదుపరి సంవత్సరంలో అంచనాలను పొందడానికి ఈ డేటాను సేకరించగలరు. వారి డేటాసెట్కు బాహ్య డేటా యొక్క ప్రాముఖ్యతను గుర్తించకుండా వారి అంతర్గత డేటాను మాత్రమే ఉపయోగించే చాలా మంది వ్యక్తులను నేను చూశాను. కానీ వాస్తవానికి, బాహ్య లక్షణాలు మా వినియోగ విషయంలో మంచి ప్రభావాన్ని కలిగి ఉంటాయి. ఇప్పుడు మీరు మీ సమస్యకు సంబంధించిన మొత్తం డేటాను సేకరించిన తర్వాత, మీరు దానిని శిక్షణ మరియు పరీక్ష కోసం తప్పనిసరిగా విభజించాలి. చాలా మంది డేటా శాస్త్రవేత్తలు థీడేటాను రెండు భాగాలుగా విభజించడానికి 70/30 నియమాన్ని అనుసరిస్తారు: శిక్షణ మరియు పరీక్ష సెట్. చాలా మంది డేటాను మూడు భాగాలుగా విభజించడానికి 60/20/20 నియమాన్ని అనుసరిస్తారు: శిక్షణ సెట్, టెస్ట్సెట్ మరియు ధ్రువీకరణ సెట్. నేను రెండవ ఎంపికను ఇష్టపడతాను ఎందుకంటే ఈ సందర్భంలో మీరు మీ మోడల్ని మెరుగుపరచడానికి టెస్ట్ సెట్ని మరియు వాస్తవ దృష్టాంతంలో మీ మోడల్ యొక్క తుది ధృవీకరణ కోసం ధ్రువీకరణ సెట్ని ఉపయోగిస్తారు. దానితో. నేను డిఫాల్ట్ లోన్ ప్రిడిక్షన్ సమస్యపై పని చేస్తున్నాను. నా ఖచ్చితత్వం 78%. రుణాలకు సంబంధించిన ఆర్థిక వ్యవస్థలను నిర్వహిస్తున్న వ్యక్తి వద్దకు నా సమస్యను చెప్పాను.