కై లియు, విఘ్నేష్ ప్రభాకర్, చౌ వు, జెన్నిఫర్ క్రాఫోర్డ్ మరియు జోసెఫ్ వెయిట్
పెద్ద స్థాయి నాలెడ్జ్ గ్రాఫ్ డేటాసెట్లలో ఎంటిటీలు (నోడ్లు) మరియు రిలేషన్స్ (అంచులు) ప్రాతినిధ్యం వహించడానికి నాలెడ్జ్ గ్రాఫ్ ఎంబెడ్డింగ్లను (కెజిఇలు) రూపొందించడం అనేది ప్రాతినిధ్య అభ్యాసంలో ఒక సవాలుగా ఉన్న సమస్య. పెద్ద వైవిధ్య గ్రాఫ్లో డేటా యొక్క పూర్తి పరిధిని ఎన్కోడ్ చేయడానికి అవసరమైన ఎంబెడ్డింగ్లు/వెక్టార్ ప్రాతినిధ్యాలు అధిక డైమెన్షియాలిటీని కలిగి ఉండటం దీనికి ప్రధాన కారణం. పెద్ద సంఖ్యలో వెక్టర్స్ యొక్క విన్యాసానికి చాలా స్థలం అవసరం, ఇది ఎంబెడ్డింగ్లను అధిక కొలతలకు ప్రొజెక్ట్ చేయడం ద్వారా సాధించబడుతుంది. మరింత డేటాను పొందుపరచడానికి నాలెడ్జ్ గ్రాఫ్ పరిమాణం పెరగాలని మేము ఆశించినప్పుడు ఇది స్కేలబుల్ పరిష్కారం కాదు. ఎంబెడ్డింగ్లను తక్కువ సంఖ్యలో డైమెన్షన్లకు పరిమితం చేసే ఏ ప్రయత్నాలైనా సమస్యాత్మకం కావచ్చు, పరిమిత సంఖ్యలో ఉన్న పెద్ద సంఖ్యలో ఎంబెడ్డింగ్లు/వెక్టార్ ప్రాతినిధ్యాలను ప్రాదేశికంగా ఓరియంట్ చేయడానికి తగినంత స్థలం లేకపోవడంతో, ఈ ఎంబెడ్డింగ్లను ప్రభావితం చేసే లింక్ ప్రిడిక్షన్ వంటి దిగువ పనులపై పేలవమైన అంచనాలకు దారితీయవచ్చు. నాలెడ్జ్ గ్రాఫ్లో రెండు లేదా అంతకంటే ఎక్కువ ఎంటిటీల మధ్య లింక్ ఉనికిని అంచనా వేయండి. ఇది ప్రత్యేకించి పెద్ద బయోమెడికల్ నాలెడ్జ్ గ్రాఫ్లతో సంబంధం కలిగి ఉంటుంది, ఇవి జన్యువులు, వ్యాధులు, సిగ్నలింగ్ మార్గాలు, జీవసంబంధమైన విధులు మొదలైనవి. ఔషధాల ఆవిష్కరణకు వైద్యపరంగా సంబంధితంగా ఉంటాయి. బయోమెడికల్ నాలెడ్జ్ గ్రాఫ్ల పరిమాణాలు సాధారణ బెంచ్మార్క్ నాలెడ్జ్ గ్రాఫ్ డేటాసెట్లతో పోలిస్తే చాలా పెద్దవి. గ్రాఫ్ యొక్క గుప్త అర్థ నిర్మాణాన్ని సూచించడానికి మంచి నాణ్యత కలిగిన ఎంబెడ్డింగ్లు/వెక్టార్ ప్రాతినిధ్యాలను రూపొందించడంలో ఇది భారీ సవాలుగా ఉంది. ఎంబెడ్డింగ్ల డైమెన్షియాలిటీని పెంచడం ద్వారా ఈ సవాలును అధిగమించే ప్రయత్నాలు తరచుగా హార్డ్వేర్ పరిమితులను అందిస్తాయి, ఎందుకంటే అధిక డైమెన్షనల్ ఎంబెడ్డింగ్ను రూపొందించడం గణనపరంగా ఖరీదైనది మరియు తరచుగా అసంభవం. అటువంటి పెద్ద స్థాయి నాలెడ్జ్ గ్రాఫ్ల (KGలు) యొక్క గుప్త నిర్మాణాన్ని ప్రాక్టికల్గా ఎదుర్కోవటానికి, మా పని ఒక సమిష్టి అభ్యాస నమూనాను ప్రతిపాదిస్తుంది, దీనిలో పూర్తి నాలెడ్జ్ గ్రాఫ్ అనేక చిన్న సబ్గ్రాఫ్లుగా నమూనా చేయబడుతుంది మరియు KGE మోడల్లు ఒక్కొక్క సబ్గ్రాఫ్కు ఎంబెడ్డింగ్ను ఉత్పత్తి చేస్తాయి. ప్రతి సబ్గ్రాఫ్లో శిక్షణ పొందిన KGE మోడల్ల నుండి లింక్ ప్రిడిక్షన్ ఫలితాలు పూర్తి నాలెడ్జ్ గ్రాఫ్లో ఏకీకృత లింక్ ప్రిడిక్షన్లను రూపొందించడానికి సమగ్రపరచబడతాయి. ప్రయోగాత్మక ఫలితాలు టాస్క్ స్పెసిఫిక్ లింక్ ప్రిడిక్షన్లపై ర్యాంక్-బేస్డ్ ఎవాల్యుయేషన్ మెట్రిక్స్లో గణనీయమైన మెరుగుదలని అలాగే నాలుగు ఓపెన్ సోర్స్డ్ బయోమెడికల్ నాలెడ్జ్ గ్రాఫ్ డేటాసెట్లపై సాధారణ లింక్ అంచనాలను ప్రదర్శించాయి.