Top > Info > Data Mining > 2-2. ±â¾ï±â¹ÝÃß·Ð(Memory-Based Reasoning)
¢¹¢º ±â¾ï±â¹ÝÃß·Ð(Memory-Based Reasoning)
»ç¶÷µéÀº ±×µéÀÇ Áö³ °æÇè¿¡ ÀÇÇØ °áÁ¤À» ³»¸®´Âµ¥ Àͼ÷ÇÏ´Ù. ´©±º°¡°¡ ±ºÁß ¼Ó¿¡¼ ÇÑ ¾ó±¼À» ¶°¿Ã¸°´Ù¸é ±×µéÀº ±×µéÀÇ °æÇè¿¡ ÀÇÇØ ±×°¡ ¾Æ´Â ¾ó±¼À» ¶°¿Ã¸± °ÍÀÌ´Ù. Àǻ簡 º´À» Áø´ÜÇÒ ¶§´Â ±×µéÀº ±×µéÀÌ °æÇèÇß´ø ºñ½ÁÇÑ È¯ÀÚ³ª Áõ»óÀ» ÇöÀçÀÇ »óȲ¿¡ Àû¿ëÇÒ °ÍÀÌ´Ù. ¶ÇÇÑ ºÐ¼®°¡°¡ º¸Çè·á¸¦ Ÿ³»±â À§ÇÑ »ç±âÀÎÁö ¾Æ´ÑÁö¸¦ ÆÇº°ÇÒ ¶§µµ ±×µéÀº Á¾Á¾ ¾Õ¼± ºñ½ÁÇÑ °æ¿ìÀÇ °æÇèÀ¸·Î »ç±âÀÎÁö ¾Æ´ÑÁö¸¦ ÆÇº°ÇÑ´Ù. ±ºÁß ¼Ó¿¡¼ ¾ó±¼À» ±¸º°Çϰųª º´À» Áø´ÜÇϰųª ¶Ç´Â º¸ÇèÀÇ »ç±â ¿©ºÎ¸¦ ±¸º°Çϰųª ºñ½ÁÇÑ °úÁ¤À» °ÅÄ£´Ù. ù¹øÂ°´Â ºñ½ÁÇÑ °æ¿ì¸¦ °æÇèÀ¸·ÎºÎÅÍ ¹àÇô³½ ´ÙÀ½ ÀÌ·¯ÇÑ °æÇèÀ¸·ÎºÎÅÍ Á¤º¸¸¦ ã¾Æ³½ Á¤º¸¸¦ Àû¿ëÇÑ´Ù. À̰ÍÀÌ ¹Ù·Î ±â¾ï ±â¹Ý Ãß·Ð(Memory-Based Reasoning ,MBR)ÀÇ ÇÙ½ÉÀ̸ç Á÷Á¢ÀûÀÎ µ¥ÀÌÅÍ ¸¶ÀÌ´× ±â¼ú°ú ºñ½ÁÇÑ °æÇèÀ» ÀÌ¿ëÇÑ´Ù. µ¥ÀÌÅÍ º£À̽ºÀÇ ¾Ë°í ÀÖ´Â ·¹Äڵ带 À¯ÁöÇÔÀ¸·Î½á MBRÀº ÀÌ¿ôÇÑ »õ·Î¿î ·¹Äڵ带 ã¾Æ³»°í ±× ÀÌ¿ôµéÀº ºÐ·ù¿Í ¿¹Ãø¿¡ ¾²ÀÌ°Ô µÈ´Ù.
MBRÀÌ Èï¹Ì¸¦ ²ô´Â °Í ÁßÀÇ Çϳª´Â ±× ´É·ÂÀÌ µ¥ÀÌÅ͸¦ ±× ÀÚü·Î ÀÌ¿ëÇÑ´Ù´Â °ÍÀÌ´Ù. ´Ù¸¥ µ¥ÀÌÅÍ ¸¶ÀÌ´× Å×Å©´Ð°ú´Â ´Þ¸® À̰ÍÀº ·¹ÄÚµåÀÇ Æ÷¸Ë¿¡ °³ÀÇÄ¡ ¾Ê´Â´Ù. ¿ÀÁ÷ ´ÙÀ½ÀÇ µÎ °¡Áö¿¡ °ü½ÉÀÌ ÀÖ´Ù. µÎ ·¹Äڵ尣ÀÇ °Å¸®¸¦ ³ªÅ¸³»´Â distance function°ú ´ä¿¡ µµ´ÞÇϱâ±îÁöÀÇ °á°ú¸¦ Á¶ÇÕÇÑ combination functionÀÌ ±×°ÍÀÌ´Ù. À̵é ÇÔ¼öµéÀº °ÅÀÇ ¸ðµç ·¹ÄÚµåµéÀÇ Ç¥ÁØ µ¥ÀÌÅÍ Å¸ÀÔÀ¸·Î ¼Õ½±°Ô Á¤ÀǵǾî ÀÖ´Ù. ¶ÇÇÑ ±×µéÀº Áö¸®Àû À§Ä¡, À̹ÌÁö, º¹ÀâÇÑ ¹®ÀÚ¿µî°ú °°ÀÌ ÀϹÝÀûÀ¸·Î ´Ù¸¥ ºÐ¼®±â¹ýÀ¸·Î ´Ù·ç±â Èûµç µ¥ÀÌÅÍ ÇüŸ¦ ´Ù·ê ¼ö ÀÖ´Ù. ÀÌ Àå¿¡¼´Â »ç·Ê¸¦ ÅëÇØ MBRÀÇ ´º½º ±â»ç¿¡¼ÀÇ ¼º°øÀûÀÎ Àû¿ëÀ» º¸ÀÌ°Ô µÇ´Âµ¥ ÇϳªÀÇ ¿¹·Î ¹®ÀåÀ¸·Î¸¸ µÈ ´º½º ±â»ç¿¡¼ ÁÖÁ¦ Äڵ带 Á¤Çϴµ¥ ÀÕÁ¡ÀÌ ÀÖ´Ù´Â ¿¹¸¦ º¸ÀÌ°Ô µÉ °ÍÀÌ´Ù.
MBRÀº ¶ÇÇÑ º¸´Ù ÀϹÝÀûÀ¸·Î ºñÁî´Ï½º ȯ°æ¿¡¼ ã¾ÆÁö´Â °ü°èÇü µ¥ÀÌÅÍ¿¡ ¾Ë¸Â´Ù. °Å¸®¿Í Á¶ÇÕ ÇÔ¼ö´Â ºñÁî´Ï½º ȯ°æ¿¡¼ÀÇ º¹ÀâÇÑ ·¹ÄÚµå¿Í ¶§·Î´Â ¾î¶² Çʵ忡¼ ´©¶ôµÈ °ªµéÀ» ó¸®ÇÏ´Â µ¥¼ ÇÊ¿ä·Î Çϱ⵵ ÇÑ´Ù. MBRÀÇ Àû¿ëÀº ¸¹Àº °÷¿¡¼ ÀϾÙ.
»ç±â ¹ß°ß. »ç±âÀÇ »õ·Î¿î ÄÉÀ̽º´Â ¾Ë·ÁÁø ÄÉÀ̽º¿Í ºñ½ÁÇÏ´Ù. MBRÀº º¸´Ù Á¤È®ÇÏ°Ô Á¶»çÇÏ¿© ±×µéÀ» ã¾Æ¼ ±¸º°ÇÒ ¼ö ÀÖ´Ù.
°í°´ ÀÀ´ä ¿¹Ãø. ´ÙÀ½¿¡ ã¾Æ¿Ã °í°´Àº °ÅÀÇ ¾Õ¼± °í°´ÀÌ ÀÀ´äÇß´ø °Í°ú ºñ½ÁÇÏ°Ô ¹ÝÀÀÇϰí ÁÖ¹®ÇÒ °ÍÀÌ È®½ÇÇÏ´Ù. MBRÀº ½±°Ô ´ÙÀ½¿¡ ã¾Æ¿Ã °í°´¿¡ ´ëÇÑ Á¤º¸¸¦ ¾Ë ¼ö ÀÖ´Ù.
º´ÀÇ Ã³¹æ. ȯÀÚ¿¡ ´ëÇÑ °¡Àå È¿°úÀûÀΠó¹æÀº ¾Æ¸¶µµ ºñ½ÁÇÑ È¯ÀڷκÎÅÍ ¾òÀº °á°ú·Î Áø´ÜÀ» ³»¸®´Â °ÍÀÌ´Ù. MBRÀº °¡Àå ÁÁÀº °á°ú·ÎºÎÅÍ ³ª¿Â ¾òÀº ó¹æÀ» ã¾ÆÁØ´Ù.
ÀÀ´äÀÚÀÇ ºÐ·ù. ÀÚÀ¯Çü½ÄÀÇ ÀÀ´ä, °¡·É U.S. Census ÀÇ Á÷¾÷°ú »ê¾÷¿¡ °üÇÑ Çü½ÄÀº ƯÁ¤ÇÑ ÄÚµå·Î µÈ ºÐ·ù¸¦ ÇÊ¿ä·Î ÇÑ´Ù. MBRÀº ÀÚÀ¯Çü½ÄÀÇ ¹®ÀÚ¿À» ÄÚµå·Î ¿Å±æ ¼ö ÀÖ´Ù.
MBRÀÇ °£Æí¼ºÀº ´Ù¸¥ Å×Å©´Ð¿¡ ºñÇØ ÆÄ¿ö¿Í ÀåÁ¡À» °¡Áö°í ÀÖ´Ù. Á¤ÀÇÀÇ ¸ðÈ£ÇÔÀº MBRÀÌ °ÅÀÇ ¸ðµç ÇüÅ¿¡ Àû¿ëÇÒ ¼ö ÀÖµµ·Ï ÇÏ´Â °ÍÀÌ´Ù. °ü°èÇü µ¥ÀÌÅͺ£À̽º¿¡ ÀÖ´Â µ¥ÀÌÅ͸¦ À§Çؼ´Â ºñ·Ï ½ÇÇàÀÌ À̽´°¡ ¾Æ´ÏÁö¸¸ SQL À» ÀÌ¿ëÇØ¼ ±× ±â¼úÀ» ¸¸Á·ÇÒ ¼ö ÀÖ´Ù. ¶Ç ´Ù¸¥ °Á¡Àº ±×°ÍÀÇ Àû¿ë¹üÀ§¿¡ ÀÖ´Ù. °ú°Å µ¥ÀÌÅ͸¦ ÅëÇØ »õ·Î¿î µ¥ÀÌÅ͸¦ ¸¸µé ¼ö ÀÖÀ» »Ó ¾Æ´Ï¶ó MBR´Â Áö³ µ¥ÀÌÅÍÀÇ »õ·Î¿î ¹üÁÖ¿Í »õ·Î¿î Á¤ÀǸ¦ ³»¸± ¼öµµ ÀÖ´Ù. MBRÀº ¶ÇÇÑ ¿À·£ ±â°£¿¡ °ÉÄ£ ÈÆ·ÃÀ̳ª Á¤ÇØÁø Æ÷¸Ë¿¡ µû¶ó ÀÔ¼öµÇ´Â ¸Þ½ÃÁö ¾øÀ̵µ ÁÁÀº °á°ú¸¦ Á¦°øÇØ ÁØ´Ù.
ÀÌ·¯ÇÑ ÀåÁ¡µéÀº ºñ¿ëÀÌ µÚµû¸¥´Ù. MBRÀº ¸¹Àº ÀÚ¿øÀ» ¼Ò¸ðÇÏ´Â °æÇâÀÌ ÀÖ´Ù. ¿Ö³ÄÇÏ¸é ¸¹Àº ¾çÀÇ °ú°Å µ¥ÀÌÅͰ¡ ±×µéÀÇ ÀÌ¿ôÀ» ã±â À§ÇØ ¹Ýµå½Ã ÀÐÇôÁ®¾ß Çϱ⠶§¹®ÀÌ´Ù. »õ·Î¿î ·¹Äڵ带 ºÐ·ùÇϱâ À§Çؼ´Â °¡Àå °¡±î¿î ÀÌ¿ô µ¥ÀÌÅ͸¦ ã±â À§ÇØ ¸ðµç °ú°ÅÀÇ ·¹Äڵ带 ¿ä±¸ÇÒ ¼ö ÀÖ´Ù. »õ·Î¿î ·¹Äڵ带 ºÐ·ùÇÏ´Â °ÍÀº °ú°ÅÀÇ µ¥ÀÌÅͷκÎÅÍ °¡Àå ÀÎÁ¢ÇÑ ÀÌ¿ôÀ» ã´Â °ÍÀ̶ó ÇÒ ¼ö ÀÖ´Ù, ÀÌ¹Ì ÈÆ·ÃµÈ neural network À̳ª decision tree·ÎºÎÅÍ Àû¿ëÇÏ´Â °Íº¸´Ù ÈξÀ ¸¹Àº ½Ã°£ÀÌ ¼Ò¿äµÈ´Ù. »õ·Î¿î ±â¼úÀÇ Æ÷ÀÎÆ®´Â °ú°Å µ¥ÀÌÅÍÀÇ Å©±â¸¦ ÁÙÀÌ´Â ¹æ¹ýÀÌ´Ù. ÁÁÀº °Å¸® ÇÔ¼ö³ª Á¶ÇÕ ÇÔ¼ö¸¦ ¸¸µå´Â °ÍÀº ±×¸® ¾î·ÆÁö°¡ ¾ÊÀºµ¥µµ ºÒ±¸Çϰí ÃÖÀûÀÇ ÇÔ¼ö¸¦ ã´Â °ÍÀº ¾î´À Á¤µµÀÇ ³ë·ÂÀÌ ÇÊ¿äÇÏ´Ù.
¾î¶»°Ô MBRÀÌ ¼öÇàµÇ´Â°¡?
°£´ÜÇÑ ºÐ·ù ¹®Á¦¿¡¼ ¾î¶»°Ô MBRÀÌ Àû¿ëµÇ´Â°¡ º¸ÀÚ. 4Àå¿¡¼ ¼Ò°³µÈ ±ØÀå°ü¶÷°´ µ¥ÀÌÅ͸¦ º¸¸é ÀÌ ¿¹¿¡¼´Â ¿ÀÁ÷ ³× °³ÀÇ °¡Àå Àαâ ÀÖ´Â ¿µÈ°¡ ÀÌ¿ëµÇ¾ú´Ù. MBRÀ» ¿¬·É´ë¿Í Ãâó¿¡ µû¶ó µµ½ÃÈÇÏ´Â °¡Àå ÁÁÀº ¹æ¹ýÀÌ ±×¸² 9-1¿¡ ³ª¿Í ÀÖ´Ù.
±×¸² 9.2´Â ¿ª½Ã ¼¼¸íÀÇ ¾Ë·ÁÁöÁö ¾ÊÀº ÀÀ´äÀÚ¸¦ Æ÷ÇÔÇÑ ½ºÄ³ÅÍ ±×·¡ÇÁÀÌ´Ù. ±×·¡ÇÁ¸¦ ÀÌ¿ëÇÏ¸é »õ·Î¿î ÀÀ´äÀÚ¿¡ ÀÎÁ¢ÇÑ ¼¼ ÀÌ¿ôµéÀ» ½±°Ô ã¾Æ³¾ ¼ö ÀÖ´Ù. ¿¹ÃøÀ» À§Çؼ »õ·Î¿î ÀÀ´äÀÚµéÀÌ º» ÃÖ±Ù ¿µÈ¸¦ °¢°¢ÀÇ °¡±î¿î ÀÌ¿ôÀÌ º» ÃÖ±Ù¿µÈ¶ó ÇÏÀÚ. ¿À¸®Áö³¯ µ¥ÀÌÅÍ¿¡ ´ëÇÑ ¿øÄ¢À̳ª ¿À·£ ÈÆ·Ã±â°£ ¾øÀÌ ÀÌ ÇÁ·Î¼¼½º´Â ½ÇÇà µÈ´Ù. ÀÌ ÃÖ±ÙÁ¢ ÀÌ¿ô Á¢±Ù(The nearst neighbor approach)Àº ¸Å¿ì Áö¿ªÀûÀÌ´Ù. ¿ÀÁ÷ »õ·Î¿î ±â·Ï°ú Èí»çÇÑ ±â·Ï¸¸ÀÌ °¡Àå ÃÖ±Ù¿¡ º» ¿µÈÁß °¡Ä¡¸¦ ÁöÁ¤ÇÏ¿© ¾î¶² ¿ªÇÒÀ» ÇÒ °ÍÀÌ´Ù.
ÀÌ ¿¹´Â ¸Å¿ì °£´ÜÇÏ´Ù. ±×·¯³ª MBRÀÇ ÁÖ¿ä ¿ä¼Ò¸¦ º¸¿©ÁØ´Ù. MBRÀº Áö±Ý ±îÁö ÀÖ¾ú´ø Àϵ鿡 ´ëÇÑ ÀÚ·áÀÇ µ¥ÀÌÅÍ º£À̽º¿¡¼ °¡Àå ºñ½ÁÇÑ °æ¿ì¸¦ ã¾Æ³¿À¸·Î½á ÀÀ´äÀÚµéÀ» À§ÇØ ¾Ë·ÁÁöÁö ¾ÊÀº Ä«Å×°í¸®¸¦ °áÁ¤Áö¾îÁØ´Ù. MBRÀº µÎ °æ·Î°¡ ÀÖ´Ù. Àνİæ·Î(learning phase)´Â ¿ª»çÀû µ¥ÀÌÅͺ£À̽º¸¦ ¸¸µé¾î³½´Ù. ¿¹Ãø°æ·Î(prediction phase)´Â MBRÀ» »õ·Î¿î °æ¿ì¿¡ Àû¿ë½ÃŲ´Ù. MBRÀÌ ¹®Á¦Çذῡ Àû¿ëµÇ´Â Áß¿ä ÀïÁ¡ ¼¼°¡Áö´Â,
ÀûÀýÇÑ °ú°Å µ¥ÀÌÅÍÀÇ ¼±ÅÃ
°ú°Å µ¥ÀÌÅ͸¦ ³ªÅ¸³¾ °¡Àå ÀûÀýÇÑ ¹æ¹ýÀÇ °áÁ¤.
°Å¸®ÇÔ¼ö, Á¶ÇÕÇÔ¼ö¿Í ÀÌ¿ôÀÇ ¼ö °áÁ¤
MBRÀº ´ÙÀ½ µÎ °¡Áö ¸ðµÎ »ç¿ëµÈ´Ù.
ºÐ·ù- ¿µÈ¸¦ °è¼Ó º¸¸é¼ ¼±·ÊÀÇ ¿µÈ µ¥ÀÌÅÍ¿¡ °³º°ÀûÀΠīŸ°í¸®¸¦ ÇÒ´çÇϰí,
¿¹°ß- °è¼ÓµÇ´Â °¡Ä¡ÀÇ ÇÒ´ç.
°ú°Å ÀÚ·áÀÇ °áÁ¤
°ú°Å ÀÚ·á(historical records)´Â -¼ö·Ã°úÁ¤(training set)À̶ó°íµµ ÀÏÄþîÁö±âµµ ÇÑ´Ù- ÀÌ¿ë °¡´ÉÇÑ ÀÚ·áÀÇ ºÎºÐÁýÇÕÀÌ´Ù. ¼ö·Ã°úÁ¤Àº °úÁ¦¿¡ °üÇÑ °ÍµéÀ» ¸ðµÎ Ä¿¹öÇÒ ³Ë³ËÇÑ ÀÚ·áÀÇ °ø±ÞÀÌ ÇÊ¿äÇÏ´Ù. ±×·¯³ª ¹«ÀÛÀ§ »ùÇÃÀº ±×°ÍµéÀ» ¸ðµÎ Ä¿¹öÇÑ´Ù°í ÀûÀýÇÑ °ÍÀº ¾Æ´Ï´Ù. ¾î¶² ÀϺÎÀÇ ¿µÈ´Â ¸¹Àº °ü°´À» µ¿¿øÇÏ°í ¸¹Àº ¼öÀÇ Àα⠾ø´Â ¿µÈ´Â °Ü¿ì ÀûÀº ¼öÀÇ °ü°´À» µ¿¿øÇÑ´Ù. ±×·¯¹Ç·Î ¸ðµç ¿µÈ¸¦ »ùÇ÷ΠȰ¿ëÇÑ´Ù´Â °ÍÀº ¹®Á¦°¡ µÈ´Ù. ÀûÀýÇÑ ÀÚ·á¶õ ºóµµ¼ö°¡ Áß¿äÇÏ´Ù. ´Ù¸¥ ¿¹·Î ÁÁÀº ÀÚ·á°¡ µÇ±â À§Çؼ ½ÉÀ庴Àº °£¾Ï¿¡ ºñÇØ ºóµµ¼ö°¡ ³ô°í, »õ·Î¿î À̾߱⠼ÒÀç·Î ÄÄÇ»ÅÍ»ê¾÷¿¡ °üÇÑ °ÍÀÌ ÇÃ¶ó½ºÆ½¿¡ °üÇÑ °ÍÀÌ ºóµµ¼ö°¡ ³ôÀº °Íµé°ú °°ÀÌ ÀÚ·á´Â ´ë·« Åë°è·®ÀÌ ÇüÆò¼ºÀ» Áö³à¾ß ÇÑ´Ù.
°ú°Å ÀÚ·áÀÇ Ç¥Çö
¿¹ÃøÀ» Çϴµ¥ MBRÀÌ ¿¹ÃøÀ» À§ÇØ ¾²ÀÌ´Â µ¥´Â ±×°ÍÀÌ ¾î¶»°Ô ÄÄÇ»ÅÍ·Î ³ªÅ¸³»¾îÁú ¼ö ÀÖ´À³Ä¿¡ ´Þ·ÁÀÖ´Ù. ½ºÄ³ÅÍ ±×·¡ÇÁ¸¦ ÀÌ¿ëÇÑ Á¢±Ù¹ýÀº ÀûÀº ¼öÀÇ °£´ÜÇÑ µ¥ÀÌÅ͸¦ ÀÌ¿ëÇÏ¿© ÀÛ¾÷ÇÏ´Â »ç¶÷¿¡°Ô À¯¿ëÇÏÁö¸¸ ÄÄÇ»ÅÍ·Î Àß ¸ÂÁö ¾Ê´Â´Ù. ±× °£´ÜÇÑ ±ÙÁ¢ÇÑ Á¡µéÀ» ã¾Æ³»´Â ¹æ¹ýÀº ¾Ë·ÁÁöÁö ¾ÊÀº °æ¿ìµéÀÇ °Å¸®¸¦ ¾Ë¾Æ³»¾ß¸¸ ÇÑ´Ù. ½ÇÇèÀÇ È½¼ö°¡ Áõ°¡ÇÒ¼ö·Ï »õ·Î¿î ±â·ÏÀ¸·Î ÀÌ¿ôÀ» ã´Âµ¥ ´õ ¸¹Àº ½Ã°£À» ÇÊ¿ä·Î ÇÑ´Ù.
¸î¸î Æ¯ÈµÈ µ¥ÀÌÅͺ£À̽º, ¿¹¸¦ µé¾î µµ½ÄÈµÈ Á¤º¸´Â ±â·ÏµéÀÌ ¼·Î ºñ½ÁÇÏ°Ô ³ªÅ¸³´Ù. ¹®ÀÚ µ¥ÀÌÅͺ£À̽º ¿ª½Ã ºñ½ÁÇÑ ±â´ÉÀ» °¡Áø´Ù. Á¡Â÷, ÀÌ·± ±â´ÉµéÀº ¿¬°ü µ¥ÀÌÅÍ º£À̽º·Î ³ªÅ¸³´Ù. ±× ¹Û¿¡µµ ¸¹Àº È¿À²ÀûÀÎ ±â´ÉµéÀÌ ÀÖ´Ù.
MBRÀ» º¸´Ù È¿À²ÀûÀ¸·Î ¸¸µå´Â ¹æ¹ýÀº °ú°ÅÀÚ·á¿¡¼ ±â·Ï(record)ÀÇ ¼ö¸¦ ÁÙÀÌ´Â °ÍÀÌ´Ù. ±×¸² 9.3´Â À§ ÀÇ ´ÙÀ̾Ƹóµå, ¾Æ·¡ÀÇ »ç°¢Çü µÎ Áö¿ªÀÇ °æ°è¸¦ Àß º¸¿©ÁØ´Ù. ÀÌ ±×·¡ÇÁ¿¡´Â 40°³ÀÇ Á¡ÀÌ ÀÖÁö¸¸ »ç½Ç °ÅÀÇ ¸ðµÎ redundant ÇÏ´Ù. ±×¸² 9.4´Â °Ü¿ì 8°³ÀÇ Á¡À» ÀÖÀ» »ÓÀÌÁö¸¸ °°Àº °á°ú¸¦ º¸¿©ÁØ´Ù. Training setÀÇ Å©±â´Â MBR¿¡ ¸¹Àº ¿µÇâÀ» ¹ÌÄ£´Ù.
ÀÌ ÀÚ·áÀÇ ¼ö°¡ ÁÙ¾îµç °ÍÀ» ÇØ¼®ÇÒ °ÍÀΰ¡? °¡Àå ½Ç¿ëÀûÀÎ ¹æ¹ýÀº ´Ù¸¥ īŸ°í¸®¸¦ Æ÷ÇÔÇÑ ÀڷḦ ã¾Æ³»´Â °ÍÀÌ´Ù. ´Ù¸¥ īŸ°í¸®ÀÇ Å¬·¯½ºÅ͵éÀÌ ¶³¾îÁ® ÀÖ´Ù¸é ÀÏÀº ½¬¿öÁø´Ù. ±×·¯³ª ´Ù¸¥ īŸ°í¸®ÀÇ Å¬·¯½ºÅ͵éÀÌ ÁßøµÇ°í, ¾î¶»°Ô Á¤ÀÇ ³»¸®±â ¾î·Á¿î »óȲÀ̶ó¸é MBRÀÇ °á°ú´Â ÇüÆí ¾øÀÌ µÉ °ÍÀÌ´Ù. ÃÖ±ÙÀÇ ¸®¼Ä¡´Â ÃÖÀûÀÇ ¡°support records¡±¸¦ ã¾Æ³»´Â °ÍÀÌ´Ù. ¸¸¾à ±×·± ÃÖÀûÀÇ set¸¦ ã¾Æ³½´Ù¸é ½ºÇÁ·¡µå½¬Æ®ÀÇ Ä¼ö¸¦ ÁÙÀÏ ¼öµµ ÀÖ°í, MBRÀ» ÀûÀýÈ÷ Àû¿ëÇϱâ À§ÇØ °í¼º´É ÄÄÇ»Å͸¦ ¾²Áö ¾Ê¾Æµµ µÉ °ÍÀÌ´Ù.
Distance Fuction, Combination Fuction, °ú ÀÌ¿ô ¼öÀÇ °áÁ¤
ÀÌ ¼¼°¡Áö´Â MBR ÀÌ ¾ó¸¶³ª ÁÁÀº °á°ú¸¦ ¾ò¾î³»´À³ÄÀÇ ¿¼èÀÌ´Ù. °°Àº °ú°Å ÀÚ·á´Â ÀÌ ¼¼°¡Áö ¿ä¼Ò¿¡ µû¶ó ¿¹ÃøÀ» À§ÇÑ ¸Å¿ì À¯¿ëÇϰųª ȤÀº ÀüÇô À¯¿ëÇÏÁö ¾ÊÀº °á°ú¸¦ µµÃâÇÒ ¼ö ÀÖ´Ù. ´ÙÇàÈ÷, ´Ü¼ø°Å¸®ÇÔ¼ö¿Í Á¶ÇÕÇÔ¼ö´Â ¹®Á¦¸¦ ÀÏÀ¸Å°Áö ¾Ê´Â´Ù.
¿¹Á¦: ´º½º ±â»çÀÇ ºÐ·ù
ÀÌ ¿¹Á¦¿¡¼´Â ´º½º ±â»ç¿¡ ºÐ·ùÄڵ带 ÁöÁ¤Çϱâ À§ ÇØ MBRÀÌ ÀÌ¿ëµÇ¾ú´Ù. ÀÌ ¿¹Á¦ÀÇ °á°ú´Â MBRÀÌ ´Ù·ç±â ¾î·Á¿î ¼ö¹é°¡Áö īŸ°í¸®¿Í µ¥ÀÌÅÍ ¹®Á¦¿¡ ¿¬°üµÈ »ç¶÷µé°ú ÀÚÀ¯·Î¿î ¹®Àå¿¡ ÀÌ¿ëµÈ °ÍÀ» º¸¿©ÁØ´Ù.
ÄÚµå´Â ¹«¾ùÀΰ¡?
Dow Jones´Â ´Ù¸¥ ¸¹Àº ´º½º²¨¸®¿Í ¸¶Âù°¡Áö·Î ±× À̾߱âÀÇ ¸ñÂ÷¿¡ µû¶ó ´º½º ±â»ç¿¡ Äڵ尡 µÈ´Ù. ÀÌ·± ÄÚµå´Â ÀÌ¿ëÀÚ°¡ °ü½ÉÀÖ¾î ÇÏ´Â ±â»ç¸¦ ã´Â °ÍÀ» µ½´Â´Ù. ¿¹¸¦ µé¾î »ê¾÷ ºÐ¼®°¡ °¡ ¡°ÀÚµ¿È»ê¾÷¡± ¶ó´Â ÄÚµå·Î °ü·Ã ±â»ç³»¿ëÀ» ãÀ» ¼ö ÀÖ´Ù. ÀÌ Àå¿¡¼´Â ¿©¼¸ °¡Áö ¹üÁÖ¸¸ À̾߱â ÇÏÀÚ, Á¤ºÎ±â°ü, »ê¾÷, »çÀåºÎ¹®, Á¦Á¶, Áö¿ª, ±×¸®°í ÁÖÁ¦. ÀÌ ÀÚ·áµéÀº training set¿¡ µû¶ó 361°³ÀÇ ºÐ¸®µÈ Äڵ带 °¡Áø´Ù. (Ç¥9.1) ±× ÄÚµåÀÇ ¼ö¿Í À¯ÇüÀº ±â»çÀÇ ´Ù¾çÇÔ¿¡ µû¸¥´Ù. °ÅÀÇ ´ë´Ù¼ö ±â»ç³»¿ëÀº Áö¿ª°ú ÁÖÁ¦¾î¸¦ Æ÷ÇÔÇÑ´Ù. ±×¸®°í Æò±ÕÀûÀ¸·Î ±â»ç¸¶´Ù ¼¼ ¿µ¿ªÁ¤µµÀÇ ¹üÁÖ¿¡ Æ÷ÇԵȴÙ. ÇÑÆíÀ¸·Î´Â, ´ëü·Î Á¤ºÎ¿Í »ý»ê¹° Äڵ忡 Æ÷ÇԵǴ À̾߱â´Â °ÅÀÇ ¾ø´Ù.
MBR Àû¿ë
MBRÀÌ ¾î¶»°Ô ´º½º ±â»ç ÄÚµå ÁöÁ¤À» ½±°Ô ÇØ ÁÖ´ÂÁö ¼³¸íÇÑ´Ù. Áß¿ä ´Ü°è¸¦ º¸¸é
training set ¼±ÅÃ
°Å¸®ÇÔ¼öÀÇ °áÁ¤
ÃֱٰŸ® ÀÌ¿ôÀÇ ¼ö ¼±ÅÃ
Á¶ÇÕ ÇÔ¼öÀÇ °áÁ¤
Training SetÀÇ ¼±ÅÃ
Training setÀº ÀÌ ¸ñÀûÀ¸·Î Dow Jones¿¡ ÀÇÇØ 49,652°³ÀÇ ´º½º ±â»ç°¡ Á¦°øµÇ°í ÀÖ´Ù. ÀÌµé ±â»ç´Â ¾à 3°³¿ù°£ÀÇ 100¿©°¡Áö ´Ù¸¥ ÃëÀç¿øÀ¸·ÎºÎÅÍ ³ª¿Ô´Ù. °¢°¢ÀÇ À̾߱âµéÀº Æò±Õ 2,700´Ü¾î¿Í ¿©´ü°¡Áö ÄÚµå·Î µÇ¾îÀÖ´Ù. Training setÀº Ưº°È÷ °í¾ÈµÈ °ÍÀÌ ¾Æ´Ï´Ù. ±×·¡¼ ±× ÄÚµåÀÇ ºóµµ´Â ¸Å¿ì Å©´Ù. ºñ·Ï ÀÌ raining setÀÌ ÁÁÀº °á°ú¸¦ °¡Á®¿Ô´Ù ÇÏ´õ¶óµµ, ´õ ¸¹Àº ÄÚµåÀÇ ¿¹Á¦µé·Î ´õ Àß ¸¸µé¾îÁø training setÀÌ ÀÖ´Ù¸é ±× º¸´Ù ´õ ÁÁÀº °á°ú¸¦ ³ºÀ» °ÍÀÌ´Ù.
°Å¸®ÇÔ¼öÀÇ °áÁ¤
´ÙÀ½ ´Ü°è´Â °Å¸®ÇÔ¼öÀÇ °áÁ¤ÀÌ´Ù. ÀÌ °æ¿ì °Å¸® ÇÔ¼ö´Â ±× ±â»ç³»¿ëÀÇ ´Ü¾îµé°úÀÇ À¯»ç¼º ÃøÁ¤ÀÎ relevance feedback¿¡ ±âÃÊÇÏ¿© ÀÌ¹Ì Á¸ÀçÇÑ´Ù. Relecance feedback Àº ¿ø·¡ °Ë»ö½Ã¿¡ ÁÖ¾îÁø ¹®¼¿ÍÀÇ À¯»ç¼ºÀ» ã¾Æ³»±â À§ÇØ °í¾ÈµÇ¾ú´Ù. ±× °¡Àå À¯»çÇÑ ´ÙÅ¥¸àÆ®µéÀÌ MBR»ç¿ëÀ» À§ÇÑ ÀÌ¿ôµéÀÌ´Ù.
Á¶ÇÕ ÇÔ¼öÀÇ ¼±ÅÃ
´ÙÀ½ °áÁ¤Àº Á¶ÇÕÇÔ¼öÀÇ °áÁ¤ÀÌ´Ù. ´º½º ±â»ç¿¡ ºÐ·ù Äڵ带 ÇÒ´çÇÏ´Â °ÍÀº °¢°¢ÀÇ ±â»ç°¡ Çϳª ÀÌ»óÀÇ Äڵ尡 ÇÒ´çµÈ´Ù´Â Á¡¿¡¼ ´Ù¸¥ ºÐ·ù ¹®Á¦µé°ú Á¶±Ý ´Ù¸£´Ù. MBRÀ» À̹®Á¦¿¡ Àû¿ëÇÏ´Â °ÍÀº ±× À¯µ¿¼ºÀ» µ¸º¸ÀÌ°Ô ÇÑ´Ù. Á¶ÇÕÇÔ¼ö´Â °¡Áß ÇÕ»ê ±â¼ú(weighted summation technique)À» »ç¿ëÇÑ´Ù. °¢ ÀÌ¿ôµé°úÀÇ °Å¸®°¡ °¡±î¿ï¼ö·Ï ±× °¡ÁßÄ¡´Â Ä¿Áö°Ô µÈ´Ù. ±× ÄÚµåÀÇ ÃÖÁ¾ Á¡¼ö´Â ÀÌ¿ô°ú ¿¬°áµÈ °¡ÁßÄ¡ÀÇ ÇÕ»êÀÌ µÈ´Ù.
ÀÌ¿ôÀÇ ¼ö ¼±ÅÃ
±× ¼ýÀÚ´Â 1ºÎÅÍ 11»çÀÌÀÇ ÃֱٰŸ® ÀÌ¿ôÀÇ ¼ýÀÚ¿¡ ÀÇÇØ Á¶»çµÈ´Ù. ¸¹Àº ÀÌ¿ôµéÀ» ÀÌ¿ëÇÏ´Â °ÍÀÌ °¡Àå ÁÁÀº °á°ú¸¦ ÁØ´Ù. ±×·¯³ª ÀÌ °æ¿ì´Â ÀϹÝÀûÀÎ MBRÀÇ Àû¿ë°ú ´Ù¸¥µ¥ ±× ÀÌÀ¯´Â °¢ ´Ü°è¸¶´Ù ´ÙÁßÀÇ Ä«Å×°í¸®·Î ºÐ·ù¸¦ Ç߱⠶§¹®ÀÌ´Ù. º¸´Ù ÀüÇüÀûÀÎ ¹®Á¦´Â ÇϳªÀÇ Ä«Å×°í¸®³ª ÄÚµå¿Í ÀÛÀº ÀÌ¿ôÀÌ ÀÌ·± °æ¿ì ÁöÁ¤ÀÌ µÈ´Ù´Â °ÍÀÌ´Ù.
°á°ú
MBRÀº ´Ù¸¥ ¹æ¹ýÀ¸·Î ÇØ°áÇÒ ¼ö ¾ø´Â ¾î·Á¿î ¹®Á¦¸¦ ÇØ°áÇØ ÁÙ ¼ö ÀÖ´Ù. °ÅÀÇ ¸ðµç Å×ÀÌŸ ¸¶ÀÌ´× ±â¹ýµéÀº ¹®ÀÚ µ¥ÀÌÅ͸¦ µ¿½Ã¿¡ Ä«Å×°í¸®·Î ¹¾î¼ ºÐ·ùÇÒ ¼ö ¾ø´Ù. ¹®ÀÚ ¼Ä¡ÀÇ °æ¿ì ¼÷·ÃµÈ ÆíÁýÀÚ°¡ ÇÏ´Â °Í°ú ºñ±³µÉ ¼ö ÀÖ´Ù. ±×·¯³ª À̰ÍÀº ºñ½ÁÇÑ È¿°ú¸¦ ³»Áö¸¸ ÈξÀ ºü¸£°í ½Å¼ÓÇÑ °á°ú¸¦ ÁØ´Ù.
°Å¸®ÀÇ ÃøÁ¤
ÀÛÀº ¸¶À»·Î ¿©ÇàÀ» °¥ ¶§ ±× °÷ÀÇ ³¯¾¾¸¦ ¾Ë°í ½Í¾î ÇÑ´Ù. ±×·±µ¥ Àϱ⠿¹º¸´Â Å« µµ½Ã¸¦ ±âÁØÀ¸·Î Çϱ⠶§¹®¿¡ ÀÛÀº ¸¶À»ÀÇ ³¯¾¾Á¤º¸³ª ³¯¾¾¸¦ ¾Ë ¼ö ÀÖ´Â ¼Ò½º°¡ µÉ¸¸ÇÑ °ÍÀÌ ¾ø´Ù. ÀÌ·²¶§´Â Å« µµ½ÃÀÇ ³¯¾¾Á¤º¸·Î ±× ±ÙóÀÇ ÀÛÀº µµ½ÃÀÇ Á¤º¸¸¦ ¾Ë ¼ö ÀÖ´Â °ÍÀÌ´Ù. À̰ÍÀÌ ¹Ù·Î MBRÀÇ ³¯¾¾ ¿¹ÃøÀÇ ¿¹ÀÌ´Ù. ÀÌ·² °æ¿ì °Å¸®´Â µÎ µµ½Ã°£ÀÇ Áö¸®ÀûÀÎ °Å¸®ÀÌ´Ù.
¹«¾ùÀÌ °Å¸®ÇÔ¼öÀΰ¡?
°Å¸®ÇÔ¼ö¸¦ ±âÈ£·Î´Â d(A,B)·Î ³ªÅ¸³»´Âµ¥ ±×°ÍÀÇ Æ÷ÀÎÆ®´Â ´ÙÀ½ÀÇ 4°¡ÁöÀÌ´Ù.
1. µÎ Á¡ »çÀÌÀÇ °Å¸®´Â Ç×»ó Á¤ÀÇµÇ°í °Å¸®ÇÔ¼ö´Â Ç×»ó À½¼ö°¡ ¾Æ´Ñ ½Ç¼öÀÌ´Ù.
d(A,B) >= 0
2. ÇÑ Á¡ ±× ÀÚ½ÅÀÇ °Å¸®´Â Ç×»ó 0 ÀÌ´Ù.
d(A,A) = 0
3. A¿¡¼ B±îÁöÀÇ °Å¸®³ª B¿¡¼ A±îÁöÀÇ °Å¸®´Â °°´Ù.
d(A,B) = d(B,A)
4. A ¿¡¼ B±îÁöÀÇ °Å¸®´Â A¿¡¼ C±îÁöÀÇ °Å¸®¿Í C¿¡¼ B±îÁöÀÇ °Å¸®¸¦ ÇÕÇÑ °Íº¸´Ù Ç×»ó Å©°Å³ª °°´Ù.
d(A,B) >= d(A,C)+ d(C,B)
°Å¸®¸¦ Á¤ÀÇÇÏ´Â ¹æ¹ýÀº ¿©·¯°¡Áö°¡ Àִµ¥ ´Ü¼øÈ÷ ÇÕÇÏ´Â ¹ý°ú Ç¥ÁØÈÇÏ¿© ÇÕÇÏ´Â °Í ±×¸®°í À¯Å¬¸®µð¾È °Å¸®¹ý(Euclidean distance)°¡ ÀÖ´Ù.
MBRÀÇ ÀåÁ¡
°ð¹Ù·Î ÀÌÇØÇÒ ¼ö ÀÖÀ»¸¸ÇÑ °á°ú¸¦ Á¦°øÇÑ´Ù.
Ưº°ÇÑ ¿¬°ü°ü°è ¾ø´Â µ¥ÀÌÅ͵éÀ̳ª, Ç®±âÈûµç ÀÚ·á À¯Çü¿¡±îÁö Àû¿ëµÈ´Ù.
°ÅÀÇ ¸ðµç ºÐ¾ß¿¡ È¿°úÀûÀ¸·Î ¼öÇàµÈ´Ù
ÃÖ¼ÒÀÇ ³ë·ÂÀ¸·Î°í Training setÀ» À¯ÁöÇÒ ¼ö ÀÖ´Ù.
´ÜÁ¡
´ëÇü Àåºñ°¡ ÇÊ¿äÇÏ´Ù.
µ¥ÀÌÅÍ Ã³¸®¿Í º¸°üÀ» À§ÇØ ´ëÇüÀÇ ÀúÀå½Ã½ºÅÛÀÌ ÇÊ¿äÇÏ´Ù.
Á¤º¸ÀÇ ¼±Åà ¿©ºÎ¿¡ µû¶ó ÀüÇô ´Ù¸¥ °á°ú°¡ µµÃâµÉ ¼ö ÀÖ´Ù.
±â¾ï±â¹ÝÃß·ÐÀÇ Àû¿ë½Ã±â
±â¾ï±â¹ÝÃß·ÐÀº ¿¹Ãø°ú ºÐ·ù ¸ðµÎ¿¡ À¯¿ëÇÑ Á÷Á¢ÀûÀÎ µ¥ÀÌÅ͸¶ÀÌ´× ±â¹ýÀÌ´Ù. ´Ù¸¥ ±â¹ý°ú ºñ±³ÇÏ¸é µ¥ÀÌÅÍÀÇ ÆÐÅÏÀÌ ¸Å¿ì ºÎºÐÀûÀÏ °æ¿ì ¸Å¿ì Àß Àû¿ëµÈ´Ù. ±×·¡¼ ±â¾ï±â¹ÝÃß·ÐÀº ¿¹Ãø°ú ºÐ·ù¸¦ ¸ñÀûÀ¸·Î Á¤º¸¸¦ ºÎºÐÀûÀ¸·Î ÅëÇÕÇϴµ¥ °ÇÑ ´É·ÂÀÌ ÀÖ´Â ±â¹ýÀÌ´Ù. µ¥ÀÌÅͰ¡ º¹ÀâÇÏ¸é º¹ÀâÇÒ¼ö·Ï ºÎºÐÀûÀÎ ÆÐÅÏÀº ÀüüÆÐÅÏÀ» Áö¹èÇÏ´Â °æÇâÀÌ Àִµ¥ ÀÌ·¯ÇÑ ¸¹Àº ´Ù¸¥ ȯ°æ¿¡¼ ±â¾ï±â¹ÝÃß·ÐÀº À¯¿ëÇÏ´Ù.
Top > Info > Data Mining > 2-2. ±â¾ï±â¹ÝÃß·Ð(Memory-Based Reasoning)