Top > Info > Data Mining > 2-5. ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®(Decision Tree)


¢¹¢º ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®(Decision Tree)

 

ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®Àº ¿¹Ãø°ú ºÐ·ù¸¦ À§ÇØ º¸ÆíÀûÀÌ°í °­·ÂÇÑ ÅøÀÌ´Ù. ½Å°æ¸Á±¸Á¶ ºÐ¼®°ú´Â ´Þ¸® ³ª¹«±¸Á¶·Î ±ÔÄ¢À» Ç¥ÇöÇϱ⠶§¹®¿¡ ÀÌÇØÇϱⰡ ½±´Ù. ¾î¶² Àû¿ë¿¡¼­´Â ¾ó¸¶³ª Àß ºÐ·ùÇϰųª ¿¹ÃøÇϴ³ĸ¸ÀÌ ¹®Á¦È­µÇ±âµµ ÇÑ´Ù. Áï, DM¹ß¼Ûȸ»ç´Â ¸ðµ¨ÀÌ ¾î¶»°Ô ±¸¼ºµÇ¾ú´ÂÁö º¸´Ù´Â ¾ó¸¶³ª ÀÚ½ÅÀÇ ¸ÞÀÏ¿¡ Àß ´ë´äÀ» ÇØÁÙ ¼ö ÀÖ´Â Áý´ÜÀ» ºÐ·ùÇØÁÙ ¼ö ÀÖ´ÂÁö¿¡ °ü½ÉÀ» °¡Áö°í ÀÖ´Ù. ÇÏÁö¸¸, ¾î¶² °æ¿ì¿¡´Â ¿Ö ÀÌ·± °áÁ¤À» ÇÏ°Ô µÇ¾ú´ÂÁö ¼³¸íÇÏ´Â °Íµµ Áß¿äÇϸç ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®Àº ÀÌ·¯ÇÑ °æ¿ì¿¡ À¯¿ëÇÏ´Ù. ¿¹¸¦ µé¸é, Ä«µå½ÅûÀÚÀÇ Ä«µå ¹ß±ÞÀ» °ÅÀýÇØ¾ß ÇÏ´Â °æ¿ì ±×°ÍÀÇ °á°ú¸¦ ¼³¸íÇÒ ¼ö ¾ø´Â ÀÌ ½Å°æ¸Á±¸Á¶ºÐ¼®º¸´Ù ÀÌÀ¯¸¦ ¼³¸íÇØÁÙ ¼ö ÀÖ´Â ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®ÀÌ ´õ À¯¿ëÇÏ´Ù.

ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®ÀÇ ³ª¹«Çü¼º ¾Ë°í¸®ÁòÀº ´Ù¾çÇÏÁö¸¸, °¡Àå º¸ÆíÀûÀÎ °ÍÀ¸·Î CART (classification and regression trees)¿Í CHAID(chi-squared automatic interaction detection)ÀÌ°í, Á» ´õ »õ·Î¿î ¾Ë°í¸®ÁòÀº C4.5 À» µé ¼ö ÀÖ´Ù.

 

How a decision tree works

½º¹«°í°³ °ÔÀÓÀ» Çغ» »ç¶÷À̶ó¸é ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®ÀÇ ºÐ·ù°úÁ¤À» ÀÌÇØÇϱⰡ ½¬¿ï °ÍÀÌ´Ù. ÀÌ °ÔÀÓÀº ÇÑ »ç¶÷ÀÌ ´Ù¸¥ »ç¶÷µéÀÌ ¾Ë°í Àִ ƯÁ¤ÇÑ Àå¼Ò³ª ¹°°Ç, »ç¶÷ µîÀ» ¸¶À½¼Ó¿¡¼­ °áÁ¤ÇÑ´Ù. ±×·¯³ª ±× »ç¶÷Àº ±×°Í¿¡ ´ëÇÑ ÈùÆ®´Â ÁÖÁö ¾Ê´Â´Ù. ´ÜÁö, ´Ù¸¥ »ç¶÷µéÀÇ Áú¹®¿¡ ´ëÇÏ¿© YES¿Í NO·Î ´ë´äÀ» ÇÒ »ÓÀÌ´Ù. Àß ÇÏ´Â »ç¶÷Àº 20°³ÀÇ Áú¹®À» ¸ðµÎ »ç¿ëÇÏÁö ¾Ê°í¼­µµ ´äÀ» ¸ÂÃá´Ù. ÀÇ»ç°áÁ¤³ª¹«µµ ÀÌ·¯ÇÑ Áú¹®ÀÇ °úÁ¤À̶ó°í º¼ ¼ö ÀÖ´Ù. °ÔÀÓ¿¡¼­ ù¹ø° Áú¹®ÀÌ ´ÙÀ½¿¡ °¡¾ßÇÒ °æ·Î(ÇØ¾ß ÇÒ Áú¹®)¸¦ °áÁ¤ÇÏ°Ô µÈ´Ù. Áú¹®ÀÌ Àß ¼±ÅõǸé, ªÀº ½Ã°£¿¡ µé¾î¿Â µé¾î¿Â ·¹Äڵ带 Àß ºÐ·ù½Ãų¼ö ÀÖ´Ù.

ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®Àº À§ÂÊ¿¡ »Ñ¸®³ëµå¸¦ ±×¸®°í ¹ØÀ¸·Î °¡Áö¸¦ Ä¡¸é¼­ ³¡¸¶µð¸¦ Çü¼º½ÃŲ´Ù. ·¹Äڵ尡 »Ñ¸®¸¶µð¿¡ ³õ¿©Áö°í ±×°ÍÀÌ ´ÙÀ½ÀÇ ¾î¶² Àڽĸ¶µð¿¡ ¼ÓÇØÁö´Â Áö°¡ °áÁ¤µÈ´Ù.óÀ½¿¡ ¾î¶² ºÐ·ù±âÁØÀ» ¼±ÅÃÇÒ °ÍÀΰ¡¸¦ °áÁ¤ÇÏ´Â °ÍÀº ¿©·¯ ¾Ë°í¸®ÁòÀÌ ÀÖ´Ù. µé¾î¿Â ·¹Äڵ尡 ³¡¸¶µð¿¡ °¥ ¶§±îÁö ÀÌ·¯ÇÑ °úÁ¤ÀÌ ¹Ýº¹µÈ´Ù.

 

Trees Grow In Many Forms

³ª¹«±¸Á¶ Çü¼ºÀÇ ÇüÅ Áß Çϳª´Â ÀÌÁøÆ®¸®±¸Á¶¸¦ µé ¼ö ÀÖ´Ù. ÀÌ ±¸Á¶´Â °¢°¢ÀÇ ³ëµå°¡ µÎ°³ÀÇ Àڽijëµå¸¦ ¸¸µé¾î yes-no-Áú¹®¿¡ ´äÇÔÀ¸·Î½á Å͹̳γëµå±îÁö ÁøÇàÇØ ³ª°¡´Â ¹æ¹ýÀÌ´Ù.´Ü¼øÇÑ ÀÌÁøÆ®¸®¸ð¾ç¸¸ ÀÖ´Â °ÍÀÌ ¾Æ´Ï¶ó È¥ÇÕµÈ ÇüÅÂÀÇ ¸ðÇüµµ ÀÖ´Ù.

 

Some Rules are better than others

±¸ÃàµÈ ¸ðÇü¿¡ Å×½ºÆ® ÀڷḦ Àû¿ë½ÃÄÑ ±×°ÍÀÇ ¿¹Ãø·üÀ» »ìÆ캽À¸·Î½á ±× ¸ðÇüÀÇ È¿°ú¸¦ ÃøÁ¤ÇÑ´Ù. ÀÌ ¶§ ¿ì¸®´Â °¢°¢ÀÇ °æ·Î¸¦ Àß »ìÆ캸¾Æ¾ß ÇÑ´Ù. Áï, ¿©·¯ °æ·Î Áß ´õ È¿°úÀûÀÎ °æ·Î°¡ Àֱ⠸¶·ÃÀÌ´Ù. ÀÌ·± °æ¿ì ¿ì¸®´Â ºñÈ¿°úÀûÀÌ °¡Áö¸¦ Ä¡´Â °¡ÁöÄ¡±â(pruning)¹æ¹ýÀ» Àû¿ëÇØ¾ß ÇÑ´Ù. Áï, °¢ ¸¶µðÀÇ ´ÙÀ½À» ÃøÁ¤ÇØ º»´Ù.

 

ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®Àº Á¦ÀÏ ¸ÕÀú ÀڷḦ °¡Àå Àß ºÐ¸®ÇÒ ¼ö ÀÖ´Â ºÐ¸® º¯¼ö·Î ºÐ¸®±âÁØÀ» ã´Â °ÍÀ» ½ÃÀÛÀ¸·Î ÇÑ´Ù. ±×¸®°í ³ª¼­ ´ÙÀ½ ¸¶µð¿¡¼­ ¶ÇÇÑ ÀÌ·¯ÇÑ °ÍµéÀ» ã¾Æ¼­ ´õ ÀÌ»ó Àß ºÐ¸®ÇÒ ¼ö ¾øÀ» ¶§±îÁö ³ª¹«¸¦ Çü¼ºÇÑ´Ù.

 

CART

CART¾Ë°í¸®ÁòÀº ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®À» Çü¼ºÇϴµ¥ À־ °¡Àå º¸ÆíÀûÀÎ ¾Ë°í¸®ÁòÀ̶ó°í ÇÒ ¼ö ÀÖ´Ù. 1984³â L.Briemen¿¡ ÀÇÇØ ¹ßÇ¥µÇ¾î machine-learning ½ÇÇèÀÇ ½ÃÃÊ°¡ µÇ°í ÀÖ´Ù.

 

*ù¹ø° ºÐ¸®±âÁØ Ã£±â

¸ðÇüÀÇ Çü¼ºÀº training data setÀ» °¡Áö°í ÇÑ´Ù. ¸ñÇ¥º¯¼ö´Â ÀÌ¹Ì ±× ºÐ·ù°¡ ¾Ë·ÁÁ® ÀÖÀ¸¸ç, ¿ì¸®´Â ³ª¸ÓÁö ¼³¸íº¯¼ö¸¦ °¡Áö°í ÀÌ ¸ñÇ¥º¯¼ö¸¦ Àß ºÐ·ùÇÒ ¼ö ÀÖ´Â ¸ðÇüÀ» ¸¸µé¾î »õ·Î¿î µ¥ÀÌÅÍ ¼¼Æ®¿¡ Àû¿ë½ÃŲ´Ù.

CART¾Ë°í¸®ÁòÀº ÀÌÁøÆ®¸®±¸Á¶·Î ¸ðÇüÀ» Çü¼ºÇϴµ¥ ù¹ø° °úÁ¦´Â ¸ñÇ¥º¯¼ö¸¦ °¡ÀåÀß ºÐ¸®ÇÏ´Â ¼³¸íº¯¼ö¿Í ±× ºÐ¸®½ÃÁ¡À» ã´Â °ÍÀÌ´Ù. ÀÌ ÃøµµÀÇ Çϳª¸¦ ´Ù¾ç¼º(diversity)¶ó°í Çϴµ¥, ³ëµåÀÇ ´Ù¾ç¼ºÀ» °¡Àå ¸¹ÀÌ ÁÙÀÌ´Â ¼³¸íº¯¼ö¸¦ ¼±ÅÃÇÑ´Ù. ±×¸®°í, ºÐ¸®±âÁØÀº ´ÙÀ½ °ªÀ» °¡Àå Å©°Ô ÇÏ´Â °÷À» ¼±ÅÃÇÑ´Ù. Áï diversity(before split)-(diversity(left child)+ diversity(right child))¸¦ Å©°Ô ÇÏ´Â °÷À» ºÐ¸® ±âÁØÀ» Á¤ÇÑ´Ù.

 

* Growing the Full tree

óÀ½ ºÐ¸®±âÁØÀ¸·Î µÎ °³ÀÇ ¸¶µð¸¦ Çü¼ºÇϸé, ¸ñÇ¥º¯¼ö¸¦ ÇÑÂÊÀÇ °ªÀ¸·Î ºÐ·ù½Ãų¼ö ÀÖ´Â ±âÁØÀ» ã¾Æ¼­ °è¼Ó ³ª¹«¸¦ Çü¼ºÇØ ³ª°£´Ù. ±×·¡¼­ ´õ ÀÌ»óÀÇ ºÐ¸®°¡ ÀÌ·ç¾îÁöÁö ¾Ê°í ´Ù¾ç¼ºÀÌ È¿°úÀûÀ¸·Î ÁÙ¾úÀ» ¶§ ³¡ ³ëµå¸¦ Çü¼ºÇÑ´Ù. ÀÌ·¸°Ô ¿ÏÀüÈ÷ Full tree¸¦ Çü¼ºÇÏ´Â °ÍÀº ÁÖ¾îÁø µ¥ÀÌÅÍ´Â Àß ¸ÂÃß°ÚÁö¸¸, »õ·Î¿î µ¥ÀÌÅÍ°¡ µé¾î¿À¸é Àß ºÐ·ùÇÏÁö ¸øÇÒ ¼ö ÀÖ´Ù.

 

* °¢ ³ëµåÀÇ ¿¡·¯À² ÃøÁ¤

Full ¸ðÇüÀ¸·Î ¸ðÇüÀ» ±¸ÃàÇß´õ¶óµµ ¸ðµç °æ¿ì°¡ 100%À» ¸Â´Â °æ¿ì´Â ¾ø´Ù. Áï, ¿ø·¡´Â yesÀε¥ no¶ó°í ºÐ·ùÇÒ ¼öµµ ÀÖ´Ù ÀÌ·± °ÍÀ» ¿¡·¯À²À̶ó°í Çϴµ¥, Áï, È®·üÀûÀ¸·Î Á¤ÀÇÇϸé 11°³Áß 9°³¸¦ ¸ÂÃß¾úÀ» °æ¿ì ¸ÂÃá È®·üÀº 0.818ÀÌ µÇ°í, ±×°ÍÀÇ ¿¡·¯À²Àº 1-0.818·Î 0.182°¡ µÈ´Ù.

 

* °¡ÁöÄ¡±â

¾ÕÀÇ ´Ü°è¿¡¼­ »ìÆ캸¾ÒµíÀÌ Full¸ðÇü Çü¼ºÀº ÁÖ¾îÁø µ¥ÀÌÅ͸¦ Àß ºÐ·ùÇϱâ À§Çؼ­ ºÐ¸®±âÁØ°ú ºÐ¸®¸¦ Çü¼ºÇ߱⠶§¹®¿¡ ÁÖ¾îÁø µ¥ÀÌÅÍ ºÐ·ù¿¡´Â Àß ¸Â´Â´Ù. µû¶ó¼­, ´Ü¼øÈ÷ Æò°¡¸¦ À§Çؼ­ ÁÖ¾îÁø µ¥ÀÌÅ͸¦ »ç¿ëÇÑ °ÍÀ̶ó¸é, °¡ÁöÄ¡±â °úÁ¤Àº ¿¡·¯À²¸¸ ³ôÀÏ »ÓÀÌ´Ù. ÇÏÁö¸¸ ,ÀÌ·¸°Ô Çü¼ºµÈ ¸ðÇüÀÌ »õ·Î¿î µ¥ÀÌÅÍ¿¡¼­µµ Àß ºÐ·ùÇÒ ¼ö ÀÖÀ»±î? ´ë´äÀº NoÀÌ´Ù. µû¶ó¼­ ¿ì¸®´Â ÀϹÝÀûÀ¸·Î, Áï »õ·Î¿î µ¥ÀÌÅÍ ¼ÂÀÌ µé¾î¿Íµµ ±× ¿¹ÃøÀ» ÀϹÝÀûÀ¸·Î Àß ÇÒ ¼ö ÀÖµµ·Ï ÀûÀýÇÑ °¡ÁöÄ¡±â¸¦ ÇØÁÖ¾î¾ß ÇÑ´Ù. ¹®Á¦´Â ¾î´À Á¤µµ±îÁö °¡Áö¸¦ ÃÄÁÖ¾î¾ß ÇÏ´Â °ÍÀÌ´Ù.

 

* Identifying Candidate Subtrees

¾î´À Á¤µµ±îÁö °¡ÁöÄ¡±â¸¦ ÇØ¾ß Çұ °áÁ¤Çϱâ À§Çؼ­ ¿ì¸®´Â ¸ÕÀú ¹Ýº¹ÀûÀÎ °¡ÁöÄ¡±â °úÁ¤À» ÅëÇؼ­ candidate subtreesÀ» °áÁ¤ÇØ¾ß ÇÑ´Ù. ¿ì¸®ÀÇ ¸ñÇ¥´Â °¢ ÀÙ ³ëµå¿¡¼­ ¿¹Ãø¿¡ °¡Àå ´ú ¿µÇâÀ» ±âÄ¡´Â °¡Áö¸¦ Á¦°ÅÇÏ´Â °ÍÀÌ´Ù. ÀÌ·¯ÇÑ °¡ÁöµéÀ» Á¤ÀÇÇϱâ À§ÇØ ¿©±â¼­ ¡° adjusted error rate ¡° ¶ó´Â °³³äÀ» ¼Ò°³ÇÏ°íÀÚ ÇÑ´Ù.

 

AE(T)=E(T) +alpha*leaf_count(T)

 

(°¡ 0À̸é adjusted error rate´Â ¿¡·¯À²°ú °°´Ù. ù¹ø° subtree¸¦ ã±â À§ÇØ, (¸¦ Áõ°¡ ½ÃÅ°¸é¼­ »Ñ¸®³ëµå¸¦ Æ÷ÇÔÇÏ°í ÀÖ´Â ¸ðµç °¡´ÉÇÑ subtrees¿¡ ´ëÇÑ adjusted error rate¸¦ ÃøÁ¤ÇÑ´Ù. ¾î¶² subtreeÀÇ adjusted error rateÀÌ ¿ÏÀüÇÑ ³ª¹«ÀÇ adjusted error rateº¸´Ù Àû°Å³ª °°À¸¸é ¿ì¸®´Â ù¹ø° Èĺ¸ subtree¸¦ ãÀº °ÍÀÌ´Ù. ±×¸®°í ÀÌ ³ª¹«¿¡ Æ÷ÇԵǾî ÀÖÁö ¾Ê´Â °¡ÁöµéÀº Á¦°ÅµÈ´Ù. ÀÌ·¯ÇÑ ¹æ¹ýÀ¸·Î °¡ÁöÄ¡±â¸¦ ÇÑ´Ù.

 

Evaluating Subtrees

¸¶Áö¸· ÀÛ¾÷Àº ÀÌ·¸°Ô ¼±ÅÃµÈ subtrees·ÎºÎÅÍ »õ·Î¿î µ¥ÀÌÅ͸¦ Àß ºÐ·ùÇÒ ¼ö ÀÖ´Â Æ®¸®¸¦ ã´Â °ÍÀÌ´Ù. ÀÌ·¯ÇÑ ÀÛ¾÷À» À§ÇØ ¿ì¸®´Â test setÀ» ÀÌ¿ëÇÑ´Ù.

 

C4.5

C4.5´Â J. Ross Quinlan¿¡ ÀÇÇØ ¿À·§µ¿¾È Á¤¸³µÈ ÀÇ»ç°áÁ¤³ª¹« ¾Ë°í¸®ÁòÀÇ À¯¿ëÇÑ ´ÜÆíÀÌ´Ù. ÀÌ°ÍÀº machine learning ºÐ¾ßÀÇ È¿·Â ÀÖ´Â ID3¾Ë°í¸®Áò°ú À¯»çÇÏ´Ù.

 

³ª¹«Çü¼º

C4.5°¡ CART¿Í ´Ù¸¥ Á¡Àº CART´Â ÀÌÁøºÐ¸®¸¦ ÇÏÁö¸¸ C4.5´Â °¡ÁöÀÇ ¼ö¸¦ ´Ù¾çÈ­ ÇÒ¼ö ÀÖ´Ù. ÀÌ ¾Ë°í¸®ÁòÀº ¿¬¼Óº¯¼ö¿¡ ´ëÇؼ­´Â CART¿Í ºñ½ÁÇÑ ¹æ¹ýÀ» »ç¿ëÇÏÁö¸¸ ¹üÁÖÇü¿¡¼­´Â Á» ´Ù¸¥ ¹æ¹ýÀ» »ç¿ëÇÑ´Ù. ¸¶¾à ¡°»ö±ò¡±ÀÌ ºÐ¸®º¯¼ö·Î ¼±ÅÃµÇ¸é ³ª¹«ÀÇ ´Ù¸¥ ·¹º§Àº °¢ »ö±òº°·Î ³ëµå¸¦ Çü¼ºÇÑ´Ù.

 

°¡ÁöÄ¡±â

°¡ÁöÄ¡±â ¹æ¹ýµµ CART¿Í´Â Á¶±Ý ´Ù¸£´Ù. C4.5ÀÇ °¡ÁöÄ¡±â´Â training dataset°ú ¸Ö¸® ¶³¾îÁ®ÀÖ´Â µ¥ÀÌÅÍ¿¡ ´ëÇؼ­´Â ¾ð±ÞÇÏÁö¾Ê°í °¡ÁöÄ¡±â¸¦ ÇÑ´Ù. °¡ÁöÄ¡±â¸¦ ÇÒ ¶§µµ °°Àº µ¥ÀÌÅ͸¦ Àû¿ëÇÑ´Ù.

 

 

Chaid

CHAID´Â 1975³â J.A. Hartigan¿¡ ÀÇÇØ ¼Ò°³µÇ¾îÁø ¿À·¡µÈ ¾Ë°í¸®ÁòÀÌ´Ù. ¶ÇÇÑ SPSS³ª SAS Åë°è package¿¡ °¡Àå º¸ÆíÀûÀÎ ÇÁ·Î±×·¥ÀÌ´Ù. ÀÌ ¾Ë°í¸®ÁòÀÇ ±â¿øÀº automatic interaction detection system AID¿¡ ±â¿øÀ» µÎ°í ÀÖ´Ù. ÀÌ°ÍÀº µÎ º¯¼ö°£ÀÇ Åë°èÀû °ü°è¸¦ ã´Â °ÍÀÌ´Ù. ÀÇ»ç°áÁ¤³ª¹« Çü¼ºÀ» À§ÇØ ÀÌ ¾Ë°í¸®ÁòÀ» »ç¿ëÇÑ´Ù. CART ¿Í ´Ù¸¥ Á¡Àº CHAID´Â µ¥ÀÌÅ͸¦ overfitting Çϱâ Àü¿¡ ³ª¹« Çü¼ºÀ» ¸ØÃá´Ù´Â °ÍÀÌ´Ù.

CHIAD(Chi-squared Automatic Interaction Detection)´Â Ä«ÀÌÁ¦°ö-°ËÁ¡(ÀÌ»êÇü ¸ñÇ¥º¯¼ö) ¶Ç´Â F-°ËÁ¤(¿¬¼ÓÇü ¸ñÇ¥º¯¼ö)À» ÀÌ¿ëÇÏ¿© ´ÙÁö ºÐ¸®(multiway split)¸¦ ¼öÇàÇÏ´Â ¾Ë°í¸®ÁòÀÌ´Ù.

CHIAD´Â °¢ ¼³¸íº¯¼öÀÇ ¹üÁÖµéÀÌ ÀڷḦ ¹ÝÀÀº¯¼öÀÇ °¢ ¹üÁÖµé·Î ±¸ºÐÇÏ´Â ÆǺ°·ÂÀÇ Å©±â¿¡ µû¶ó ¼³¸íº¯¼öÀÇ ¹üÁÖµéÀ» ÀÌ¿ëÇÏ¿© ³ª¹«±¸Á¶¸¦ ¸¸µå´Â ºÐ¼®¹æ¹ýÀ¸·Î Àüü ÀڷḦ µÑ ÀÌ»óÀÇ ÇÏÀ§³ëµå(child node)·Î ¹Ýº¹ÀûÀ¸·Î ºÐÇÒÇÑ´Ù. ÀÌ °úÁ¤¿¡¼­ ¼³¸íº¯¼öÀÇ ¹üÁÖÀÇ ½Ö¿¡ ´ëÇÑ ¹ÝÀÀº¯¼öÀÇ À¯ÀÇÇÑ Â÷ÀÌ°¡ ¾øÀ¸¸é ¼³¸íº¯¼öÀÇ ¹üÁÖµéÀ» º´ÇÕÇϸç, À¯ÀÇÀûÀÌÁö ¾ÊÀº ½ÖµéÀÌ ¾øÀ» ¶§±îÁö °úÁ¤À» °è¼ÓÇÑ´Ù. °¢ ¼³¸íº¯¼ö¿¡ ´ëÇÑ ÃÖ°íÀÇ ºÐÇÒÀ» ã°í, ¸ðµç ¼³¸íº¯¼ö¿¡ ´ëÇÑ À¯ÀǼºÀ» Á¶»çÇÏ¿© °¡Àå À¯ÀÇÀûÀÎ ¼³¸íº¯¼ö¸¦ ¼±ÅÃÇÑ´Ù. ¼±ÅÃµÈ ¼³¸íº¯¼öÀÇ ¹üÁÖµéÀÇ ±×·ìÀ» »ç¿ëÇØ ÀڷḦ »óÈ£ ¹è¹ÝÀÎ ºÎºÐÁýÇÕÀ¸·Î ºÐÇÒÇÏ¸ç °¢ ºÎºÐÁýÇÕ¿¡¼­ Á¤Áö±ÔÄ¢ÁßÀÇ Çϳª°¡ ¸¸Á·µÉ ¶§±îÁö ÀÌ °úÁ¤À» µ¶¸³ÀûÀ¸·Î ¼øȯ, ¹Ýº¹ÇÑ´Ù.

 

ÀÌ»êÇü ¸ñÇ¥º¯¼ö¿¡ ´ëÇÑ ºÐ¸®±âÁØ

CHIAD´Â ¸ñÇ¥ º¯¼ö°¡ ÀÌ»êÇüÀÏ ¶§, PearsonÀÇ Ä«ÀÌÁ¦°ö Åë°è·® ¶Ç´Â ¿ìµµºñÄ«ÀÌÁ¦°ö Åë°è·®(likelihood ratio Chi-square statistic)À» ºÐ¸®±âÁØÀ¸·Î »ç¿ëÇÑ´Ù. ¿©±â¼­ ¸ñÇ¥ º¯¼ö°¡ ¼ø¼­Çü ¶Ç´Â »çÀü±×·ìÈ­µÈ ¿¬¼ÓÇüÀÎ °æ¿ì¿¡´Â ¿ìµµºñÄ«ÀÌÁ¦°ö Åë°è·®ÀÌ »ç¿ëµÈ´Ù. Ä«ÀÌÁ¦°ö Åë°è·®ÀÌ ÀÚÀ¯µµ¿¡ ºñÇؼ­ ¸Å¿ì ÀÛ´Ù´Â °ÍÀº, ¿¹Ãøº¯¼öÀÇ °¢ ¹üÁÖ¿¡ µû¸¥ ¸ñÇ¥º¯¼öÀÇ ºÐÆ÷°¡ ¼­·Î µ¿ÀÏ ÇÏ´Ù´Â °ÍÀ» ÀǹÌÇϸç, µû¶ó¼­ ¿¹Ãøº¯¼ö°¡ ¸ñÇ¥º¯¼öÀÇ ºÐ·ù¿¡ ¿µÇâÀ» ÁÖÁö ¾Ê´Â ´Ù°í °á·ÐÁöÀ» ¼ö ÀÖ´Ù. Áï, p-value °ªÀÌ °¡Àå ÀÛÀº ¿¹Ãøº¯¼ö¿Í ±× ¶§ÀÇ ÃÖÀûºÐ¸®¿¡ ÀÇÇؼ­ Àڽĸ¶µð¸¦ Çü¼º½ÃŲ´Ù.

 

°¢ ¿¹Ãøº¯¼ö¿¡ ´ëÇÑ ÃÖÀû ºÐ¸® Ž»ö

´Ü°è1: µÑ ÀÌ»óÀÇ ¹üÁÖ¸¦ °¡Áø ¹ÝÀÀº¯¼ö¿Í µÑ ÀÌ»óÀÇ ¹üÁÖ¸¦ °¡Áø °¢ ¼³¸íº¯¼ö¿¡ ´ëÇÑ ÀÌÂ÷¿ø ±³Â÷Ç¥¸¦ »ý¼ºÇÑ´Ù.
´Ü°è2: °¢ ¼³¸íº¯¼öÀÇ ºÐÇÒÇ¥·ÎºÎÅÍ Åë°è·®À» °è»êÇÑ´Ù. °è»êµÈ p-value°ªÀÌ ÁöÁ¤µÈ À¯ÀǼöÁغ¸´Ù Å©¸é, ±× ¼³¸íº¯¼ö´Â ¸ñÇ¥º¯¼öÀÇ ºÐ·ù¿¡ ¿µÇâÀ» ÁÖÁö ¾Ê´Â °ÍÀ¸·Î °£ÁÖÇÏ¿© ÀÚ½Ä ¸¶µð Çü¼º¿¡ Á¦¿Ü½ÃÅ°¸ç, p-value°ªÀÌ °¡Àå ÀÛÀº º¯¼ö¸¦ Àڽĸ¶µð Çü¼º º¯¼ö·Î Á¦ÀÏ ¸ÕÀú ¼±ÅÃÇÑ´Ù.
´Ü°è 3: ¼³¸íº¯¼ö¿¡ ´ëÇÏ¿© º´ÇÕÇÒ µÎ ¹üÁÖ¸¦ ã´Â´Ù. ¼±ÅÃµÈ ¿¹Ãøº¯¼öÀÇ Ãøµµ¿¡ µû¶ó °¡´ÉÇÑ ¸ðµç °æ¿ì¿¡ ´ëÇؼ­ °¡Àå º´ÇÕµÉ °¡´É¼ºÀÌ Å« µÎ ¹üÁÖ¸¦ ã¾Æ³½´Ù. µÎ ¹üÁÖÀÇ º´ÇÕ¿¡ µû¸¥ Ä«ÀÌÁ¦°ö°ªÀ» °è»êÇÏ°í, p-value°ªÀÌ ÁöÁ¤µÈ À¯ÀǼöÁغ¸´Ù ÀÛ´Ù¸é, µÎ ¹üÁÖ¿¡ µû¸¥ ¸ñÇ¥º¯¼öÀÇ ºÐÆ÷°¡ µ¿ÀÏÇÏÁö ¾Ê´Ù´Â °ÍÀ» ÀǹÌÇϹǷΠº´ÇÕÇÒ ´ë»ó¿¡¼­ Á¦¿ÜµÈ´Ù.
´Ü°è 4: ºÐÇÒÇ¥·ÎºÎÅÍ ½ÃÀÛÇÏ¿© ´õ ÀÌ»ó º´ÇÕÇÒ µÎ ¹üÁÖ°¡ ¾øÀ» ¶§±îÁö ´Ü°è 3¸¦ °è¼ÓÇÏ¿© ÃÖÁ¾ÀûÀ¸·Î ºÐÇÒÇ¥¸¦ ¾ò´Â´Ù.

 

¿¬¼ÓÇü ¸ñÇ¥º¯¼ö¿¡ ´ëÇÑ ºÐ¸®±âÁØ

¸ñÇ¥º¯¼ö°¡ ¿¬¼ÓÇüÀÎ °æ¿ì¿¡´Â µÎ °³ ÀÌ»óÀÇ ±×·ì¿¡ ´ëÇؼ­ Æò±ÕÄ¡ Â÷¸¦ °ËÁ¤ÇÏ´Â ºÐ»êºÐ¼®Ç¥(ANOVA )ÀÇ F Åë°è·®À» ºÐ¸®±âºÐÀ¸·Î ÀÌ¿ëÇÑ´Ù. F Åë°è·®ÀÌ ÀÚÀ¯µµ¿¡ ºñÇؼ­ ¸Å¿ì ÀÛ´Ù´Â °ÍÀº ¿¹Ãøº¯¼öÀÇ °¢ ¹üÁÖ¿¡ µû¸¥ ¸ñÇ¥º¯¼öÀÇ Æò±ÕÄ¡ Â÷°¡ Á¸ÀçÇÏÁö ¾Ê´Ù´Â °ÍÀ» ÀǹÌÇϸç, µû¶ó¼­ ¿¹Ãøº¯¼ö°¡ ¸ñÇ¥º¯¼öÀÇ ¿¹Ãø¿¡ ¿µÇâÀ» ÁÖÁö ¾Ê´Â´Ù°í °á·ÐÁöÀ» ¼ö ÀÖ´Ù. Ä«ÀÌÁ¦°ö Åë°è·®°ú ¸¶ÂùÀÚÁö·Î ÀÚÀ¯µµ¿¡ ´ëÇÑ F Åë°è·®ÀÇ Å©°í ÀÛÀ½Àº p-valueÀ¸·Î Ç¥ÇöµÉ ¼ö Àִµ¥ F Åë°è·®ÀÌ ÀÚÀ¯µµ¿¡ ºñÇؼ­ ÀÛÀ¸¸é p-valueÀº Ä¿Áö°Ô µÈ´Ù.

CHIAD¿¡¼­´Â ÀÌ¿Í °ªÀÌ °è»êµÈ FÅë°è·®ÀÇ p-valueÀ» ±âº»À¸·Î ÀÌ»êÇü ¸ñÇ¥ º¯¼öÀÎ °æ¿ì¿Í À¯»çÇÏ°Ô º´ÇÕ°ú ºÐ¸®¸¦ °è¼ÓÇÏ¿©, p-value°¡ °¡Àå ÀÛÀº ¿¹Ãø º¯¼ö¿Í ±×¶§ÀÇ ÃÖÀû ºÐ¸®¿¡ ÀÇÇؼ­ ÀÚ½Ä ¸¶µð°¡ Çü¼ºµÈ´Ù.

 

ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®ÀÇ ÀåÁ¡

ÀÌÇØÇϱ⠽¬¿î ±ÔÄ¢À» Çü¼º
¸¹Àº ÄÄÇ»Æà ÀÛ¾÷ ¾øÀÌ ºÐ·ù°úÁ¤ Çü¼º
¿¬¼Óº¯¼ö ¿Í ¹üÁÖÇü º¯¼ö¿¡ ¸ðµÎ »ç¿ë°¡´É
¿¹Ãø°ú ºÐ·ùºÎºÐ¿¡¼­ °¡Àå È¿°úÀûÀÎ ¹æ¹ý

 

ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®ÀÇ ¾àÁ¡

1. ¸î¸î ÀÇ»ç°áÁ¤³ª¹« ¾Ë°í¸®ÁòÀÌ ÀÌÁøºÐ¸®¸¦ Çϱ⠶§¹®¿¡ ºÐ¸® °¡ÁöÀÇ ¼ö°¡ ³Ê¹« ¸¹°í error-prone ¹ß»ý
2. ³ª¹«Çü¼º ½Ã ÄÄÇ»Æà ºñ¿ëÀÌ ¸¹ÀÌ µç´Ù. °¡ÁöÄ¡±â ½Ã, ºÐ¸®±âÁØ ¼³Á¤ ½Ã °¢°¢ÀÇ °æ¿ì¸¦ ´Ù °í·ÁÇØ¾ß µÇ¹Ç·Î °¢ Á¶ÇÕÀÇ °æ¿ì¸¦ ¸ðµÎ °í·ÁÇÒ °æ¿ì ±×¸®°í °¡ÁöÄ¡±â¸¦ ÇÒ °æ¿ì »ó´çÇÑ ÄÄÇ»ÆÃÀÌ Á¦°øµÇ¾î¾ß ÇÑ´Ù.

 

ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®ÀÇ Àû¿ë

ÀÌ ±â¹ýÀº µ¥ÀÌÅ͸¶ÀÌ´×°úÁ¤¿¡¼­ °á°ú¸¦ ¿¹ÃøÇϰųª ÀڷḦ ºÐ·ùÇÏ°íÀÚ ÇÒ ¶§ ¸Å¿ì È¿°úÀûÀÎ ±â¹ýÀÌ´Ù.
Prune here / Unseen data / Training data


Top > Info > Data Mining > 2-5. ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®(Decision Tree)