۲۳ آبان ۱۳۸۸

مدلسازي در داده كاوي



داده كاوي عمدتا با ساختن مدلها مرتبطه. يك مدل اساسا ًبه الگوريتم يا مجموعه اي از قوانيني گفته ميشه كه مجموعه اي از وروديها ( معمولا بشكل زمينه هايي در پايگاه داده هاي شركت) با هدف يا مقصد خاصي مرتبط ميكنه. رگرسيون، شبكه هاي عصبي ، درختهاي تصميم و ... همگي تكنيكهايي براي مدلسازي هستند. يك مدل تحت شرايط درست منجر به بينش درست ميشه. بطور مثال از مدلها براي ايجاد امتيازها استفاده ميشه. امتياز نوعي بيان يافته هاي يك مدل بصورت عدديه. براي مثال از امتيازها ميشه براي تهيه فهرستي از مشتريان از محتمل ترين فرد تا كم احتمالترينشون در پاسخ به تبليغات يك محصول جديد استفاده كرد.
روشهاي پيش بيني كننده، شامل مدلهايي از داده كاوِين كه با استفاده از داده هاي شامل يك برچسب و با توجه به مشخصات داده هاي برچسبهاي مختلف قادر به پيش بيني برچسب براي داده هاي جديد خواهند بود. بعنوان مثال داده هاي مشتريان با توجه به اينكه در سه ماه گذشته، خريد مجدد داشته اند يانه، برچسب گذاري ميشود. به اين ترتيب با استفاده از تكنيكهاي دسته بندي ، امكان پيش بيني داده هاي جديد با توجه به مشخصات مشتريان گروههاي مختلف وجود داره.


۱۳ آبان ۱۳۸۸

شش فعاليت اصلي

در واقع بسياري از مسائل محيط اطراف خود را ميتوان در اعمالي از اين قبيل گنجاند:

 دسته بندي:
دسته بندي شامل بررسي ويژگيهاي يك مورد جديد و تخصيص آن به يكي از مجموعه هاي از قبل تعيين شده است. عمل دسته بندي با تعريف درستي از دسته ها و مجموعه اي از ويژگيهاي كه حاوي موارد از پيش دسته بندي شده هستند مشخص ميگردد. تكنيكهاي درخت تصميم و نزديكترين همسايه از جمله تكنيكهاي متداول دسته بندي هستند. در شرايط خاص ميتوان از تكنيكهاي شبكه عصبي و تحليل پيوند نيز براي دسته بندي سود برد.

 تخمين:
تخمين، با نتايج مجزا كه با ارقام پيوسته نشان داده شده اند سر و كار دارد. تخمين در عمل براي انجام دسته بندي استفاده ميشود. مدلهاي رگرسيون و شبكه هاي عصبي از جمله تكنيكهاي مناسب براي تخمين به حساب مي آيند.

 پيش بيني:
پيش بيني مانند دسته بندي يا تخمين است با اين تفاوت كه اطلاعات مطابق برخي از رفتارهاي پيش بيني شده آينده يا ارقام تخمين زده آينده دسته بندي ميشوند. در عمل پيش بيني، تنها روش براي بررسي صحت دسته بندي، انتظار ديدن آينده است. هر يك از تكنيكهاي استفاده شده در دسته بندي و تخمين را ميتوان براي پيش بيني استفاده كرد، بشرطي كه متغيري كه بايد پيش بيني شود معلوم و داده هاي پيشين براي آن متغير وجود داشته باشد.

 دسته بندي شباهت يا قوانين وابستگي :
دسته بندي شباهت براي تعيين اينست كه چه چيزهايي با هم جورند . دسته بندي شباهت براي ايجاد قوانين از داده هاست. ( مثلا: افرادي كه چكش ميخرند به احتمال P1 ميخ ميخرند . همچنين افرادي كه ميخ ميخرند به احتمل P2 چكش هم ميخرند.)

 خوشه بندي:
خوشه بندي به عمل تقسيم جمعيت ناهمگن به تعدادي از زير مجموعه ها يا خوشه هاي همگن گفته ميشود. نقطه تمايز خوشه بندي و دسته بندي اين است كه خوشه بندي به دسته هاي از پيش تعيين شده تكيه ندارد. خوشه بندي اغلب بعنوان پيش در آمدي براي انواع ديگري از داده كاوي يا مدلسازي بكار ميرود.

 توصيف يا نمايه سازي :
گاهي هدف از داده كاوي تنها توصيف آن چيزِي است كه در يك پايگاه داده اي پيچيده در جريان است.توصيف خوب رفتار ، اغلب توضيح خوبي هم به همراه دارد. درختهاي تصميم ، قوانين وابستگي و خوشه بندي بعنوان ابزاري خوب براي نمايه سازي بكار ميروند.