داده کاوی

۲۳ آبان ۱۳۸۸

مدلسازي در داده كاوي

داده كاوي عمدتا با ساختن مدلها مرتبطه. يك مدل اساسا ًبه الگوريتم يا مجموعه اي از قوانيني گفته ميشه كه مجموعه اي از وروديها ( معمولا بشكل زمينه هايي در پايگاه داده هاي شركت) با هدف يا مقصد خاصي مرتبط ميكنه. رگرسيون، شبكه هاي عصبي ، درختهاي تصميم و ... همگي تكنيكهايي براي مدلسازي هستند. يك مدل تحت شرايط درست منجر به بينش درست ميشه. بطور مثال از مدلها براي ايجاد امتيازها استفاده ميشه. امتياز نوعي بيان يافته هاي يك مدل بصورت عدديه. براي مثال از امتيازها ميشه براي تهيه فهرستي از مشتريان از محتمل ترين فرد تا كم احتمالترينشون در پاسخ به تبليغات يك محصول جديد استفاده كرد.
روشهاي پيش بيني كننده، شامل مدلهايي از داده كاوِين كه با استفاده از داده هاي شامل يك برچسب و با توجه به مشخصات داده هاي برچسبهاي مختلف قادر به پيش بيني برچسب براي داده هاي جديد خواهند بود. بعنوان مثال داده هاي مشتريان با توجه به اينكه در سه ماه گذشته، خريد مجدد داشته اند يانه، برچسب گذاري ميشود. به اين ترتيب با استفاده از تكنيكهاي دسته بندي ، امكان پيش بيني داده هاي جديد با توجه به مشخصات مشتريان گروههاي مختلف وجود داره.

۱۳ آبان ۱۳۸۸

شش فعاليت اصلي

در واقع بسياري از مسائل محيط اطراف خود را ميتوان در اعمالي از اين قبيل گنجاند:

 دسته بندي:
دسته بندي شامل بررسي ويژگيهاي يك مورد جديد و تخصيص آن به يكي از مجموعه هاي از قبل تعيين شده است. عمل دسته بندي با تعريف درستي از دسته ها و مجموعه اي از ويژگيهاي كه حاوي موارد از پيش دسته بندي شده هستند مشخص ميگردد. تكنيكهاي درخت تصميم و نزديكترين همسايه از جمله تكنيكهاي متداول دسته بندي هستند. در شرايط خاص ميتوان از تكنيكهاي شبكه عصبي و تحليل پيوند نيز براي دسته بندي سود برد.

 تخمين:
تخمين، با نتايج مجزا كه با ارقام پيوسته نشان داده شده اند سر و كار دارد. تخمين در عمل براي انجام دسته بندي استفاده ميشود. مدلهاي رگرسيون و شبكه هاي عصبي از جمله تكنيكهاي مناسب براي تخمين به حساب مي آيند.

 پيش بيني:
پيش بيني مانند دسته بندي يا تخمين است با اين تفاوت كه اطلاعات مطابق برخي از رفتارهاي پيش بيني شده آينده يا ارقام تخمين زده آينده دسته بندي ميشوند. در عمل پيش بيني، تنها روش براي بررسي صحت دسته بندي، انتظار ديدن آينده است. هر يك از تكنيكهاي استفاده شده در دسته بندي و تخمين را ميتوان براي پيش بيني استفاده كرد، بشرطي كه متغيري كه بايد پيش بيني شود معلوم و داده هاي پيشين براي آن متغير وجود داشته باشد.

 دسته بندي شباهت يا قوانين وابستگي :
دسته بندي شباهت براي تعيين اينست كه چه چيزهايي با هم جورند . دسته بندي شباهت براي ايجاد قوانين از داده هاست. ( مثلا: افرادي كه چكش ميخرند به احتمال P1 ميخ ميخرند . همچنين افرادي كه ميخ ميخرند به احتمل P2 چكش هم ميخرند.)

 خوشه بندي:
خوشه بندي به عمل تقسيم جمعيت ناهمگن به تعدادي از زير مجموعه ها يا خوشه هاي همگن گفته ميشود. نقطه تمايز خوشه بندي و دسته بندي اين است كه خوشه بندي به دسته هاي از پيش تعيين شده تكيه ندارد. خوشه بندي اغلب بعنوان پيش در آمدي براي انواع ديگري از داده كاوي يا مدلسازي بكار ميرود.

 توصيف يا نمايه سازي :
گاهي هدف از داده كاوي تنها توصيف آن چيزِي است كه در يك پايگاه داده اي پيچيده در جريان است.توصيف خوب رفتار ، اغلب توضيح خوبي هم به همراه دارد. درختهاي تصميم ، قوانين وابستگي و خوشه بندي بعنوان ابزاري خوب براي نمايه سازي بكار ميروند.

۹ آبان ۱۳۸۸

فعاليتهاي داده كاوي

فرايند داده كاوي از نظر كلي به دو دسته تقسيم ميشه. توصيفي و پيش گويي كننده.
حالت توصيفي شامل تكنيكهاي خوشه بندي ، كشف قوانين وابستگي ، كشف دنباله ، خلاصه سازي ، قوانين تجمعي، تشريح و مصور سازِيه.
حالت پيش گويي هم شامل تكنيكهاي دسته بندي، رگرسيون، سريهاي زماني، تخمين و پيش بينيه

بعبارت ديگه داده كاوي در دو نوع هدايت شده و هدايت نشده ظاهر ميشه. داده كاوي هدايت شده، داراي هدفي خاص و از پيش تعيين شده ست كه بدنبال الگويي خاص ميگرده. در حاليكه هدف داده كاوي غير هدايت شده يافتن الگوها يا تشابهات بين گروههايي از اطلاعات، بدون داشتن هدفي خاص و يا مجموعه اي از دسته ها و الگوهاي از پيش تعيين شده ست.

۵ آبان ۱۳۸۸

رابطه داده كاوي با ديگر تكنيكها

از ديدگاه آماري ، داده كاوي بعنوان ابزار كامپيوتري خودكار براي تحليل مجموعه داده هاي بزرگ و پيچيدست. داده كاوي بعنوان يك دانش ميان رشته اي ، تكنيكهاي مختلفي را از آمار، يادگيري ماشيني، تشخيص الگو، پايگاه داده ها و مصور سازي گرد هم مياره تا مشكل استخراج اطلاعات از پايگاه داده هاي بزرگ رفع بشه.

۲۰ مهر ۱۳۸۸

داده کاوی و کشف دانش معادل هم نیستند

برای اولین بار، واژه كشف دانش در پايگاه داده ها ، در سال 1989 استفاده شده و به كل فرايند كشف دانش مفيد از داده ها اطلاق ميشه. اگر چه در اغلب موارد كشف دانش و داده كاوي دو واژه معادل تلقي ميشوند ولي در واقع كشف دانش و داده كاوي معادل هم نيستند ، بلكه داده كاوي يك قدم اصلي از فرايند كشف دانشه. كشف دانش در پايگاه داده ها عبارتست از تشخيص الگوها و مدلهاي معتبر ، جديد، بالقوه مفيد و قابل درك از داده ها.
در واقع هدف از داده كاوي و كشف دانش ، يافتن الگوهاي جذاب و يا مدلهايي است كه بصورت پنهان در پايگاه داده ها وجود دارند.

۱۳ مهر ۱۳۸۸

سلامی پس از مدتها دوری

با عرض پوزش از دوستان بخاطر غیبت طولانی مدتم

امیدوارم در آینده فرصت کافی و مناسب برای جبران قصورم در بروز کردن مطالب وبلاگ پیش بیاد.

و اما ادامه مطلب:

دانش نوين داده كاوي (Data Mining) يكي از ده دانش در حال توسعه ايه كه دهه آينده را با انقلاب تكنولوژيك مواجه خواهد کرد و بهمین دلیل در سالهاي اخير در دنيا گسترش فوق العاده سريعي داشته. در طول دهه گذشته، حجم زيادي از داده ها در پايگاه داده ها انباشته و ذخيره شده اند و نتيجه اين انباشتگي اينه كه سازمانها در داده غني ولي در كسب دانش بسيار ضعيفند. امروز ميزان داده هاي در دسترس، هر پنج سال دو برابر ميشود و سازماني تواناست كه قادر باشه حداقل 7 درصد ازاطلاعاتش را مديريت کنه.

اما فن آوري داده كاوي، بعنوان ابزاري نوين، اپراتورها را قادر ميکنه تا از سرمايه داده هاشون به بهترين شكلي بهره برداري کنن. داده كاوي فرايندِيه كه از انواع تكنيكهاي مدلسازي و آناليز داده،كه از آمار و علوم كامپيوتر وام گرفته شده ان، براي كشف الگوها و ارتباطات در داده ها و كشف دانش پنهان درون داده ها بهره ميگیره كه نهايتا اين دانش پنهان، براي پشتيباني از يك فرايند تصميم گيري منطقي و عاقلانه مورد استفاده قرار ميگيرد.کاربردهاي داده کاوي بسيار متنوع و فراگيره. در واقع ميشه ادعا کرد که در هر کجا که انبوهي از داده ها ذخيره شده وجود داشته باشه، ميشه از داده کاوي بعنوان ابزاري براي حل مسئله کمک گرفت. فهرست زير مقايسه اي آماري را از کاربرد داده کاوي در حل مسائل گوناگون که در ماه دسامبر سال 2008 منتشر شده ارائه ميدهد.

Industries / Fields where you applied Data Mining in 2008: [107 voters]

CRM/ consumer analytics (41)
38.30%

Health care/ HR (10)
9.30%

Banking (34)
31.80%

Manufacturing (9)
8.40%

Fraud Detection (21)
19.60%

e-Commerce (8)
7.50%

Finance (18)
16.80%

Web usage mining (8)
7.50%

Direct Marketing/ Fundraising (15)
14.00%

Social Policy/Survey analysis (8)
7.50%

Other (14)
13.10%

Medical/ Pharma (8)
7.50%

Investment / Stocks (14)
13.10%

Security / Anti-terrorism (6)
5.60%

Credit Scoring (14)
13.10%

Search / Web content mining (6)
5.60%

Telecom / Cable (13)
12.10%

Government/Military (4)
3.70%

Retail (13)
12.10%

Travel / Hospitality (3)
2.80%

Advertising (13)
12.10%

Junk email / Anti-spam (3)
2.80%

Biotech/Genomics (12)
11.20%

Entertainment/ Music (3)
2.80%

Science (11)
10.30%

Social Networks (2)
1.90%

Insurance (11)
10.30%

None (2)
1.90%

۱ اردیبهشت ۱۳۸۸

سلام به همه دوستان
دیروز میخواستم اولین بخش مطالبم رو بگذارم.
جالب این بود که تو همون اولین روز تمام تلاشهام برای connect شدن به blogger.com بی نتیجه موند!
در هر حال من از طرف خودم و blogger.com از همه خوانندگان پوزش میخوام.

و اما داده کاوی یا Data Mining:

داده کاوی بشکل خلاصه بمعنی کند و کاو در درون داده هاست. میدونید که در انگلیسی به معدن چیان و کسانی که زمین رو برای پیدا کردن و استخراج چیزهای با ارزش میکنن miner میگن. این کند و کاو به شکلیه که حتی گاهی نمیشه از قبل تصوری از شکل و حجم و نوع اون چیز با ارزشی که بدنبالش میگردن داشت!
حالا تصورش رو بکنید که ما حجم عظیمی از داده ها رو داریم که در طی زمان در بانکهای اطلاعاتی ذخیره شدن و ما در طی این زمانها تنها استفاده ای که از آنها کردیم کسب یکسری اطلاعات آماری از پیش تعریف شده بوده. در حالی که اطلاعات بسیار با ارزشی که حتی از نوع و حجم و شکلش هیچ تصوری نداریم مثل طلا یا سنگهای گرانبها در درون این داده ها نهفته است که ما از وجود آنها بی خبریم.اطلاعاتی مربوط به روابط پنهان درون داده ها . اطلاعاتی که اگر کشف بشن یک دانش بحساب میان و باعث کمک به ما برای
گرفتن یک تصمیم منطقی و با پشتوانه علمی در زمینه های مرتبط میشن.

در روزهای بعد ادامه مطالب رو براتون خواهم نوشت. لطفا از اعلام نظر دریغ نکنید.
با تشکر