اعمال تکنیکهای دادهکاوی برای پیشبینی بیماری قلبی
بر روی مجموعه دادهی استاندارد بیماری قلبی عملیات پیش پردازش انجام شده و با استفاده از تکنیکهای دادهکاوی درخت تصمیم، شبکه عصبی، ماشین بردار پشتیبان و بیزین ساده عملیات آموزش و آزمایش انجام میشود و در نهایت به ارزیابی و مقایسهی آنها با متد پیشنهادی میپردازیم.
3-1. توصیف مجموعه داده
در این پروژه از مجموعه دادهی تشخیص بیماری قلبی Cleveland مخزن دادهای دانشگاه کالیفرنیا(2) استفاده شده است. علائم زیادی از بیماری قلبی وجود دارد، یافتن الگوهایی از دادهی بیماری قلبی در تشخیص دلایل آتی این بیماری کمک میکند. پایگاه دادهی بیماری قلبی توط مرکز پزشکی CLEVELAND CLINIC FOUNDATION، LONG BEACH و V.A در سال 1998 ایجاد شده است.
پایگاه داده شامل 303 نمونه که در برگیرنده 297 نمونه کامل و شش نمونه با مقادیر از دست رفته است. این پایگاه داده 76 صفت خام دارد در حالیکه همهی آزمایشات فقط بر روی 13 صفت از آنها انجام شدهاست. بنابراین، این پایگاه داده شامل 13 علائم بیماری و یک صفت تشخیص است که فیلد هدف به وجود بیماری قلبی بر اساس علائم موجود در بیمار اشاره دارد که یک مقدار عددی 0(عدم وجود بیماری) یا 1(وجود بیماری) است که در ادامه مفهوم هر کدام از علائم بیان میشود:
Age: سن بیمار
Sex: جنسیت بیمار
Chest pain type: بیان کننده درد قفسه سینه که شامل 4 مقدار مشخصهی درد قلبی، بدون درد و بدون علامت است.
Resting blood pressure: فشار خون در زمان استراحت
Serum cholestoral: کلسترول(چربی بد خون)
Fasting blood sugar: قند خون ناشتا
Resting electrocardiographic results: نتایج نوار قلب در حال استراحت که شامل 3 مقدار نرمال، موج غیر قلبی و نشاندهندهی افزایش مقطعی یا احتمالی ضخامت بطن چپ است.
Maximum heart rat achieved: ماکزیمم ضربان قلب به دست آمده
Exercise induced angina: آنژین ناشی از ورزش که شامل مقادیر بله و خیر است
St depression induced by exercise relative: st ایجاد شده موقع تست ورزش وابسته به استراحت
The slop of peak exercise at segment: بیان کننده شیب قطعه st در زمان حداکثر ورزش که شامل 3 مقدار بالا رفتن، صاف و پایین آمدن قطعه st است
Number of major vessels colored by fluoroscopy: این صفت بیانگر تعداد رگهایی که در فلوروسکوپی دیده میشود
Thal: اسکن تالیوم است که شامل 3 مقدار ضایعه ثابت، نرمال و ضایعه قابل برگشت است.
3-2. ارزیابی الگوریتمها بر روی مجموعه داده(**Data Set**)
در مرحله پیش از پردازش، مقادیر از دست رفته را با میانگین مقادیر این صفت در سایر نمونهها جایگزین نموده و برای آموزش و آزمایش بر روی این مجموعه داده از روش تقسیم دادهها به دو مجموعهی آموزشی و آزمایش استفاده میشود، به طوریکه 70% دادهها بهصورت تصادفی در مجموعهی آموزشی قرار گرفته و از بقیه دادهها برای آزمایش صحت و دقت مدل استفاده میشود. همهی این تکنیکها در یک شرایط یکسان بر روی مجموعه دادهی مورد نظر اعمال میشوند.
متدولوژی پیشنهادی و پیادهسازیمتدولوژی پیشنهادی که متشکل از بخشهای مختلفی است. بخش پایگاه دادهی قلب، صفاتی را در بر میگیرد که برای تشخیص دادن اشخاص بیمار از سالم استفاده میشوند. همانطور که قبلاً بیان شد، پایگاه داده شامل 14 ستون و 267 سطر است. 13 ستون بیانگر صفات و یک ستون بیانگر برچسب کلاس است.