(۰۲ مهر ۱۳۹۴ ۱۱:۵۸ ب.ظ)fo-eng نوشته شده توسط: اگر فرمت داده رو csv نکنیم خطایی پیش میاد؟
همچنین ببخشید این مجموعه داده من هست:
مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمیباشید. جهت مشاهده پیوندها ثبت نام کنید.
میشه بگید درباره چی هست؟ من درست متوجه نمی شم، می خاد بگه یکسری افراد مدال دارند یا امضا؟
سلام؛
ظاهرا شما میخاید الگوریتم های یادگیری ماشین رو روی این مجموعه داده اعمال کنید؛ با این فرض چندتا نکته رو در تکمیل فرمایش دوستان باید در نظر بگیرید؛
- از چه محیطی میخاید استفاده کنید؟ متلب، وکا، ... ؟
- آیا از همین مجموعه موجود میخاید استفاده کنید یا نیاز به استخراج ویژگی های بیشتری دارید؟
- مجموعه داده ها بالا رو به طور کامل باید بشناسید که حاوی چه اطلاعات/یا داده خامی هست؛
من از آخر جواب میدم؛ داده های بالا طبق توضیح خود سایت UCI، مربوط میشه به افرادی که در یک کنفرانس ثبت نام کردن؛ شخصی به نام Haym Hirsh اومده اسم افراد ثبت نام کننده رو برداشته و فقط بر اساس اسم، همه اون افراد رو به دو دسته و با علامت + و - تقسیم کرده؛ (badge رو به معنی نشان یا علامت معنی کنید)؛ حالا اینکه Hirsh بر چه اساسی این تقسیم بندی رو انجام داده نمیدونیم و چون تابع تقسیم کننده رو بلد نیستیم شاید به کمک یادگیری ماشین بشه اونو پیدا کرد؛
نابراین شما میخاید یک مسئله یادگیری دو کلاسه رو حل کنید که داده های اورجینالش فقط دوتا فیلد داره: نام افراد به عنوان ویژگی و برچسب +/- به عنوان دسته یا کلاس؛
ولی احتمالا کار بسیار سختیه که یکسری اسم رو به +/- یا ۰/۱ مرتبط کنید؛ پس احتمالا شما نیاز دارید از دل این اسامی ویژگی های دیگه ای استخراج کنید و بر اساس اون ویژگی های تکمیلی عمل یادگیری رو انجام بدید؛ اونجایی که گفتید بقیه استنباط خودشونو کردن در واقع یکسری ویژگی جدید از اسم افراد در اوردن و اضافه کردن به داده های اولیه؛ لینک زیر به نظرم پیشنهادهای خوبی برای این ویژگی های تکمیلی داده که خودتون هم این لینک رو دیدید:
مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمیباشید. جهت مشاهده پیوندها ثبت نام کنید.
اگه توضیحات لینک بالا رو مطالعه کنید متوجه میشید که لینک زیر داده های اصلی هست:
مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمیباشید. جهت مشاهده پیوندها ثبت نام کنید.
در فرمت arff با دو ویژگی
attribute name
attribute class
در وکا با علامت{} مجموعه مقادیر مجاز هر ویژگی تعیین میشه؛ در لینک بالا هم مجموعه مقادیر مجاز ویژگی نام میشه اسم همه ثبت نام کننده ها و مجموعه مقادیر مجاز کلاس میشه همون + و -؛ حالا شخصی به اسم Hakan Kjellerstrand مثل شما اومده این مسئله رو حل کرده که نحوه حلش رو در لینک قبل نه قبلی توضیح داده که تونسته ۱۰ تا ویژگی از اسم ها بکشه بیرون و مجموعه داده دومی رو تولید کنه:
مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمیباشید. جهت مشاهده پیوندها ثبت نام کنید.
و به عبارتی داده دومی که خودش به دست آورده ۱۱ تا ویژگی داره (با احتساب نام افراد) و یه برچسب +/-؛ و در ادامه همین فایل با فرمت arff رو داده به وکا (بدون تبدیل به csv) و با استفاده از درخت تصمیم و هرس کردن درخت به این نتیجه رسیده که اون تابع برچسب زننده نامشخص میاد بر اساس ویژگی second_char_vowel برچسب +/- داده ها رو تعیین میکنه؛ مقدار این ویژگی ۰ و ۱ هست؛ یعنی اگه اسمی کارکتر دومش حرف صدادار باشه مقدار second_char_vowel اش میشه ۱ و گرنه ۰؛ و بر همین اساس برچسبش میشه ۱ یا ۰ (: