تالار گفتمان مانشت
نیاز به دیتا ست - نسخه‌ی قابل چاپ

صفحه‌ها: ۱ ۲ ۳ ۴ ۵
نیاز به دیتا ست - jaroon - 16 مرداد ۱۳۹۱ ۰۵:۱۰ ب.ظ

دوستان من نیاز به یک دیتاست دارم که بتونم الگوریمتهای کلاسترینگ رو پیاده سازی کنم.البته بروز بودنش واسم مهمه

نیاز به دیتا ست - Potential - 16 مرداد ۱۳۹۱ ۰۶:۳۲ ب.ظ

سلام

من اینو اتفاقی تو یکی از مقالاتی که میخوندم دیدیم...


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


RE: نیاز به دیتا ست - jaroon - 16 مرداد ۱۳۹۱ ۰۸:۴۱ ب.ظ

(۱۶ مرداد ۱۳۹۱ ۰۶:۳۲ ب.ظ)Potential نوشته شده توسط:  سلام

من اینو اتفاقی تو یکی از مقالاتی که میخوندم دیدیم...


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.
این که آدرس سایت uci.اسم دیتا ستش رو نمیدونید؟

RE: نیاز به دیتا ست - sina_bhh - 24 مرداد ۱۳۹۱ ۰۲:۳۷ ب.ظ

(۱۶ مرداد ۱۳۹۱ ۰۸:۴۱ ب.ظ)jaroon نوشته شده توسط:  
(16 مرداد ۱۳۹۱ ۰۶:۳۲ ب.ظ)Potential نوشته شده توسط:  سلام

من اینو اتفاقی تو یکی از مقالاتی که میخوندم دیدیم...


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.
این که آدرس سایت uci.اسم دیتا ستش رو نمیدونید؟

خب مگه داخل سایت uci دیتا ست ها رو دسته بندی نکرده ؟؟ مثلا لینک زیر دیتا ست های خوشه بندی هستش

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


در ضمن میتونید از دیتا ست های طبقه بندی (Classification) استفاده کنید.ولی برچسب داده ها رو در نظر نگیرید.چون اونها طوری دسته بندی شدن که بهترنی حالت رو دارن.بعد با استفاده از شاخص های اعتبار سنجی خوشه بندی بهترین تعداد خوشه ها رو محاسبه کنید و در آخر ببینید که با تعدادی که در نظر گرفته چقدر تفاوت دارن

یا حتی میتونید از تصاویر برای این کار استفاده کنید. مثلا لینک زیر مربوط به دانشگاه فنلاند هستش

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


RE: نیاز به دیتا ست - jaroon - 24 مرداد ۱۳۹۱ ۰۵:۰۴ ب.ظ

ببخشید من درخواستم رو ناقص نوشم.کلاسترینگ شبکه های اجتماعی رو میخوام کار کنم.که البته باید دیتا شامل صفحات و لینک بین صفحات باشه.چون خوشه بندی رو میخوام با الگوریتمhcube انجام بدم که روی اینک بین صفحات کار کرده.دوستان اگر پیشنهادی بدن که زورتر مشکل رو حل کنم و برسم سراغ پیاده سازی ممنون میشم چون این قضیه بدجوری منو عصبی کرده.HuhHuh

RE: نیاز به دیتا ست - sina_bhh - 24 مرداد ۱۳۹۱ ۰۷:۴۵ ب.ظ

(۲۴ مرداد ۱۳۹۱ ۰۵:۰۴ ب.ظ)jaroon نوشته شده توسط:  ببخشید من درخواستم رو ناقص نوشم.کلاسترینگ شبکه های اجتماعی رو میخوام کار کنم.که البته باید دیتا شامل صفحات و لینک بین صفحات باشه.چون خوشه بندی رو میخوام با الگوریتمhcube انجام بدم که روی اینک بین صفحات کار کرده.دوستان اگر پیشنهادی بدن که زورتر مشکل رو حل کنم و برسم سراغ پیاده سازی ممنون میشم چون این قضیه بدجوری منو عصبی کرده.HuhHuh

خب سرچ کنید که پیدا می کنید.من این رو پیدا کردم که مال دانشگاه استنفورد هستش


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


DataSet - jalaldoth - 30 دى ۱۳۹۱ ۰۴:۵۵ ب.ظ

سلام به همه

از دوستان کسی هست که به DataSet های خاصی دسترسی داشته باشه مثل DataSet هایی که برای تشخیص الگو و پردازش تصویر از اونها استفاده می شه . . .

یا DataSet هایی که بشه از اونها به عنوان داده های خام برای یه شبکه عصبی استفاده کرد.

راستش من یکم گشتم ولی DataSet که بشه روش کار کرد و جواب خوب گرفت پیدا نکردم . . . اکثرا یا بدرد نمی خورن و یا تعدادشون کمه و سیستم general ای ازشون بدست نمی آد.

اگه حجمش بالا بود با این مکاتبه کنیم تا برای گرفتنش هماهنگ بشیم: j.aghazadeh@yahoo.com

DataSet - blackhalo1989 - 30 دى ۱۳۹۱ ۰۵:۲۶ ب.ظ

اینجا رو یه نگاه بندازید:

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.

معروفاشو اینجا گذاشته:

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


DataSet - jalaldoth - 30 دى ۱۳۹۱ ۰۷:۲۳ ب.ظ

(۳۰ دى ۱۳۹۱ ۰۵:۲۶ ب.ظ)blackhalo1989 نوشته شده توسط:  اینجا رو یه نگاه بندازید:

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.

معروفاشو اینجا گذاشته:

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.

خیلی ممنون و متشکر . . .

RE: نیاز به دیتا ست - tarane khanoom - 21 فروردین ۱۳۹۲ ۰۵:۳۵ ب.ظ

سلام دوستان پروژه من درباره فیلتر کردن ایمیل اسپم هست نیاز به دیتا ست دارم از دوستان کسی هست بتونه کمکم کنه خیلی وقته دنباله دیتا ستمSad

RE: نیاز به دیتا ست - sina_bhh - 21 فروردین ۱۳۹۲ ۰۸:۰۵ ب.ظ

(۲۱ فروردین ۱۳۹۲ ۰۵:۳۵ ب.ظ)tarane khanoom نوشته شده توسط:  سلام دوستان پروژه من درباره فیلتر کردن ایمیل اسپم هست نیاز به دیتا ست دارم از دوستان کسی هست بتونه کمکم کنه خیلی وقته دنباله دیتا ستمSad

برای پروژه یکی از درس ها این رو انجام دادیم ولی اگه اشتباه نکنم استادمون دیتاست رو دستکاری کرده بود.برای همین فکر نکنم به دردتون بخوره.ولی با یه سرج ساده کلی دیتاست پیدا میشه.عجیبه خودتون چیزی پیدا نکردید

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.


نیاز به دیتا ست - tarane khanoom - 22 فروردین ۱۳۹۲ ۱۰:۵۴ ق.ظ

من سایت های زیادی رفتم برای دیتا ست مثلا
مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.
ولی اینا تاریخاشون ۲۰۰۴و ۲۰۰۵ اشکالی نداره ؟و اینکه من میخوام یکسری لغات خاص که توی ایمیل اسپم ها استفاده میشه را به شبکه عصبی اموزش بدم ولی از روی این دیتا ستها هیچ چیز متوجه نمیشم لطفا راهنماییم کنید!!!یا مقاله ای که بیس کارم قرارش دادم گفته قواعد تویه فایل .cf توی سایت spamassassin که من پیدا نکردم

RE: نیاز به دیتا ست - sina_bhh - 22 فروردین ۱۳۹۲ ۰۲:۵۲ ب.ظ

(۲۲ فروردین ۱۳۹۲ ۱۰:۵۴ ق.ظ)tarane khanoom نوشته شده توسط:  من سایت های زیادی رفتم برای دیتا ست مثلا
مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.
ولی اینا تاریخاشون ۲۰۰۴و ۲۰۰۵ اشکالی نداره ؟و اینکه من میخوام یکسری لغات خاص که توی ایمیل اسپم ها استفاده میشه را به شبکه عصبی اموزش بدم ولی از روی این دیتا ستها هیچ چیز متوجه نمیشم لطفا راهنماییم کنید!!!یا مقاله ای که بیس کارم قرارش دادم گفته قواعد تویه فایل .cf توی سایت spamassassin که من پیدا نکردم
۱- اون طور که گفته spamassassin یک پروژه متن باز هستش که باید روی یک سرور اجراش کنید.من یکی از دیتاست هاش رو نگاه کردم دیدم به صورت صفحات HTML هستش.توی لینک زیر در مورد ویژگی های پروژه توضیح داده :

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.

و اون قواعدی که شما میگید در لینک زیر قرار داره:

مهمان عزیز شما قادر به مشاهده پیوندهای انجمن مانشت نمی‌باشید. جهت مشاهده پیوندها ثبت نام کنید.

به نظرم کار با این دیتاست کمی سخته.بهتره از دیتاست های ساده تر مثل lingspam استفاده کنید

۲- منظورتون رو از اینکه این دیتاست ها مربوط به سال ۲۰۰۴ و ۲۰۰۵ هستن نمیفهمم؟؟یعنی قدیمیه؟؟خب اگه چند تا مقاله جدید در حوزه spam filtering دانلود کنید و به قسمت result یا experiment نگاه کنید میفهمید که از چه دیتاست هایی استفاده میشه.من دو مقاله رو براتون پیوست کردم.مقاله اول که خاص spam filtering هستش که از چند دیتاست از جمله lingspam استفاده کرده.مقاله دوم در حوزه دسته بندی متن هستش و مراحل انجام کار رو توضیح داده

۳- اینکه یکسری کلمات خاص رو به شبکه عصبی آموزش بدید رو نمیفهمم.مراحل کار رو میشه به طور خلاصه به صورت زیر انجام داد :
۳-۱- استخراج کلمات
ابتدا تک تک ایمیل ها رو در هر قالبی که هست(مثلا .txt) باید از ورودی بخونید و تک تک کلمات اون رو استخراج کنید.مثلا اگر داخل یکی از فایل ها جمله if you would prefer to stay in a hotel , we recommend the arcade hotel وجود داشت باید تک تک کلمات و تعداد دفعات تکرارش رو استخراج کنید که می تونید به هر صورتی(در داخل پایگاه داده، استفاده از ساختار درختی، آرایه یا ...) ذخیره کنید.یعنی داریم
کد:
word       frequency    
if                         1
you                      1
...
hotel                    2
تا این مرحله هر ایمیل تبدیل به برداری از کلمات میشه(مجموعه train و test) که به عنوان ویژگی(feature) شناخته میشن

۳-۲-حذف stop-words
کلماتی که مربوط مفهوم ایمیل نیستن و در همه ایمیل ها تکرار میشن، باید حذف بشن. مثل if.لیست این کلمات توی اینترنت به وفور پیدا میشه

۳-۳- انتخاب ویژگی
با توجه به اندازه مجموعه داده ای به احتمال زیاد تعداد کلماتی(ویژگی ها) که در نهایت استخراج میشن خیلی زیاد هست(ده ها هزار ویژگی) آموزش هر الگوریتم یادگیر از جمله شبکه عصبی بسیار بسیار زمان بر هستش.پس باید بیشتر کلمات استخراج شده حذف بشن.میشه از روش هایی مثل informatio gain، gini index، document frequency یا هر روش دیگه استفاده کرد که ابتدا به هر کلمه استخراج شده یک رتبه ای رو میده و در نهایت درصدی از کلمات با رتبه بالاتر انتخاب میشن

۳-۴-تست الگوریتم یادگیر
حالا وقتی این مراحل انجام شد هر ایمیل(سند یا فایل یا هر چیز دیگه ای که اسمشو میزارید) تبدیل به یک بردار با ویژگی های استخراج شده میشه(مجموعه داده های train و test).حالا از هر الگوریتم یادگیر در هر نرم افزاری(Matlab، JavaNNS، Weka یا ...) استفاده میکنید این بردار ویژگی رو به فرمت اون نرم افزار تبدیل میکنید و استفاده کنید

نمیدونم این رو برای یه پروژه درسی میخواید یا پروژه پایانی.ولی اگر به اندازه کافی زمان دارید میتونید از الگوریتم های ریشه یاب(Stemming) برای افزایش دقت استفاده کنید. یا از یک سری الگوریتم های بهینه سازی مثل ژنتیک یا کلونی مورچه ها و ... برای انتخاب ویژگی استفاده کنید

نیاز به دیتا ست - tarane khanoom - 22 فروردین ۱۳۹۲ ۰۶:۵۹ ب.ظ

ببخشید من از lingspam دانلود کردم مسئلم اینه که مثلا این
Subject: re : 2 . 882 s - > np np

> date : sun , 15 dec 91 02 : 25 : 02 est > from : michael < mmorse @ vm1 . yorku . ca > > subject : re : 2 . 864 queries > > wlodek zadrozny asks if there is " anything interesting " to be said > about the construction " s > np np " . . . second , > and very much related : might we consider the construction to be a form > of what has been discussed on this list of late as reduplication ? the > logical sense of " john mcnamara the name " is tautologous and thus , at > that level , indistinguishable from " well , well now , what have we here ? " . to say that ' john mcnamara the name ' is tautologous is to give support to those who say that a logic-based semantics is irrelevant to natural language . in what sense is it tautologous ? it supplies the value of an attribute followed by the attribute of which it is the value . if in fact the value of the name-attribute for the relevant entity were ' chaim shmendrik ' , ' john mcnamara the name ' would be false . no tautology , this . ( and no reduplication , either . )
از دیتا ست lingspam هستش ,وقتی بهش نگاه میکنم گیج میشم,یعنی باید فرکانس تمام این کلمات را حساب کنم؟؟من میخوام ایمیل اسپم را با استفاده از شبکه عصبی شناسایی کنم مثلا کلمه free توی اکثر هرزنامه ها وجود داره, استادم گفته فعلا یه شبکه عصبی با مثلا ده تا داده ورودی که همون ایمیل هامونن و ده تا کلمه ای که توی آنها تکرار شده را به کمک شبکه عصبی آموزش بدم و تست کنم !اگر بخوام تعداد تکرار تک تک کلمات رو در نظرم حتی برای ده تا ایمیل زمانبره ,میشه لطفا راهنماییم کنید.

RE: نیاز به دیتا ست - sina_bhh - 23 فروردین ۱۳۹۲ ۰۲:۱۲ ق.ظ

(۲۲ فروردین ۱۳۹۲ ۰۶:۵۹ ب.ظ)tarane khanoom نوشته شده توسط:  ببخشید من از lingspam دانلود کردم مسئلم اینه که مثلا این
Subject: re : 2 . 882 s - > np np

> date : sun , 15 dec 91 02 : 25 : 02 est > from : michael < mmorse @ vm1 . yorku . ca > > subject : re : 2 . 864 queries > > wlodek zadrozny asks if there is " anything interesting " to be said > about the construction " s > np np " . . . second , > and very much related : might we consider the construction to be a form > of what has been discussed on this list of late as reduplication ? the > logical sense of " john mcnamara the name " is tautologous and thus , at > that level , indistinguishable from " well , well now , what have we here ? " . to say that ' john mcnamara the name ' is tautologous is to give support to those who say that a logic-based semantics is irrelevant to natural language . in what sense is it tautologous ? it supplies the value of an attribute followed by the attribute of which it is the value . if in fact the value of the name-attribute for the relevant entity were ' chaim shmendrik ' , ' john mcnamara the name ' would be false . no tautology , this . ( and no reduplication , either . )
از دیتا ست lingspam هستش ,وقتی بهش نگاه میکنم گیج میشم,یعنی باید فرکانس تمام این کلمات را حساب کنم؟؟من میخوام ایمیل اسپم را با استفاده از شبکه عصبی شناسایی کنم مثلا کلمه free توی اکثر هرزنامه ها وجود داره, استادم گفته فعلا یه شبکه عصبی با مثلا ده تا داده ورودی که همون ایمیل هامونن و ده تا کلمه ای که توی آنها تکرار شده را به کمک شبکه عصبی آموزش بدم و تست کنم !اگر بخوام تعداد تکرار تک تک کلمات رو در نظرم حتی برای ده تا ایمیل زمانبره ,میشه لطفا راهنماییم کنید.
ببینید عنوان دقیق پروژه درسی که من انجام دادم spam filtering with neural network بر روی مجموعه داده ای lingspam بودش.یعنی میدونم که میخوایید چکاری انجام بدید.
از صحبت های شما اینطور برداشت میکنم که انگار میخوایید به صورت دستی کلمات رو استخراج و کلمات مهم رو انتخاب کنید.مطمئنا کل فرآیند باید به صورت خودکار باشه(از استخراج کلمات تا انتخاب ویژگی)
فرآیند استخراج کلمات کامل به نحوه کدنویسی شما بستگی داره.دوستان من از آرایه برای ذخیره سازی استفاده میکردن که هر کلمه رو با تمام کلمات استخراج شده قبلی مقایسه میکردن.که اونطور که میگفتن حدود چهل دقیقه طول میکشید!!! کاری که من کردم استفاده از ساختار خودارجاعی(که در ساختمان داده مطمئنا باهاش آشنا هستید) و همچنین مفهوم شاخص(index) (که در پایگاه داده باهاش آشنا هستید) بود که کمتر از یک دقیقه کلمات رو استخراج میکرد.نکته ای که وجود داره اینه که از هر روشی استفاده کنید کافیه فقط یکبار کلمات رو استخراج میکنید و داخل یه فایل ذخیره کنید و کارهای بعدی رو با اون فایل انجام بدید.

در مورد این که کلمه ای مثل free داخل همه ایمیل های هرزنامه وجود داره که قرار نیست به صورت دستی اون رو تعیین کنید.شما برای هر کلمه(ویژگی) که استخراج میشه باید از الگوریتم های انتخاب ویژگی مثل information gain(که قبلا ذکر کردم) استفاده کنید و به هر ویژگی یک رتبه اختصاص بدید.خود به خود ویژگی مثل free که داخل همه هرزنامه ها وجود داره با این الگوریتم رتبه بالاتری میگیره و به سادگی انتخاب میشن.چون ما دنبال کلماتی هستیم که داخل ایمیل های spam یا ham با تکرار زیاد وجود داشته باشه نه در داخل هر دو با تکرار بالا. پس اهمیت کلماتی مثل free به صورت خودکار و توسط الگوریتم های انتخاب ویژگی تعیین میشه(یعنی در نهایت مثلا از بین کل کلمات، ۲ درصد اونها رو انتخاب میکنید و بقیه کلمات رو دور میریزید)

تا اینجا زمان زیادی رو صرف نمیکنید.مرحله اصلی آموزش شبکه عصبی هستش که زمان بر هستش(بسته به تعداد ویژگی ها، نوع شبکه عصبی ، تعداد نودهای لایه میانی و در کل پارامترهای مختلف شاید حدود یک ساعت طول بکشه-البته برای بدست آوردن نتایج باید با این پارامترها بازی کنید و نتایج رو مقایسه کنید). که این مرحله هم توسط شبکه عصبی انجام میشه و باز شما دخالتی در یادگیری ندارید و فقط هر ایمیل رو به قالب ورودی نرم افزار تبدیل میکنید

نکته آخر اینکه قرار نیست کل اینکارها رو ابتدا روی تمام ایمیل ها انجام بدید.مثلا اگر ۲۴۰۰ ایمیل ham دارید شما به طور تصادفی ۲ درصد اون که حدود ۴۸ ایمیل میشه انتخاب کنید و کارها رو انجام بدید که مراحل کار توی ذهتون جای بگیره و در مرحله آخر از کل داده ها استفاده کنید