سلام
من با توجه به پیام خصوصی که ارسال کردید به اینجا سر زدم و هرچی نگاه میکنم سوال خاصی نپرسید که جواب بدم.ولی یه توضیح خلاصه میدم:
معمولا دیتاست هایی مثل iris خودشون یه فایل به صورت تکست هستن که سطرهای داخل این فایل داده ها یا نمونه ها(pattern, data point, example یا هر اسم دیگه که شنیدید) را مشخص میکنن.هر داده شامل یکسری ویژگی هستش که نشان دهنده ستونها هستن. این ویژگی ها یا با کاما (,) از هم جدا میشن یا فاصله (space) یا ....
مثلا دیتاست iris به صورت زیر هستش:
کد:
۵/۱,۳/۵,۱/۴,۰/۲,Iris-setosa
۴/۹,۳/۰,۱/۴,۰/۲,Iris-setosa
...
۷/۰,۳/۲,۴/۷,۱/۴,Iris-versicolor
۶/۴,۳/۲,۴/۵,۱/۵,Iris-versicolor
...
۶/۳,۳/۳,۶/۰,۲/۵,Iris-virginica
۵/۸,۲/۷,۵/۱,۱/۹,Iris-virginica
...
Iris-setosa و Iris-versicolor و Iris-virginica کلاس داده ها هستن که در کلاسترینگ استفاده نمیشن و برای classification استفاده میشن. شما برای پیاده سازی یه ماتریس درست میکنید که تعداد سطرها نشان دهنده داده ها هستن و تعداد ستونها برابر با تعداد ویژگی ها هستن. مثلا در دیتاست iris یک ماتریس ۱۵۰ * ۴ ایجاد میکنید.چون ۱۵۰ نمونه در iris وجود داره و هر داده شامل ۴ ویژگی هستش.مثلا همین موارد بالا به این صورت داخل ماتریس ذخیره میکنید:
کد:
۵/۱ 3.5 1.4 0.2
۴/۹ 3.0 1.4 0.2
...
۷/۰ 3.2 4.7 1.4
۶/۴ 3.2 4.5 1.5
...
۶/۳ 3.3 6.0 2.5
۵/۸ 2.7 5.1 1.9
حالا چون گفتید اول با یه آرایه از اعداد تصادفی کار کردید تصور میکنم شما به صورت یک بعدی اینکار رو انجام دادید.یعنی هر داده فقط شامل یک ویژگی بوده.حالا فقط شما باید تصور کنید که در فضای l بعدی کار میکنید یعنی l ویژگی دارید
اینم اضافه کنم شما با هر دیتاستی کار کنید مطمئنا در کنارش یه فایل قرار میدن که در مورد دیتاست توضیح میده که از کجا اومده، ویژگی ها چی هستن، برچسب کلاس ها چی هست، مربوط به چه حوزه ای هستش و ....
البته ببخشید.مطمئنا من زیاد توضیح دادم که شاید اکثر این موارد رو خودتون بلد باشید