دانشکده مهندسی برق و کامپیوتر

جلسه دفاع از رساله: آقای مهرداد الماسی، گروه مهندسی کامپیوتر

خلاصه خبر: شناسايي فرامکاشفه ای الگو مبتنی بر کشف ویژگی های همبسته در مجموعه داده های عظیم

عنوان: شناسايي فرامکاشفه ای الگو مبتنی بر کشف ویژگی های همبسته در مجموعه داده های عظیم
ارائه‌کننده: مهرداد الماسی
استاد راهنما: دکتر محمد صنیعی
استاد ناظر داخلی اول: دکتر سعید جلیلی
استاد ناظر داخلی دوم: دکتر فواد قادری
استاد ناظر خارجی اول: دکتر حمید بیگی (دانشگاه صنعتی شریف)
استاد ناظر خارجی دوم: دکتر سامان هراتی زاده (دانشگاه تهران)
استاد مشاور اول: دکتر نصرالله مقدم
مکان: 351 (دانشکده فنی مهندسی)
تاریخ: 97/04/27
ساعت: 16:30

چکیده امروزه مجموعه داده هاي انبوه در مقياس گيگا و ترا، تبديل به يکي از رايج ترين مجموعه داده هاي مورد استفاده توسط محققان شده اند. علوم بيوانفورماتيک، فيزيک، اقتصاد و محيط زيست از حوزه هاي اصلي توليد کننده ي مجموعه داده هاي انبوه مي باشند. دانستن ارتباط ميان ويژگي ها براي استخراج دانش نهان در مجموعه داده هاي انبوه، از جمله نياز هاي اصلي در تمامي حوزه هاي علمي مي باشد. با توجه به اهميت استخراج دانش نهان، پردازش و تحليل مجموعه هاي داده ها با هدف يافتن ويژگي هاي همبسته، هدف اصلي اين رساله مي باشد. در اين رساله راهکاري موازي براي يافتن ويژگي هاي همبسته ارائه گرديده که به کمک پردازش توزيع شده به يافتن قوانين انجمني (از رايج ترين فرم هاي ويژگي هاي همبسته) مي پردازد. توزيع پردازش هم در سطح محاسبه ي کيفيت قوانين و هم در سطح توليد قوانين مورد توجه قرار گرفته و براي هر کدام راه حل هايي مبتني بر پردازش موازي و مدل برنامه نويسي MapRedcue ارائه گرديده است. البته از آنجايي که روش هاي کلاسيک يافتن قوانين انجمني بر روي داده هاي انبوه، قابل بکارگيري نيستند. ساختمان داده هاي جديدي معرفي شده که کاملا مناسب براي توسعه ي روش هاي کلاسيک شناسايي قوانين انجمني مي باشد و امکان بکارگيري روش هاي کلاسيک بر روي مجموعه داده هاي انبوه را فراهم مي کند. راهکار ارائه شده در رساله در قالب يک معماري سه گامي بيان شده. اين گام ها عبارتند از: توليد يک روش کلاسيک براي مجموعه داده هاي کمّي کوچک، ايجاد ساختمان داده هاي جديد و توسعه ي روش گام قبل و در نهايت تفسير مناسب بودن مجموعه هاي داده براي بکارگيري روش هاي پيش بيني مبتني بر قوانين انجمني. براي ارزيابي گام هاي راهکار اين رساله، مجموعه از داده هاي انبوه (از 500 هزار تا 32 ميليون رکورد و از 10 تا 631 ويژگي) مورد مطالعه قرار گرفته است. از لحاظ عملکردي در زمان اجرا تا 8 برابر بهبود در معيار Speedup در برخي از مجموعه هاي داده حاصل شد. بعلاوه در معيارهاي هاي تفسير قوانين و دقت دسته بندها، برتري قابل ملاحظه اي در رقابت با اغلب رقبا بدست آمد (بیش از 72 درصد در مجموعه داده ی انبوه نامتوازن پروتئيني برای معیارهای sensitivity و و بیش از 73 درصد در مجموعه داده های انبوه متوازن برای معیار accuracy) . البته بکمک آزمون هاي آماري، اين برتري ها از منظر ميزان قابليت اعتماد مورد مطالعه قرار گرفت. نتايج برتري راهکارهاي پيشنهادي را تاييد مي کرد.
کلمات کلیدی مجموعه داده های انبوه، برنامه نویسی توزیع شده، ویژگی های همبسته، قوانین انجمنی، روش های تکاملی

24 تیر 1397 / تعداد نمایش : 2002