مریم شعار؛ علیاصغر سالارنژاد
چکیده
با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستمهای خودکار استخراج اطلاعات بیشتر شده است. از مهمترین روشهای خودکار استخراج اطلاعات، خوشهبندی میباشد. روشهای خوشهبندی زیادی تابهحال ارائه شده است که اکثراً مبتنی بر مدل برداری میباشند. در این مدل با هر سند مانند مجموعهای از کلمات برخورد میگردد و توالی کلمات ...
بیشتر
با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستمهای خودکار استخراج اطلاعات بیشتر شده است. از مهمترین روشهای خودکار استخراج اطلاعات، خوشهبندی میباشد. روشهای خوشهبندی زیادی تابهحال ارائه شده است که اکثراً مبتنی بر مدل برداری میباشند. در این مدل با هر سند مانند مجموعهای از کلمات برخورد میگردد و توالی کلمات در جمله، نادیده گرفته میشود. ازآنجاییکه معانی در زبان طبیعی بهطور کامل وابسته به توالی کلمات میباشند نقیصه بزرگی در این روشها احساس میگردد. برای رفع این نقیصه در این مقاله روشی جدید در خوشهبندی اسناد Html ارائه گردیده است که در آن الگوریتم Stc برای خوشهبندی Snippet ها لحاظ شدهاست. این روش که با عنوان خوشهبندی بر اساس جملات کلیدی Ks_Stc مطرح شده برای هر سند بردار وزنداری تهیه میکند و با استفاده از این بردار، جملات کلیدی هر متن از سند استخراج میگردد و نهایتاً این جملات کلیدی برای خوشهبندی به الگوریتم Stc داده میشود.