نوع مقاله : مقاله پژوهشی
نویسندگان
1 استادیار گروه مدیریت صنعتی، دانشکده مدیریت دانشگاه آزاد اسلامی واحد تهران شمال
2 کارشناسی ارشد، مدیریت فناوری اطلاعات، دانشکده مدیریت، دانشگاه آزاد اسلامی، واحد تهران شمال، تهران.
چکیده
با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستمهای خودکار استخراج اطلاعات بیشتر شده است. از مهمترین روشهای خودکار استخراج اطلاعات، خوشهبندی میباشد. روشهای خوشهبندی زیادی تابهحال ارائه شده است که اکثراً مبتنی بر مدل برداری میباشند. در این مدل با هر سند مانند مجموعهای از کلمات برخورد میگردد و توالی کلمات در جمله، نادیده گرفته میشود. ازآنجاییکه معانی در زبان طبیعی بهطور کامل وابسته به توالی کلمات میباشند نقیصه بزرگی در این روشها احساس میگردد. برای رفع این نقیصه در این مقاله روشی جدید در خوشهبندی اسناد Html ارائه گردیده است که در آن الگوریتم Stc برای خوشهبندی Snippet ها لحاظ شدهاست. این روش که با عنوان خوشهبندی بر اساس جملات کلیدی Ks_Stc مطرح شده برای هر سند بردار وزنداری تهیه میکند و با استفاده از این بردار، جملات کلیدی هر متن از سند استخراج میگردد و نهایتاً این جملات کلیدی برای خوشهبندی به الگوریتم Stc داده میشود.
کلیدواژهها
عنوان مقاله [English]
A New Method to Cluster HTML Documents Using Mixed Algorithms
نویسندگان [English]
- Maryam Shoar 1
- Ali Asghar Salarnezhad 2
1 Assistant Professor, Department of Industrial Management, Faculty of Management, Islamic Azad University, Tehran North Branch, Tehran
2 MA, Information Technology Management, Faculty of Management, Islamic Azad University, Tehran North Branch, Tehran.
چکیده [English]
Given the high volume of web information, more attention has been paid to the automatic data extraction systems. One of the most important methods of data extraction is clustering. Today, many clustering methods are provided which are mostly based on vector models. In these models, each document is treated like a set of words, and the sequence of words in the sentence is ignored. Since the meanings in the natural language are completely dependent on the sequence of words, a great deal of shortcomings is observed in these methods. To overcome these shortcomings, this paper presents a new method for clustering HTML documents in which STC algorithm is considered for clustering snippets. This method, called clustering based on KS_STC key sentences, provides a weighted vector for each document and using this vector, the key sentences of each text are extracted from the document. Finally, these key sentences are given for clustering to the STC algorithm.
کلیدواژهها [English]
- : HTML Document Clustering
- Data mining
- Information Extraction Systems
- Classification
- Information Overload