Öz
Internet’in hızlı gelişmesi ve yaygınlaşması elektronik ortamda iş ve işlemleri hızlandırmış ve kolaylaştırmıştır. Elektronik ortamlarda depolanan, taşınan ve işlenen bilgilerin boyutunun her geçen gün artması ise bilgiye erişim ile ilgili birçok problemi de beraberinde getirmiştir. Kullanıcıların elektronik ortamda sunulan bilgilere erişmelerindeki hız ve doğruluk gereksinimi nedeniyle, bu ortamlarda tutulan bilgileri sınıflandırma ve kategorilere ayırma yaklaşımlarına ihtiyaç duyulmaktadır. Sayıları milyonun üzerinde olan arama motorlarının, kullanıcıların doğru bilgilere kısa sürede ulaşmasını sağlaması için her geçen gün yeni yaklaşımlar ile desteklenmesi gerekmektedir. Bu çalışmada, web sayfalarının belirlenen konulara göre sınıflandırılabilmesi için, Çok Katmanlı (MLP) yapay sinir ağı modeli kullanılmıştır. Özellik vektörü içeriğinin seçimi, yapay sinir ağının eğitilmesi ve son olarak web sayfalarının doğru kategorize edilmesi için bir yazılım geliştirilmiştir. Bu zeki yaklaşımın, elektronik ortamlarda bilgilerin kolaylıkla ve yüksek doğrulukla sınıflandırılması, web ortamlarında doğru içeriğe ulaşılması ve birçok güvenlik açığının giderilmesine katkılar sağlayacağı değerlendirilmektedir.
Anahtar Kelimeler: Yapay sinir ağları, Metin gruplama, İçerik sınıflandırma, Web sayfası kategorizasyonu, Bilgi yönetimi
Referanslar
- Apte, C., Damerau, F. ve Weiss, S.M. (1994). Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 12, 233–251.
- Google. (2007). 20 Nisan 2007 tarihinde http://www.google.com.tr/intl/tr/why_use.html adresinden erişildi.
- Haykin, S. (1994). Neural networks: A comprehensive foundation. New York: Macmillan College.
- Joachims, T. (1997). Text categorization with support vector machines: Learning with many relevant features (Technical Report LS-8 Report: 23). Dortmund: University of Dortmund.
- Joachims, T. (1998). Text categorization with support vector machines: Learning with many relevant features. C. N'edellec ve C. Rouveirol (Ed.), Proceedings of the European Conference on Machine Learning içinde (s. 137-142). Berlin: Springer.
- Levenberg, K. (1944). A method for the solution of certain nonlinear problems in least squares. Quarterly of Applied Mathematics, 2, 164-168.
- Lewis, D. ve Ringuette, M. (1994). A comparison of two learning algorithms for text categorization. Proceedings of the Third Annual Symposium on Document Analysis and Information Retrieval (SDAIR’94) içinde (s. 81-93). Las Vegas.
- Lewis, D.D., Schapire, R.E., Callan, J.P. ve Papka, R. (1996). Training algorithms for linear text classifiers. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval içinde (s. 298-306). New York: ACM.
- Marquardt, D.W. (1963). An algorithm for least-squares estimation of nonlinear parameters. Journal of the Society for Industrial and Applied Mathematics, 11, 431-441.
- McCallum, A. ve Nigam, K. (1998). A comparison of event models for naive Bayes text classification. Learning for Text Categorization: Papers from the 1998 Workshop içinde (s. 41-48). San Francisco, CA: AAAI Press.
- Miniwatts International Inc. Internet Usage Statistics: The Big Picture. (2006). 01 Aralık 2006 tarihinde http://www.internetworldstats.com/stats.htm adresinden erişildi.
- Moulinier, I. ve Ganascia, J.G. (1996). Applying an existing machine learning algorithm to text categorization. S. Wermter, E. Riloff ve G. Scheler (Ed.), Connectionist, statistical, and symbolic approaches to learning for natural language processing içinde (s. 343-354). Heidelberg: Springer Verlag.
- Ng, H.T., Goh, W.B. ve Low, K.L. (1997). Feature selection, perceptron learning, and a usability case study for text categorization. N.J. Belkin, A.D. Narasimhalu, P. Willett ve W. Hersh (Ed.), Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval içinde (s. 67-73). Philadelphia, PA: ACM.
- Ruiz, M.E. ve Srinivasan, P. (2002). Hierarchical text categorization using neural networks. Information Retrieval, 5, 87-118.
- Sağıroğlu, Ş., Beşdok, E. ve Erler, M. (2003). Mühendislikte yapay zekâ uygulamaları I: Yapay sinir ağları. Kayseri: Ufuk Kitabevi.
- Shanks, V. ve Williams, H.E. (2001). Fast categorisation of large document collections. Proceedings: Eight Symposium on String Processing and Information Retrieval November 13-15, Laguna de San Rafael, Chile içinde (s. 194-204). San Rafael, Chile: IEEE Computer Society.
- Wiener, E.D., Pedersen, J.O. ve Weigend, A.S. (1995). A neural network approach to topic spotting. Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95) içinde (s. 317-332). Las Vegas.
- Witten, I.H., Moffat, A. ve Bell, T.C. (1999). Managing gigabytes: Compressing and indexing documents and images. San Francisco, CA: Morgan Kaufmann.
- Yang, Y. ve Pedersen, J.O. (1997). A comparative study on feature selection in text categorization. Proceedings of the Fourteenth International Conference on Machine Learning (ICML’97) içinde (s. 412-420). San Francisco, CA: Morgan Kaufmann.
- Yu, E.S. ve Liddy, E.D. (1999). Feature selection in text categorization using the Baldwin effect. Proceedings of IJCNN '99 (International Joint Conference on Neural Networks) içinde (s. 2924-2927). Washington, DC: IEEE Press.
Lisans
Telif Hakkı (c) 2008 Yazar(lar). Açık erişimli bu makale, orijinal çalışmaya uygun şekilde atıfta bulunulması koşuluyla, herhangi bir ortamda veya formatta sınırsız kullanım, dağıtım ve çoğaltmaya izin veren Creative Commons Attribution License (CC BY) altında dağıtılmıştır.

