تمثل عمليات البحث على الإنترنت في كافة محركات البحث أو المواقع عصب الشبكة العنكبوتية، من هنا تأتي أهمية بحث قدم في جامعة "تشرين" كلية الهندسة المعلوماتية لتطوير خوارزمية تساعد على تحسين نتائج البحث باللغة العربية.

في رسالة الدكتوراه التي تمنحها جامعة "تشرين" للمرة الثانية في مجال الهندسة المعلوماتية، استقر المهندس "عبد الحميد قريعة" على طرح موضوع إشكالي يعاني منه كل المبحرين في فضاء الشبكة، وهو موضوع "البحث باللغة العربية" Arabic Search، لكونه عصب أي عمل يقوم به أي شخص سواء للعمل أو للتسلية أو غير ذلك، وقد تمت المناقشة في قاعة محاضرات المكتبة المركزية قبل نهاية العام المنصرم بيومين، وبحضور الدكتور المشرف على البحث الأستاذ الدكتور "أحمد صقر أحمد" والدكتور "قاسم قبلان" المشارك في الإشراف.

هناك سلسلة إجراءات تتبعها الخوارزمية حتى الوصول إلى أصل الكلمة المطلوب، وفي حال عدم وجود أية كلمة مطابقة نعود إلى الكلمة نفسها ونجري البحث عنها

في حديث مع مدونة وطن "eSyria" بتاريخ 22 كانون الثاني 2015، تحدث الباحث "قريعة" عن بحثه فقال: «تستخدم كل محركات البحث خوارزميات محددة للوصول إلى الكلمة المطلوبة، وكل منها له خوارزميته الخاصة التي يستخدمها وفقاً لرؤيته، وقد ظهرت محركات بحث عربية تستخدم خوارزميات عربية لكنها حتى اليوم دون المستوى العالمي من الانتشار، مع العلم أن مستخدمي اللغة العربية في العالم يتجاوزون 300 مليون إنسان».

خصائص العربية

تعد اللغة العربية بخصوصيتها من اللغات الصعبة في تكوين البحث عبر الإنترنت، وهي من اللغات التي تحتاج مزيداً من تطوير آليات البحث فيها للوصول إلى المعنى السليم الذي يقصده الشخص فعلاً، يضيف الباحث قائلاً: «هذه مشكلة ليس فقط في اللغة العربية ولكن بكل اللغات، ولكنها أقل من العربية بسبب محدودية الكلمات الأجنبية وعدم ارتباطها الحرفي بالضمائر مثلاً، كذلك نظراً لضعف الخبرات العربية في مجال معالجة الخوارزميات اللغوية، إضافة إلى خصوصية اللغة العربية لكونها من اللغات الاشتقاقية ذات التشكيل الذي يغير كثيراً من معاني الكلمات، وهذه معضلة كبيرة حاول الباحثون حلها مراراً وتكراراً، فظهرت خوارزميات تجذير أجنبية وأخرى مشتركة بين باحثين عرب وأجانب، وخوارزمية التجذير التي طرحناها تعد تطويراً لهذه الخوارزميات».

ما يميز هذه الخوارزمية هو اعتمادها تقنية هجينة تدمج تقنيات المجذر Light Stemmer مع تقنيات البحث في قاعدة بيانات لغوية، واعتمادها طريقة حذف حرف من الكلمة المراد البحث فيها بشكل متتال ومقابلتها بالرصيد اللغوي (البنك) الذي تختزنه قاعدة بيانات اللغوية "عرب وردنت" Arab Word Net نفسها؛ والبالغ عدد كلماتها قرابة 12 ألف كلمة، يقول الباحث مضيفاً: «هناك سلسلة إجراءات تتبعها الخوارزمية حتى الوصول إلى أصل الكلمة المطلوب، وفي حال عدم وجود أية كلمة مطابقة نعود إلى الكلمة نفسها ونجري البحث عنها».

نظم استعادة المعلومات

خلص البحث إلى تفوق هذه الخوارزمية عند استخدامها في محركات البحث مقابل الخوارزميات المستخدمة حالياً على الشبكة في مجال السياحة والإعلام، وأعطى نفس النسبة في مجالات السياسة والاقتصاد وغيرها، وذكر الدكتور "قاسم قبلان" المشارك في الإشراف على الرسالة ضمن النقاش الذي دار حول البحث أن هذه الخوارزمية تعد إنجازاً مهماً للجامعة وللكلية وللمهندس "قريعة" في آن، وأضاف: «نحن بحاجة للانتقال إلى مرحلة الاهتمام بالمحتوى العربي على الإنترنت لتقديم أفضل النتائج للباحث العادي والمختص، ولعل هذه الخطوة تكون مقدمة للتشجيع على ابتكار خوارزميات أخرى أو تطوير هذه الخوارزمية لتحقق أفضل النتائج».

ناقش الرسالة عدد من الأساتذة الزائرين من جامعة "حمص" من الأساتذة المختصين، وقد طالب الأستاذ الدكتور "أسبر إبراهيم" بتسجيل هذه الخوارزمية وحماية ملكيتها واعتمادها بعد تطويرها لتكون محرك بحث عربي متخصصاً خاصة أن هذه الخوارزمية تساعد على تقدم البحث العربي بوجه جيد قياساً بخوارزميات البحث الأجنبية التي مهما تقدمت تبقى قاصرة عن فهم روح الكلمة العربية.

لجنة التحكيم

يذكر أخيراً، أن هناك العديد من الخوارزميات المستخدمة في البحث بالعربية كان آخرها تطوير شركة جوجل العام 2012 لخوارزمية حملت اسم "الطائر الطنان Hummingbird" أجرت فيها تحديثات كثيرة على خوارزمياتها السابقة تميزت بالسرعة والدقة؛ كما تقول الشركة على موقعها الرسمي.