تمثيل استعلامات SQL باستخدام نموذج BERT

المؤلفون

  • سوزان التركماني

الملخص

تحليل الاستعلامات المطبقة على قواعد البيانات يمثل نقطة الإنطلاق للعديد من المهام الرئيسية في إدارة قواعد البيانات، مثل تلخيص الأحمال، وضبط بالفهارس، ومهام إدارية أخرى. ونظراً لصعوبة إجراء تحليلات يدوية مع توسع أحجام قواعد البيانات ومارافقها من تعقيد في الاستعلامات وزيادة في حجم الأحمال المطبقة على القاعدة، كان من الضروري إيجاد تمثيلات رقمية فعالة للاستعلامات لتمثيل المعلومات بشكل دقيق يمكن استخدامها في خوارزميات التعلم الآلي، على سبيل المثال كإدخال لخوارزميات التعلم المعزز المصممة لضبط الفهارس.

تهدف هذه الدراسة إلى استغلال نموذج لغوي متقدم، وهو نموذج BERT، لإنشاء تمثيلات للاستعلامات. يشمل البحث استخراج التضمينات باستخدام النموذج، ثم تقييم كفاءتها في مهمتين اكتشاف التشابه بين الاستعلامات والتجميع.

أظهرت النتائج في مهمة اكتشاف التشابه الجودة العالية لتضمينات النموذج، حيث تفوق على أساليب تشابه الاستعلامات المرجعية في جميع مجموعات بيانات الإختبار بالنسبة لمعامل (Silhouette)، ووصل لتحسين لا يقل عن 90% بالنسبة لهذا المقياس كما حقق انخفاضاً كبيراً في معامل التماسك (BetaCV)  بنسبة لا تقل عن 82% مقارنةً بأساليب التشابه المرجعية.

تم أيضاً تطبيق اختبارات على مستوى التجميعClustering ، حيث تمت مقارنة نموذج BERT مع ثلاثة نماذج لغوية معروفة أخرى باستخدام ثلاث خوارزميات تجميع و أظهرت النتائج تفوق نموذج BERT  بشكل ملحوظ في تشكيل تجمعات متماسكة ومنفصلة عبر مختلف مجموعات البيانات، خاصةً في خوارزميات Kmeans وHAC مع أداء جيد في خوارزمية Optics.

التنزيلات

منشور

2025-07-27

إصدار

القسم

سلسلة العلوم الهندسية الميكانيكية و الكهربائية و المعلوماتية