تمثيل استعلامات SQL باستخدام نموذج BERT

سوزان التركماني

المؤلفون

سوزان التركماني

الملخص

تحليل الاستعلامات المطبقة على قواعد البيانات يمثل نقطة الإنطلاق للعديد من المهام الرئيسية في إدارة قواعد البيانات، مثل تلخيص الأحمال، وضبط بالفهارس، ومهام إدارية أخرى. ونظراً لصعوبة إجراء تحليلات يدوية مع توسع أحجام قواعد البيانات ومارافقها من تعقيد في الاستعلامات وزيادة في حجم الأحمال المطبقة على القاعدة، كان من الضروري إيجاد تمثيلات رقمية فعالة للاستعلامات لتمثيل المعلومات بشكل دقيق يمكن استخدامها في خوارزميات التعلم الآلي، على سبيل المثال كإدخال لخوارزميات التعلم المعزز المصممة لضبط الفهارس.

تهدف هذه الدراسة إلى استغلال نموذج لغوي متقدم، وهو نموذج BERT، لإنشاء تمثيلات للاستعلامات. يشمل البحث استخراج التضمينات باستخدام النموذج، ثم تقييم كفاءتها في مهمتين اكتشاف التشابه بين الاستعلامات والتجميع.

أظهرت النتائج في مهمة اكتشاف التشابه الجودة العالية لتضمينات النموذج، حيث تفوق على أساليب تشابه الاستعلامات المرجعية في جميع مجموعات بيانات الإختبار بالنسبة لمعامل (Silhouette)، ووصل لتحسين لا يقل عن 90% بالنسبة لهذا المقياس كما حقق انخفاضاً كبيراً في معامل التماسك (BetaCV) بنسبة لا تقل عن 82% مقارنةً بأساليب التشابه المرجعية.

تم أيضاً تطبيق اختبارات على مستوى التجميعClustering ، حيث تمت مقارنة نموذج BERT مع ثلاثة نماذج لغوية معروفة أخرى باستخدام ثلاث خوارزميات تجميع و أظهرت النتائج تفوق نموذج BERT بشكل ملحوظ في تشكيل تجمعات متماسكة ومنفصلة عبر مختلف مجموعات البيانات، خاصةً في خوارزميات Kmeans وHAC مع أداء جيد في خوارزمية Optics.

تمثيل استعلامات SQL باستخدام نموذج BERT

المؤلفون

الملخص

التنزيلات

منشور

إصدار

القسم

إنشاء طلب نشر

المعلومات