2 ديسمبر 2025
Misraj Team
Team
وسم هو أول إطار عربي من مسراج لمعالجة بيانات Common Crawl وإنشاء مجموعة بيانات ويب متعددة الوسائط تحافظ على بنية المستند وتربط بين النص والصور. الإطار يوفر أساسا منظما لتدريب النماذج اللغوية والنماذج ...
في مسراج، نرى أن مستقبل النماذج العربية المتقدمة يعتمد على بيانات عالية الجودة تعكس الشكل الحقيقي للمحتوى العربي على الويب، نصا وصورا وبنية. لهذا الهدف طورنا وسم، وهو أول إطار عربي لمعالجة بيانات Common Crawl وإنشاء مجموعة بيانات متعددة الوسائط تحافظ على البنية الأصلية للمستندات وتربط بين النص والصور بشكل منظم وقابل للاستخدام المباشر في تدريب النماذج اللغوية والمتمحورة حول الرؤية.
المشكلة التي أردنا حلها واضحة. أغلب خطوط المعالجة الحالية تكتفي باستخراج نص مسطح من صفحات الويب، مما يلغي السياق البصري، والعناوين، وترتيب الأقسام، وارتباط الصور بالتعليقات التوضيحية. هذه البنية ليست مجرد تفاصيل تجميلية، بل هي جزء أساسي من فهم المستند، خصوصا عند تدريب نماذج متعددة الوسائط أو نماذج تتعامل مع مستندات حقيقية مثل المقالات والتقارير والصفحات التعليمية.
في وسم صممنا خط معالجة كامل خاص بالعربية، مستوحى من منهجية OBELICS مع تعديلات عميقة تناسب طبيعة المحتوى العربي. يبدأ الخط بمرحلة ترشيح الصفحات العربية من أرشيف Common Crawl، ثم معالجة شاملة لملفات HTML لإزالة الضجيج مثل القوائم الجانبية والإعلانات والعناصر غير النصية، مع الإبقاء على الهيكل الحقيقي للمحتوى، من عناوين وأقسام وفقـرات وقوائم وصور.
اعتمدنا في الترشيح اللغوي على نموذج Perplexity مخصص للعربية مبني على KenLM، ومدرب على بيانات تغطي العربية الفصحى ولهجات مختلفة. هذا النموذج يسمح لنا بتمييز النصوص المتماسكة عن النصوص المولدة آليا أو منخفضة الجودة، مع تجنب حذف التنوع اللهجي المشروع. كما طبقنا إزالة تكرار دقيقة على مستوى عقد HTML باستخدام محاذاة شبيهة بخوارزمية Needleman–Wunsch، وليس على مستوى المستند بالكامل، حتى نستطيع التخلص من العناصر المكررة مثل التذييلات وقوائم التنقل مع الحفاظ على المحتوى الأصلي الفريد.
النتيجة هي مجموعة بيانات عربية متعددة الوسائط تحافظ على تسلسل النص والصور كما يظهران في المستند، مع تمثيل منظم يمكن تحويله بسهولة إلى تنسيقات مثل Markdown أو إلى أزواج نص وصورة أو إلى تسلسل متداخل يستخدم مباشرة في تدريب نماذج متعددة الوسائط. هذه المرونة تجعل Wasm مناسبا لتدريب كل من النماذج اللغوية الكبيرة والنماذج البصرية اللغوية، وكذلك لتجارب البحث في فهم المستندات العربية.
قمنا بنشر الكود ومعه جزء من البيانات حتى نتيح للباحثين إعادة إنتاج النتائج والبناء عليها، ونعمل على توسيع وسم ليشمل مصادر إضافية من الويب العربي. كما استخدمنا مخرجات وسم بالفعل في تدريب نماذجنا الخاصة في مسراج، مثل بصير الذي يركز على فهم المستندات العربية واستخراجها بشكل منظم.
نعتبر وسم خطوة أساسية نحو بناء طبقة بيانات عربية حديثة، تعكس تنوع الويب العربي وتحافظ على بنيته وتكامل نصه وصوره. هذه الطبقة هي ما نحتاجه اليوم حتى نصل إلى جيل جديد من النماذج العربية التي تفهم المستند كما يراه المستخدم، لا كما يظهر في سطر نصي واحد.
رابط الورقة البحثية:
تواصل معنا لتكتشف كيف يمكن لتقنيات مسراج أن تغيّر طريقة عمل مؤسستك.
لتبدأ رحلتك لحلول أذكى