8 ديسمبر 2025
Misraj Team
Team
بصير هو نموذج رؤية ولغة طورناه في مسراج لتحويل صور المستندات العربية وملفات PDF إلى نص منظم بصيغة Markdown مع الحفاظ على البنية. درب على 500 ألف صفحة، ويتفوق على كافة النماذج في تحويل المستندات لنصوص
في مسراج نرى أن مستقبل النماذج العربية المتقدمة يعتمد على بيانات عالية الجودة وقدرات حقيقية في فهم المستندات العربية كما يراها المستخدم. كثير من الكتب والوثائق الرسمية والمواد التعليمية ما زالت محفوظة على هيئة صور أو ملفات PDF يصعب البحث فيها أو استخدامها داخل التطبيقات الذكية. هذا التحدي يصبح أعقد عندما تكون اللغة هي العربية بما تحمله من اتصال في الحروف وتنوع في الخطوط ووجود التشكيل والكتابة من اليمين إلى اليسار.
من هنا جاء عملنا على بصير. هو نموذج رؤية ولغة قمنا في مسراج بتخصيصه لمهمة قراءة المستندات العربية وتحويلها إلى نص منظم بصيغة Markdown يحافظ على النص والبنية معا. يعتمد Baseer على نموذج Qwen2.5 VL 3B Instruct متعدد الوسائط ثم نقوم بضبطه بدقة على بيانات عربية كبيرة تم إعدادها خصيصا لهذه المهمة.
المشكلة التي أردنا حلها
الحلول المتاحة لقراءة المستندات العربية تعاني من عدة نقاط ضعف. كثير منها يتعامل مع المستند كسطور نصية فقط دون فهم تخطيط الصفحة. بعضها يتجاهل الجداول والحواشي والترويسات. بعضها يفشل تماما مع الخطوط القديمة أو الصفحات المصورة بجودة منخفضة. إضافة إلى ذلك فإن معظم أنظمة OCR العالمية صممت في الأساس للغات ذات حروف منفصلة مثل الإنجليزية لذلك يتراجع أداؤها عندما تواجه الخط العربي المعقد.
نحن أردنا الوصول إلى نموذج يتعامل مع المستند العربي كصورة كاملة. يفهم العناوين والفقـرات والجداول. يربط بين النص وموقعه في الصفحة. ويعيد إخراج المستند بشكل منظم يصلح للتدريب والاستخدام العملي في آن واحد.
ما الذي بنيناه في مسراج
بصير هو نموذج رؤية ولغة مهيأ لمهمة تحويل صورة المستند إلى تمثيل Markdown منظم. اخترنا Qwen2.5 VL 3B Instruct كنموذج أساس بعد تجارب أظهرت تفوقه النسبي في التعامل مع العربية مقارنة بنماذج أخرى مفتوحة المصدر. في مرحلة الضبط قمنا بتجميد الجزء البصري في النموذج وتحديث الجزء اللغوي فقط حتى نحافظ على القدرات البصرية العامة ونخصص فهم اللغة والبنية للمستندات العربية.
كيف دربنا بصير والبيانات التي اعتمدنا عليها
اعتمدنا في تدريب يصير على مجموعة بيانات مكونة من خمسمئة ألف زوج من صورة ونص مناظر. ثلاثمئة ألف زوج منها جاءت من مستندات صناعية أنشأناها عبر خط معالجة يبدأ من نصوص Markdown عالية الجودة ثم يحولها إلى HTML ثم Word ثم PDF ثم صور. خلال هذه السلسلة نوعنا في الخطوط وأحجام الصفحات والألوان وعدد الأعمدة وأنماط التنسيق. كما طبقنا مجموعة كبيرة من المؤثرات لمحاكاة الواقع مثل التشويش واصفرار الورق والظلال وتشوه المنظور.
أما المئتا ألف زوج المتبقية فجاءت من مستندات حقيقية تشمل كتب ومجلات ومواد تعليمية وأبحاث. اخترنا صفحات ذات تخطيطات معقدة تحتوي على جداول وصور وحواشي. استخدمنا نموذجا رؤيويا لغويا متقدما لاقتراح النص الأولي ثم قام فريقنا بمراجعة جزء ممثل من هذه البيانات يدويا للتأكد من جودة النص والبنية. جميع النصوص النهائية مكتوبة بصيغة Markdown مع تمثيل الجداول بصيغة HTML وإضافة وسوم خاصة لعناصر مثل أرقام الصفحات والعلامات المائية.
بالتوازي مع ذلك طورنا في مسراج معيار تقييم جديد باسم Misraj DocOCR يتضمن أربعمئة صورة لمستندات عربية متنوعة مع نصوص مرجعية تمت مراجعتها يدويا. كما قمنا بتصحيح وتحسين معيار KITAB pdf to markdown ورفعنا نسخة منقحة منه لتجنب الهلاوس والأخطاء البنيوية.
نتائج بصير مقارنة بالأنظمة الأخرى
قمنا بتقييم بصير على معيار Misraj DocOCR وعلى النسخة المصححة من معيار KITAB وقارنا أداءه مع مجموعة واسعة من الأنظمة المفتوحة والتجارية مثل Gemini 2.5 Pro و Azure Document Intelligence و Dots OCR و Qari بالإضافة إلى نماذج متعددة الوسائط مثل Qwen VL و Gemma VL. استخدمنا في التقييم مقاييس خاصة بالنص مثل معدل خطأ الكلمات ومعدل خطأ الأحرف و BLEU و ChrF بالإضافة إلى مقاييس للبنية مثل TEDS و MARS التي تقيس مدى حفاظ النموذج على تخطيط المستند.
جدول مقارنة أداء بصير مع النماذج الأخرى على معيار Misraj DocOCR:
|
النموذج |
معدل خطأ الكلمات |
معدل خطأ الأحرف |
BLEU |
ChrF |
TEDS - دقة البنية |
MARS - تنسيق المستند |
الملاحظة المختصرة |
|---|---|---|---|---|---|---|---|
|
Baseer - Misraj |
الأفضل |
ممتاز |
عالي |
عالي |
الأفضل |
الأفضل |
توازن قوي بين دقة النص وفهم البنية ويحقق أفضل النتائج الكلية |
|
Gemini 2.5 Pro |
جيد |
جيد |
ممتاز |
ممتاز |
متوسط |
جيد |
أداء لغوي قوي لكن فهم البنية العربية محدود في الصفحات المعقدة |
|
Azure Document Intelligence |
جيد جدا |
جيد |
جيد |
جيد |
متوسط |
متوسط |
يقدم نتائج ثابتة لكن يفقد تفاصيل البنية في بعض المستندات العربية |
|
Dots OCR |
متوسط |
متوسط |
متوسط |
متوسط |
ضعيف |
ضعيف |
غير مهيأ بشكل كاف للغة العربية |
|
Qari OCR |
من خلال هذه النتائج نرى أن بصير يحقق أقل معدل خطأ كلمات وأعلى درجات في المقاييس البنيوية ويتفوق على النماذج التجارية والمفتوحة المصدر على حد سواء في فهم تخطيط المستندات العربية.
لماذا بصير مهم بالنسبة لنا في مسراج
بالنسبة لنا في مسراج يصير هو حجر أساس في طبقة فهم المستندات العربية. فهو يفتح الطريق أمام حلول متقدمة مثل الأرشفة الذكية للوثائق الحكومية والأكاديمية وتلخيص العقود القانونية وبناء محركات بحث عربية تعتمد على محتوى المستند نفسه لا على عنوانه فقط. كما يثبت أن تكييف نموذج متعدد الوسائط عام مع بيانات عربية متخصصة يمكن أن يتفوق على أنظمة مغلقة أكبر حجما عندما يتم تصميم البيانات ومنهجية التدريب بعناية.
أين يمكن استخدام بصير
صممنا بصير ليكون قابلا للدمج في تطبيقات مختلفة مثل:
رقمنة الأرشيفات العربية القديمة وتحويلها إلى نص قابل للبحث
بناء أنظمة قراءة وفهم للوثائق الحكومية والقانونية
تحسين البحث داخل ملفات PDF العربية في المؤسسات والشركات
مساعدة الباحثين في استخراج الجداول والمراجع من الكتب والأبحاث
إنشاء بيانات تدريب حقيقية للنماذج اللغوية العربية بالاعتماد على مستندات واقعية
في الخاتمة
بصير يمثل نقلة نوعية في مجال OCR للمستندات العربية. من خلال بيانات مدروسة ومعيار تقييم مخصص للعربية واستراتيجية ضبط فعالة استطعنا في مسراج أن نقدم نموذجا يتفوق على كثير من البدائل المفتوحة والتجارية ويضع أساسا يمكن البناء عليه في مشاريع عربية قادمة تعتمد على فهم المستندات.
رابط الورقة البحثية:
تواصل معنا لتكتشف كيف يمكن لتقنيات مسراج أن تغيّر طريقة عمل مؤسستك.
لتبدأ رحلتك لحلول أذكى
|
متوسط |
|
جيد |
|
منخفض |
|
متوسط |
|
ضعيف |
|
ضعيف |
|
يركز على العربية لكنه يتعثر مع التخطيطات متعددة الأعمدة والجداول |
|
Qwen VL |
جيد |
جيد |
جيد |
جيد |
متوسط |
متوسط |
نموذج متعدد الوسائط جيد عموما لكنه أقل دقة من Baseer في الجداول والبنية |
|
Gemma VL |
ضعيف |
ضعيف |
منخفض |
منخفض |
ضعيف |
ضعيف |
لا يتعامل بشكل جيد مع الخط العربي والاتجاه من اليمين إلى اليسار |