2 مارس 2026
Misraj Team
Team
بصير هو نموذج رؤيوي لغوي طورناه في مسراج لتحويل صور المستندات العربية وملفات PDF إلى نص منظم بصيغة Markdown مع الحفاظ على البنية. دُرب على 500 ألف صفحة، ويتفوق على كافة النماذج في تحويل المستندات إلى ...
في مسراج نرى أن مستقبل النماذج العربية المتقدمة يعتمد على بيانات عالية الجودة وقدرات حقيقية في فهم المستندات العربية كما يراها المستخدم. كثير من الكتب والوثائق الرسمية والمواد التعليمية ما زالت محفوظة على هيئة صور أو ملفات PDF يصعب البحث فيها أو استخدامها داخل التطبيقات الذكية. هذا التحدي يصبح أعقد عندما تكون اللغة هي العربية بما تحمله من اتصال في الحروف وتنوع في الخطوط ووجود التشكيل والكتابة من اليمين إلى اليسار.
من هنا جاء عملنا على بصير. حيث قمنا تخصيصه لمهمة قراءة المستندات العربية وتحويلها إلى نص منظم بصيغة Markdown يحافظ على النص والبنية معا. بُني بصير باستخدام النموذج الأساسي Qwen2.5 VL 3B Instruct بعد ضبطه الدقيق على بيانات عربية كبيرة تم إعدادها خصيصًا لهذه المهمة.
الحلول المتاحة لقراءة المستندات العربية تعاني من نقاط ضعف كثيرة، أبرزها: التعامل مع المستند أيا كان نوعه كسطور نصية فقط دون فهم تخطيط الصفحة من جداول وترقيم وتعداد نقطي. كما أن بعضها يفشل تمامًا مع الخطوط القديمة أو الصفحات المصورة بجودة منخفضة. إضافة إلى ذلك فإن أغلب أنظمة OCR العالمية صممت في الأساس للغات ذات حروف منفصلة مثل الإنجليزية لذلك يتراجع أداؤها عند مواجهة الخط العربي المتصل والمتداخل.
في مسراج أردنا الوصول إلى نموذج يتعامل مع المستند العربي كصورة كاملة. يفهم العناوين والفقـرات والجداول. يربط بين النص وموقعه في الصفحة. ويعيد إخراج المستند بشكل منظم يصلح للتدريب والاستخدام العملي في آن واحد.
بصير هو نموذج رؤية ولغة مهيأ لمهمة تحويل صورة المستند إلى تمثيل Markdown منظم. اخترنا Qwen2.5 VL 3B Instruct كنموذج أساس بعد تجارب أظهرت تفوقه النسبي في التعامل مع العربية مقارنة بنماذج أخرى مفتوحة المصدر. في مرحلة الضبط قمنا بتجميد الجزء البصري في النموذج وتحديث الجزء اللغوي فقط حتى نحافظ على القدرات البصرية العامة ونخصص فهم اللغة والبنية للمستندات العربية.
كما أننا اعتمدنا في تدريب يصير على مجموعة بيانات مكونة من خمس مائة ألف زوج من صورة ونص متناظر. و ثلاث مائة ألف زوج منها جاءت من مستندات صناعية أنشأناها عبر خط معالجة يبدأ من نصوص Markdown عالية الجودة ثم يحولها إلى HTML ثم Word ثم PDF ثم إلى صور. خلال هذه السلسلة نوعنا في الخطوط وأحجام الصفحات والألوان وعدد الأعمدة وأنماط التنسيق. كما طبقنا مجموعة كبيرة من المؤثرات لمحاكاة الواقع مثل التشويش واصفرار الورق والظلال وتشوه المنظور.
أما المئتا ألف زوج المتبقية فجاءت من مستندات حقيقية تشمل كتب ومجلات ومواد تعليمية وأبحاث. اخترنا صفحات ذات تخطيطات معقدة تحتوي على جداول وصور وحواشي. استخدمنا نموذجا رؤيويًا لغويًا متقدمًا لاقتراح النص الأولي ثم قام فريقنا بمراجعة جزء ممثل من هذه البيانات يدويا للتأكد من جودة النص والبنية. جميع النصوص النهائية مكتوبة بصيغة Markdown مع تمثيل الجداول بصيغة HTML وإضافة وسوم خاصة لعناصر مثل أرقام الصفحات والعلامات المائية.
بالتوازي مع ذلك طورنا في مسراج معيار تقييم جديد باسم Misraj DocOCR يتضمن أربع مائة صورة لمستندات عربية متنوعة مع نصوص مرجعية تمت مراجعتها يدويًا.
تمت مقارنة أداء بصير مع مجموعة واسعة من الأنظمة النماذج الكبيرة التجارية أبرزها Gemini 2.5 Prp و GPT-5 وAzure Document Intelligence بالإضافة إلى نماذج شهيرة مفتوحة مثل Dots OCR وNanonets ومنها ما هو مخصص للعربية مثل Qari
استخدمنا في التقييم مقاييس خاصة بالنص مثل معدل خطأ الكلمات WER ومعدل خطأ الأحرف CAR أيضاً معايير تقييم تطابق التراكيب وقياس الطلاقة اللغوية وهي BLEU و ChrF بالإضافة إلى مقاييس تقيس محافظة النموذج على جداول صحيحة مثل TEDS و MARS. وفيما يلي جدول جدول مقارنة أداء بصير مع النماذج الأخرى، الجدول أدناه موضح للنتائج التي تم الوصول إليها.
|
Model |
WER |
CER |
BLEU |
CHRF |
TEDS |
MARS |
|
Baseer_v2 |
0.19 |
0.12 |
76.31 |
88.94 |
67 |
77.8 |
|
gemini_2.5_pro |
0.37 |
0.31 |
77.92 |
89.55 |
52 |
70.775 |
|
Azure Document Intelligence |
0.44 |
0.27 |
62.04 |
82.49 |
42 |
62.245 |
|
Dots_ocr |
0.5 |
0.4 |
58.16 |
78.41 |
40 |
59.205 |
|
Nanonets_OCR2_3B |
0.78 |
0.71 |
44.29 |
68.39 |
49 |
58.695 |
|
GPT-5 |
0.86 |
0.62 |
40.67 |
61.6 |
48 |
54.8 |
|
Qwen2_5_vl_32b |
0.76 |
0.59 |
37.62 |
62.64 |
تشير النتائج كما هو موضح في الجدول أعلاه، إلى أن نموذج بصير حقق أفضل أداء في معظم المقاييس، وخاصة في WER وCER وTEDS وMARS. وينافس بأرقام قريبة جدا نموذج تجاري كبير جداً هو Gemini-2.5-pro في معايير BLEU و،CHRF، مما يثبت أداءه العالي في فهم المستندات العربية.
صممنا بصير ليكون قابلا للدمج في تطبيقات مختلفة مثل:
الأرشفة الذكية وتحويل الأرشيف الورقي إلى قاعدة معرفة:
تمكين المؤسسات من تحويل آلاف السجلات والوثائق الورقية إلى نصوص رقمية منظّمة قابلة للمعالجة الآلية، مع الحفاظ على البنية المنطقية للمحتوى،مما يسهّل الفهرسة، و التصنيف، والاسترجاع على نطاق واسع.
البحث والاسترجاع والبحث المتقدم:
إتاحة البحث داخل ملفات PDF الممسوحة ضوئيًا أو الصور كما لو كانت ملفات نصية أصلية، مع دعم البحث المتقدم، وتمكين المستخدم من الوصول إلى المعلومات ذات الصلة بسرعة ودقة.
تطوير Chatbots معرفية باستخدام تقنيات RAG:
دعم بناء مساعدات ذكية قائمة على تقنيات Retrieval-Augmented Generation (RAG)، حيث يستطيع النموذج الإجابة على الأسئلة المطروحة بالاعتماد على فهم سياق الوثائق المؤرشفة، وليس على الكلمات المفتاحية فقط، مع الإشارة الدقيقة إلى مصادر الإجابة داخل الأرشيف.
قراءة وفهم الوثائق الحكومية والقانونية والتجارية متعددة البنى:
تمكين قراءة وفهم وتحليل المراسلات الحكومية، الوثائق القانونية، والملفات الرسمية مهما اختلفت بنيتها أو تخطيطها، وتحويلها إلى تمثيل بنيوي (Structured Representation) قابل للاستخدام في أنظمة التحليل، البحث، واتخاذ القرار.
بصير يمثل نقلة نوعية في مجال OCR للمستندات العربية. من خلال بيانات مدروسة ومعيار تقييم مخصص للعربية واستراتيجية ضبط فعالة استطعنا في مسراج أن نقدم نموذجًا يتفوق على كثير من البدائل المفتوحة والتجارية ويضع أساسًا يمكن البناء عليه في مشاريع عربية قادمة تعتمد على فهم المستندات.
رابط الورقة البحثية:
https://arxiv.org/pdf/2509.18174v1.pdf
تواصل معنا لتكتشف كيف يمكن لتقنيات مسراج أن تغيّر طريقة عمل مؤسستك.
لتبدأ رحلتك لحلول أذكى
|
41 |
|
51.82 |
|
Qwen3_VL_8B_Instruct |
0.87 |
0.78 |
32.95 |
54.54 |
49 |
51.77 |
|
DeepSeek_OCR |
0.88 |
0.81 |
41.57 |
62.33 |
30 |
46.165 |
|
MISTRAL |
0.49 |
0.42 |
52.44 |
71.81 |
17 |
44.405 |
|
Qari |
0.76 |
0.64 |
38.59 |
64.5 |
21 |
42.75 |
|
Gemma3_12B |
0.96 |
0.8 |
19.75 |
44.53 |
33 |
38.765 |