إعـــــــلان

تقليص
لا يوجد إعلان حتى الآن.

طريقه لإستخراج النصوص من ملفات pdf او الصور

تقليص
X
  • تصفية - فلترة
  • الوقت
  • عرض
إلغاء تحديد الكل
مشاركات جديدة

  • [شرح] طريقه لإستخراج النصوص من ملفات pdf او الصور

    بسم الله الرحمن الرحيم

    السلام عليكم ورحمه وبركاته
    ________________________________

    سأشرح في السطور القادمه كيفيه استخراج النصوص من ملفات PDF وحتى النصوص الموجوده على الصور فيها,
    عن طريق استخدام خلطه من ال Ghostscript و command line OCR tool المسماه tesseract-ocr
    ________________

    في البدايه سنحتاج الى تحويل صيغه الملف الذي سنعمل عليه من PDF الى individual image files (TIFF) لنستطيع عمل مسح لها بـ OCR-scan ,
    ولعمل ذلك سنحتاج الى Ghostscript والذي سيكون غالبا موجود مسبقا على النظام ,
    ولكن للتأكد نشغل الامر التالي في الطرفيه:


    كود:
    sudo apt-get install ghostscript
    عندما نتأكد من تنصيب Ghostscript يمكننا تحويل صيغه الملف PDF عن طريق gs utility بكتابه الامر الثالي :

    كود:
    gs -dNOPAUSE -sDEVICE=tiffg4 -r600x600 -dBATCH -sPAPERSIZE=a4 -sOutputFile=Output_File_Name.tif Name_of_PDF.pdf
    وعليك استبدال "Name_of_PDF.pdf" باسم الملف الذي تريد العمل عليه , واستبدال "Output_File_Name.tif" باسم الملف بعد التحويل

    وسيكون حجم الملف الناتج اكبر بكثير من الملف الاساسي (قد تصل الى ×10 او حتى اكثر) , وبصيغه TIFF
    ________________________

    بعد ذلك سنقوم بعمل OCR-scan (Optical Character Recognition)I او بالعربي مسح (الخصائص الضوئيه التعرفي)
    وهو ما سيقوم باستخراج الحروف والنصوص من الصور والمستند ,وسنستخدم "tesseract-ocr" لهذا الغرض ,
    ولكن سنحتاج لتثبيته اولا بالأمر:

    كود:
    sudo apt-get install tesseract-ocr tesseract-ocr-eng
    الحزمه "tesseract-ocr-eng" هي لدعم التعرف على الانجليزيه وهي ضروريه للملفات المحتويه على النصوص الانجليزيه ,
    ويمكننا اضافه اللغات الاخرى مثل "tesseract-ocr-deu" للألمانيه.
    ______________________

    اخيرا لنقم بتحويل الملف الكبير الذي نتج معنا قبل قليل TIFF الى ملف نصي بسيط وصغير ,
    فيه جميع النصوص الموجوده في المستند حتى الموجوده على الصور او على شكل صور في المستند الرئيسي
    وذلك بالامر :

    كود:
    tesseract Output_File_Name.tif Name_of_TXT -l eng
    وعليك استبدال "Output_File_Name.tif" بأسم الملف الذي نتج في الخطوه السابقه , و استبدال "Name_of_TXT" بأسم الملف النصي الذي ترغبه والذي سينتج عن هذه العمليه
    اترك الامتداد كما هو .txt واذا كانت لغه ملف ال PDF الذي بدأت العمل عليه انقليزيه اترك "-l eng" كما هي اما ان كانت لغه اخرى فعليك تغييرها حسب المستخدمه في الخطوه السابقه , مثلا الالمانيه "-l deu"

    وبإنتهاء هذه الخطوه مبروك ... تم تحويل ملف ال PDF الى ملف نصي بكامله حتى الموجوده على الصور , وبامكانك الاستمتاع به


    لمادا هذه الطريقه ...
    -هذه الطريقه مفيده في تحويل الكتب المنسخوه من خلال ماسح ضوئي الى كتب نصيه ,بحيث يسهل التعامل مع نصوصها, او حتى تحويل الكتب والملزمات و اوراق البحث المصوره الى نصوص , وبذلك يحفظ الكثير من الوقت.
    -بأمكانك الاستفاده من هذه الطريقه حتى في تحويل الصور العاديه والنصوص الموجوده عليها الى ملفات نصيه يسهل الاستفاده منها والتعامل معها.

    طلب بسيط:
    اتمنى ان يزودنا احدكم مشكورا بحزمه اللغه العربيه لانها هي الاساس ولكن لقله استخدامي لها وعدم وجود مصدر موثوق لم اجدها او حتى اجد الكود او الاختصار الخاص بها .

    ملحوظه:
    تعتمد الطريقه في اخذ النصوص من الصور بشكل كبير على نقاوه وجوده الصوره الموجوده في ملف ال PDF او الصوره المراد تحويلها,
    هذه الطريقه تم تجربتها على ابونتو 9.04 وتعمل بشكل ممتاز


    في النهايه تقبلوا تحياااتي واتمنى ان يحوز اول موضوع لي في المجتمع على رضاكم واستحسانكم

    والسلام عليكم ,,,

  • #2
    سلام

    اعتقد هناك اضافة لي اوبن اوفس لتقوم بتحرير ملفات ال pdf
    لابد ان نسأل لماذا......
    لابد ان نبحث عن أجوبة.....
    لابد ان تكون متوافقة مع العقل و الواقع.....
    الحمد لله الذي منحنا هذه النعم.

    تعليق


    • #3
      المشاركة الأصلية بواسطة tux مشاهدة المشاركة
      سلام

      اعتقد هناك اضافة لي اوبن اوفس لتقوم بتحرير ملفات ال pdf
      تفشل في جلب النصوص العربية

      تعليق


      • #4
        ﻻ أدري أخي

        أنا جربتها على ملف pdf انجليزي بس لما نفذت اﻷمر الثاني

        طلعت أحرف غير مفهومة مع أنها انجليزي طبعا

        ما هو السبب برأيك
        التعديل الأخير تم بواسطة Mr.SeCreT; الساعة 14-02-2010, 12:14 PM.

        تعليق


        • #5
          السلام عليكم ورحمه وبركاته

          المشاركة الأصلية بواسطة مجاهد عبدالله مشاهدة المشاركة
          طلب بسيط:
          اتمنى ان يزودنا احدكم مشكورا بحزمه اللغه العربيه لانها هي الاساس ولكن لقله استخدامي لها وعدم وجود مصدر موثوق لم اجدها او حتى اجد الكود او الاختصار الخاص بها .
          يقولون في ويكي المشروع
          Tesseract can only handle left-to-right languages. While you can get something out with a right-to-left language, the output file will be ordered as if the text were left-to-right. Top-to-bottom languages will currently be hopeless.
          Tesseract is unlikely to be able to handle connected scripts like Arabic. It will take some specialized algorithms to handle this case, and right now it doesn't have them.
          http://code.google.com/p/tesseract-o...iningTesseract

          تعليق


          • #6
            المشاركة الأصلية بواسطة Mr.SeCreT مشاهدة المشاركة
            ﻻ أدري أخي

            أنا جربتها على ملف pdf انجليزي بس لما نفذت اﻷمر الثاني

            طلعت أحرف غير مفهومة مع أنها انجليزي طبعا

            ما هو السبب برأيك
            لا ادري عزيزي مالسبب بالضبط ..ولكن قد يكون الترميز الاساسي الذي تستخدمه هو العربي
            فتمت معامله الناتج على هذا الاساس.

            جربتها بنظام ابونتو 9.04 واللغه الاساسيه الانجليزيه .. وعلى كتاب طبي من 360 صفحه وقام باستخراجها كامله ولم يكن في سوى القليل من الاخطاء
            وكذلك على كتاب باللغه الالمانيه اخذت منه عدد من الصفحات و قام بمعالجته بشكل جيد وانتج لي الملف

            الغالب ان السبب هو الترميز الاساسي في النظام ..

            تعليق


            • #7
              جربت الطريقة على كتاب ثاني

              عملت بنجاح

              الله يجزيك الخير

              تعليق


              • #8
                غريب أنا استخدم برنامج okular و هو يقوم باستخراخ الكﻻم الذي باللغة اﻻنجليزية ... ولكن اللغة العربية تطلع بالمقلوب أرجوا أن يفيدنا أحد المحترفين

                تعليق


                • #9
                  المشاركة الأصلية بواسطة al_islam_333 مشاهدة المشاركة
                  غريب أنا استخدم برنامج okular و هو يقوم باستخراخ الكﻻم الذي باللغة اﻻنجليزية ... ولكن اللغة العربية تطلع بالمقلوب أرجوا أن يفيدنا أحد المحترفين
                  استعمل الامر rev على النص . لازم يعكس النص.
                  مدير التواصل الحي.ماجستير معلوماتية من استراليا.تحتاج مساعدة اضافية؟ ادخل اعلاه التواصل الحي.بيت شِعْر: العدل قبل الحب احيانا فلا تظلمي= سئمت الحب احيانا أﻻّ تعدلي.تطبيقاتي على متجر الاندرويد كلمة البحث: superlinux.

                  تعليق


                  • #10
                    استعمل الامر rev على النص . لازم يعكس النص.
                    كيف استخدمة هل اضع النص العربى فى الطرفية ثم اطبق الامر ... ارجو التوضيح

                    تعليق


                    • #11
                      بسم الله الرحمن الرحيم

                      ما هي الإضافة للأمر التالي والتي تسمح باختيار أرقام الصفحات للتحويل ؟؟

                      كود:
                      gs -dNOPAUSE -sDEVICE=tiffg4 -r600x600 -dBATCH -sPAPERSIZE=a4 -sOutputFile=Output_File_Name.tif Name_of_PDF.pdf
                      (لَا تَحْسَبَنَّ الَّذِينَ يَفْرَحُونَ بِمَا أَتَوا وَّيُحِبُّونَ أَن يُحْمَدُوا بِمَا لَمْ يَفْعَلُوا فَلَا تَحْسَبَنَّهُم بِمَفَازَةٍ مِّنَ الْعَذَابِ وَلَهُمْ عَذَابٌ أَلِيمٌ)
                      آل عمران 188
                      قال رسول الله صلى الله عليه و سلم :
                      {لا يشكر الله من لا يشكر الناس}
                      {من كان يؤمن بالله واليوم الآخر،فليقل خيراً أو ليصمت}

                      جميع المساهمات الحاملة لهذا التوقيع تخضع لرخصة وقف
                      أسأل الله العظيم رب العرش العظيم أن يحسن من حال أمتي

                      تعليق


                      • #12
                        شكراً لمن بحث ، وجدت مطلبي بالموضوع :

                        http://www.linuxac.org/forum/threads...86%D9%8A%D8%A9

                        بعد أن بحثت بطريقة أخرى .
                        (لَا تَحْسَبَنَّ الَّذِينَ يَفْرَحُونَ بِمَا أَتَوا وَّيُحِبُّونَ أَن يُحْمَدُوا بِمَا لَمْ يَفْعَلُوا فَلَا تَحْسَبَنَّهُم بِمَفَازَةٍ مِّنَ الْعَذَابِ وَلَهُمْ عَذَابٌ أَلِيمٌ)
                        آل عمران 188
                        قال رسول الله صلى الله عليه و سلم :
                        {لا يشكر الله من لا يشكر الناس}
                        {من كان يؤمن بالله واليوم الآخر،فليقل خيراً أو ليصمت}

                        جميع المساهمات الحاملة لهذا التوقيع تخضع لرخصة وقف
                        أسأل الله العظيم رب العرش العظيم أن يحسن من حال أمتي

                        تعليق


                        • #13
                          شكراً لمن بحث ، وجدت مطلبي بالموضوع :

                          http://www.linuxac.org/forum/threads...86%D9%8A%D8%A9

                          بعد أن بحثت بطريقة أخرى .
                          (لَا تَحْسَبَنَّ الَّذِينَ يَفْرَحُونَ بِمَا أَتَوا وَّيُحِبُّونَ أَن يُحْمَدُوا بِمَا لَمْ يَفْعَلُوا فَلَا تَحْسَبَنَّهُم بِمَفَازَةٍ مِّنَ الْعَذَابِ وَلَهُمْ عَذَابٌ أَلِيمٌ)
                          آل عمران 188
                          قال رسول الله صلى الله عليه و سلم :
                          {لا يشكر الله من لا يشكر الناس}
                          {من كان يؤمن بالله واليوم الآخر،فليقل خيراً أو ليصمت}

                          جميع المساهمات الحاملة لهذا التوقيع تخضع لرخصة وقف
                          أسأل الله العظيم رب العرش العظيم أن يحسن من حال أمتي

                          تعليق

                          يعمل...
                          X