اسکین اور او سی آر

دوپہر

شاید ہم میں سے ہر ایک کام کا سامنا کرنا پڑتا ہے جب آپ کو کاغذی دستاویز کا ترجمہ الیکٹرانک فارم میں کرنا ہوگا. یہ خاص طور پر ان لوگوں کے لئے لازمی ہے جو مطالعہ، دستاویزات کے ساتھ کام کرتے ہیں، الیکٹرانک لغات، وغیرہ کے ذریعہ متن کا ترجمہ کریں.

اس مضمون میں میں اس عمل کے کچھ بنیادی اصولوں کو اشتراک کرنا چاہوں گا. عام طور پر، سکیننگ اور متن کی شناخت کافی وقت لگ رہی ہے، کیونکہ زیادہ تر آپریشنز کو دستی طور پر کرنا ہوگا. ہم یہ جاننے کی کوشش کریں گے کہ، کس طرح اور کیوں.

ہر کوئی فوری طور پر ایک چیز کو سمجھ نہیں دیتا. سکیننگ کے بعد (سکینر پر تمام شیٹس کو فٹنگ) آپ کے پاس BMP، JPG، PNG، GIF کی شکل ہوگی (وہاں دیگر فارمیٹس ہوسکتی ہیں). اس تصویر سے آپ کو ٹیکسٹ حاصل کرنے کی ضرورت ہے - یہ طریقہ کار کو تسلیم کیا جاتا ہے. اس ترتیب میں، اور ذیل میں پیش کیا جائے گا.

مواد

  • 1. سکیننگ اور شناخت کے لئے کیا ضرورت ہے؟
  • 2. متن سکیننگ کے اختیارات
  • 3. دستاویز کے متن کی شناخت
    • 3.1 متن
    • 3.2 تصاویر
    • 3.3 میزیں
    • 3.4 غیر ضروری اشیاء
  • 4. PDF / DJVU فائلوں کی شناخت
  • 5. کام کے نتائج کو چیک کرنے اور بچانے میں خرابی

1. سکیننگ اور شناخت کے لئے کیا ضرورت ہے؟

1) سکینر

پرنٹ کردہ دستاویزات کو ٹیکسٹ فارم میں ترجمہ کرنے کے لئے، آپ سب سے پہلے ایک سکینر کی ضرورت ہے اور اس کے مطابق، "مقامی" پروگرام اور ڈرائیور جو اس کے ساتھ گئے تھے. ان کے ساتھ آپ دستاویز کو اسکین کرسکتے ہیں اور مزید پراسیسنگ کیلئے محفوظ کرسکتے ہیں.

آپ دوسرے اینالالاز استعمال کرسکتے ہیں، لیکن کٹ میں سکینر کے ساتھ آنے والا سافٹ ویئر عام طور پر تیزی سے کام کرتا ہے اور زیادہ اختیارات ہے.

آپ کے کیا قسم سکینر پر منحصر ہے - کام کی رفتار نمایاں طور پر مختلف ہوتی ہے. اس سکینرز ہیں جو 10 سیکنڈ میں ایک شیٹ سے تصویر حاصل کرسکتے ہیں، وہاں موجود ہیں جو اسے 30 سیکنڈ میں ملے گی. اگر آپ 200-300 شیٹ پر ایک کتاب سکین کرتے ہیں - مجھے لگتا ہے کہ یہ حساب کرنا مشکل نہیں ہے کہ وقت میں فرق کتنا وقت ہوگا؟

2) شناخت کے لئے پروگرام

ہمارے آرٹیکل میں، میں آپ کو سکیننگ کے لئے بہترین پروگراموں میں سے ایک میں کام اور بالکل دستاویزات کو تسلیم کروں گا - ABBYY FineReader. چونکہ پروگرام ادا کیا جاتا ہے، پھر فورا میں ایک دوسرے کو ایک لنک دے دونگا - کوونی فارم کی اس کے مفت ایجاد. سچ میں، میں ان کا موازنہ نہیں کروں گا، حقیقت یہ ہے کہ فائن ریڈرر تمام احترام میں جیتتا ہے، میں اس کی کوشش کرنے کا مشورہ دیتا ہوں.

ABBYY FineReader 11

سرکاری سائٹ: //www.abbyy.ru/

اس قسم کی بہترین پروگراموں میں سے ایک. یہ تصویر میں متن کو تسلیم کرنے کے لئے ڈیزائن کیا گیا ہے. بہت سے اختیارات اور خصوصیات بنایا. یہ فونٹ کے ایک گروپ کو پار کر سکتے ہیں، ہاتھ سے لکھا ورژن بھی حمایت کرتا ہے (اگرچہ میں نے ذاتی طور پر اس کی کوشش نہیں کی ہے، مجھے لگتا ہے کہ یہ دستی طور پر دستی ورژن کو تسلیم کرنا اچھا نہیں ہے، جب تک کہ آپ کو کامل خطاطی ہینڈ لکھنا نہیں ہے). اس کے ساتھ کام کرنے کے بارے میں مزید معلومات ذیل میں بحث کی جائے گی. ہم یہاں بھی یاد رکھیں کہ یہ مضمون پروگرام 11 ورژن میں کام کرے گا.

ایک اصول کے طور پر، ABBYY FineReader کے مختلف ورژن ایک دوسرے سے بہت مختلف نہیں ہیں. آپ آسانی سے دوسرے میں اسی طرح کر سکتے ہیں. اہم اختلافات سہولت، پروگرام کی رفتار اور اس کی صلاحیتوں میں ہوسکتی ہے. مثال کے طور پر، پہلے ورژن ایک PDF دستاویز اور DJVU کھولنے سے انکار ...

3) اسکین کرنے کے لئے دستاویزات

جی ہاں، تو یہاں، میں نے ایک الگ کالم میں دستاویزات نکالنے کا فیصلہ کیا. زیادہ تر معاملات میں کسی بھی درسی کتابوں، اخبارات، مضامین، میگزین وغیرہ وغیرہ کو اسکین کریں ان کتابوں اور ادب جو مطالبہ میں ہے. میں کیا کر رہا ہوں ذاتی تجربے سے، میں یہ کہہ سکتا ہوں کہ آپ اسکین کرنا چاہتے ہیں - پہلے ہی نیٹ پر ہوسکتا ہے! جب میں نے ایک کتاب یا نیٹ ورک پر پہلے سے ہی ایک اسکین کا پتہ چلا تو میں نے ذاتی طور پر وقت بچایا. مجھے متن میں دستاویز کاپی کرنا پڑا اور اسے جاری رکھنا پڑا.

اس سادہ مشورہ سے - آپ کو کسی چیز کو اسکین کرنے سے پہلے، چیک کریں کہ کسی نے پہلے ہی اس کا سکین کیا ہے اور آپ کو اپنا وقت ضائع کرنے کی ضرورت نہیں ہے.

2. متن سکیننگ کے اختیارات

یہاں، میں سکینر، اس کے ساتھ چلا گیا پروگراموں کے بارے میں بات نہیں کروں گا، کیونکہ تمام اسکینر ماڈل مختلف ہیں، سوفٹ ویئر ہر جگہ بھی مختلف ہے اور اندازہ لگاتا ہے اور اس سے زیادہ واضح طور پر آپریشن انجام دینے کا طریقہ غیر حقیقی ہے.

لیکن تمام سکینرز اسی ترتیبات ہیں جو آپ کے کام کی رفتار اور معیار کو بہت متاثر کرسکتے ہیں. یہاں ان کے بارے میں میں یہاں بات کروں گا. میں ترتیب دیں گے.

1) اسکین معیار - ڈی پی آئی

سب سے پہلے، 300 ڈیپیآئ سے کم نہیں اختیارات میں سکین کی معیار مقرر. یہ ممکن ہے کہ اگر ممکن ہو تو تھوڑی زیادہ ڈالیں. ڈی پی آئی اشارے زیادہ ہے، واضح ہے کہ آپ کی تصویر بند ہوجائے گی، اور اس طرح مزید پراسیسنگ تیزی سے ہو گی. اس کے علاوہ، اسکین کا اعلی معیار - آپ کو بعد میں کم غلطیاں درست کرنا پڑے گی.

بہترین انتخاب فراہم کرتا ہے، عام طور پر 300-400 ڈی پی آئی.

2) کرومٹیٹیٹی

یہ پیرامیٹر اسکین وقت پر بہت اثر انداز کرتا ہے (جس طرح سے، ڈی پی آئی بھی متاثر ہوتا ہے، لیکن وہ بہت مضبوط ہیں، اور صرف اس وقت جب صارف اعلی اقدار کا تعین کرتا ہے).

عام طور پر تین طریقوں ہیں:

سیاہ اور سفید (سادہ متن کے لئے کامل)؛

بھوری رنگ (مناسب میزیں اور تصاویر کے ساتھ متن کے لئے)؛

رنگ (رنگ رنگ میگزین، کتابوں، عام طور پر، دستاویزات، جہاں رنگ اہم ہے).

عام طور پر سکین کا وقت رنگ کی پسند پر منحصر ہے. سب کے بعد، اگر آپ کے پاس ایک بڑا دستاویز ہے تو اس صفحے پر مجموعی طور پر 5-10 سیکنڈ بھی ایک مہذب وقت کا نتیجہ ملے گا ...

3) فوٹو

آپ دستاویز کو سکیننگ کے ذریعہ نہ صرف حاصل کرسکتے ہیں بلکہ اس کی تصویر لے کر بھی حاصل کرسکتے ہیں. ایک اصول کے طور پر، اس صورت میں آپ کو کچھ اور مسائل ملے گی: تصویر مسخ، دھندلاہٹ. اس کی وجہ سے، اس سے موصول ہونے والی متن کی مزید ترمیم اور پروسیسنگ کی ضرورت ہوسکتی ہے. ذاتی طور پر، میں اس کاروبار کے لئے کیمرے استعمال کرنے کی سفارش نہیں کرتا ہوں.

یہ نوٹ کرنا ضروری ہے کہ ہر ایسے دستاویز کو تسلیم نہیں کیا جائے گا، کیونکہ اسکین کی کیفیت وہ انتہائی کم ہوسکتی ہے ...

3. دستاویز کے متن کی شناخت

ہم یہ سمجھتے ہیں کہ آپ نے موصول شدہ تحریر صفحات سکین. اکثر وہ فارمیٹس ہیں: tif، bmb، jpg، png. عام طور پر، ABBYY FineReader کے لئے - یہ بہت اہم نہیں ہے ...

ABBYY FineReader میں اس تصویر کو کھولنے کے بعد، ایک اصول کے طور پر، اس پروگرام میں مشینوں کو منتخب کرنے اور ان کو پہچاننا شروع ہوتا ہے. لیکن کبھی کبھی وہ غلطی کرتا ہے. اس کے لئے ہم مطلوبہ علاقوں کے دستی طور پر دستی طور پر انتخاب کرتے ہیں.

یہ ضروری ہے! ہر کوئی فوری طور پر سمجھتا ہے کہ اس پروگرام میں کسی دستاویز کو کھولنے کے بعد، ذریعہ دستاویز ونڈو میں بائیں طرف دکھائی دیتا ہے، جس میں آپ مختلف علاقوں پر روشنی ڈالتے ہیں. "شناخت" کے بٹن پر کلک کرنے کے بعد، دائیں جانب ونڈو میں پروگرام آپ کو مکمل ٹیکسٹ لے آئے گا. شناخت کے بعد، راستے سے، اسی FineReader میں غلطیوں کے لئے متن کو چیک کرنے کے لئے مشورہ دیا جاتا ہے.

3.1 متن

یہ علاقہ متن کو اجاگر کرنے کے لئے استعمال کیا جاتا ہے. تصاویر اور میزیں اس سے خارج کردیئے جائیں. غیر معمولی اور غیر معمولی فونٹس کو دستی طور پر داخل کرنا ہوگا ...

ٹیکسٹ علاقے کا انتخاب کرنے کے لئے، FineReader کے سب سے اوپر پینل پر توجہ دینا. ایک بٹن "T" ہے (ملاحظہ کریں. ذیل میں اسکرین شاٹ، ماؤس پوائنٹر صرف اس بٹن پر ہے). اس پر کلک کریں، پھر ذیل میں تصویر میں صاف آئتاکار علاقے منتخب کریں جس میں متن واقع ہے. ویسے، بعض صورتوں میں آپ کو 2-3 کے ٹیکسٹ بلاکس اور کبھی کبھی 10-12 فی صفحہ بنانا ہوگا، کیونکہ ٹیکسٹ فارمیٹنگ مختلف ہوسکتا ہے اور ایک آئتاکار کے ساتھ پورے علاقے کا انتخاب نہیں کرتا.

یہ نوٹ کرنا ضروری ہے کہ تصاویر ٹیکسٹ علاقے میں نہیں گر جائیں. مستقبل میں، یہ آپ کو بہت وقت بچائے گا ...

3.2 تصاویر

تصاویر اور ان علاقوں کو نمایاں کرنے کے لئے استعمال کیا جاتا ہے جو غریب معیار یا غیر معمولی فونٹ کی وجہ سے شناخت کرنا مشکل ہے.

ذیل میں اسکرین شاٹ میں، ماؤس پوائنٹر "تصویر" کے علاقے کو منتخب کرنے کے لئے استعمال کردہ بٹن پر واقع ہے. ویسے، صفحے کا بالکل حصہ اس علاقے میں منتخب کیا جاسکتا ہے، اور فائن ریڈر اسے دستاویز میں عام تصویر کے طور پر داخل کرے گا. I صرف "بیوقوف" کاپی کریں گے ...

عام طور پر، اس علاقے کو غیر معیاری ٹیکسٹ اور فونٹ، اپنے آپ کو تصاویر کو نمایاں کرنے کے لئے، خراب سکینڈ ٹیبل کو نمایاں کرنے کے لئے استعمال کیا جاتا ہے.

3.3 میزیں

مندرجہ ذیل اسکرین شاٹ میز کو اجاگر کرنے کے لئے بٹن کو ظاہر کرتا ہے. عام طور پر، میں ذاتی طور پر اس کا استعمال کرتا ہوں. حقیقت یہ ہے کہ آپ کو میزبان پر (اصل میں) ہر سطر کو معمولی طور پر اپنی طرف متوجہ کرنا ہے اور دکھائیں کہ کس طرح اور پروگرام. اگر میز چھوٹے ہے اور بہت اچھے معیار میں نہیں، میں ان مقاصد کے لئے "تصویر" کے علاقے کا استعمال کرتے ہوئے مشورہ دیتا ہوں. اس طرح بہت زیادہ وقت بچا ہے، اور پھر آپ فوری طور پر ایک تصویر کی بنیاد پر کلام میں ٹیبل بنا سکتے ہیں.

3.4 غیر ضروری اشیاء

نوٹ کرنا ضروری ہے. کبھی کبھی اس صفحے پر غیر ضروری عناصر ہیں جو ٹیکسٹ کو پہچاننے میں مشکل بناتے ہیں، یا آپ کو مطلوبہ علاقے کو منتخب کرنے کی اجازت نہیں دیتے. وہ "eraser" کا استعمال کرتے ہوئے ہٹا دیا جا سکتا ہے.

ایسا کرنے کے لئے، تصویر ایڈیٹنگ موڈ پر جائیں.

رینجر کا آلہ منتخب کریں اور ناپسندیدہ علاقے کو منتخب کریں. یہ ختم ہو جائے گا اور اس کی جگہ کاغذ کی ایک سفید شیٹ ہوگی.

ویسے ہی، میں آپ کو یہ آپشن اختیار کرنے کی مشورہ دیتا ہوں. تمام متن والے علاقوں کو منتخب کریں جنہیں آپ نے منتخب کیا ہے، جہاں آپ کا متن کا ایک ٹکڑا نہیں ہے، یا کوئی غیر ضروری پوائنٹس، بلوغت، خرابی کی وجہ سے - ایک ریزورٹ سے خارج کریں. اس شناخت کا شکریہ تیز ہو جائے گا!

4. PDF / DJVU فائلوں کی شناخت

عام طور پر، اس کی شناخت کی شکل دوسروں سے مختلف نہیں ہوگی. آپ صرف تصاویر کے ساتھ اس کے ساتھ کام کر سکتے ہیں. اگر آپ پی ڈی ایف / DJVU فائلوں کو نہیں کھولتے تو صرف ایک پروگرام بہت پرانے ورژن نہیں ہونا چاہئے - ورژن کو 11 کو اپ ڈیٹ کریں.

تھوڑا مشورہ. FineReader میں دستاویز کو کھولنے کے بعد - یہ خود کار طریقے سے دستاویز کو تسلیم کرنے کے لئے شروع ہو جائے گا. اکثر پی ڈی ایف / DJVU فائلوں میں، پورے دستاویز میں صفحے کا ایک مخصوص علاقے کی ضرورت نہیں ہے! تمام صفحات پر ایسے علاقے کو دور کرنے کے لئے، مندرجہ ذیل کرتے ہیں:

1. تصویر ایڈیٹنگ سیکشن میں جائیں.

2. "trimming" اختیار کو فعال کریں.

3. آپ کے تمام صفحات پر آپ کی ضرورت کا علاقہ منتخب کریں.

4. تمام صفحات پر لاگو کریں اور ٹرم پر کلک کریں.

5. کام کے نتائج کو چیک کرنے اور بچانے میں خرابی

ایسا لگتا ہے کہ جب بھی تمام علاقوں کو منتخب کیا گیا تو اب بھی مسائل ہوسکتے ہیں، پھر پہچان لیتے ہیں اور اسے بچانے کے ... یہ وہاں نہیں تھا!

سب سے پہلے، ہم دستاویز کو چیک کرنے کی ضرورت ہے!

اسے چالو کرنے کے لئے، شناخت کے بعد، ونڈو میں دائیں جانب، ایک "چیک" کے بٹن ہو گا، نیچے اسکرین شاٹ دیکھیں. اس پر کلک کرنے کے بعد، FineReader پروگرام خود بخود آپ کو ان علاقوں کو دکھائے گا جہاں پروگرام میں غلطیاں ہیں اور یہ قابل اعتماد طور پر ایک یا دوسرے علامت کا تعین نہیں کرسکتے ہیں. آپ کو صرف اس کا انتخاب کرنا ہوگا، یا آپ اس پروگرام کی رائے سے اتفاق کرتے ہیں، یا اپنا کردار درج کریں گے.

ویسے، نصف معاملات میں، تقریبا، پروگرام آپ کو ایک تیار کردہ صحیح لفظ پیش کرے گا - آپ کو صرف ماؤس کا استعمال کرنا ہے جو آپ چاہتے ہیں وہ اختیار کا انتخاب کریں.

دوسرا، جانچ پڑتال کرنے کے بعد آپ کو اس فارمیٹ کا انتخاب کرنا ہوگا جس میں آپ اپنے کام کا نتیجہ بچاتے ہیں.

یہاں FineReader آپ کو مکمل طور پر ایک باری دیتا ہے: آپ کو صرف ایک لفظ میں معلومات کو منتقل کر سکتے ہیں، اور آپ اسے ایک سے زیادہ فارمیٹس میں محفوظ کرسکتے ہیں. لیکن میں ایک اور اہم پہلو کو اجاگر کرنا چاہوں گا. جو بھی آپ کی شکل منتخب کرتے ہیں، کاپی کی قسم کو منتخب کرنے کے لئے یہ ضروری ہے! سب سے زیادہ دلچسپ اختیارات پر غور کریں ...

بالکل کاپی

تمام علاقوں جس نے آپ کو تسلیم شدہ دستاویز میں صفحے پر منتخب کیا ہے وہ بالکل منبع دستاویز میں مل جائے گا. ایک بہت آسان اختیار جب آپ کے لئے یہ ضروری ہے کہ متن فارمیٹنگ ختم نہ ہو. ویسے، فونٹ اصل میں بہت ہی ملتے جلتے ہوں گے. میں اس اختیار سے مشورہ کرتا ہوں کہ دستاویز کو ورڈ کو منتقل کرنے کے لۓ، وہاں مزید کام جاری رکھو.

قابل تدوین کاپی

یہ اختیار اچھا ہے کیونکہ آپ متن کے پہلے سے ہی شکل بنائے گئے ورژن حاصل کرتے ہیں. I "کلومیٹر" کا اشارہ، جو اصل دستاویز میں ہوسکتا ہے - آپ کو ملنا نہیں ہوگا. جب آپ معلومات کو نمایاں طور پر ترمیم کریں گے تو مفید آپشن.

سچ، آپ کو یہ منتخب نہیں کرنا چاہئے کہ آپ کے لئے ڈیزائن، فونٹ، اشارے کے انداز کو محفوظ رکھنے کے لئے ضروری ہے. کبھی کبھی، اگر شناخت بہت کامیاب نہیں ہے - تبدیل شدہ فارمیٹنگ کی وجہ سے آپ کا دستاویز "کھو" ہوسکتا ہے. اس صورت میں، ایک درست کاپی منتخب کرنے کے لئے مشورہ دیا جاتا ہے.

سادہ متن

ان لوگوں کے لئے جو اختیار ہر چیز کے بغیر صفحے سے صرف متن کی ضرورت ہے. تصاویر اور ٹیبل کے بغیر دستاویزات کے لئے مناسب.

اس میں دستاویز کا سکیننگ اور شناخت کا مضمون ختم ہو جاتا ہے. مجھے امید ہے کہ ان سادہ تجاویز کی مدد سے آپ اپنی مسائل کو حل کر سکتے ہیں ...

گڈ لک!