Lompat ke isi

Cara Mengonversi Gambar JPG ke PDF dengan OCR Secara Otomatis di Ubuntu

Dari Wiki Berbudi

Dalam proses digitalisasi dokumen, sering kali kita perlu mengonversi gambar hasil scan (format JPG) menjadi dokumen PDF yang dapat dicari teksnya menggunakan OCR (Optical Character Recognition). Berikut adalah langkah-langkah untuk melakukan konversi secara otomatis menggunakan perintah terminal di Ubuntu.

Persiapan

Sebelum menjalankan skrip, pastikan sistem telah terinstal paket berikut:

sudo apt update && sudo apt install tesseract-ocr imagemagick poppler-utils
  • Tesseract-OCR: Digunakan untuk mengenali teks dalam gambar.
  • ImageMagick: Digunakan untuk memproses gambar (opsional untuk resize, jika diperlukan).
  • Poppler-utils: Termasuk pdfunite, yang digunakan untuk menggabungkan PDF.

Skrip Konversi Otomatis

Gunakan perintah berikut untuk mengonversi semua file JPG dalam satu folder menjadi satu file PDF dengan teks hasil OCR:

folder_name=$(basename "$PWD") && mkdir -p temp_pdf && for file in *.jpg; do tesseract "$file" "temp_pdf/${file%.*}" --dpi 300 pdf; done && pdfunite temp_pdf/*.pdf "${folder_name}.pdf" && rm -r temp_pdf

Penjelasan Skrip

1. Mengambil Nama Folder Secara Dinamis

folder_name=$(basename "$PWD")

Ini akan mengambil nama folder saat ini, yang akan digunakan sebagai nama file PDF hasil akhir.

2. Membuat Folder Sementara

mkdir -p temp_pdf

Folder ini digunakan untuk menyimpan hasil konversi sementara sebelum digabungkan menjadi satu file PDF.

3. Melakukan OCR pada Setiap Gambar

for file in *.jpg; do tesseract "$file" "temp_pdf/${file%.*}" --dpi 300 pdf; done
  • `tesseract "$file" "temp_pdf/${file%.*}" --dpi 300 pdf;` memproses setiap file JPG menjadi PDF OCR di dalam folder `temp_pdf`.
  • Parameter `--dpi 300` memastikan kualitas output yang lebih baik.

4. Menggabungkan Semua PDF yang Dihasilkan

pdfunite temp_pdf/*.pdf "${folder_name}.pdf"

Semua file PDF dari folder `temp_pdf` akan digabungkan menjadi satu file dengan nama yang sesuai dengan folder kerja.

5. Menghapus Folder Sementara

rm -r temp_pdf

Setelah proses selesai, folder `temp_pdf` dihapus untuk menghemat ruang penyimpanan.

Hasil Akhir

Setelah menjalankan skrip di atas, di dalam folder kerja akan terdapat file PDF dengan nama sesuai nama folder yang berisi semua gambar yang telah dikonversi dan bisa dicari teksnya.