Cara Mengonversi Gambar JPG ke PDF dengan OCR Secara Otomatis di Ubuntu
Dalam proses digitalisasi dokumen, sering kali kita perlu mengonversi gambar hasil scan (format JPG) menjadi dokumen PDF yang dapat dicari teksnya menggunakan OCR (Optical Character Recognition). Berikut adalah langkah-langkah untuk melakukan konversi secara otomatis menggunakan perintah terminal di Ubuntu.
Persiapan
Sebelum menjalankan skrip, pastikan sistem telah terinstal paket berikut:
sudo apt update && sudo apt install tesseract-ocr imagemagick poppler-utils
- Tesseract-OCR: Digunakan untuk mengenali teks dalam gambar.
- ImageMagick: Digunakan untuk memproses gambar (opsional untuk resize, jika diperlukan).
- Poppler-utils: Termasuk pdfunite, yang digunakan untuk menggabungkan PDF.
Skrip Konversi Otomatis
Gunakan perintah berikut untuk mengonversi semua file JPG dalam satu folder menjadi satu file PDF dengan teks hasil OCR:
folder_name=$(basename "$PWD") && mkdir -p temp_pdf && for file in *.jpg; do tesseract "$file" "temp_pdf/${file%.*}" --dpi 300 pdf; done && pdfunite temp_pdf/*.pdf "${folder_name}.pdf" && rm -r temp_pdf
Penjelasan Skrip
1. Mengambil Nama Folder Secara Dinamis
folder_name=$(basename "$PWD")
Ini akan mengambil nama folder saat ini, yang akan digunakan sebagai nama file PDF hasil akhir.
2. Membuat Folder Sementara
mkdir -p temp_pdf
Folder ini digunakan untuk menyimpan hasil konversi sementara sebelum digabungkan menjadi satu file PDF.
3. Melakukan OCR pada Setiap Gambar
for file in *.jpg; do tesseract "$file" "temp_pdf/${file%.*}" --dpi 300 pdf; done
- `tesseract "$file" "temp_pdf/${file%.*}" --dpi 300 pdf;` memproses setiap file JPG menjadi PDF OCR di dalam folder `temp_pdf`.
- Parameter `--dpi 300` memastikan kualitas output yang lebih baik.
4. Menggabungkan Semua PDF yang Dihasilkan
pdfunite temp_pdf/*.pdf "${folder_name}.pdf"
Semua file PDF dari folder `temp_pdf` akan digabungkan menjadi satu file dengan nama yang sesuai dengan folder kerja.
5. Menghapus Folder Sementara
rm -r temp_pdf
Setelah proses selesai, folder `temp_pdf` dihapus untuk menghemat ruang penyimpanan.
Hasil Akhir
Setelah menjalankan skrip di atas, di dalam folder kerja akan terdapat file PDF dengan nama sesuai nama folder yang berisi semua gambar yang telah dikonversi dan bisa dicari teksnya.