如何使用pdfbox以外的文件parser?

問題編號: 
Q5
A: 

NTUR內建是使用開放原始碼的套件pdfbox,另有支援另一套商業套件PDFTextStream(v.2.X),這是經過測試正確率較高的parser,若需使用需做以下設定:

  1. 把PDFTextStream-X.X.X.jar放到 $DSPACE_HOME/lib/ 裡。
  2. 把從Snowtide收到的 .license 檔放到 $DSPACE_HOME/config/ 裡。
  3. 在 $DSPACE_HOME/config/dspace.cfg 裡加入
filter.org.dspace.app.mediafilter.PDFFilter.classname = com.snowtide.pdf.PDFTextStream
啟用parser license之後,必須手動執行索引指令,將pdf等格式的檔案parse出txt純文字檔供搜尋。
dsrun org.dspace.app.mediafilter.MediaFilterManager