有的時候你會發現用官方的PDF軟件復制文字,選區會很奇怪,不連續,然后復制出來順序是亂的,這就是PDF存儲文本的順序不一定跟顯示順序一致。還有一種PDF很惡心是專門防止你復制文字的,它直接內嵌一個字體,字體里面內碼和字形的對應關系是打亂的,你復制出來全是亂碼,但用它那個內嵌的字體就正常了。
pdf你可以理解類似矢量圖。它可以只存儲字形,然后用內部的索引來渲染,但是沒有對應的unicode。
要不咋說有些人就是笨呢,直接截圖加識字掃描,后期自己照著拍下版就行了,pdf直接復制出來反正版式也亂的一批。