空格和縮進都不存儲字符,直接存下一個字的位置。
這個我手工探查過。PDF支持語義標記,可以把一堆文本標記成段落,而從Word用Acrobat的虛擬打印機生成的PDF就可以利用這樣的標記,所以這樣的PDF轉Word原則上應該能恢復語義(做不到就是軟件太差勁了)。絕大多數生成PDF的軟件只保證看起來一樣,不會生成語義標記,那么只能把一個段落排版成若干行,每一行又是若干個字符(行內的信息本來不需要額外的語義標記,PDF鼓勵保留同一行的信息包括單詞之間的空格,但卻是有些生成PDF的軟件連這個信息也扔了),從這樣的PDF轉Word就只能得到一堆文本,多亂都有可能,因為已經沒有語義信息了,而用來欺騙眼睛的坐標信息也被扔掉