Как извлечь документы Word, из данных оправились от USB устройства?

голоса
1

Я был в состоянии скопировать исходные данные иначе недоступного диска USB в монолитную файл около 250MB. Где-то в том, что сгусток байтов около 40 документов Word.

  1. Где я могу найти документацию о внутренней структуре документов Word, таких, что я могу разобрать байтовый поток, распознать, где слово начинается и заканчивается Doc и извлечь копию?

  2. Существуют ли какие-либо библиотеки на любом языке программирования, специфичные для этой задачи?

  3. Можно ли предложить уже существующее программное решение этой проблемы?

Задан 10/12/2008 в 05:40
источник пользователем
На других языках...                            


2 ответов

голоса
5

Два подхода:

Вы можете монтировать файлы как тома в Linux. При условии, ваша блоб не слишком повреждена, вы, вероятно, смогут сломать файловую систему, чтобы выяснить, где вы файлы расположены. Есть (был) это раздел FAT или NTFS?

Если это не сработает, я бы искать эту строку байтов :

D0 CF 11 E0 A1 B1 1A E1

Это «магические байты» подписи файлов офисных документов. Они могут происходить случайным образом в других данных, но это начало. Вы собираетесь работать в основные вопросы, если файлы фрагментированы.

Кроме того, попытайтесь воссоздать части документа (ов) в Слове, как есть, сохранить его в файл и извлечь куски искать в сгустка (используя Grep двоичном или любой другой). При условии, у вас есть информация от всех частей файла вы должны быть в состоянии декодировать WHERE в сгустке они. Piecing его обратно в рабочем DOC двоичного кажется надуманным, но восстановление остальной части текста не должно быть невозможно.

Ответил 10/12/2008 в 05:52
источник пользователем

голоса
2

Apache POI проект имеет библиотеку для чтения и записи всех видов документации MS Office. Если файлы находятся в новом XML базы OOXML формате, вы будете искать для начала почтового файла как XML сжато.

Ответил 10/12/2008 в 05:46
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more