Извлечение информации из текста в питоне

голоса
-1

Я новичок в горнорудный тексте. У меня есть файл CSV. Мне нужно, чтобы пройти через каждую строку и извлечь некоторую информацию затем записать их в другой файл CSV. Я ищу конкретную информацию, которую я имею в словаре. Рассмотрим ниже предложения:

«Версия приложения является 1.8.2, а переменная skt.len передает необходимую информацию. Файл readme.txt имеет спецификацию.»

Мой словарь: [ «версия приложения», «переменная», «файл»]

Мне нужно извлечь:

  • версия приложения: 1.8.2
  • переменная: skt.len
  • Файл: readme.txt

Что является лучшим способом для извлечения такой информации из текста? Я играю с NLTK и StanfordCoreNLP функциями. Но я не мог извлечь информацию пока. Я имею в виду, чтобы использовать регулярное выражение для извлечения версии приложения. Любая идея?

PS: Я знаю, что это может сделать задачу более сложной. Но предложения в каждой строке файла CSV может иметь различные структуры. Например: «версия приложения» в одной строке, может быть «версия приложения» в другой строке. Или «файл» в одной строке может быть «имя файла» в другой строке.

Задан 02/09/2018 в 05:25
источник пользователем
На других языках...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more