Извлечение информации из текста в питоне

голоса
-1

Я новичок в горнорудный тексте. У меня есть файл CSV. Мне нужно, чтобы пройти через каждую строку и извлечь некоторую информацию затем записать их в другой файл CSV. Я ищу конкретную информацию, которую я имею в словаре. Рассмотрим ниже предложения:

«Версия приложения является 1.8.2, а переменная skt.len передает необходимую информацию. Файл readme.txt имеет спецификацию.»

Мой словарь: [ «версия приложения», «переменная», «файл»]

Мне нужно извлечь:

  • версия приложения: 1.8.2
  • переменная: skt.len
  • Файл: readme.txt

Что является лучшим способом для извлечения такой информации из текста? Я играю с NLTK и StanfordCoreNLP функциями. Но я не мог извлечь информацию пока. Я имею в виду, чтобы использовать регулярное выражение для извлечения версии приложения. Любая идея?

PS: Я знаю, что это может сделать задачу более сложной. Но предложения в каждой строке файла CSV может иметь различные структуры. Например: «версия приложения» в одной строке, может быть «версия приложения» в другой строке. Или «файл» в одной строке может быть «имя файла» в другой строке.

Задан 02/09/2018 в 05:25
источник пользователем
На других языках...                            


1 ответов

голоса
1

Я использую R и ниже один из пути (не самый лучший, но только, чтобы показать, как она работает), чтобы извлечь значение переменной:

>> str_extract(text, '(?<=variable\\s)(\\w+)(.)?(\\w+)?')

здесь текст является вся строка, которую вы поделились. Это дает мне выход

>> skt.len

Я уверен, что есть аналогичные функции в Python, чтобы получить это сделано и получить вывод в нужном формате.

Ответил 04/09/2018 в 11:32
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more