не может использовать grepl в dplyr мутировать функции на sparklyr TBL

голоса
0

У меня есть большой набор данных, который я пытаюсь обработать с помощью dyplyr на распределенной sparklyr ТПС. Я был в состоянии использовать другие функции мутировать, что я пытался до сих пор, но база :: grepl возвращает ошибку. Процесс один поток процесс, который я хочу повторить с помощью искры:

df.dummy <- data.frame(name = c('100', '101', 'c102', '103', 'c104'), value = seq(1,5))

df.dummy %>% 
   mutate(cat = grepl('c', name))

  name value   cat
1  100     1 FALSE
2  101     2 FALSE
3 c102     3  TRUE
4  103     4 FALSE
5 c104     5  TRUE

А код, который я пытаюсь запустить, чтобы заставить его работать в распределенной обработке:

sdf.dummy <- copy_to(sc, df.dummy)

sdf.dummy %>% 
   mutate(cat = grepl('c', name))

Который дает следующее сообщение об ошибке:

Error : org.apache.spark.sql.AnalysisException: Undefined function: 'GREPL'. This function is neither a registered temporary function nor a permanent function registered in the database 'default'.; line 1 pos 24

Как Grep является базовой функцией я не могу себе представить, что это проблема не загружается на рабочих узлах. Довольно новая искра / sparklyr / dplyr так, пожалуйста, поправьте меня, если я не понял какой-либо из основных принципов процесса.

Задан 07/11/2018 в 20:00
источник пользователем
На других языках...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more