pyspark调用python第三方库_如何使pyspark使用自定义python?_ChrisJimmel的博客-程序员宅基地

技术标签: pyspark调用python第三方库  

我使用的是齐柏林连接远程星团。

远程Spark正在使用系统python 2.7。

我想切换到miniconda3,安装lib pyarrow。

我要做的是:

下载miniconda3,安装一些libs,scp miniconda3文件夹到spark master和slaves。

添加

PYSPARK_PYTHON="/usr/local/miniconda3/bin/python"

spark-env.sh

在火花主和奴隶。

重新启动Spark和Zeppelin

运行代码

%火花.pyspark

import pandas as pd

from pyspark.sql.functions import pandas_udf,PandasUDFType

@pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)

def process_order_items(pdf):

pdf.loc[:, 'total_price'] = pdf['price'] * pdf['count']

d = {'has_discount':'count',

'clearance':'count',

'count': ['count', 'sum'],

'price_guide':'max',

'total_price': 'sum'

}

pdf1 = pdf.groupby('day').agg(d)

pdf1.columns = pdf1.columns.map('_'.join)

d1 = {'has_discount_count':'discount_order_count',

'clearance_count':'clearance_order_count',

'count_count':'order_count',

'count_sum':'sale_count',

'price_guide_max':'price_guide',

'total_price_sum': 'total_price'

}

pdf2 = pdf1.rename(columns=d1)

pdf2.loc[:, 'discount_sale_count'] = pdf.loc[pdf.has_discount>0, 'count'].resample(freq).sum()

pdf2.loc[:, 'clearance_sale_count'] = pdf.loc[pdf.clearance>0, 'count'].resample(freq).sum()

pdf2.loc[:, 'price'] = pdf2.total_price / pdf2.sale_count

pdf2 = pdf2.drop(pdf2[pdf2.order_count == 0].index)

return pdf2

results = df.groupby("store_id", "product_id").apply(process_order_items)

results.select(['store_id', 'price']).show(5)

出现错误:

Py4JJavaError: An error occurred while calling o172.showString.

: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 6.0 failed 4 times, most recent failure: Lost task 0.3 in stage 6.0 (TID 143, 10.104.33.18, executor 2): org.apache.spark.api.python.PythonException: Traceback (most recent call last):

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 230, in main

process()

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 225, in process

serializer.dump_stream(func(split_index, iterator), outfile)

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 150, in

func = lambda _, it: map(mapper, it)

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 276, in load_stream

import pyarrow as pa

ImportError: No module named pyarrow

10.104.33.18

是火花大师,所以我认为

PYSPARK_PYTHON

设置不正确。

我登录到主人和奴隶,运行

pyspark interpreter

在每一个,并发现

import pyarrow

不要抛出异常。

PS:

pyarrow

也安装在运行齐柏林飞艇的机器上。

更多信息:

星团安装在A,B,C,飞艇安装在D。

pyspark巨蟒

设置为

火花-env.sh

每个A、B、C

导入pyarrow

很好的

/usr/local/spark/bin/pyspark

在A、B、C中/

导入pyarrow

在A、B、C自定义python上很好(miniconda3)

导入pyarrow

在d的默认python上是可以的(miniconda3,path不同于a、b、c,但这并不重要)

所以我完全不明白为什么它不起作用。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_34220317/article/details/113960580

智能推荐

centos不能桥接上网的问题_魔亦有道的博客-程序员宅基地

先检查一下虚拟机中的网络设置是否正常,由于我的本机系统使用的是windows2007,所以只能使用桥接方式来使虚拟机上网了。 再来看看 edit-> virtual network editor… (并不是我的英语好,而是虚拟机上的英文我翻译不过来,所以就老实一点,照着人家的写吧) 把其它的都删除了,就留下了一个VMnet0,而且还是使用桥接的方式来搞的;下面得指定桥接的方式,而且要指定网卡;

Java怎么知道做了几次fullgc_记一次连续几次FullGC事件的排查过程_王利芬的博客-程序员宅基地

[TOC]背景生产上有一套联机系统,这里称之为svc,提供rpc服务给上游联机系统调用。上游联机系统需要调用svc来查询一些信息,如果命中则做一些业务拦截操作。其中svc有12台节点,通过zookeeper注册中心发布,客户端会自动负载均衡,每次请求会负载到其中1台机器上,默认是平均负载。上游系统通过某种策略,只连了我们8台节点,成为之node1-node8,node9到node12没有被上游系统..._full gc 能看到历史什么时候做的么

c#实现添加虚拟IP_c#给主机添加多个ip地址_甜甜圈Sweet Donut的博客-程序员宅基地

转载地址:https://www.cnblogs.com/lcawen/articles/8990735.html还没有尝试过,先记录一下,之后试一下看是不是真的可用。。但是其实直接配置ip地址就行,而且需要实现心跳包的发送,这点还需要考虑虚拟IP技术在高可用领域像数据库SQLSERVER、web服务器等场景下使用很多,很疑惑它是怎么实现的,偶然,发现了一种方式可以实现虚拟ip。它的原理..._c#给主机添加多个ip地址

从国产SLG手游来说A星寻路算法_slg 寻路_自己的九又四分之三站台的博客-程序员宅基地

1. 前文先说SLG是什么,SLG=Simulation Game,策略类游戏。现特指回合制策略游戏以及即时SLG。有别于SIM(Simulation)类“生活“模拟游戏,SLG虽然也是缩写的simulation(模拟但与经营类意思不同),却是“战争策略“模拟游戏的总称。而本文要说的是SLG游戏中的一种分类,国产手游中比较具有代表性的有:率土之滨、三国志战略版、宏图之下,由于我们是要介绍A*算法相关内容,所以我们贴几张关于战场的图,以方便我们有一个理解。以下三个游戏由发行时间先后顺序展示:率土之_slg 寻路

2019.3.25-26 微信图书入门学习-程序员宅基地

话不多说,学就对了,学为己用。1、由于盗ban视频不让截图。需求分析口说无凭,只能记录自己学习点滴了。Epubjs核心类介绍:Book:阅读器的解析Rendition:实现了阅读器的渲染Locations: 负责阅读器的定位Navigation: 存储了目录信息ViewManager:阅读器渲染视图管理EpubCFI:运用Epub的标准进行文字级别的定位Theme:负责管理场景切...

从校园到职场 - 切勿陷入照本宣科_caoz的博客-程序员宅基地

前置阅读 从校园到职场 -说说实习这点事 从校园到职场 - 不要躲在舒适区 caoz谈能力成长系列 - 机会来自于担当...

随便推点

matlab公式符号计算推倒_matlab equation=sym('sin(x)+cos(x)=1')_2016cxg的博客-程序员宅基地

////////////////////////////////matlab符号计算功能和可视化(公式推导)////////////////符号计算结果的图形化显示、符号计算程序的编写以及在线帮助系统都是十分完整和便 捷的符号运算入门 科学与工程技术中的数值运算固然重要,但自然科学理论分析中各种各样的公式、关系 式及其推导就是符号运算要解决的问题。它与数值运算一样,都是科学计算_matlab equation=sym('sin(x)+cos(x)=1')

sqlserver 2012中实现字符串连接的新方法_Angus_yang的博客-程序员宅基地

--sqlserver 2012之前的版本/* 处理not null字符 */DECLARE @t1 varchar(10) = 'a'DECLARE @t2 varchar(10) = 'b'DECLARE @t3 varchar(10) = 'c'DECLARE @t4 varchar(10) = 'd'DECLARE @N1 int = 2012SELECT @t

浏览器上传附件或者下载导致浏览器直接卡死(无响应)的解决方案_浏览器上传附件就卡死_灰灰的笨丫头的博客-程序员宅基地

不要怀疑,是搜狗输入法的锅~~~解决方案1、上传或者下载之前把输入法改成默认的系统输入法2、升级搜狗输入法的版本_浏览器上传附件就卡死

粒子场优化(Particle Field Optimization,PFO)_pfo模型_松间沙路hba的博客-程序员宅基地

获取更多资讯,赶快关注上面的公众号吧!文章目录粒子场优化Particle Field OptimizationPSOBare Bones Particle Swarm(BBPS)Particle Field Optimization,PFO算法如何影响PFO抽象PFO实现粒子场优化Particle Field Optimization加拿大的Nathan Bell和B. John Oommen于2015年,提出了一种新的、抽象的粒子群优化(PSO)系统视角,视图抛弃单个粒子构成的群体,而是通过 场(._pfo模型

HTML动画个人导航页面模板_个人导航模板-程序员宅基地

简介:吾爱大佬分享的一款个人导航模板,写的不怎么样,BUG很多,已修复了所有已知样式错误。整理分享给大家,喜欢的下载学习。网盘下载地址:http://kekewl.net/2NudO16sVhL0图片:_个人导航模板

树的点分治_余西子的博客-程序员宅基地

树的点分治,就是在对树分而治之。复杂度最坏情况下是nlogn 比较好的练手题:poj-1741 http://poj.org/problem?id=1741 题意:求树上距离小于等于K的点对有多少个 关于重心。 对于分治问题,我们都希望能够令分开的问题尽可能的平均,树的点分治也是这个道理。所以我们要先求出树的重心,...

推荐文章

热门文章

相关标签