Spark问答合集及解决方法，

和通数据库htsjk.Com2020-04-12 21:49 来源:未知阅读:3395 评论 188 热度2

标签：Hive stream ask 模块 aliyun DataFrame json spark source 控制台 hdfs 集群函数问答大数据

Spark问答合集及解决方法，

Spark问答合集及解决方法，转自和通数据库开发者问答，大家有问题可以移步和通数据库问答模块：https://developer.aliyun.com/ask/

如何使用spark将kafka主题中的writeStream数据写入hdfs？
https://yq.aliyun.com/ask/493211
当Spark在S3上读取大数据集时，在“停机时间”期间发生了什么？
https://yq.aliyun.com/ask/493212
从Redshift读入Spark Dataframe（Spark-Redshift模块）
https://yq.aliyun.com/ask/493215
在初始化spark上下文后，在运行时更改pyspark的hadoop配置中的aws凭据
https://yq.aliyun.com/ask/493217
Window.rowsBetween - 仅考虑满足特定条件的行（例如，不为null）
https://yq.aliyun.com/ask/493220
spark的RDD内容直接用saveAsTextFile保存到hdfs时会出现中文乱码现象，但在控制台用foreach打印该RDD数据显示是正常的，该怎么解决呢？
https://yq.aliyun.com/ask/494418
请问一下如何能查看spark struct streaming内存使用情况呢？
https://yq.aliyun.com/ask/494417
使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件，块数到达百万级别，这个怎么优化下？
https://yq.aliyun.com/ask/494415
请教大家一个问题，spark stream连kafka，在web页面的stream标签，显示好多batch处于queued状态，这些batch是已经把数据从kafka读取进rdd，等待处理，还是还没有从kafka读取数进rdd？
https://yq.aliyun.com/ask/493702
为什么我使用 dropDuplicates()函数报错
Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.(Ljava/lang/String;II)V ?

https://yq.aliyun.com/ask/493700

请教一下，我hive中数据大小为16g，通过importtsv生成了hfile 文件，导入到hbase中了，数据变成130多g，还有什么更好的办法吗?
https://yq.aliyun.com/ask/493698
jdbc 连接spark thrift server 如何获取日志?
https://yq.aliyun.com/ask/493582
Spark如何从一行中仅提取Json数据?
https://yq.aliyun.com/ask/493581
pyspark - 在json流数据中找到max和min usign createDataFrame
https://yq.aliyun.com/ask/493234
如何计算和获取Spark Dataframe中唯一ID的值总和？
https://yq.aliyun.com/ask/493231
如何将csv目录加载到hdfs作为parquet？
https://yq.aliyun.com/ask/493224
无法使用Spark在Datastax上初始化图形
https://yq.aliyun.com/ask/493222
使用PySpark计算每个窗口的用户数
https://yq.aliyun.com/ask/493221
sql语句不支持delete操作，如果我想执行delete操作该怎么办？
https://yq.aliyun.com/ask/494420
spark streaming 和 kafka ，打成jar包后((相关第三方依赖也在里面))，放到集群上总是报StringDecoder 找不到class
https://yq.aliyun.com/ask/494421
json字符串中有重名但大小写不同的key，使用play.api.libs.json.Json.parse解析json没有报错，但是spark-sql使用org.openx.data.jsonserde.JsonSerDe时，会自动将key转为小写，然后putOnce函数报错Duplicate key
https://yq.aliyun.com/ask/494423
spark DataFrame写入HDFS怎么压缩？
https://yq.aliyun.com/ask/495552
使用Spark On Hive时，动态的将数据插入到Hive中，但是在Hive的数据表下会有很多文件，这个可以怎么设置一下呢？
https://yq.aliyun.com/ask/495927

本站文章为和通数据库网友分享或者投稿，欢迎任何形式的转载，但请务必注明出处.
同时文章内容如有侵犯了您的权益，请联系QQ：970679559，我们会在尽快处理。

返回首页

评论暂时关闭