DataFrame API入门操作及代码展示_科技

DataFrame API入门操作及代码展示

创始人

2024-04-15 12:18:58

0次

文章目录

- DataFrame风格编程
- DSL风格编程代码示例
- - 相关API
  - 相关代码示例
- SQL风格编程代码示例
- - 相关API
  - 相关代码
- Fucntions包
- 基于SparkSQL的WordCount代码编写

DataFrame风格编程

DataFrame支持两种风格进行编程
- DSL风格
- SQL风格
DSL称之为领域特定语言，其实就是指DataFrame特有的API，DSL风格意思就是以调用API的方式来处理Data。
SQL风格就是使用SQL语句处理DataFrame的数据。

DSL风格编程代码示例

SQL风格编程代码示例

Fucntions包

PySpark提供了一个函数包：pyspark.sql.functions，这个包里提供了一些列的计算函数供SparkSQL使用最常见的有我们所熟悉的split和explode方法。
导入这个包我们可以通过以下代码来实现：

  from pyspark.sql import functions as F

这些功能函数的返回值多数都是column对象。

基于SparkSQL的WordCount代码编写

# coding : utf8
from pyspark.sql import SparkSession
from pyspark.sql import functions as Fif __name__ == '__main__':ss = SparkSession.builder \.appName("test") \.master("local[*]") \.getOrCreate()sc = ss.sparkContext# TODO: 1 SQL风格处理rdd = sc.textFile("hdfs://node1:8020/Test/WordCount.txt") \.flatMap(lambda line: line.split(" ")) \.map(lambda x: [x])df1 = rdd.toDF(["words"])df1.createOrReplaceTempView("words")ss.sql("SELECT words, COUNT(*) AS cnt FROM words GROUP  BY words ORDER  BY cnt DESC").show()# TODO: 2 DSL风格处理df2 = ss.read.format("text") \.load("hdfs://node1:8020/Test/WordCount.txt")# withColumn方法# 方法功能: 对已存在的列进行操作, 返回一个新的列, 如果名字和老列相同, 那么替换, 否则作为新列存在df3 = df2.withColumn("value", F.explode(F.split(df2["value"], " ")))df3.groupBy("value").count() \.withColumnRenamed("value", "words") \.withColumnRenamed("count", "cnt") \.orderBy("cnt", ascending=False).show()