Matplotlib를 사용하여 PySpark SQL 플롯 결과, 다음 단계를 수행할 수 있습니다-
- 그림 크기를 설정하고 서브플롯 사이 및 주변 여백을 조정합니다.
- Spark 기능의 주요 진입점인 인스턴스를 가져옵니다.
- Hive에 저장된 데이터와 통합되는 Spark SQL 변형의 인스턴스를 가져옵니다.
- 레코드 목록을 튜플로 만듭니다.
- 로컬 Python 컬렉션을 배포하여 RDD를 형성합니다.
- 목록 레코드를 DB 스키마로 매핑합니다.
- 스키마 인스턴스를 가져와 "my_table"에 항목을 만듭니다.
- 표에 레코드를 삽입합니다.
- SQL 쿼리를 읽고 레코드를 검색합니다.
- 가져온 레코드를 데이터 프레임으로 변환합니다.
- 이름으로 색인 설정 속성을 지정하고 플롯합니다.
- 그림을 표시하려면 show()를 사용하세요. 방법.
예시
from pyspark.sql import Row from pyspark.sql import HiveContext import pyspark import matplotlib.pyplot as plt plt.rcParams["figure.figsize"] = [7.50, 3.50] plt.rcParams["figure.autolayout"] = True sc = pyspark.SparkContext() sqlContext = HiveContext(sc) test_list = [(1, 'John'), (2, 'James'), (3, 'Jack'), (4, 'Joe')] rdd = sc.parallelize(test_list) people = rdd.map(lambda x: Row(id=int(x[0]), name=x[1])) schemaPeople = sqlContext.createDataFrame(people) sqlContext.registerDataFrameAsTable(schemaPeople, "my_table") df = sqlContext.sql("Select * from my_table") df = df.toPandas() df.set_index('name').plot() plt.show()
출력