6.RDD算子实战

 from pyspark import SparkContext,SparkConf

 import sys

 if __name__ == '__main__':

     if len(sys.argv) != 2:

         print("Usage: wordcount <input>",file=sys.stderr)

         sys.exit(-1)

     conf = SparkConf()

     sc = SparkContext(conf=conf)

     counts = sc.textFile(sys.argv[1])\

         .flatMap(lambda line:line.split(" "))\

         .map(lambda x:(x,1))\

         .reduceByKey(lambda a,b : a+b)

     output = counts.collect()

     for (word,count) in output :

         print("%s: %i" % (word,count))

     sc.stop()

 from pyspark import SparkContext,SparkConf

 import  sys

 if __name__ == '__main__':

     if len(sys.argv) != 2:

         print("Usage: avg <input>",file = sys.stderr)

         sys.exit(-1)

     conf = SparkConf()

     sc = SparkContext(conf=conf)

     ageData = sc.textFile(sys.argv[1]).map(lambda line:line.split(" ")[1])

     totalAge = ageData.map(lambda x:int(x)).reduce(lambda a,b:a+b)

     count = ageData.count()

     avgAge = totalAge / count

     print("totalAge:%s"%totalAge)

     print("count:%s"%count)

     print("avgAge:%s"%avgAge)

     sc.stop()

6.RDD算子 实战的相关教程结束。

《6.RDD算子实战.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

机器学习实战（Machine Learning in Action）学习笔记————03.决策树原理、源码解析及测试

机器学习实战（Machine Learning in Action）学习笔记————03.决策树原理、源码解析及测试关键字：决策树、python、源码解析、测试作者：米仓山下时间：2018-10-24机器学习实战（Machine...
2023-08-01编程代码学习笔记,实战,源码
SpringBoot自定义注解+AOP+redis实现防接口幂等性重复提交，从概念到实战

本文为千锋教育技术团独家创作，更多技术类知识干货，点个关注持续追更~ 接口幂等性是Web开发中非常重要的一个概念，它可以保证多次调用同一个接口不会对结果产生影响。如果你想了解更多关于接口幂等性的知识，...
2023-08-01编程代码实战,注解,自定义
SQL注入三连实战绕过WTS-WAF

一键三连，sql注入一次无意之间发现的sql注入，主要是因为有一个WTS-WAF，在此记录一下只是友好测试，并非有意为之。。。。牛刀小试1 手注判断字段数测试到order by 15的时候出现了报错，那么就可以说明字段...
2023-07-31编程代码实战,注入,绕过
Java多线程编程模式实战指南一：Active Object模式（上）

Active Object模式简介 Active Object模式是一种异步编程模式。它通过对方法的调用与方法的执行进行解耦来提高并发性。若以任务的概念来说，Active Object模式的核心则是它允许任务的提交（相当于对异步方法的调...
2023-07-31编程代码多线程,实战,模式
spring boot插件开发实战和原理

本文转载自spring boot插件开发实战和原理实战：编写spring boot插件为什么要编写boot插件因为我们在开发的时候需要提供一些共同的功能，所以我们编写个共同的jar包。开发人员在使用jar包的时候不用考虑jar...
2023-07-31编程代码原理,实战,插件
【eclipse插件开发实战】Eclipse插件开发2——SWT

Eclipse插件开发实战2——SWT 一、SWT简介 SWT(StandardWidget Toolkit) 标准小窗口工具箱，一开源的GUI编程框架，与AWT/Swing有相似的用处，eclipse就是用SWT开发的。SWT主要是用来编写java桌面应用程序的，...
2023-07-31编程代码实战,开发,插件
【eclipse插件开发实战】Eclipse插件开发3——OSGi、RCP

Eclipse插件开发实战3——OSGi、RCP 一、OSGi 1. 什么是OSGi框架　　OSGi(Open Service Gateway Initiative)框架是运行在JavaVM环境里的服务平台。框架提供的主要功能是对应用和组件的生命周期管理，系统可以在无...
2023-07-31编程代码实战,开发,插件
【eclipse插件开发实战】Eclipse插件开发7——插件发布jar包

Eclipse插件开发7——插件发布jar包最省事的方式就是直接导出jar包，然后放到eclipse的plugins目录下，重启eclipse即可。 step1: 对需要打包的插件工程右击→导出(Export) step2: 选择”可部署插件或段” (Deployabl...
2023-07-31编程代码实战,开发,插件