Have a personal or library account? Click to login
精通Spark数据科学 Cover

精通Spark数据科学

Chinese Edition

Paid access
|Jun 2024
Product purchase options

用Spark构建商业级数据科学解决方案

Key Features

  • 通过一系列典型的案例讲解,由浅入深
  • 使用Spark构建商业级数据科学解决方案

Book Description

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。这是一本专门介绍Spark的图书,旨在教会读者利用Spark构建实用的数据科学解决方案。
本书内容包括14章,由浅入深地介绍了数据科学生态系统、数据获取、输入格式与模式、探索性数据分析、利用Spark进行地理分析、采集基于链接的外部数据、构建社区、构建推荐系统、新闻词典和实时标记系统、故事除重和变迁、情感分析中的异常检测、趋势演算、数据保护和可扩展算法。
本书适合数据科学家以及对数据科学、机器学习感兴趣的读者阅读,需要读者具备数据科学相关的基础知识,并通过阅读本书进一步提升Spark运用能力,从而创建出高效且实用的数据科学解决方案。

What you will learn

  • 数据科学生态系统
  • 数据获取
  • 输入格式与模式
  • 探索性数据分析
  • 利用Spark进行地理分析
  • 采集基于链接的外部数据
  • 构建社区、构建推荐系统
  • 新闻词典和实时标记系统
  • 故事除重和变迁
  • 情感分析中的异常检测
  • 趋势演算
  • 数据保护和可扩展算法

Who this book is for

我们假定阅读这本书的数据科学家已经对数据科学、常用的机器学习方法和流行的数据科学工具有一定的了解,已在工作过程中进行了概念验证研究并构建了原型。本书向读者介绍建立数据科学解决方案的先进技术和方法,并展示如何构建商业级数据产品。

Table of Contents

  1. 数据科学生态系统
  2. 数据获取
  3. 输入格式与模式
  4. 探索性数据分析
  5. 利用Spark进行地理分析
  6. 采集基于链接的外部数据
  7. 构建社区
  8. 构建推荐系统
  9. 新闻词典和实时标记系统
  10. 故事除重和变迁
  11. 情感分析中的异常检测
  12. 趋势演算
  13. 数据保护
  14. 可扩展算法
https://github.com/packtpublishing/mastering-spark-for-data-science
PDF ISBN: 978-1-83620-384-1
Publisher: Packt Publishing Limited
Copyright owner: © 2024 Packt Publishing Limited
Publication date: 2024
Language: English
Pages: 457