本书着重介绍大数据建模与分析中常用的概率极限理论,主要内容包括相依随机变量和过程的极限理论、Stein方法及其应用、自正则化极限理论、高维样本协方差矩阵的谱统计量渐近分布理论、随机梯度方法及其应用、随机复杂网络的整体和局部结构、分布式统计推断方法和渐近理论、Gauss逼近原理及其应用等。
本书共分为8章,每一章都围绕完整的项目展开,涵盖Spark的各个重要组件。包括认识Spark、Scala语法应用、SparkCore数据分析、SparkSQL结构化数据处理、Spark、流式数据处理,Spark结构化流式处理、Spark机器学习应用、社交软件运营数据分析,逐步提升读者的技术水平和应用能力。每个项目由多个
本书精心编排为15章,内容包括Spark简介、Spark集群环境部署、Spark编程体验、RDD深度解读、RDD的Shuffle详解、Spark共享变量、Spark序列化和线程安全、Spark内存管理机制、SparkSQL简介、SparkSQL抽象编程详解、SparkSQL自定义函数、SparkSQL源码解读、Spar
本书提供了完整的数据资产对内运营与对外运营的实施路径,从数据治理、数据资产入表到数据资产场景化应用,再到完整的数据资产运营,每个环节都有明确的实施路径及重点、难点。通过系统化的讲解,确保读者在理解每个概念的同时,能够掌握如何落地实施,避免出现知识断层的情况。 数据资产入表、管理和运营的核心是数据资产本身,法律、财务、评
知识图谱以三元组形式组织现实世界的各种事实,并通过图的形式揭示事实间语义关联,由于其完善的知识组织和存储方式,且建模更加灵活、表达能力更强,逐渐拓展到语言理解、智能问答、推荐系统等领域应用。工程应用场景中时序信息相关的动态性是知识图谱关键及主要特征,融合时序相关信息的动态知识推理对于提高知识图谱推荐、问答等应用的精准性
《智能控制技术与应用案例设计》聚焦智能控制技术在石化行业的应用,全书共六章。首章阐述智能控制的发展、研究内容、对象、性能及特点。第二章围绕模糊控制,涵盖理论、模糊PID、Matlab实现及工程实验。第三章将李雅普诺夫稳定性理论融入自适应控制,解决非线性系统问题并给出仿真实例。第四章构建神经网络系统辨识体系,用于流程工业
本书聚焦数据资产价值管理的关键点,从数据资源化、数据资产化,到数据资本化的演进过程,梳理数据资产的价值特征、管理逻辑与实践路径。
本书详细介绍了大数据与数据治理、大数据思维变革、大数据可视化、大数据商业规则、大数据促进医疗与健康、大数据激发创造力、大数据预测分析、大数据存储技术、大数据处理技术、大数据与云计算、大数据与人工智能、大数据安全与法律、数据科学及其职业、大数据发展展望等内容,深入浅出,具有较强的系统性、可读性和实用性。
本书分为三部分:第一部分介绍差分隐私的理论,详细解释了准备数据和执行差分隐私数据发布所需的各个概念;第二部分探讨差分隐私的应用,包括如何查询不同的数据格式(如搜索日志)以及在机器学习算法中添加差分隐私;第三部分则关注从业者需要了解的重要主题,例如理解隐私攻击、设置隐私参数以及部署首次差分隐私数据发布。
本书共15章,分四部分。第一部分是“数据准备与清洗”(第1-4章),首先介绍自助式数据分析的六大应用场景(第1章),然后详解PowerQuery在数据清洗、表格结构管理以及数据转换方面的全流程操作。第二部分是“数据整合与高级查询”(第5-7章),深入探讨数据管理(第5章)、数据查询(第6章)以及多表合并技术(第7章)。