大数据存储技术

《大数据存储技术》课程

一、课程介绍

MongoDB在文档型数据库中排名第一。本课程是数据科学与大数据技术专业学生必须学习和掌握的基础课程,是一门理论与实践相结合的专业主干课。注重培养学生的自主学习和动手操作能力。大数据存储技术是海量数据存储的基础和支撑,它采用分布式计算架构方式,对海量数据提供数据存储和业务访问功能,主要讲授大数据存储MongoDB、CRUD操作、索引、聚集分析、wiredtriger存储引擎、复制集、分片集群、分布式文件存储系统、管理与监控、权限管理和应用实践。通过本课程的学习,学生能够掌握大数据技术的基本概念、基本原理、设计方法和实现技术。具备分析和实现海量数据的分布式存储的基本能力。培养学生的工匠意识,引导学生运用唯物主义辩证法分析和解决问题的能力。

感谢“阿里云计算有限公司”对本课程的大力支持!
感谢李晓涵、倪可欣、谢金龙、尚祥枝等同学编写在线教程!

二、课程资源

三、课程考核方式

  • 平时情况:20%

  • 大作业:20%

  • 期末考试:60%

四、教学计划

  • 2024年春授课时间(1-17周)
    • 2022级数据科学1班,周1第1-2,文心楼204;
    • 2022级数据科学2班,周1第3-4,文心楼203;
  • 每章对应的PPT课件在这里,2024年课件PPT地址
Lesson Number 章节 内容 备注
1 第1章 初识MongoDB MongoDB的发展与现状、关键特性、安装部署、重要进程 作业1:安装环境
2 第2章 CRUD操作 插入操作、删除操作、修改操作 掌握操作语法
3 第2章 CRUD操作 查询操作 作业2
4 第3章 索引 单字段索引、复合索引、多键索引、索引管理、查询优化 作业3
5 第4章 聚集操作 简单聚集函数,管道聚集,MapReduce编程 作业4
6 第5章 WiredTiger存储引擎 存储引擎的数据结构、原理
7 第6章 复制集 复制集概述、部署一个复制集
8 第6章 复制集 复制集工作机制 作业5
9 第7章 分片集群 分片集群的部署架构、手动部署一个分片集群
10 第7章 分片集群 分片集群的工作机制 作业6,大作业
11 第8章 分布式文件存储 原理、大小文件存储
12 第7章和第8章实验练习 实验练习
13 第9章 管理与监控
14 第10章 权限控制
15-17 完成大作业和复习

五、如何科学的提问?

一、实验练习过程中,会遇到各种各样的bug,请不要怕。在提问之前,请仔细阅读How-To-Ask-Questions-The-Smart-Way提问的智慧Stop-Ask-Questions-The-Stupid-Ways/这两篇文章。这两篇文章并不是为了故意浪费大家的时间, 也不是为了禁止大家提出任何问题, 而是为了让大家知道"什么是正确的". 当你愿意为这些"正确的做法"去努力, 并且尝试用专业的方式提出问题的时候, 你就已经迈出了成为"成为专业人士"的第一步1

二、如果都没有解决,向其他人提问的时候该这样描述:

  • 1.我已经尝试过哪些方案?但是依然报错。
  • 2.我的尝试过程描述、操作截图、报错截图。

三、提问的套路图如下:

you-are-not-prepared.png

六、常见问题的解决方法

思路1.解决问题的思路:将问题提炼清楚,然后在Chatgpt(gpt原版,kimi,讯飞星火等),Google,bing,baidu等搜索引擎进行检索答案,95%以上问题均可以解决。
思路2.摸索2天依然没有找到解决方案,寻找周围的高手帮助。

1.我喜欢最新版本的软件,我就直接官网下载安装,可以吗?
回答:编程能力强,能自我解决问题的,强烈建议用新版本。如果碰到问题,不太会独立解决,建议按照课程PPT的版本来,因为新版本肯定和旧版本有细微的差距。

2.我怎么运行不出PPT的结果?我的操作怎么报错?
回答:请仔细读懂PPT语句的含义,认真学习语法规则,检查自己是否敲错。少空格,单词错误,漏字符等等。

3.我写的命令或查询语句为什么不能成功?
回答:请检查命令是否书写正确?命令的路径是否正确?查询语句的语法是否正确?是否查看官方文档的语法规则?