阅读

一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革

a15a, 贾雪丽著,2023年版    [文件格式: PDF - 119MB]

内容简介

《一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革》以通俗易懂的方式从各个层面介绍了AIGC的基础知识,并辅以大量案例引领读者了解AIGC的应用实践,让读者可以更快速地利用AIGC改善工作和生活。 第1章从AI发展历史到资本市场近况阐述了AIGC产业的概况,第2章介绍了AIGC相关技术,第3章介绍了文本类AIGC技术的发展及其在传媒、教育、办公等场景中的应用,第4章介绍了声音类AIGC技术的发展及其在音乐、仿真等领域中的应用,第5章介绍了图片类AIGC技术的发展及其在图片生成、图片处理、图片识别等领域中的应用,第6章介绍了视频类AIGC技术的发展及其在视频生成、数字人等领域中的应用,第7章介绍了AIGC上下游产业链(包括芯片、VR等相关设备、元宇宙建模)的概况,第8章提出了AIGC对人类文明发展产生的影响,并对普通人如何应对AIGC带来的“生产力爆炸”提出方法论。 AIGC带来的生产力变革与每个人都息息相关,本书适合所有人阅读,特别是文本、图片、音视频等各类内容创作者,以及科技行业、金融行业的从业者和对AI领域感兴趣的读者。

作者简介

贾雪丽
上海技术交易所专家库专家,代尔夫特理工大学硕士,先后就职于 ING 银行、中国平安、光大集团等顶级金融科技企业,拥有丰富的人工智能、隐私计算及区块链等项目经验,申请人工智能相关发明专利 60 余项,在INTERSPEECH会议上发表论文一篇,参与撰写多个隐私计算行业报告和白皮书。
0xAres
利物浦大学硕士,曾先在投资公司工作,后就职于知名公链。从业期间主持制作过多个区块链系列课程,举办过多次“黑客松”,长期致力于区块链的科普教育,有Web3.0行业全领域孵化经验,乐于通过多种形式的内容创作传播Web3.0共识;2021年组建去创作者中心化组织a15a并开始编写新科技领域的科普书籍,主编了《一本书读懂Web3.0:区块链、NFT、元宇宙和DAO》和《一本书读懂NFT:区块链通证、元宇宙资产、Web3.0营销和数字化身份》。
张炯
星图比特创始人兼CEO,中国通信工业协会信息化科技创新专业委员会委员,上海技术交易所专家库专家;曾就职于IBM,拥有丰富的金融科技从业经验,长期服务中国人民银行、中国工商银行等大型金融机构,擅长技术融合、产业创新,对以区块链、人工智能为代表的数字经济技术有深刻的理解;拥有人工智能和数字资产相关专利8项,参与撰写了《一本书读懂Web3.0:区块链、NFT、元宇宙和DAO》和《一本书读懂NFT:区块链通证、元宇宙资产、Web3.0营销和数字化身份》。
a15a
a15a是一个Creator DAO(创作者去中心化组织),致力于以DAO的形式来产出新科技领域的内容,降低普通人了解科技的门槛。a15a已出版多本新科技科普书籍,并计划推出更多体系化课程和讲座。a15a的主要成员是区块链和人工智能领域的专家、从业者、研究人员和学生,以及法律合规领域的专业人士。在抖音、知乎、小红书、推特等平台上搜索“a15a”即可找到a15a官方账号。

目录

  • 第1章 我们为什么要关注AIGC 1
    • 1.1 从人工智能到人工智能生成内容 2
    • 1.2 巨头如是说 5
      • 1.2.1 国外“大厂”在AIGC领域的布局 5
      • 1.2.2 国内“大厂”在AIGC领域的布局 7
    • 1.3 资本狂潮 9
      • 1.3.1 融资规模 9
      • 1.3.2 AIGC领域大额融资事件一览 10
    • 1.4 异军突起的独角兽企业们 11
      • 14.1 OpenAI 11
      • 14.2 Stability AI 12
      • 1.4.3 Scale AI 13
    • 1.5 行业“大牛”:谁是下一个“乔布斯” 14
  • 第2章 AIGC相关技术介绍 16
    • 2.1 规则系统 19
    • 2.2 变分自编码器 20
    • 2.3 生成对抗网络 22
      • 2.3.1 GAN模型训练原理 22
      • 2.3.2 CGAN模型 24
      • 2.3.3 基于模型架构的衍生 24
      • 2.3.4 基于损失函数的衍生 25
      • 2.3.5 图像生成领域的衍生 25
    • 2.4 Transformer模型架构 26
    • 2.5 基于Transformer模型架构的LLM 28
      • 2.5.1 基于编码器的LLM 28
      • 2.5.2 基于解码器的LLM 35
      • 2.5.3 基于编码器和解码器的LLM 39
      • 2.5.4 BERT模型与GPT模型对比 39
    • 2.6 扩散模型 40
      • 2.6.1 扩散模型原理 41
      • 2.6.2 DALL·E 2模型 43
      • 2.6.3 Stable Diffusion模型 44
    • 2.7 其他模型 46
    • 2.8 LLM的前景光明 47
  • 第3章 下笔如有神:文本类AIGC 48
    • 3.1 何为“智能” 49
    • 3.2 拆解文本生成技术原理 52
      • 3.2.1 1950—1970年,NLP初露锋芒 52
      • 3.2.2 1980—2010年,NLP的寒冬与机遇并存 53
      • 3.2.3 2010—2019年,技术迸发与沉淀 54
      • 3.2.4 2019年到今,AIGC进入寻常百姓家 54
    • 3.3 文本类AIGC在传媒场景中的应用 55
      • 3.3.1 社交媒体文案:Jasper 55
      • 3.3.2 新闻写作:Quakebot、CNET 58
      • 3.3.3 剧本撰写:海马轻帆 58
    • 3.4 文本类AIGC在教育场景中的应用 59
      • 3.4.1 文章撰写:EssayGenuis 59
      • 3.4.2 出题和做题:高校联合团队开发的AI程序 65
      • 3.4.3 青少年教育:Cognii 65
    • 3.5 文本类AIGC在办公场景中的应用 66
      • 3.5.1 搜索引擎优化:Kafkai 66
      • 3.5.2 营销文案:Copysmith 68
      • 3.5.3 电子邮件:Compose.ai 69
      • 3.5.4 代码撰写:GitHub Copilot 69
    • 3.6 文本类AIGC的其他热门场景 71
      • 3.6.1 AI聊天机器人 71
      • 3.6.2 AIGC搜索引擎:Perplexity AI 73
    • 3.7 万众瞩目的ChatGPT 74
      • 3.7.1 ChatGPT是什么 74
      • 3.7.2 ChatGPT的海量应用场景 75
      • 3.7.3 GPT-4模型:截至2023年3月最强的AI模型 82
      • 3.7.4 ChatGPT对普通人意味着什么 85
    • 3.8 文本类AIGC的未来 85
  • 第4章 声临其境:声音类AIGC 88
    • 4.1 从让机器开口说话开始 89
      • 4.1.1 18到19世纪的尝试 89
      • 4.1.2 20世纪30年代,语音合成技术的萌芽 90
      • 4.1.3 20世纪50年代,计算机语音合成系统的起源 91
      • 4.1.4 20世纪末,传统的语音合成方法 92
      • 4.1.5 2016年,AIGC打破语音合成技术的发展瓶颈 93
      • 4.1.6 2017年,语音合成技术迎来研究热 94
    • 4.2 音乐类AIGC 99
      • 4.2.1 从留声机到个人计算机制作的电子音乐 99
      • 4.2.2 早期的音乐类AIGC 102
      • 4.2.3 端到端模型大展身手 106
      • 4.2.4 歌声合成 107
      • 4.2.5 音频延续 108
    • 4.3 人声类AIGC 108
      • 4.3.1 变声器 109
      • 4.3.2 语音助手 110
      • 4.3.3 有声内容创作 113
      • 4.3.4 智能电话机器人 116
      • 4.3.5 教育 116
      • 4.3.6 无障碍沟通 118
    • 4.4 声音类AIGC的未来 120
      • 4.4.1 业内观点 120
      • 4.4.2 声音类AIGC的局限性和未来展望 121
  • 第5章 如你所见:图片类AIGC 123
    • 5.1 从计算机艺术到算法模型艺术 124
      • 5.1.1 20世纪70年代,艺术家的午夜花园 125
      • 5.1.2 2012年,一次有突破意义的尝试:猫脸的识别与生成 125
      • 5.1.3 2014年,GAN模型问世 126
      • 5.1.4 2017年,梦始于Transformer模型 127
      • 5.1.5 2021年,文本与图片进行匹配:CLIP模型和文字提示词 127
      • 5.1.6 2020—2022年,图片生成技术开启AI绘画元年:扩散模型 129
    • 5.2 AI绘画 130
      • 5.2.1 主流的AI绘画工具介绍 130
      • 5.2.2 生成图片类AIGC的方式 133
      • 5.2.3 Prompt词组 137
    • 5.3 图片处理 146
      • 5.3.1 AI修图 146
      • 5.3.2 图片增强 146
      • 5.3.3 分割抠图 147
    • 5.4 图片类AIGC的衍生应用:AI识图和AI鉴图 152
      • 5.4.1 人脸和人体识别 153
      • 5.4.2 通用图片识别 155
      • 5.4.3 是否由AI绘画工具创作 158
    • 5.5 实用、有趣的图片世界 160
      • 5.5.1 头像生成 160
      • 5.5.2 模拟场景 164
      • 5.5.3 PPT生成 168
      • 5.5.4 设计 170
      • 5.5.5 稿件配图 173
      • 5.5.6 更多场景 174
    • 5.6 图片类AIGC的未来 175
      • 5.6.1 局限性和发展预测 175
      • 5.6.2 怎么看AI艺术 178
      • 5.6.3 笔者的一些浅见 180
  • 第6章 众所周知,视频是不能PS的:视频类AIGC 182
    • 6.1 视频生成技术的发展历程 183
      • 6.1.1 早期探索 184
      • 6.1.2 2014—2016年,视频生成起步:无条件视频生成 184
      • 6.1.3 2017年,潘多拉的魔盒:人像视频生成 185
      • 6.1.4 2018—2019年,视频生成视频技术的突破 185
      • 6.1.5 2021年,文本生成视频技术的发展 186
      • 6.1.6 2022年,扩散模型进军视频生成领域 187
    • 6.2 视频生成工具 188
      • 6.2.1 数字人视频生成工具 188
      • 6.2.2 视频编辑工具 189
      • 6.2.3 文本生成视频工具 189
    • 6.3 视频生成应用 190
      • 6.3.1 高清内容生成 190
      • 6.3.2 快速拆条和视频摘要生成 194
      • 6.3.3 场景植入 195
      • 6.3.4 视频卡通化 196
      • 6.3.5 文本生成视频 197
      • 6.3.6 数字人视频生成 198
      • 6.3.7 人脸视频生成 199
    • 6.4 数字人:仿生人与电子羊 201
    • 6.5 视频类AIGC的未来 204
      • 6.5.1 局限性 204
      • 6.5.2 未来预测 205
  • 第7章 AIGC的相关产业和生态发展 207
    • 7.1 芯片:算力决定智力 208
      • 7.1.1 在AIGC领域中,现在用什么芯片 209
      • 7.1.2 随着AIGC的发展,对芯片会有什么新的需求 216
    • 7.2 AIGC展示端口:AR/VR/MR/XR设备 218
      • 7.2.1 AR设备 218
      • 7.2.2 VR设备 219
    • 7.3 模型类AIGC应用在元宇宙里自动化建模 221
      • 7.3.1 拍视频就可以得到模型?基于视频自动化生成模型 222
      • 7.3.2 元宇宙版的神笔马良,基于文本自动化生成三维模型 223
      • 7.3.3 穿越空间,虚拟直播空间建设 224
      • 7.3.4 你元宇宙的化身——数字人生成技术 225
      • 7.3.5 把实物带到元宇宙中,基于三维激光扫描设备的文物逆向建模 226
    • 7.4 AIGC应用的未来 226
  • 第8章 AI文明的降临已开启倒计时 228
    • 8.1 何谓内容 229
    • 8.2 AIGC的版权争议 230
    • 8.3 普通人的AIGC时代生存建议 232
      • 8.3.1 生产力工具:“人工”+“智能”=最强“打工人” 234
      • 8.3.2 做AIGC应用的老师,为人类的“群体智慧”做贡献 237
      • 8.3.3 向AIGC应用学习逻辑,同时关注创新 237
    • 后记 239

Github | Docker | Project