叶子的技术碎碎念 - 第2页共7页 -

理解深度学习：第十六章标准化流

104

|

0

|

AI,Understanding Deeplearning

10927 字

|

46 分钟

第 15 章介绍了生成对抗网络（GANs）。这些生成模型通过深度网络处理潜在变量来生成新的样本。GANs 的训练原则是让样本与真实数据难以区分。然而，它们并没有定义在数据样本上的分布，因此不容易评估新样本属于同一数据集的概率。本章将讨论标准化流（Normalizing Flows）。这种方法通过深度网络将简单的分布转化为复杂的分布，从而学习概率模…

人工智能深度学习

每周AI论文速递（240311-240315）

81

|

0

|

AI,每周AI论文速递

4717 字

|

19 分钟

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context Gemini 1.5：跨数百万Token实现多模态理解在本报告中，我们展示了 Gemini 系列最新的模型，Gemini 1.5 Pro，这是一个计算高效的多模态混合专家模型。它能…

人工智能深度学习

理解深度学习：第十五章生成对抗网络

76

|

0

|

AI,Understanding Deeplearning

13716 字

|

55 分钟

生成对抗网络（GAN）是一种无监督学习模型，其目标是创造出与训练样本集难以区分的新样本。GAN 主要是用来生成新样本的一种机制，它并不建立模型数据的概率分布，因此无法判断一个新数据点是否属于同一分布。在 GAN 框架中，生成器网络通过将随机噪声映射到输出数据空间来生成样本。若鉴别器网络无法区分生成样本与真实样本，则可认为这些样本是合理的。若鉴别器…

人工智能深度学习

理解深度学习：第十四章无监督学习

74

|

0

|

AI,Understanding Deeplearning

3525 字

|

14 分钟

第 2 章至第 9 章详细讲解了监督学习的流程。在这些章节中，我们定义了模型，这些模型能将观测数据 x 映射到输出值 y，并引入了损失函数来衡量这种映射对于训练数据集 ${x_i , y_i }$ 的准确性。随后，我们讨论了如何对这些模型进行拟合及评估其性能。第 10 章到第 13 章则引入了采用参数共享和支持并行计算路径的更为复杂的模型架构。无…

人工智能深度学习

理解深度学习：第十三章图神经网络

66

|

0

|

AI,Understanding Deeplearning

15832 字

|

1 小时

第10章介绍了卷积网络，它擅长处理规则的数据阵列（如图像）。第12章则讲述了 Transformer，它擅长处理长度可变的序列（如文本）。本章将讨论图神经网络。正如其名，这些神经网络架构专门用于处理图结构（即，由边连接的节点集）。在处理图数据时，面临三大挑战。首先，图的拓扑结构多变，要设计出既有强大表达能力又能适应这种变化的网络十分困难。其次，图…

人工智能深度学习

每周AI论文速递（240304-240308）

92

|

0

|

AI,每周AI论文速递

6586 字

|

25 分钟

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks VisionLLaMA: 视觉任务的统一 LLaMA 接口大语言模型基于 Transformer 架构构建，主要处理文本输入。其中，LLaMA 是众多开源实现中的佼佼者。那么，相同的 Transformer 能否用于处理 2D 图像呢？…

人工智能深度学习论文阅读

理解深度学习：第十二章 Transformers

117

|

0

|

AI,Understanding Deeplearning

17631 字

|

1.2 小时

第10章引入了专门用于处理规则网格数据的卷积网络。这类网络非常适合处理图像，因为图像含有极其庞大的输入变量数目，这使得全连接网络不再适用。卷积网络通过参数共享机制，保证了图像中每一处的局部区域都以类似的方式被处理。本章将要介绍的是 Transformer。它们最初是为了解决自然语言处理（NLP）的问题而设计的，这类问题的网络输入是一连串表示词汇或…

人工智能深度学习

理解深度学习：第十一章残差网络

97

|

0

|

AI,Understanding Deeplearning

11890 字

|

46 分钟

上一章节阐述了随着卷积网络从八层（AlexNet）增加到十八层（VGG）而带来的图像分类性能的显著提升。这一发现激发了对更深层网络的探索。然而，随着层数的继续增加，网络性能反而开始下降。本章将介绍残差块的概念。在残差网络中，每一层不是直接对输入进行转换，而是计算一个加性的变更，即残差，以此修改当前的数据表示。这种设计使得我们能够训练更深的网络，但…

人工智能深度学习论文阅读

每周AI论文速递（240226-240301）

101

|

0

|

AI,每周AI论文速递

4966 字

|

20 分钟

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型本文针对在移动设备上部署高效的大型语言模型（LLMs）的迫切需求进行研究，这一需求源于云计算成本的上升和延迟问题的…

LLM 人工智能深度学习

理解深度学习：第十章卷积网络

93

|

0

|

AI,Understanding Deeplearning

11961 字

|

47 分钟

第 2 至 9 章详细介绍了深度神经网络在监督学习中的应用流程。然而，这部分内容仅涉及了具有单一路径从输入到输出的全连接网络。第 10 至 13 章则转向介绍更为专业化的网络构件，这些构件特征为更稀疏的连接、权重共享以及并行的处理途径。本章着重讲述了卷积层，它主要被用于图像数据的处理。图像的三个特性指出了专门模型架构的必要性。首先，图像是高维的，…

人工智能深度学习