洋老外米糕国产一区二区,www精品视频,国产在视频线在精品

VGG塊的組成規律是：連續使?數個相同的填充為1、窗口形狀為3 ×3的卷積層后接上?個步幅為2、窗口形狀為2 ×2的最?池化層。卷積層保持輸?的?和寬不變，而池化層則對其減半。

從李沐大神的《動手學深度學習》中有提到，VGG塊的實現為：

import d2lzh as d2l

from mxnet import gluon, init, nd

from mxnet.gluon import nn



def vgg_block(num_convs, num_channels):

    blk = nn.Sequential()

    for _ in range(num_convs):

        blk.add(nn.Conv2D(num_channels, kernel_size=3, padding=1, activation='relu'))

    blk.add(nn.MaxPool2D(pool_size=2, strides=2))

    return blk

而我們經常用torch的話，可以這樣實現：

import torch

import torch.nn as nn



def vgg_block(in_channels, out_channels, num_convs, kernel_size=3, stride=1, padding=1):



    layers = []

    for _ in range(num_convs):

        layers.append(nn.Conv2d(in_channels, out_channels, kernel_size=kernel_size, stride=stride, padding=padding))

        layers.append(nn.ReLU(inplace=True))

        in_channels = out_channels

    layers.append(nn.MaxPool2d(kernel_size=2, stride=2))

    return nn.Sequential(*layers)



# 創建一個包含2個卷積層的VGG塊

vgg_block_example = vgg_block(in_channels=64, out_channels=128, num_convs=2)



# 打印VGG塊的結構

print(vgg_block_example)

而VGG網絡則是通過多個 VGG 塊堆疊而成，常見的結構是 VGG-16 和 VGG-19，分別表示包含 16 和 19 層可訓練參數的網絡。

VGG16的網絡結構如圖所示：

網絡的具體設計如下：

? 前幾層主要用于提取低級特征（如邊緣和紋理）。
? 后幾層則關注更高級的特征（如物體的形狀和輪廓）。
? 最后通過全連接層和 Softmax 層實現分類。

VGGNet-16由13個卷積層和3個全連接層組成。下面我會列出每一層的具體信息，可能有點長，這個其實作為了解就夠了：

第一層卷積的輸入圖像大小為224×224×3，使用64個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為224×224×64，接著應用ReLU激活函數。

第二層卷積的輸入為224×224×64，使用64個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為224×224×64，再應用ReLU激活函數，隨后進行最大池化，使用2×2大小的池化核、步長為2、填充為0，最終輸出112×112×64。

第三層卷積的輸入為112×112×64，使用128個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為112×112×128，隨后應用ReLU激活函數。

第四層卷積的輸入為112×112×128，使用128個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為112×112×128，應用ReLU后進行最大池化，池化核大小為2×2、步長為2、填充為0，最終輸出56×56×128。

第五層卷積的輸入為56×56×128，使用256個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為56×56×256，隨后應用ReLU激活函數。

第六層卷積的輸入為56×56×256，使用256個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為56×56×256，再應用ReLU激活函數。

第七層卷積的輸入為56×56×256，使用256個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為56×56×256，經過ReLU激活后進行最大池化，池化核大小為2×2、步長為2、填充為0，最終輸出28×28×256。

第八層卷積的輸入為28×28×256，使用512個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為28×28×512，隨后應用ReLU激活函數。

第九層卷積的輸入為28×28×512，使用512個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為28×28×512，接著應用ReLU激活函數。

第十層卷積的輸入為28×28×512，使用512個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為28×28×512，應用ReLU后進行最大池化，池化核大小為2×2、步長為2、填充為0，最終輸出14×14×512。

第十一層卷積的輸入為14×14×512，使用512個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為14×14×512，隨后應用ReLU激活函數。

第十二層卷積的輸入為14×14×512，使用512個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為14×14×512，再應用ReLU激活函數。

第十三層卷積的輸入為14×14×512，使用512個大小為3×3、步長為1、填充為1的卷積核，輸出特征圖大小為14×14×512，應用ReLU后進行最大池化，池化核大小為2×2、步長為2、填充為0，最終輸出7×7×512。

VGG16中的13個卷積層均采用大小為3×3、步長為1、填充為1的卷積核，而5次最大池化操作均使用大小為2×2、步長為2、填充為0的池化核。

VGG 的顯著特點是結構簡單，所有卷積層的參數大小都相同。這種一致性讓它易于理解和實現。

2 VGG網絡的實現

接下來我基于torch來實現VGG網絡：

import torch

import torch.nn as nn



# 定義VGG16和VGG19的配置，數字代表輸出通道，M代表池化層

cfgs = {

    'VGG16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],

    'VGG19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],

}



# 添加模型層

def make_layers(cfg, batch_norm=False):

    layers = []

    in_channels = 3

    for v in cfg:

        if v == 'M':

            layers += [nn.MaxPool2d(kernel_size=2, stride=2)]

        else:

            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)

            if batch_norm:

                layers += [conv2d, nn.BatchNorm2d(v), nn.ReLU(inplace=True)]

            else:

                layers += [conv2d, nn.ReLU(inplace=True)]

            in_channels = v

    return nn.Sequential(*layers)



# 定義VGG模型

class VGG(nn.Module):

    def __init__(self, features, num_classes=1000):

        super(VGG, self).__init__()

        self.features = features

        self.classifier = nn.Sequential(

            nn.Linear(512 * 7 * 7, 4096),

            nn.ReLU(inplace=True),

            nn.Dropout(),

            nn.Linear(4096, 4096),

            nn.ReLU(inplace=True),

            nn.Dropout(),

            nn.Linear(4096, num_classes),

        )



    def forward(self, x):

        x = self.features(x)

        x = torch.flatten(x, 1)

        x = self.classifier(x)

        return x



# 創建VGG16和VGG19模型實例

def vgg_model(model_name='VGG16', num_classes=1000, batch_norm=False):

    cfg = cfgs[model_name]

    model = VGG(make_layers(cfg, batch_norm=batch_norm), num_classes=num_classes)

    return model



# 創建VGG16模型實例

model_vgg16 = vgg_model('VGG16')

print(model_vgg16)



# 創建VGG19模型實例

model_vgg19 = vgg_model('VGG19')

print(model_vgg19)

在訓練 VGG 網絡時，有幾個常用的處理方式：

1.?數據預處理
- ? 對圖像進行歸一化處理，使像素值在 0 到 1 之間。
- ? 數據增強，如隨機裁剪和水平翻轉。

transform = transforms.Compose([

    transforms.RandomResizedCrop(224),  # 隨機裁剪到224x224

    transforms.RandomHorizontalFlip(),  # 隨機水平翻轉

    transforms.ToTensor(),  # 將圖像轉換為張量

    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),  # 歸一化處理

])

1. 訓練技巧：
- ? 使用小批量梯度下降法（Mini-batch SGD）優化。
- ? 設置較低的學習率，并配合動量提升優化效果。
2. 硬件需求：
- ? VGG 網絡的參數量較大，需要顯存較高的 GPU。

訓練代碼可以參考我下面的這部分代碼：

# 加載數據集

train_dataset = ImageFolder(root='./data/train', transform=transform)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True, num_workers=4)



val_dataset = ImageFolder(root='./data/val', transform=transform)

val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False, num_workers=4)



# 初始化模型、損失函數和優化器

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model = vgg_model(model_name='VGG16', num_classes=1000).to(device)

criterion = nn.CrossEntropyLoss()

optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)



# 定義訓練函數

def train_model(model, train_loader, val_loader, criterion, optimizer, num_epochs=25, device='cuda'):

    since = time.time()

    best_acc = 0.0

    writer = SummaryWriter()



    for epoch in range(num_epochs):

        print(f'Epoch {epoch}/{num_epochs - 1}')

        print('-' * 10)



        # 訓練階段：計算損失、反向傳播、更新權重。

        model.train()

        running_loss = 0.0

        running_corrects = 0



        for inputs, labels in train_loader:

            inputs = inputs.to(device)

            labels = labels.to(device)



            optimizer.zero_grad()



            with torch.set_grad_enabled(True):

                outputs = model(inputs)

                _, preds = torch.max(outputs, 1)

                loss = criterion(outputs, labels)



                loss.backward()

                optimizer.step()



            running_loss += loss.item() * inputs.size(0)

            running_corrects += torch.sum(preds == labels.data)



        epoch_loss = running_loss / len(train_loader.dataset)

        epoch_acc = running_corrects.double() / len(train_loader.dataset)



        writer.add_scalar('Loss/train', epoch_loss, epoch)

        writer.add_scalar('Accuracy/train', epoch_acc, epoch)



        print(f'Train Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')



        # 驗證階段：計算驗證集上的損失和準確率。

        model.eval()

        val_running_loss = 0.0

        val_running_corrects = 0



        for inputs, labels in val_loader:

            inputs = inputs.to(device)

            labels = labels.to(device)



            with torch.set_grad_enabled(False):

                outputs = model(inputs)

                _, preds = torch.max(outputs, 1)

                loss = criterion(outputs, labels)



            val_running_loss += loss.item() * inputs.size(0)

            val_running_corrects += torch.sum(preds == labels.data)



        val_epoch_loss = val_running_loss / len(val_loader.dataset)

        val_epoch_acc = val_running_corrects.double() / len(val_loader.dataset)



        writer.add_scalar('Loss/val', val_epoch_loss, epoch)

        writer.add_scalar('Accuracy/val', val_epoch_acc, epoch)



        print(f'Val Loss: {val_epoch_loss:.4f} Acc: {val_epoch_acc:.4f}')



        # 保存最佳模型

        if val_epoch_acc > best_acc:

            best_acc = val_epoch_acc

            torch.save(model.state_dict(), 'best_model.pth')



        print()



# 開始訓練

train_model(model, train_loader, val_loader, criterion, optimizer, num_epochs=25, device=device)

盡管 VGG 的性能不錯，但它的計算成本和存儲需求較高，并且現在有了性能更好的其他模型作為替代，VGG現在還是作為學習多了解即可。

網絡中的網絡（NiN）

1 NiN塊

NiN全名叫做Network in Network，通過引入全局思維解決了傳統 CNN 模型中局部性強的問題。NiN 塊的核心是用 1×1 卷積層替代全連接層：

? 局部特征處理：使用普通卷積層提取局部特征。
? 非線性組合：通過 1×1 卷積實現通道間的特征重組，相當于給每個像素點添加一個“小型的全連接網絡”。
? 參數減少：相比大尺寸卷積層，1×1 卷積顯著降低了參數數量。

在花書中，nin塊的實現是這樣的：

import d2lzh as d2l

from mxnet import gluon, init, nd

from mxnet.gluon import nn



def nin_block(num_channels, kernel_size, strides, padding):

    blk = nn.Sequential()

    blk.add(nn.Conv2D(num_channels, kernel_size,strides, padding, activation='relu'),

            nn.Conv2D(num_channels, kernel_size=1, activation='relu'),

            nn.Conv2D(num_channels, kernel_size=1, activation='relu'))

    return blk

NiN 塊一般由三個主要部分組成：

1. 常規卷積層（提取特征）。
2. 1×1 卷積層（非線性組合）。
3. ReLU 激活函數（引入非線性）。

2 NiN模型

NiN 模型是由多個 NiN 塊堆疊而成，通常在塊之間插入最大池化層來壓縮特征：

1. 全局平均池化（Global Average Pooling）：
- ??在 NiN 網絡中，用全局平均池化替代了全連接層。
- ? 每個類別的得分由對應特征圖的平均值直接給出，減少了參數量。
2. 網絡結構：
- ? 前幾層為標準的 NiN 塊。
- ? 中間插入池化層減少特征圖尺寸。
- ? 最后一層是全局平均池化。

通過這種設計，NiN 不僅提升了計算效率，還減輕了過擬合風險。

因此我們可以得到NiN模型的簡單實現如下：

net = nn.Sequential()

net.add(nin_block(96, kernel_size=11, strides=4, padding=0),

        nn.MaxPool2D(pool_size=3, strides=2),

        nin_block(256, kernel_size=5, strides=1, padding=2),

        nn.MaxPool2D(pool_size=3, strides=2),

        nin_block(384, kernel_size=3, strides=1, padding=1),

        nn.MaxPool2D(pool_size=3, strides=2), nn.Dropout(0.5),

        # 標簽類別數是10

        nin_block(10, kernel_size=3, strides=1, padding=1),

        # 全局平均池化層將窗?形狀?動設置成輸?的?和寬

        nn.GlobalAvgPool2D(),

        # 將四維的輸出轉成?維的輸出，其形狀為(批量??, 10)

        nn.Flatten())

3 訓練模型

訓練 NiN 模型時與 VGG 相似，但 NiN 由于參數更少，對硬件要求稍低：

1. 數據預處理：
- ??將輸入數據歸一化到標準范圍內。
- ? 數據增強以提升泛化能力。
2. 訓練注意事項：
- ? NiN 對初始參數較敏感，可以嘗試多種初始化方式。
- ? 控制學習率的衰減，避免梯度爆炸或消失。
3. 適用場景：
- ? NiN 更適合輕量化模型需求，比如移動端和嵌入式設備。

NiN 的創新點在于將全局信息和局部信息結合，但受限于設計思想，NiN 的表達能力與后續更復雜的模型相比還是有所不足。當然，作為經典的網絡模型架構，還是值得我們一學，作為了解即可

含并行連接的網絡（GoogLeNet）

1 Inception塊

GoogLeNet 的核心是 Inception 塊，通過多分支的并行計算從多種尺度提取特征。每個 Inception 塊包括：

1. 多種卷積核：
- ? 使用不同尺寸（如 1×1、3×3、5×5）的卷積核提取特征。
- ? 小卷積核捕捉細節，大卷積核捕捉全局信息。
2. 降維處理：
- ? 在 3×3 和 5×5卷積前加入 1×1 卷積進行降維，減少計算量。
3. 最大池化分支：
- ? 使用最大池化提取空間信息，補充卷積分支的局部特征。

通過以上設計，Inception 塊實現了高效的多尺度特征提取。下面是使用torch對Inception塊的實現：

class Inception(nn.Module):

    def __init__(self, in_channels, ch1x1, ch3x3red, ch3x3, ch5x5red, ch5x5, pool_proj):

        super(Inception, self).__init__()



        # 1x1卷積路徑

        self.branch1 = nn.Sequential(

            nn.Conv2d(in_channels, ch1x1, kernel_size=1),

            nn.ReLU(inplace=True)

        )



        # 1x1卷積 + 3x3卷積路徑

        self.branch2 = nn.Sequential(

            nn.Conv2d(in_channels, ch3x3red, kernel_size=1),

            nn.ReLU(inplace=True),

            nn.Conv2d(ch3x3red, ch3x3, kernel_size=3, padding=1),

            nn.ReLU(inplace=True)

        )



        # 1x1卷積 + 5x5卷積路徑

        self.branch3 = nn.Sequential(

            nn.Conv2d(in_channels, ch5x5red, kernel_size=1),

            nn.ReLU(inplace=True),

            nn.Conv2d(ch5x5red, ch5x5, kernel_size=5, padding=2),

            nn.ReLU(inplace=True)

        )



        # 3x3最大池化 + 1x1卷積路徑

        self.branch4 = nn.Sequential(

            nn.MaxPool2d(kernel_size=3, stride=1, padding=1),

            nn.Conv2d(in_channels, pool_proj, kernel_size=1),

            nn.ReLU(inplace=True)

        )



    def forward(self, x):

        branch1 = self.branch1(x)

        branch2 = self.branch2(x)

        branch3 = self.branch3(x)

        branch4 = self.branch4(x)



        # 將四個分支的輸出在通道維度上拼接

        outputs = [branch1, branch2, branch3, branch4]

        return torch.cat(outputs, 1)

2 GoogLeNet模型

GoogLeNet 是由多個 Inception 塊堆疊而成的深度網絡，并結合一些特殊設計：

1. 深度更深：
- ? GoogLeNet 包括 22 層，比 VGG 深得多。
- ? 利用 Inception 塊保持計算效率，使得深度增加不會顯著提高計算成本。
2. 輔助分類器：
- ? 在中間層加入兩個輔助分類器，用于緩解梯度消失問題。
- ? 輔助分類器的損失與主分類器損失加權求和。
3. 減少參數：
- ? Inception 塊的設計減少了全連接層中的參數。
- ? GoogLeNet 參數量僅為 VGG 的 1/12。

因此googlenet的實現也比剛才提到的兩個模型架構要稍微復雜一丟丟，用torch的實現方式如下：

class GoogLeNet(nn.Module):

    def __init__(self, num_classes=1000):

        super(GoogLeNet, self).__init__()



        # 初始卷積層

        self.conv1 = nn.Sequential(

            nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3),

            nn.ReLU(inplace=True),

            nn.MaxPool2d(kernel_size=3, stride=2, padding=1),

            nn.LocalResponseNorm(size=5, alpha=0.0001, beta=0.75, k=1)

        )



        # 第二卷積層

        self.conv2 = nn.Sequential(

            nn.Conv2d(64, 64, kernel_size=1),

            nn.ReLU(inplace=True),

            nn.Conv2d(64, 192, kernel_size=3, padding=1),

            nn.ReLU(inplace=True),

            nn.LocalResponseNorm(size=5, alpha=0.0001, beta=0.75, k=1),

            nn.MaxPool2d(kernel_size=3, stride=2, padding=1)

        )



        # Inception模塊

        self.inception3a = Inception(192, 64, 96, 128, 16, 32, 32)

        self.inception3b = Inception(256, 128, 128, 192, 32, 96, 64)

        self.maxpool3 = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)



        self.inception4a = Inception(480, 192, 96, 208, 16, 48, 64)

        self.inception4b = Inception(512, 160, 112, 224, 24, 64, 64)

        self.inception4c = Inception(512, 128, 128, 256, 24, 64, 64)

        self.inception4d = Inception(512, 112, 144, 288, 32, 64, 64)

        self.inception4e = Inception(528, 256, 160, 320, 32, 128, 128)

        self.maxpool4 = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)



        self.inception5a = Inception(832, 256, 160, 320, 32, 128, 128)

        self.inception5b = Inception(832, 384, 192, 384, 48, 128, 128)



        # 輔助分類器

        self.aux1 = nn.Sequential(

            nn.AvgPool2d(kernel_size=5, stride=3),

            nn.Conv2d(512, 128, kernel_size=1),

            nn.ReLU(inplace=True),

            nn.Flatten(),

            nn.Linear(2048, 1024),

            nn.ReLU(inplace=True),

            nn.Dropout(0.7),

            nn.Linear(1024, num_classes)

        )



        self.aux2 = nn.Sequential(

            nn.AvgPool2d(kernel_size=5, stride=3),

            nn.Conv2d(528, 128, kernel_size=1),

            nn.ReLU(inplace=True),

            nn.Flatten(),

            nn.Linear(2048, 1024),

            nn.ReLU(inplace=True),

            nn.Dropout(0.7),

            nn.Linear(1024, num_classes)

        )



        # 最終分類器

        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))

        self.dropout = nn.Dropout(0.4)

        self.fc = nn.Linear(1024, num_classes)



    def forward(self, x):

        x = self.conv1(x)

        x = self.conv2(x)



        x = self.inception3a(x)

        x = self.inception3b(x)

        x = self.maxpool3(x)



        x = self.inception4a(x)

        if self.training:

            aux1 = self.aux1(x)



        x = self.inception4b(x)

        x = self.inception4c(x)

        x = self.inception4d(x)

        if self.training:

            aux2 = self.aux2(x)



        x = self.inception4e(x)

        x = self.maxpool4(x)



        x = self.inception5a(x)

        x = self.inception5b(x)



        x = self.avgpool(x)

        x = torch.flatten(x, 1)

        x = self.dropout(x)

        x = self.fc(x)



        if self.training:

            return x, aux1, aux2

        else:

            return x



model = GoogLeNet(num_classes=1000)

print(model)