性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

認證：優(yōu)質(zhì)創(chuàng)作者

所在專題目錄查看專題

數(shù)據(jù)，模型，算法共同決定深度學習模型效果

一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss

參數(shù)和非參數(shù)模型——當談到參數(shù)我在說些什么?

在深度學習中，對于特征融合方式的思考——論pointwise addition和concatenate的異同

損失函數(shù)的可視化——淺論模型的參數(shù)空間與正則

曲線擬合問題與L2正則

作者動態(tài) 更多

給定計算預算下的最佳LLM模型尺寸與預訓練數(shù)據(jù)量分配

05-19 09:33

大模型推理時的尺度擴展定律

05-18 10:32

世界多胞體與世界模型

05-13 09:42

獎勵模型中的尺度擴展定律和獎勵劫持

05-12 08:41

MeCo——給預訓練數(shù)據(jù)增加源信息,就能減少33%的訓練量并且提升效果

05-08 09:13

工程師都在看

差分比例運放浮地測量及共模電壓計算

三款電子秤拆解及電路分析

蘋果的Type-C口和安卓的Type-C口到底有什么區(qū)別？

電氣間隙，爬電距離原來那么多講究！

手機充電器插入排插時打火花是怎么回事？

一文讀懂SRAM、DRAM、NAND、eMMC、UFS、eMCP、uMCP、DDR、LPDDR

國產(chǎn)MCU設計6.6kW充電樁（續(xù)）--車機通訊1（全過程詳解）

Guard driver共模屏蔽主動保護

MDK5.40下添加用戶下載算法FLM文件的方法

雷擊浪涌（Surge Immunity）抗擾度試驗

數(shù)據(jù)，模型，算法共同決定深度學習模型效果

徐土豆 2021-03-09 15:48 218 閱讀 4 贊 3 收藏 1 評論

本文轉(zhuǎn)自徐飛翔的“數(shù)據(jù)，模型，算法共同決定深度學習模型效果”

版權(quán)聲明：本文為博主原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議，轉(zhuǎn)載請附上原文出處鏈接和本聲明。

在文獻[1]中對few-shot learning進行了很好地總結(jié)，其中提到了一個比較有意思的觀點，這里和大家分享下。先拋開few-shot learning的概念，我們先從幾個基本的機器學習的概念進行分析。

期望風險最小化（expected risk minimization）：假設數(shù)據(jù)分布已知，其中 $\mathbf{x}$ 是特征， $y$ 是標簽，在給定了特定損失函數(shù) $\mathcal{L}(\cdot)$ 的情況下，對于某個模型假設 $h \in \mathcal{H}$ ，我們期望機器學習算法能夠最小化其期望風險，期望風險定義為：

假如模型的參數(shù)集合為 $\theta$ ，那么我們的目標是：

經(jīng)驗風險最小化（empirical risk minimization）：實際上，數(shù)據(jù)分布 $p(\mathbf{x},y)$ 通常不可知，那么我們就不能對其進行積分了，我們一般對該分布進行采樣，得到若干個具有標簽的樣本，我們將其數(shù)量記為 $I$ ，那么我們用采樣結(jié)果對這個分布進行近似，因此，我們追求最小化經(jīng)驗風險，這里的經(jīng)驗（experience）的意思也就是指的是采樣得到的數(shù)據(jù)集：

此處的經(jīng)驗風險(3)就可以近似期望風險(1)的近似進行最小化了（當然，在實踐中通常需要加上正則項）。

我們進行以下三種表示：

其中(4)表示最小化期望風險得到的理論上最優(yōu)的假設 $\hat{h}$ ，(5)表示在指定的假設空間 $h \in \mathcal{H}$ 中最小化期望風險得到的約束最優(yōu)假設 $h^{*}$ ，(6)表示在指定的數(shù)據(jù)量為 $I$ 的數(shù)據(jù)集上進行優(yōu)化，并且在指定的假設空間 $h \in \mathcal{H}$ 下最小化經(jīng)驗風險得到的最優(yōu)假設 $h_I$ ?。

因為我們沒辦法知道 $p(\mathbf{x},y)$ ，因此我們沒辦法求得 $\hat{h}$ ，那么作為近似， $h^*$ 是在假定了特定假設空間時候的近似，而 $h_I$ 是在特定的數(shù)據(jù)集和特定假設空間里面的近似。進行簡單的代數(shù)變換，我們有(7):

其中用 $\mathcal{E}_{app}(\mathcal{H}) = \mathbb{E}[R(h^*)-R(\hat{h})]$ ， $\mathcal{E}_{est}(\mathcal{H}, I) = \mathbb{E}[R(h_I)-R(h^*)]$ 。 $\mathcal{E}_{app}(\mathcal{H})$ 表征了在期望損失下，在給定的假設空間 $\mathcal{H}$ 下的最優(yōu)假設 $h^*$ 能多接近最佳假設 $\hat{h}$ 。而 $\mathcal{E}_{est}(\mathcal{H, I})$ 表示了在給定假設空間 $\mathcal{H}$ 下，對經(jīng)驗風險進行優(yōu)化，而不是對期望風險進行優(yōu)化造成的影響。不失特別的，我們用 $D_{train}$ ?表示整個訓練集，有 $D_{train} = \{\mathbf{X}, \mathbf{Y}\}, \mathbf{X} = \{\mathbf{x}_1,\cdots,\mathbf{x}_n\}, \mathbf{Y} = \{y_1,\cdots,y_n\}$ 。

我們不難發(fā)現(xiàn)，整個深度模型算法的效果，最后取決于假設空間 $\mathcal{H}$ 和訓練集中數(shù)據(jù)量 $I$ 。換句話說，為了減少總損失，我們可以從以下幾種角度進行考慮：

數(shù)據(jù)，也就是 $D_{train}$ 。

模型，其決定了假設空間 $\mathcal{H}$ 。

算法，如何在指定的假設空間 $\mathcal{H}$ 中去搜索最佳假設以擬合 $D_{train}$ ?。

通常來說，如果 $D_{train}$ ?數(shù)據(jù)量很大，那么我們就有充足的監(jiān)督信息，在指定的假設空間 $h \in \mathcal{H}$ 中，最小化 $h_I$ 得到的 $R(h_I)$ 就可以提供對 $R(h^*)$ 的一個良好近似。然而，在few-shot learning (FSL)中，某些類別的樣本數(shù)特別少，不足以支撐起對良好假設的一個近似。其經(jīng)驗風險項 $R_{I}(h)$ 和期望風險項 $R(h)$ 可能有著很大的距離，從而導致假設 $h_I$ ?過擬合。事實上，這個是在FSL中的核心問題，即是經(jīng)驗風險最小假設 $h_I$ 變得不再可靠。整個過程如Fig 1所示，左圖有著充足的樣本，因此其經(jīng)驗風險最小假設 $h_I$ 和 $h^*$ 相當接近，在 $\mathcal{H}$ 設計合理的情況下，可以更好地近似 $\hat{h}$ 。而右圖則不同， $h_I$ 和 $h^*$ 都比較遠，跟別說和 $\hat{h}$ 了。

Fig 1. 樣本充足和樣本缺乏，在學習過程中結(jié)果的示意圖。

為了解決在數(shù)據(jù)量缺少的情況下的不可靠的經(jīng)驗風險問題，也就是FSL問題，我們必須要引入先驗知識，考慮到從數(shù)據(jù)，模型，算法這三個角度分別引入先驗知識，現(xiàn)有的FSL工作可以被分為以下幾種：

數(shù)據(jù)。在這類型方法中，我們利用先驗知識去對 $D_{train}$ ?進行數(shù)據(jù)增廣(data augment)，從數(shù)據(jù)量 $I$ 提高到 $\widetilde{I}$ ，通常 $\widetilde{I} >> I$ > I" />。隨后標準的機器學習算法就可以在已經(jīng)增廣過后的數(shù)據(jù)集上進行。因此，我們可以得到更為精確的假設 $h_{\widetilde{I}}$ ?。如Fig 2 (a)所示。模型。這類型方法通過先驗知識去約束了假設空間 $\mathcal{H}$ 的復雜度，得到了各位窄小的假設空間 $\widetilde{\mathcal{H}}$ 。如Fig 2 (b) 所示?；疑珔^(qū)域已經(jīng)通過先驗知識給排除掉了，因此模型不會考慮往這些方向進行更新，因此，往往需要更少的數(shù)據(jù)就可以達到更為可靠的經(jīng)驗風險假設。算法。這類型的方法考慮使用先驗知識，指導如何對 $\theta$ 進行搜索。先驗知識可以通過提供一個好的參數(shù)初始化，或者指導參數(shù)的更新步，進而影響參數(shù)搜索策略。對于后者來說，其導致的搜索更新步由先驗知識和經(jīng)驗風險最小項共同決定。

Fig 2. 分別從數(shù)據(jù)，模型和算法三個角度去引入先驗知識。

Reference

[1]. Wang Y, Yao Q, Kwok J, et al. Generalizing from a few examples: A survey on few-shot learning[M]//arXiv: 1904.05046. 2019.

聲明：本內(nèi)容為作者獨立觀點，不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴，請聯(lián)系：editor@netbroad.com

覺得內(nèi)容不錯的朋友，別忘了一鍵三連哦！

贊 4

收藏 3

關(guān)注 52

成為作者賺取收益

專題目錄下一篇

下一篇：一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss

全部留言

0/200

dy-J4n9lg5Q 2021-05-19 13:29

對我很有幫助

回復 0條回復收起回復
0/200