Overfitting

http://dbpedia.org/resource/Overfitting

Überanpassung (englisch overfitting) bezeichnet eine bestimmte Korrektur eines Modells an einen vorgegebenen Datensatz. In der Statistik bedeutet Überanpassung die Spezifizierung eines Modells, das zu viele erklärende Variablen enthält. Werden dagegen relevante Variablen außer Acht gelassen (siehe Verzerrung durch ausgelassene Variablen), spricht man von Unteranpassung (englisch underfitting). rdf:langString
En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données. Ainsi, cette analyse peut ne pas correspondre à des données supplémentaires ou ne pas prévoir de manière fiable les observations futures. Un modèle surajusté est un modèle statistique qui contient plus de paramètres que ne peuvent le justifier les données. rdf:langString
過剰適合(かじょうてきごう、英: overfitting)や過適合(かてきごう)や過学習(かがくしゅう、英: overtraining)とは、統計学や機械学習において、訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。 その原因の一つとして、統計モデルへの適合の媒介変数が多すぎる等、訓練データの個数に比べて、モデルが複雑で自由度が高すぎることがある。不合理で誤ったモデルは、入手可能なデータに比較して複雑すぎる場合、完全に適合することがある。 対義語は過少適合(かしょうてきごう、英: underfitting)や過小学習(かしょうがくしゅう、英: undertraining)。 rdf:langString
과적합(過適合, overfitting) 또는 과대적합(過大適合)은 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻한다. 일반적으로 학습 데이타는 실제 데이타의 부분 집합이므로 학습데이타에 대해서는 오차가 감소하지만 실제 데이타에 대해서는 오차가 증가하게 된다. * 일반적으로 학습 데이타는 실제 데이타의 부분집합이며, 실제 데이타를 모두 수집하는 것은 불가능하다. * 만약 실제 데이타를 모두 수집하여도 모든 데이타를 학습 시키기 위한 시간이 측정 불가능한 수준으로 증가할 수 있다. * 학습 데이타만 가지고 실제 데이타의 오차가 증가하는 지점을 예측하는 것은 매우 어렵거나 불가능하다. rdf:langString
In statistica e in informatica, si parla di overfitting o sovradattamento (oppure adattamento eccessivo) quando un modello statistico molto complesso si adatta ai dati osservati (il campione) perché ha un numero eccessivo di parametri rispetto al numero di osservazioni. Un modello assurdo e sbagliato può adattarsi perfettamente se è abbastanza complesso rispetto alla quantità di dati disponibili. Si sostiene che l'overfitting sia una violazione del principio del rasoio di Occam. rdf:langString
En l'aprenentatge automàtic, el sobreajustament (en anglès: overfitting) és l'efecte de sobreentrenar un algorisme d'aprenentatge amb unes certes dades pels quals es coneix el resultat desitjat. L'algorisme d'aprenentatge ha d'aconseguir un estat en el qual serà capaç de predir el resultat en altres casos a partir de l'après amb les dades d'entrenament, generalitzant per poder resoldre situacions diferents a les esdevingudes durant l'entrenament. No obstant això, quan un sistema s'entrena massa (se sobreentrena) o s'entrena amb dades estranyes, l'algorisme d'aprenentatge pot quedar ajustat a unes característiques molt específiques de les dades d'entrenament que no tenen relació causal amb la funció objectiu. Durant la fase de sobreajustament, l'èxit en respondre les mostres d'entrenament s rdf:langString
En aprendizaje automático, el sobreajuste (también es frecuente emplear el término en inglés overfitting) es el efecto de sobreentrenar un algoritmo de aprendizaje con unos ciertos datos para los que se conoce el resultado deseado. El algoritmo de aprendizaje debe alcanzar un estado en el que será capaz de predecir el resultado en otros casos a partir de lo aprendido con los datos de entrenamiento, generalizando para poder resolver situaciones distintas a las acaecidas durante el entrenamiento. Sin embargo, cuando un sistema se entrena demasiado (se sobreentrena) o se entrena con datos extraños, el algoritmo de aprendizaje puede quedar ajustado a unas características muy específicas de los datos de entrenamiento que no tienen relación causal con la función objetivo. Durante la fase de sobr rdf:langString
In mathematical modeling, overfitting is "the production of an analysis that corresponds too closely or exactly to a particular set of data, and may therefore fail to fit to additional data or predict future observations reliably". An overfitted model is a mathematical model that contains more parameters than can be justified by the data. The essence of overfitting is to have unknowingly extracted some of the residual variation (i.e., the noise) as if that variation represented underlying model structure. rdf:langString
Overfitting adalah suatu keadaan dimana data yang digunakan untuk pelatihan itu adalah yang "terbaik". Sehingga apabila dilakukan tes dengan menggunakan data yang berbeda dapat mengurangi akurasi (hasil yang dibuat tidak sesuai yang diharapkan). Overfitting dapat terjadi ketika beberapa batasan didasarkan pada sifat khusus yang tidak membuat perbedaan pada data. Selain itu duplikasi data minor yang berlebihan juga dapat mengakibatkan terjadinya overfitting. Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya: rdf:langString
Nadmierne dopasowanie (ang. overfitting) a. przeuczenie (branż. „przetrenowanie”, ang. overtraining) – zjawisko w statystyce zachodzące, gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby, na podstawie której był konstruowany. W przypadku uczenia maszynowego oznacza to, że absurdalne i fałszywe modele mogą świetnie pasować do danych uczących, gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosuje się je do danych, z którymi nie zetknęły się podczas uczenia. rdf:langString
Sobre-ajuste ou sobreajuste (do inglês: overfitting) é um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados. rdf:langString
Переобучение (переподгонка, пере- в значении «слишком», англ. overfitting) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки). Это связано с тем, что при построении модели («в процессе обучения») в обучающей выборке обнаруживаются некоторые случайные закономерности, которые отсутствуют в генеральной совокупности. rdf:langString
在統計學中,過適(英語:overfitting,或稱擬合過度)是指過於緊密或精確地匹配特定資料集,以致於無法良好地拟合其他資料或預測未來的觀察結果的現象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。相较用于训练的資料總量來說,一個模型只要结构足夠複雜或参数足够多,就总是可以完美地適應資料的。過適一般可以視為違反奥卡姆剃刀原則。 与过拟合相对应的概念是欠拟合(英語:underfitting,或稱:擬合不足);它是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。发生欠拟合时,模型的偏差大而方差小。 在机器学习或人工神經網路中,过拟合与欠拟合有时也被称为「过训练(英語:overtraining)」和「欠训练(英語:undertraining)」。 rdf:langString
У статистиці та машинному навчанні одним із найпоширеніших завдань є допасовування «моделі» до набору тренувальних даних таким чином, щоби уможливити здійснення надійних передбачень на загальних даних, на яких не здійснювалося тренування. При перенавчанні (англ. overfitting) статистична модель описує випадкову похибку або шум, замість взаємозв'язку, що лежить в основі даних. Перенавчання виникає тоді, коли модель є занадто складною, такою, що має занадто багато відносно числа спостережень. Перенавчена модель має погану продуктивність, оскільки вона занадто сильно реагує на другорядні відхилення в тренувальних даних. rdf:langString
rdf:langString Sobreajustament (overfitting)
rdf:langString Overfitting
rdf:langString Überanpassung
rdf:langString Sobreajuste
rdf:langString Overfitting
rdf:langString Surapprentissage
rdf:langString Overfitting
rdf:langString 과적합
rdf:langString Overfitting
rdf:langString 過剰適合
rdf:langString Nadmierne dopasowanie
rdf:langString Sobreajuste
rdf:langString Переобучение
rdf:langString Перенавчання
rdf:langString 過適
xsd:integer 173332
xsd:integer 1115154474
rdf:langString En l'aprenentatge automàtic, el sobreajustament (en anglès: overfitting) és l'efecte de sobreentrenar un algorisme d'aprenentatge amb unes certes dades pels quals es coneix el resultat desitjat. L'algorisme d'aprenentatge ha d'aconseguir un estat en el qual serà capaç de predir el resultat en altres casos a partir de l'après amb les dades d'entrenament, generalitzant per poder resoldre situacions diferents a les esdevingudes durant l'entrenament. No obstant això, quan un sistema s'entrena massa (se sobreentrena) o s'entrena amb dades estranyes, l'algorisme d'aprenentatge pot quedar ajustat a unes característiques molt específiques de les dades d'entrenament que no tenen relació causal amb la funció objectiu. Durant la fase de sobreajustament, l'èxit en respondre les mostres d'entrenament segueix incrementant-se mentre que la seva actuació amb mostres noves va empitjorant. En altres paraules, el model recorda una gran quantitat d'exemples en lloc d'aprendre a notar característiques: el principal objectiu dels models d'intel·ligència artificial.
rdf:langString Überanpassung (englisch overfitting) bezeichnet eine bestimmte Korrektur eines Modells an einen vorgegebenen Datensatz. In der Statistik bedeutet Überanpassung die Spezifizierung eines Modells, das zu viele erklärende Variablen enthält. Werden dagegen relevante Variablen außer Acht gelassen (siehe Verzerrung durch ausgelassene Variablen), spricht man von Unteranpassung (englisch underfitting).
rdf:langString En aprendizaje automático, el sobreajuste (también es frecuente emplear el término en inglés overfitting) es el efecto de sobreentrenar un algoritmo de aprendizaje con unos ciertos datos para los que se conoce el resultado deseado. El algoritmo de aprendizaje debe alcanzar un estado en el que será capaz de predecir el resultado en otros casos a partir de lo aprendido con los datos de entrenamiento, generalizando para poder resolver situaciones distintas a las acaecidas durante el entrenamiento. Sin embargo, cuando un sistema se entrena demasiado (se sobreentrena) o se entrena con datos extraños, el algoritmo de aprendizaje puede quedar ajustado a unas características muy específicas de los datos de entrenamiento que no tienen relación causal con la función objetivo. Durante la fase de sobreajuste el éxito al responder las muestras de entrenamiento sigue incrementándose mientras que su actuación con muestras nuevas va empeorando. En otras palabras, el modelo recuerda una gran cantidad de ejemplos en lugar de aprender a notar características. * Datos: Q331309 * Multimedia: Overfitting / Q331309
rdf:langString En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données. Ainsi, cette analyse peut ne pas correspondre à des données supplémentaires ou ne pas prévoir de manière fiable les observations futures. Un modèle surajusté est un modèle statistique qui contient plus de paramètres que ne peuvent le justifier les données.
rdf:langString In mathematical modeling, overfitting is "the production of an analysis that corresponds too closely or exactly to a particular set of data, and may therefore fail to fit to additional data or predict future observations reliably". An overfitted model is a mathematical model that contains more parameters than can be justified by the data. The essence of overfitting is to have unknowingly extracted some of the residual variation (i.e., the noise) as if that variation represented underlying model structure. Underfitting occurs when a mathematical model cannot adequately capture the underlying structure of the data. An under-fitted model is a model where some parameters or terms that would appear in a correctly specified model are missing. Under-fitting would occur, for example, when fitting a linear model to non-linear data. Such a model will tend to have poor predictive performance. The possibility of over-fitting exists because the criterion used for selecting the model is not the same as the criterion used to judge the suitability of a model. For example, a model might be selected by maximizing its performance on some set of training data, and yet its suitability might be determined by its ability to perform well on unseen data; then over-fitting occurs when a model begins to "memorize" training data rather than "learning" to generalize from a trend. As an extreme example, if the number of parameters is the same as or greater than the number of observations, then a model can perfectly predict the training data simply by memorizing the data in its entirety. (For an illustration, see Figure 2.) Such a model, though, will typically fail severely when making predictions. The potential for overfitting depends not only on the number of parameters and data but also the conformability of the model structure with the data shape, and the magnitude of model error compared to the expected level of noise or error in the data. Even when the fitted model does not have an excessive number of parameters, it is to be expected that the fitted relationship will appear to perform less well on a new data set than on the data set used for fitting (a phenomenon sometimes known as shrinkage). In particular, the value of the coefficient of determination will shrink relative to the original data. To lessen the chance or amount of overfitting, several techniques are available (e.g., model comparison, cross-validation, regularization, early stopping, pruning, Bayesian priors, or dropout). The basis of some techniques is either (1) to explicitly penalize overly complex models or (2) to test the model's ability to generalize by evaluating its performance on a set of data not used for training, which is assumed to approximate the typical unseen data that a model will encounter.
rdf:langString Overfitting adalah suatu keadaan dimana data yang digunakan untuk pelatihan itu adalah yang "terbaik". Sehingga apabila dilakukan tes dengan menggunakan data yang berbeda dapat mengurangi akurasi (hasil yang dibuat tidak sesuai yang diharapkan). Overfitting dapat terjadi ketika beberapa batasan didasarkan pada sifat khusus yang tidak membuat perbedaan pada data. Selain itu duplikasi data minor yang berlebihan juga dapat mengakibatkan terjadinya overfitting. Underfitting adalah keadaan dimana model pelatihan data yang dibuat tidak mewakilkan keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan performa yang buruk dalam pelatihan data. Underfitting terjadi karena model masih mempelajari struktur dari data. Hasilnya, tree bekerja dengan buruk pada masa pelatihan dan tes. Sebagaimana banyaknya node dalam pohon keputusan meningkat, tree memiliki galat pelatihan dan tes yang lebih kecil. Pada saat tree berukuran sangat besar, tingkat terjadinya galat tes mulai meningkat walaupun tingkat galat pelatihannya terus menurun. Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya: * Prepruning: Hentikan pembuatan tree di awal. Tidak melakukan pemisahan node jika goodness measure dibawah threshold. Walaupun dapat menyebabkan sulitnya menentukan threshold. * Postpruning: Buang cabang setelah tree jadi. Menggunakan data yang berbeda pada pelatihan untuk menentukan pruned tree yang terbaik. Untuk mengatasi masalah Overfitting atau Underfitting, terdapat beberapa cara yang bisa dicoba: * Gunakan teknik sampel ulang untuk memperkirakan akurasi model. Dimana nantinya akan melakukan validasi beberapa kali dengan perbandingan data yang berbeda sampai menemukan akurasi yang cukup optimal. * Cek kembali validitas dari set data.
rdf:langString 過剰適合(かじょうてきごう、英: overfitting)や過適合(かてきごう)や過学習(かがくしゅう、英: overtraining)とは、統計学や機械学習において、訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。 その原因の一つとして、統計モデルへの適合の媒介変数が多すぎる等、訓練データの個数に比べて、モデルが複雑で自由度が高すぎることがある。不合理で誤ったモデルは、入手可能なデータに比較して複雑すぎる場合、完全に適合することがある。 対義語は過少適合(かしょうてきごう、英: underfitting)や過小学習(かしょうがくしゅう、英: undertraining)。
rdf:langString 과적합(過適合, overfitting) 또는 과대적합(過大適合)은 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻한다. 일반적으로 학습 데이타는 실제 데이타의 부분 집합이므로 학습데이타에 대해서는 오차가 감소하지만 실제 데이타에 대해서는 오차가 증가하게 된다. * 일반적으로 학습 데이타는 실제 데이타의 부분집합이며, 실제 데이타를 모두 수집하는 것은 불가능하다. * 만약 실제 데이타를 모두 수집하여도 모든 데이타를 학습 시키기 위한 시간이 측정 불가능한 수준으로 증가할 수 있다. * 학습 데이타만 가지고 실제 데이타의 오차가 증가하는 지점을 예측하는 것은 매우 어렵거나 불가능하다.
rdf:langString In statistica e in informatica, si parla di overfitting o sovradattamento (oppure adattamento eccessivo) quando un modello statistico molto complesso si adatta ai dati osservati (il campione) perché ha un numero eccessivo di parametri rispetto al numero di osservazioni. Un modello assurdo e sbagliato può adattarsi perfettamente se è abbastanza complesso rispetto alla quantità di dati disponibili. Si sostiene che l'overfitting sia una violazione del principio del rasoio di Occam.
rdf:langString Nadmierne dopasowanie (ang. overfitting) a. przeuczenie (branż. „przetrenowanie”, ang. overtraining) – zjawisko w statystyce zachodzące, gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby, na podstawie której był konstruowany. W przypadku uczenia maszynowego oznacza to, że absurdalne i fałszywe modele mogą świetnie pasować do danych uczących, gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosuje się je do danych, z którymi nie zetknęły się podczas uczenia. Nadmierne dopasowanie jest w pewnym sensie pogwałceniem zasady brzytwy Ockhama (niemnożenia bytów ponad potrzebę). Kiedy liczba stopni swobody modelu przekracza zawartość informacyjną danych, dobór parametrów staje się w dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do przypadkowych błędów w danych uczących, i tym samym zanika jego zdolność uogólniania i możliwość zastosowania modelu do innych podobnych danych, czyli główny cel modelowania. Prawdopodobieństwo przeuczenia zależy nie tylko od liczby parametrów i wielkości danych, lecz także adekwatności struktury modelu w odniesieniu do konkretnych danych oraz skali błędu modelu w porównaniu z oczekiwanym poziomem szumu w danych. Idea nadmiernego dopasowania jest ważna także w uczeniu maszynowym. Sieci neuronowe, czy algorytmy genetyczne mają zwykle bardzo dużo zmieniających się w trakcie uczenia parametrów, a niektóre typowe problemy takie jak gra na giełdzie w długim horyzoncie czasowym, badania genetyczne, czy problemy makroekonomiczne generują niewielką liczbę niezależnych obserwacji. Wzrasta zatem ryzyko sytuacji w której np. sieć neuronowa uczona na danych miesięcznych z kilku lat wydaje się być świetnym graczem giełdowym, a po zastosowaniu jej przewidywań w praktyce zyski nie odbiegają od inwestycji w indeks. Zwykle algorytm jest uczony na pewnym zbiorze przypadków (tzw. zbiór uczący), dla których znane są właściwe wyniki. Zakłada się, że po nauczeniu można zastosować algorytm do przewidywania wyników także dla innych przypadków, czyli algorytm w procesie uczenia uogólni prawidłowości w zbiorze uczącym na wszelkie podobne obserwacje. Jednakże szczególnie w sytuacji, gdy uczenie jest zbyt długie, lub gdy przypadki uczące są nieliczne, uczeń może „wymyślić” prawidłowości, które w rzeczywistości nie mają miejsca, a są efektem przypadkowych błędów w danych uczących. W wyniku tego przeuczenia spada jakość algorytmu zastosowanego do innych danych niż te, na których się uczył, choć dla danych uczących jest coraz lepszy. Zarówno w statystyce, jak i uczeniu maszynowym w celu uniknięcia nadmiernego dopasowania konieczne jest zastosowanie dodatkowych środków zapobiegawczych (np. zbiorów testowych, sprawdzianu krzyżowego, metod samowspornych), które pozwalają stwierdzić, w którym momencie dalsze uczenie zaczyna prowadzić do powstania gorszego modelu. Do kontroli nadmiernego dopasowania mogą się też przydawać testy istotności statystycznej, które jednak na ogół mają pewne założenia odnośnie do rozkładu danych. W psychiatrii odpowiednikiem nadmiernego dopasowania mogą być urojenia paranoiczne: złożone, spójne wewnętrznie, choć absurdalne modele świata (np. teorie spiskowe), tworzone na podstawie zbyt skąpych informacji przez pacjentów z objawami zespołu paranoicznego.
rdf:langString Переобучение (переподгонка, пере- в значении «слишком», англ. overfitting) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки). Это связано с тем, что при построении модели («в процессе обучения») в обучающей выборке обнаруживаются некоторые случайные закономерности, которые отсутствуют в генеральной совокупности. Иными словами, модель запоминает огромное количество всех возможных примеров вместо того, чтобы научиться подмечать особенности. Даже тогда, когда обученная модель не имеет чрезмерного количества параметров, можно ожидать, что эффективность её на новых данных будет ниже, чем на данных, использовавшихся для обучения. В частности, значение коэффициента детерминации будет сокращаться по сравнению с исходными данными обучения. Способы борьбы с переобучением зависят от метода моделирования и способа построения модели. Например, если строится дерево принятия решений, то можно обрезать некоторые его ветки в процессе построения.
rdf:langString Sobre-ajuste ou sobreajuste (do inglês: overfitting) é um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados. É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios. Ocorre o sobre-ajuste quando o modelo se ajusta a estes. Um modelo sobre-ajustado apresenta alta precisão quando testado com seu conjunto de dados, porém tal modelo não é uma boa representação da realidade e por isso deve ser evitado.É bem comum que estes modelos apresentem considerável variância e que seus gráficos tenham várias pequenas oscilações, portanto espera-se que modelos representativos sejam convexos. Uma ferramenta para contornar o problema do sobre-ajuste é a , que adiciona à o valor dos parâmetros. Tal adição resulta na eliminação de parâmetros de pouca importância e, portanto, em um modelo mais convexo, do qual que se espera que seja mais representativo da realidade. Através da validação cruzada, em que testamos o nosso modelo em relação a uma parte reservada do conjunto de dados que não foi utilizada no treino do modelo em questão, é possível se ter uma ideia de se o modelo sofre de sobre-ajuste ou não.
rdf:langString У статистиці та машинному навчанні одним із найпоширеніших завдань є допасовування «моделі» до набору тренувальних даних таким чином, щоби уможливити здійснення надійних передбачень на загальних даних, на яких не здійснювалося тренування. При перенавчанні (англ. overfitting) статистична модель описує випадкову похибку або шум, замість взаємозв'язку, що лежить в основі даних. Перенавчання виникає тоді, коли модель є занадто складною, такою, що має занадто багато відносно числа спостережень. Перенавчена модель має погану продуктивність, оскільки вона занадто сильно реагує на другорядні відхилення в тренувальних даних. Можливість перенавчання існує тому, що критерій, який застосовується для тренування моделі, відрізняється від критерію, який застосовується для оцінки її ефективності. Зокрема, модель зазвичай тренують шляхом максимізації її продуктивності на якомусь наборі тренувальних даних. Проте її ефективність визначається не її продуктивністю на тренувальних даних, а її здатністю працювати добре на даних небачених. Перенавчання стається тоді, коли модель починає «запам'ятовувати» тренувальні дані, замість того, щоби «вчитися» узагальненню з тенденції. Як крайній приклад, якщо число параметрів є таким же, або більшим, як число спостережень, то проста модель або процес навчання може відмінно передбачувати тренувальні дані, просто запам'ятовуючи їх повністю, але така модель зазвичай зазнаватиме рішучої невдачі при здійсненні передбачень про нові або небачені дані, оскільки ця проста модель взагалі не навчилася узагальнювати. Потенціал перенавчання залежить не лише від кількостей параметрів та даних, але й від відповідності структури моделі формі даних, та величини в порівнянні з очікуваним рівнем шуму або похибки в даних. Навіть коли допасована модель не має надмірного числа параметрів, слід очікувати, що допасований взаємозв'язок працюватиме на новому наборі даних не так добре, як на наборі, використаному для допасовування. Зокрема, значення коефіцієнту детермінації відносно первинних тренувальних даних . Щоби уникати перенавчання, необхідно використовувати додаткові методики (наприклад, перехресне затверджування, регуляризацію, ранню зупинку, , баєсові апріорні параметрів або порівняння моделей), які можуть вказувати, коли подальше тренування не даватиме кращого узагальнення. Основою деяких методик є або (1) явно штрафувати занадто складні моделі, або (2) перевіряти здатність моделі до узагальнення шляхом оцінки її продуктивності на наборі даних, не використаному для тренування, який вважається наближенням типових небачених даних, з якими стикатиметься модель. Гарною аналогією перенавчання задачі є уявити дитину, яка намагається вивчити, що є вікном, а що не є вікном, ми починаємо показувати їй вікна, і вона виявляє на початковому етапі, що всі вікна мають скло та раму, і через них можна дивитися назовні, деякі з них може бути відчинено. Якщо ми продовжимо показувати ті самі вікна, то дитина може також зробити помилковий висновок, що всі вікна є зеленими, і що всі зелені рами є вікнами. Перенавчаючись таким чином цієї задачі.
rdf:langString 在統計學中,過適(英語:overfitting,或稱擬合過度)是指過於緊密或精確地匹配特定資料集,以致於無法良好地拟合其他資料或預測未來的觀察結果的現象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。相较用于训练的資料總量來說,一個模型只要结构足夠複雜或参数足够多,就总是可以完美地適應資料的。過適一般可以視為違反奥卡姆剃刀原則。 与过拟合相对应的概念是欠拟合(英語:underfitting,或稱:擬合不足);它是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。发生欠拟合时,模型的偏差大而方差小。 在机器学习或人工神經網路中,过拟合与欠拟合有时也被称为「过训练(英語:overtraining)」和「欠训练(英語:undertraining)」。 之所以存在过拟合的可能,是因为选择模型的标准和评价模型的标准是不一致的。举例来说,选择模型时往往是选取在训练数据上表现最好的模型;但评价模型时则是观察模型在训练过程中不可见数据上的表现。当模型尝试「记住」训练数据而非从训练数据中学习规律时,就可能发生过拟合。一般来说,當參數的自由度或模型结构的复杂度超過資料所包含資訊內容時,拟合后的模型可能使用任意多的參數,這會降低或破壞模型泛化的能力。 在統計学习和機器學習中,為了避免或减轻過適現象,須要使用額外的技巧(如模型选择、交叉驗證、提前停止、正则化、剪枝、贝叶斯信息量准则、赤池信息量準則或dropout)。在treatment learning中,使用最小最佳支援值(英語:minimum best support value)來避免過適。这些方法大致可分为两类:1. 对模型的复杂度进行惩罚,从而避免产生过于复杂的模型;2. 在验证数据上测试模型的效果,从而模拟模型在实际工作环境的数据上的表现。
xsd:nonNegativeInteger 20678

data from the linked data cloud