-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
c9fe45e
commit c1e6693
Showing
3 changed files
with
1,948 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,50 @@ | ||
\documentclass[12pt, twoside]{article} | ||
\usepackage{jmlda} | ||
\newcommand{\hdir}{.} | ||
|
||
% Здесь можно определять собственные команды, они будут действовать только внутри статьи: | ||
\newenvironment{coderes}% | ||
{\medskip\tabcolsep=0pt\begin{tabular}{>{\small}l@{\quad}|@{\quad}l}}% | ||
{\end{tabular}\medskip} | ||
|
||
\begin{document} | ||
|
||
\title{Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели} | ||
\author{Жолобов В. А. Малиновский Г. Стрижов В. В.} | ||
%\email{info@jmlda.org} | ||
%\organization{ФИЦ <<Информатика и управление>> РАН, г.~Москва, ул.~Вавилова, 44/2} | ||
\abstract{Исследуется проблема планирования эксперимента. Задача ранего прогнозирования важна в медицинском применении, особенно в случаях дорогостоящих измерений иммунных биомаркеров. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адеватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Исследуется зависимость функции ошибки от объема данных. Исследуется зависимость модели от редуцированной матрицы ковариации параметров $GLM$. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных. Созданы алгоритмы определения достаточного объема данных на раннем этапе. Проведен вычислительный эксперимент с использованием синтетических данных.} | ||
\titleEng{Style guide for authors} | ||
\authorEng{JMLDA editorial board} | ||
\organizationEng{Federal Research Center ``Computer Science and Control'' of RAS, 44/2~Vavilova~st., Moscow, Russia} | ||
\abstractEng{ | ||
This document explains how to prepare papers using \LaTeXe\ typesetting system and \texttt{jmlda.sty} package. | ||
} | ||
%\doi{10.21469/22233792} | ||
%\receivedRus{01.01.2017} | ||
%\receivedEng{January 01, 2017} | ||
|
||
\maketitle | ||
%\linenumbers | ||
\section{Введение} | ||
%связана с планированием эксперимента. | ||
%Как снизить стоимость данных для исследований в несколько раз? | ||
%Каким образом предсказать ее минимально необходимый объем по небольшому числу измерений? | ||
%, порядка трех тысяч евро | ||
Работа посвящена задаче оценивания достаточного объема выборки на раннем этапе сбора данных. Задача возникла из условия, когда необходимо провести крупное исследование, а сбор данных стоит больших денег. Для примера можно взять медицинское исследование, такой как анализ крови. Существуют такие виды анализа крови, которые стоят достаточно приличных денег для людей. Для того, чтобы снизить стоимость данных для исследований в несколько раз необходимо построить модель, а для модели нужно собрать выборку. Поэтому в данной работе рассматривается задача построения алгоритма для предсказания оптимального набора данных при заданной модели. Предлагаемый в данной работе метод должен на малой выборке спрогнозировать ошибку на пополняемой большой. Выборка считается простой, то есть удовлеторяет простому распределению. Предлагается использовать два разных метода: полного перебора и генетический алгоритм | ||
%При планировании эксперимента требуется оценить минимальный объем данных - количество производимых измерений некоторого набора параметров. | ||
|
||
Кроме этих методов ранее задача прогнозирования достаточного объема выборкы решалась в работе~\cite{oai:dialnet.unirioja.es:ART0000605621}. Здесь был предложен метод, основанный на технике кросс-валидации и расстоянии Кульбака-Лейблера между двумя распределениями параметров модели, оцениваемых на аналогичных подмножествах данных. Похожая задача информационного поиска решалась в работах~\cite{journals/eswa/KulunchakovS17, oai:HAL:hal-01118844v1}. Здесь для создания простых структурированных функций информационного поиска используется модернизированный генетический алгоритм. Модернизированность генетического алгоритма заключается в том, что он способен бороться со стагнацией признаков. | ||
|
||
В данной работе используются два метода. Основной из них~--- это метод полного перебора. Необходимо подобрать такую функцию, которая является монотонной и достаточно гладкой, то есть гарантируется непрерывная дифференцируемость до второго порядка. Метод заключается в том, что он аппроксимирует зависимость функции ошибки от объема данных по малому объему выборки, чтобы с достаточной точностью предсказывать поведение функции ошибки. Считается, что модель в этой задаче задана и зависит от редуцированной матрицы ковариации параметров $GLM$. Также предложен способ генерации такой функции через генетический алгоритм. | ||
|
||
|
||
|
||
Вычислительный эксперимент проводится на синтетических данных $Boston\ Housing$ и $Diabets$. Вначале реализуем метод полного перебора. Разделяем выборку на два непересекающихся множества. Строим два графика поверхности выборок: первую получаем с помощью бутстрепа~\cite{Bishop06} для подвыборки фиксированного объема, вторую через аппроксимацию. Чтобы получить аппроксимирующую поверхность, решается оптимизационную задачу. Затем повторяем действия, используя уже для поиска аппроксимирующей функции генетический алгоритм. Решение этой задачи позволит находить оптимальное значение объема выборки. | ||
|
||
|
||
|
||
\bibliographystyle{unsrt} | ||
\bibliography{Cites} | ||
|
||
\end{document} |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,143 @@ | ||
@Book{Bishop06, | ||
author = "C. M. Bishop", | ||
title = "Pattern Recognition and Machine Learning", | ||
publisher = "Springer", | ||
year = "2006", | ||
keywords = "book, text, c2006, c200x, c20xx, Markov random field, | ||
fields", | ||
abstract = "... Chris Bishop introduces Markov random fields in | ||
the context of graphical model (p.383). ... image | ||
de-noising is discussed ... -- JRittscher, CStewart. | ||
http://www.amazon.com/gp/product/0387310738/?tag=fourwheeldrivein | ||
; .", | ||
} | ||
|
||
@Article{oai:dialnet.unirioja.es:ART0000605621, | ||
title = "Sample size determination for logistic regression", | ||
author = "Anastasiya Motrenko and Vadim Strijov and | ||
Gerhard-Wilhelm Weber", | ||
journal = "Journal of computational and applied mathematics, ISSN | ||
0377-0427", | ||
publisher = "North- Holland", | ||
year = "2014", | ||
number = "1", | ||
volume = "255", | ||
abstract = "The problem of sample size estimation is important in | ||
medical applications, especially in cases of expensive | ||
measurements of immune biomarkers. This paper describes | ||
the problem of logistic regression analysis with the | ||
sample size determination algorithms, namely the | ||
methods of univariate statistics, logistics regression, | ||
cross-validation and Bayesian inference. The authors, | ||
treating the regression model parameters as a | ||
multivariate variable, propose to estimate the sample | ||
size using the distance between parameter distribution | ||
functions on cross-validated data sets. Herewith, the | ||
authors give a new contribution to data mining and | ||
statistical learning, supported by applied | ||
mathematics.", | ||
ISSN = "0377-0427", | ||
bibsource = "OAI-PMH server at dialnet.unirioja.es", | ||
identifier = "(Revista) ISSN 0377-0427", | ||
language = "eng", | ||
oai = "oai:dialnet.unirioja.es:ART0000605621", | ||
pages = "743--752", | ||
rights = "free", | ||
source = "Journal of computational and applied mathematics, ISSN | ||
0377-0427, Vol. 255, N{\textordmasculine} 1, 2014, | ||
pags. 743-752", | ||
subject = "Logistic regression Sample size Feature selection | ||
Bayesian inference Kullback{.}Leibler divergence", | ||
URL = "http://dialnet.unirioja.es/servlet/oaiart?codigo=4532396", | ||
} | ||
|
||
@Article{journals/eswa/KulunchakovS17, | ||
title = "Generation of simple structured information retrieval | ||
functions by genetic algorithm without stagnation", | ||
author = "A. S. Kulunchakov and Vadim V. Strijov", | ||
journal = "Expert Syst. Appl", | ||
year = "2017", | ||
volume = "85", | ||
bibdate = "2019-06-02", | ||
bibsource = "DBLP, | ||
http://dblp.uni-trier.de/https://doi.org/10.1016/j.eswa.2017.05.019; | ||
DBLP, | ||
http://dblp.uni-trier.de/https://www.wikidata.org/entity/Q59243792; | ||
DBLP, | ||
http://dblp.uni-trier.de/db/journals/eswa/eswa85.html#KulunchakovS17", | ||
pages = "221--230", | ||
} | ||
|
||
@Article{oai:HAL:hal-01118844v1, | ||
title = "Exploring the Space of IR Functions", | ||
author = "Parantapa Goswami and Simon Moura and Eric Gaussier | ||
and Massih-Reza Amini and Francis Maes", | ||
publisher = "HAL CCSD", | ||
year = "2014", | ||
month = apr # "~14", | ||
abstract = "In this paper we propose an approach to discover | ||
functions for IR ranking from a space of simple | ||
closed-form mathematical func-tions. In general, all IR | ||
ranking models are based on two basic variables, | ||
namely, term frequency and document frequency. Here a | ||
grammar for generating all possible functions is | ||
defined which consists of the two above said variables | ||
and basic mathematical operations -addition, | ||
sub-traction, multiplication, division, logarithm, | ||
exponential and square root. The large set of functions | ||
generated by this grammar is filtered by check-ing | ||
mathematical feasibility and satisfiability to | ||
heuristic constraints on IR scoring functions proposed | ||
by the community. Obtained candidate functions are | ||
tested on various standard IR collections and several | ||
sim-ple but highly efficient scoring functions are | ||
identified. We show that these newly discovered | ||
functions are outperforming other state-of-the-art IR | ||
scoring models through extensive experimentation on | ||
several IR collections. We also compare the performance | ||
of functions satisfying IR constraints to those which | ||
do not, and show that the former set of func-tions | ||
clearly outperforms the latter one 3 .", | ||
annote = "Analyse de donn{\'e}es, Mod{\'e}lisation et | ||
Apprentissage automatique [Grenoble] ( AMA ) ; | ||
Laboratoire d'Informatique de Grenoble ( LIG ) ; | ||
Universit{\'e} Pierre Mend{\`e}s France - Grenoble 2 ( | ||
UPMF ) -Universit{\'e} Joseph Fourier - Grenoble 1 ( | ||
UJF ) -Institut National Polytechnique de Grenoble ( | ||
INPG ) -Centre National de la Recherche Scientifique ( | ||
CNRS ) -Universit{\'e} Grenoble Alpes ( UGA ) | ||
-Universit{\'e} Pierre Mend{\`e}s France - Grenoble 2 ( | ||
UPMF ) -Universit{\'e} Joseph Fourier - Grenoble 1 ( | ||
UJF ) -Institut National Polytechnique de Grenoble ( | ||
INPG ) -Centre National de la Recherche Scientifique ( | ||
CNRS ) -Universit{\'e} Grenoble Alpes ( UGA ) ; D-Labs | ||
; Universit{\'e} Pierre et Marie Curie - Paris 6 ( UPMC | ||
)", | ||
bibsource = "OAI-PMH server at api.archives-ouvertes.fr", | ||
contributor = "Mod{\'e}lisation et Apprentissage automatique | ||
[Grenoble] Analyse de donn{\'e}es and D-Labs and | ||
PERSYVAL-lab ANR-11-LABX-0025-01,Syst{\`e}mes et | ||
Algorithmes Pervasifs au confluent des mondes physique | ||
et num{\'e}rique ( 2011 )", | ||
coverage = "Amsterdam , Netherlands", | ||
description = "International audience", | ||
identifier = "hal-01118844; DOI : 10.1007/978-3-319-06028-6_31", | ||
language = "en", | ||
oai = "oai:HAL:hal-01118844v1", | ||
pages = "372--384", | ||
relation = "info:eu-repo/semantics/altIdentifier/doi/ | ||
10.1007/978-3-319-06028-6_31", | ||
rights = "info:eu-repo/semantics/OpenAccess", | ||
source = "36th European Conference on Information Retrieval; | ||
36th European Conference on Information Retrieval, Apr | ||
2014, Amsterdam, Netherlands. pp.372 - 384, 2014, | ||
{\~a}10.1007/978-3-319-06028-6_31{\~a}", | ||
subject = "Automatic Discovery; Function Generation; IR Theory; [ | ||
INFO.INFO-IR ] Computer Science [cs]/Information | ||
Retrieval [cs.IR]; [ INFO.INFO-LG ] Computer Science | ||
[cs]/Machine Learning [cs.LG]", | ||
type = "info:eu-repo/semantics/conferenceObject", | ||
URL = "https://hal.archives-ouvertes.fr/hal-01118844; | ||
https://hal.archives-ouvertes.fr/hal-01118844/document; | ||
https://hal.archives-ouvertes.fr/hal-01118844/file/ECIR2014.pdf", | ||
} |
Oops, something went wrong.