Skip to content

Commit

Permalink
Add files via upload
Browse files Browse the repository at this point in the history
  • Loading branch information
ZVlaDreamer authored Feb 25, 2020
1 parent c9fe45e commit c1e6693
Show file tree
Hide file tree
Showing 3 changed files with 1,948 additions and 0 deletions.
50 changes: 50 additions & 0 deletions doc/paper/44+.tex
Original file line number Diff line number Diff line change
@@ -0,0 +1,50 @@
\documentclass[12pt, twoside]{article}
\usepackage{jmlda}
\newcommand{\hdir}{.}

% Здесь можно определять собственные команды, они будут действовать только внутри статьи:
\newenvironment{coderes}%
{\medskip\tabcolsep=0pt\begin{tabular}{>{\small}l@{\quad}|@{\quad}l}}%
{\end{tabular}\medskip}

\begin{document}

\title{Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели}
\author{Жолобов В. А. Малиновский Г. Стрижов В. В.}
%\email{info@jmlda.org}
%\organization{ФИЦ <<Информатика и управление>> РАН, г.~Москва, ул.~Вавилова, 44/2}
\abstract{Исследуется проблема планирования эксперимента. Задача ранего прогнозирования важна в медицинском применении, особенно в случаях дорогостоящих измерений иммунных биомаркеров. Решается задача оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адеватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Исследуется зависимость функции ошибки от объема данных. Исследуется зависимость модели от редуцированной матрицы ковариации параметров $GLM$. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных. Созданы алгоритмы определения достаточного объема данных на раннем этапе. Проведен вычислительный эксперимент с использованием синтетических данных.}
\titleEng{Style guide for authors}
\authorEng{JMLDA editorial board}
\organizationEng{Federal Research Center ``Computer Science and Control'' of RAS, 44/2~Vavilova~st., Moscow, Russia}
\abstractEng{
This document explains how to prepare papers using \LaTeXe\ typesetting system and \texttt{jmlda.sty} package.
}
%\doi{10.21469/22233792}
%\receivedRus{01.01.2017}
%\receivedEng{January 01, 2017}

\maketitle
%\linenumbers
\section{Введение}
%связана с планированием эксперимента.
%Как снизить стоимость данных для исследований в несколько раз?
%Каким образом предсказать ее минимально необходимый объем по небольшому числу измерений?
%, порядка трех тысяч евро
Работа посвящена задаче оценивания достаточного объема выборки на раннем этапе сбора данных. Задача возникла из условия, когда необходимо провести крупное исследование, а сбор данных стоит больших денег. Для примера можно взять медицинское исследование, такой как анализ крови. Существуют такие виды анализа крови, которые стоят достаточно приличных денег для людей. Для того, чтобы снизить стоимость данных для исследований в несколько раз необходимо построить модель, а для модели нужно собрать выборку. Поэтому в данной работе рассматривается задача построения алгоритма для предсказания оптимального набора данных при заданной модели. Предлагаемый в данной работе метод должен на малой выборке спрогнозировать ошибку на пополняемой большой. Выборка считается простой, то есть удовлеторяет простому распределению. Предлагается использовать два разных метода: полного перебора и генетический алгоритм
%При планировании эксперимента требуется оценить минимальный объем данных - количество производимых измерений некоторого набора параметров.

Кроме этих методов ранее задача прогнозирования достаточного объема выборкы решалась в работе~\cite{oai:dialnet.unirioja.es:ART0000605621}. Здесь был предложен метод, основанный на технике кросс-валидации и расстоянии Кульбака-Лейблера между двумя распределениями параметров модели, оцениваемых на аналогичных подмножествах данных. Похожая задача информационного поиска решалась в работах~\cite{journals/eswa/KulunchakovS17, oai:HAL:hal-01118844v1}. Здесь для создания простых структурированных функций информационного поиска используется модернизированный генетический алгоритм. Модернизированность генетического алгоритма заключается в том, что он способен бороться со стагнацией признаков.

В данной работе используются два метода. Основной из них~--- это метод полного перебора. Необходимо подобрать такую функцию, которая является монотонной и достаточно гладкой, то есть гарантируется непрерывная дифференцируемость до второго порядка. Метод заключается в том, что он аппроксимирует зависимость функции ошибки от объема данных по малому объему выборки, чтобы с достаточной точностью предсказывать поведение функции ошибки. Считается, что модель в этой задаче задана и зависит от редуцированной матрицы ковариации параметров $GLM$. Также предложен способ генерации такой функции через генетический алгоритм.



Вычислительный эксперимент проводится на синтетических данных $Boston\ Housing$ и $Diabets$. Вначале реализуем метод полного перебора. Разделяем выборку на два непересекающихся множества. Строим два графика поверхности выборок: первую получаем с помощью бутстрепа~\cite{Bishop06} для подвыборки фиксированного объема, вторую через аппроксимацию. Чтобы получить аппроксимирующую поверхность, решается оптимизационную задачу. Затем повторяем действия, используя уже для поиска аппроксимирующей функции генетический алгоритм. Решение этой задачи позволит находить оптимальное значение объема выборки.



\bibliographystyle{unsrt}
\bibliography{Cites}

\end{document}
143 changes: 143 additions & 0 deletions doc/paper/Cites.bib
Original file line number Diff line number Diff line change
@@ -0,0 +1,143 @@
@Book{Bishop06,
author = "C. M. Bishop",
title = "Pattern Recognition and Machine Learning",
publisher = "Springer",
year = "2006",
keywords = "book, text, c2006, c200x, c20xx, Markov random field,
fields",
abstract = "... Chris Bishop introduces Markov random fields in
the context of graphical model (p.383). ... image
de-noising is discussed ... -- JRittscher, CStewart.
http://www.amazon.com/gp/product/0387310738/?tag=fourwheeldrivein
; .",
}

@Article{oai:dialnet.unirioja.es:ART0000605621,
title = "Sample size determination for logistic regression",
author = "Anastasiya Motrenko and Vadim Strijov and
Gerhard-Wilhelm Weber",
journal = "Journal of computational and applied mathematics, ISSN
0377-0427",
publisher = "North- Holland",
year = "2014",
number = "1",
volume = "255",
abstract = "The problem of sample size estimation is important in
medical applications, especially in cases of expensive
measurements of immune biomarkers. This paper describes
the problem of logistic regression analysis with the
sample size determination algorithms, namely the
methods of univariate statistics, logistics regression,
cross-validation and Bayesian inference. The authors,
treating the regression model parameters as a
multivariate variable, propose to estimate the sample
size using the distance between parameter distribution
functions on cross-validated data sets. Herewith, the
authors give a new contribution to data mining and
statistical learning, supported by applied
mathematics.",
ISSN = "0377-0427",
bibsource = "OAI-PMH server at dialnet.unirioja.es",
identifier = "(Revista) ISSN 0377-0427",
language = "eng",
oai = "oai:dialnet.unirioja.es:ART0000605621",
pages = "743--752",
rights = "free",
source = "Journal of computational and applied mathematics, ISSN
0377-0427, Vol. 255, N{\textordmasculine} 1, 2014,
pags. 743-752",
subject = "Logistic regression Sample size Feature selection
Bayesian inference Kullback{.}Leibler divergence",
URL = "http://dialnet.unirioja.es/servlet/oaiart?codigo=4532396",
}

@Article{journals/eswa/KulunchakovS17,
title = "Generation of simple structured information retrieval
functions by genetic algorithm without stagnation",
author = "A. S. Kulunchakov and Vadim V. Strijov",
journal = "Expert Syst. Appl",
year = "2017",
volume = "85",
bibdate = "2019-06-02",
bibsource = "DBLP,
http://dblp.uni-trier.de/https://doi.org/10.1016/j.eswa.2017.05.019;
DBLP,
http://dblp.uni-trier.de/https://www.wikidata.org/entity/Q59243792;
DBLP,
http://dblp.uni-trier.de/db/journals/eswa/eswa85.html#KulunchakovS17",
pages = "221--230",
}

@Article{oai:HAL:hal-01118844v1,
title = "Exploring the Space of IR Functions",
author = "Parantapa Goswami and Simon Moura and Eric Gaussier
and Massih-Reza Amini and Francis Maes",
publisher = "HAL CCSD",
year = "2014",
month = apr # "~14",
abstract = "In this paper we propose an approach to discover
functions for IR ranking from a space of simple
closed-form mathematical func-tions. In general, all IR
ranking models are based on two basic variables,
namely, term frequency and document frequency. Here a
grammar for generating all possible functions is
defined which consists of the two above said variables
and basic mathematical operations -addition,
sub-traction, multiplication, division, logarithm,
exponential and square root. The large set of functions
generated by this grammar is filtered by check-ing
mathematical feasibility and satisfiability to
heuristic constraints on IR scoring functions proposed
by the community. Obtained candidate functions are
tested on various standard IR collections and several
sim-ple but highly efficient scoring functions are
identified. We show that these newly discovered
functions are outperforming other state-of-the-art IR
scoring models through extensive experimentation on
several IR collections. We also compare the performance
of functions satisfying IR constraints to those which
do not, and show that the former set of func-tions
clearly outperforms the latter one 3 .",
annote = "Analyse de donn{\'e}es, Mod{\'e}lisation et
Apprentissage automatique [Grenoble] ( AMA ) ;
Laboratoire d'Informatique de Grenoble ( LIG ) ;
Universit{\'e} Pierre Mend{\`e}s France - Grenoble 2 (
UPMF ) -Universit{\'e} Joseph Fourier - Grenoble 1 (
UJF ) -Institut National Polytechnique de Grenoble (
INPG ) -Centre National de la Recherche Scientifique (
CNRS ) -Universit{\'e} Grenoble Alpes ( UGA )
-Universit{\'e} Pierre Mend{\`e}s France - Grenoble 2 (
UPMF ) -Universit{\'e} Joseph Fourier - Grenoble 1 (
UJF ) -Institut National Polytechnique de Grenoble (
INPG ) -Centre National de la Recherche Scientifique (
CNRS ) -Universit{\'e} Grenoble Alpes ( UGA ) ; D-Labs
; Universit{\'e} Pierre et Marie Curie - Paris 6 ( UPMC
)",
bibsource = "OAI-PMH server at api.archives-ouvertes.fr",
contributor = "Mod{\'e}lisation et Apprentissage automatique
[Grenoble] Analyse de donn{\'e}es and D-Labs and
PERSYVAL-lab ANR-11-LABX-0025-01,Syst{\`e}mes et
Algorithmes Pervasifs au confluent des mondes physique
et num{\'e}rique ( 2011 )",
coverage = "Amsterdam , Netherlands",
description = "International audience",
identifier = "hal-01118844; DOI : 10.1007/978-3-319-06028-6_31",
language = "en",
oai = "oai:HAL:hal-01118844v1",
pages = "372--384",
relation = "info:eu-repo/semantics/altIdentifier/doi/
10.1007/978-3-319-06028-6_31",
rights = "info:eu-repo/semantics/OpenAccess",
source = "36th European Conference on Information Retrieval;
36th European Conference on Information Retrieval, Apr
2014, Amsterdam, Netherlands. pp.372 - 384, 2014,
{\~a}10.1007/978-3-319-06028-6_31{\~a}",
subject = "Automatic Discovery; Function Generation; IR Theory; [
INFO.INFO-IR ] Computer Science [cs]/Information
Retrieval [cs.IR]; [ INFO.INFO-LG ] Computer Science
[cs]/Machine Learning [cs.LG]",
type = "info:eu-repo/semantics/conferenceObject",
URL = "https://hal.archives-ouvertes.fr/hal-01118844;
https://hal.archives-ouvertes.fr/hal-01118844/document;
https://hal.archives-ouvertes.fr/hal-01118844/file/ECIR2014.pdf",
}
Loading

0 comments on commit c1e6693

Please sign in to comment.