Point de vue

Le séminaire POINT DE VUE 

 est sur un format un peu special. Il n'a lieu qu'une ou deux fois par mois, mais dure (environ) deux heures. Le principe c'est qu'un orateur vient donner son point de vue sur un sujet de son choix.La première partie de l'intervention est volontairement introductive et aisément accessible. Elle se conclut par des questions autour d'un thé -café et petits gateaux-.La seconde partie est plus technique et aborde des questions ouvertes dans le domaine.






Prochains Exposés



Subhashis Ghoshal 

 North Carolina State University





 Bayesian methods for boundary detection in images



Mercredi 13 Mai, 16h15, Batiment Sophie Germain,


salle 1016

(voir plan si nécessaire, bus 62, 89, Tram, Metro ligne 14, RER C...)


Summary : 




Detecting the boundary of an object present in an image is a fundamental problem
of image processing and segmentation. Bayesian methods are very commonly


used in image analysis because of their natural ability to incorporate structural


information in images through suitable prior distributions. For a d­dimensional


image, d=2,3,..., the boundary of an object may often be viewed as a closed d­1


dimensional smooth manifold. Thus the boundary detection problem in images


may be thought of as higher dimensional generalization of change­point problems.


In the first part of the talk, we describe the boundary detection problem in a very


general setting of stochastic modeling and discuss a method of constructing


convenient prior distributions through Gaussian processes indexed by the unit


sphere in the d­dimensional Euclidean space or through suitable finite random


series spanned by the Fourier basis or spherical harmonics. For the particular case


of a Gaussian process prior with the squared exponential periodic covariance


kernel, we discuss an efficient computing strategy using its explicit eigen function


decomposition. By an extensive study, we demonstrate that the proposed


Bayesian procedure is robust for the choice of prior parameters and outperforms


alternative non­Bayesian methods such as those based on jump regression, In


addition the Bayesian method is able to produce credible regions which can have


significant use in surgical applications.


In the second part of the talk, we study the large sample properties of the


proposed Bayesian procedure. Using the general theory of posterior contraction


rates and some interesting connections with the Hellinger distances on distribution


of pixel­wise random observations, we show that the posterior rate of contraction


of the boundary in terms of a metric described by the Lebesgue measure of the


region enclosed between the true and the modeled boundary attains the minimax


rate of convergence for the problem and automatically adapts to the smoothness


of the boundary.


The talk is based on joint work with Meng Li, a doctoral student at North Carolina


State University and Aad van der Vaart.
















Précédents Orateurs


















ERIC Cator  

Radboud University Nijmegen 

The Least Squares Estimator of monotone regression functions is Locally Asymptotic Minimax



Pierre Pinson


Technical University of Denmark, department of Electrical Engineering


Modelling of high-dimensional space-time dynamics of renewables"








Alexandre Tsybakov

Agrégation et statistique en grande dimension






Lucien Birgé



Un estimateur robuste et adaptatif pour la régression.



Alain Trouvé







Analyses de données géométriques et espaces de formes

Etienne Roquain





False Discorery rates : introduction, enjeux et perspectives




Résumé. 

1ère partie : nous commencerons par introduire le concept de False Discovery Rate (FDR) à l'aide de plusieurs exemples pratiques dans lesquels de nombreux tests statistiques doivent être effectués simultanément. Après avoir formalisé le problème, nous établirons ensuite précisément le résultat du contrôle du FDR de Benjamini et Hochberg (1995). Par la suite, nous tisserons certains liens entre le contrôle du FDR et d'autres problématiques de la statistique en grande dimension sous parcimonie, comme la détection, classification et l'estimation. Cette première partie se voudra essentiellement introductive et non technique.

2ème partie : cette partie présentera un problème épineux dans le domaine du test multiple : la prise en compte de la dépendance. Quelques résultats seront énoncés et nous aborderons également certaines preuves. Pour finir, quelques questions ouvertes seront évoquées.




Stéphane Jaffard

Analyse multifractale, ondelettes et statistique, 
quelques interactions








Résumé:  L'analyse multifractale a été introduite par des physiciens afin d'utiliser des indices de régularité dans des classes d'espaces fonctionnels comme outil de classification, et de sélection de modèles.


Une motivation plus tardive a été d'interpréter ces indices  en fonction de la distribution des singularités hölderiennes de différentes intensités présentes dans les données étudiées. Les arguments heuristiques liant ces deux points de vue (le ``formalisme multifractal'') se sont montrés extrêmement fructueux, fournissant un cadre commun permettant de revisiter de nombreux modèles issus de l'analyse harmonique et également des probabilités (processus de Lévy, cascades multiplicatives, ...)


Nous explorerons tout d'abord  les outils d'analyse harmonique et d'analyse fonctionnelle qui ont permis de donner à cette théorie sa forme actuelle; ensuite, nous présenterons quelques applications où l'analyse multifractale s'est avérée particulièrement pertinente. Enfin, nous mentionnerons les  problèmes que ces questions posent en statistique (et quelques réponses qui y ont été apportées).







Yann Ollivier (LRI-Orsay)




Apprentissage statistique, théorie de l'information et expressivité algorithmique des modèles

À partir de l'exemple de la prédiction de données séquentielles discrètes (texte, musique...), j'essaierai de montrer en quoi les problèmes "inductifs" comme deviner la suite d'une séquence ou deviner une correspondance entre variables dans des données, sont en fait des problèmes mathématiquement bien définis, et que la construction d'un modèle statistique ne doit pas être considérée comme un problème extra-mathématique. En étant guidé par la théorie de la calculabilité algorithmique, on peut développer des modèles capturant des structures riches dans les données. L'estimation des paramètres de ces modèles est plus difficile, mais la théorie de l'information conduit à des méthodes d'apprentissage efficaces, en particulier pour réduire le nombre d'exemples nécessaires. Grâce à ces méthodes, on peut par exemple apprendre des structures très non-markoviennes dans des données séquentielles.


Un peu de biblio :

Peter Grünwald, The minimum description length principle (fait bien le
rapport entre compression et stats, parle moins d'intelligence
artificielle)

Marcus Hutter, On universal prediction and Bayesian confirmation
(article qui défend le prior bayésien universel pour l'IA et la
prédiction)

Li et Vitanyi, Kolmogorov complexity and its applications
(toutes les bases sur la complexité de Kolmogorov et le prior de
Solomonoff, mais parle peu d'IA ou de stats)

The Elements of statistical learning, Trevor Hastie, Robert Tibshirani and
Jerome Friedman, Springer-Verlag 2009. Livre très classique sur
l'apprentissage statistique, ne parle pas de compression/complexité de
Kolmogorov mais donne une revue de plein de méthodes utilisées en
pratique).

Les travaux  de Vovk et Gammerman.  (http://www.vovk.net/cp/index.html et  http://alrw.net/articles/02.pdf)

Pour les aspects « pré-câblage », les travaux de Pascal Boyer
(http://artsci.wustl.edu/~pboyer/PBoyerHomeSite/index.html). 



PETER HALL (MELBOURNE UNIVERSITY)



DISTRIBUTION APPROXIMATION, ROTH'S THEOREM, AND LOOKING FOR INSECTS IN SHIPPING CONTAINERS

Methods for distribution approximation, including the bootstrap, do not perform well when applied to lattice-valued data.  For example, the inherent discreteness of lattice distributions confounds both the conventional normal approximation and the standard bootstrap when used to construct confidence intervals.  However, in certain problems involving lattice-valued random variables, where more than one sample is involved, this difficulty can be overcome by ensuring that the ratios of sample sizes are quite irregular.  For example, at least one of the ratios of sample sizes could be a reasonably good rational approximation to an irrational number.  Results from number theory, in particular Roth's theorem (which applies to irrational numbers that are the roots of polynomials with rational coefficients), can be used to demonstrate theoretically the advantages of this approach.  This project was motivated by a problem in risk analysis involving quarantine searches of shipping containers for insects and other environmental hazards, where confidence intervals for the sum of two binomial proportions are required.





Guillaume Obozinski (Ecole des Ponts-Paris Tech)





 Approches convexes de la parcimonie à la parcimonie structurée


Résumé:

Ces dernières années ont vu l'émergence de la parcimonie structurée, dont le but est d'identifier
des modèles non seulement parcimonieux mais dont le support doit également satisfaire des contraintes de structure. Deux exemples important sont celui de la parcimonie par groupe où un des ensembles de variables doivent être sélectionnés simultanément, et la parcimonie hiérarchique, correspondant au cas où la sélection des variables doit respecter une contrainte d'ordre partiel sur un arbre ou un graphe orienté acyclique.

Je commencerai mon exposé par un tour d'horizon des problèmes considérés par la parcimonie simple et la parcimonie structurée, du point de vue des méthodes convexes.

Dans un deuxième temps, je présenterai une approche de la parcimonie structurée pour les vecteurs basée sur des pénalités combinatoires,
pour laquelle une construction d'une relaxation convexe générique peut-être proposée.
Cette relaxation convexe ne retient que certaines des caractéristiques de la fonction combinatoire initiale, mais celles-ci peuvent
être caractérisées par le concept d'enveloppe combinatoire inférieure.

L'approche proposée permet de considérer dans une formulation unifiée des approches a priori disparates comme les pénalités définies par le codage par blocs, les fonctions
sous-modulaires et les formes de group Lasso structurés. 
Dans certains cas, entre autres lorsque la fonction combinatoire est sous-modulaire, on pourra construire des algorithmes efficaces et montrer des résultats généraux de consistance et d'identification du support.  






UN DUO : Marc Hallin (*) et Davy Paindaveine

ECARES Université Libre Bruxelles et (*) ORFE Princeton





Quantiles multivariés et profondeur conditionnelle




Peter Orbanz 

Columbia University



Mercredi 16 JANVIER 16 HEURES, Chevaleret, salle 1D06


Nonparametric priors for exchangeable graphs and arrays




Michael I. Jordan

University of California, Berkekey



10 Decembre, Chevaleret Salle 1D6

Inference statistique pour "Big Data"

Les slides

                            
                    



Gerard BIAU (UPMC)




19 Novembre, Chevaleret Salle 1D6


Forets aleatoires et Arbres Greedy






PRECEDENT ORATEURS


Richard Nickl (Cambridge)








29 OCTOBRE 
16 h30 Chevaleret, salle 1D06


ET

5 Novembre
16h30, Chevaleret, salle 1D06


Adaptive Inference II-III









Christophe Giraud 


11 Juin 16 HEURES 30 , Chevaleret, salle 1D06

"Quelques enjeux statistiques en sciences du vivant"


 Arnaud Glotter 19 Mars.





 Estimation de la volatilité d'une diffusion  






Albert Cohen 13 Fevrier.







Approximation tensorisées parcimonieuses


et regression en grande dimension.


et regression en grande dimension.





Jon Wellner 23 Janvier, 



Part 1: Log-concave distributions: definitions, properties, and consequences.


Part 2: Chernoff's distribution is log-concave (and more).
Les slides
Les slides (saison II)



 FRANCIS BACH 

16 Janvier

Apprentissage statistique et optimisation.




Les slides








Le point de vue de GILLES STOLTZ

LUNDI 14 Novembre à 16 HEURES 30 , Chevaleret, salle 1D06

Agrégation séquentielle robuste de prédicteurs
 avec application à la prévision séquentielle de la qualité de l'air et de la consommation électrique
(premier exposé)
- quelques résultats récents en lien avec la théorie des jeux : l'approchabilité dans les jeux avec signaux
 (second exposé)






Saison I
Saison II


Le point de vue de YURI GOLUBEV :

LUNDI 7 Novembre à 16 HEURES 30 , Chevaleret, salle 1D06




Sur les inégalités oracles exactes

Le papier


Le Point de vue de SANDRINE PECHE

LUNDI 10 octobre à 16 HEURES, Chevaleret, salle 1D06






 Les slides




Le point de vue de Richard SAMWORTH (Cambridge)


 Log-concave density estimation with applications"

LUNDI 6 Juin à 16 HEURES, Chevaleret, salle 0C02

Abstract: If $X_1,...,X_n$ are a random sample from a density $f$ in $\\mathbb{R}^d$, then with probability one there exists a unique log-concave maximum likelihood estimator $\\hat{f}_n$ of $f$.  The use of this estimator is attractive because, unlike kernel density estimation, the estimator is fully automatic, with no smoothing parameters to choose. We exhibit an iterative algorithm for computing the estimator and show how the method can be combined with the EM algorithm to fit finite mixtures of log-concave densities. Applications to classification, clustering and regression problems will be discussed, as well as theoretical results on the performance of the estimator.  The talk will be illustrated with pictures from the R package LogConcDEAD."






Le point de vue de Richard NICKL (Cambridge)

LUNDI 23 Mai à 16 HEURES, Chevaleret, salle 0C02


New Results and Problems in Nonparametric Testing, with Applications to Adaptive Confidence Sets and Bayesian Nonparametrics






Le 'Point de vue' de
Peter Buhlmann "Sparse graphs and high-dimensional causal inference"

LUNDI 21 Mars à 16 HEURES, Chevaleret, salle 0C02


 Summary



 Les slides !


Jean Pierre Florens "Estimation par variables instrumentales et autres problèmes inverses en économétrie"

LUNDI 28 FEVRIER à 16 HEURES 30, Chevaleret, salle 0C02





 Les slides !



Jean Michel Morel "Les seuils de perception ", 

LUNDI 7 FEVRIER à 16 HEURES, Chevaleret, salle 0C02



Oleg Lepski "Autour de l'estimation adaptative " 31 janvier 2011




Point de vue de Jean Philippe Vert, le 17 Janvier 2011 à 16h
Sur la sélection de variables et de patterns en grande dimension
 




 Les slides !


 Point de vue d'Ismael Castillo,
Bayésien non-paramétrique : quelques propriétés fréquentistes

 Les slides !





Point de vue de Pascal Massart :


"La selection de modèle de la théorie à la pratique". Les slides !