Dominique Picard: Point de vue

Le séminaire POINT DE VUE

est sur un format un peu special. Il n'a lieu qu'une ou deux fois par mois, mais dure (environ) deux heures. Le principe c'est qu'un orateur vient donner son point de vue sur un sujet de son choix.La première partie de l'intervention est volontairement introductive et aisément accessible. Elle se conclut par des questions autour d'un thé -café et petits gateaux-.La seconde partie est plus technique et aborde des questions ouvertes dans le domaine.

Prochains Exposés

Subhashis Ghoshal

North Carolina State University

Bayesian methods for boundary detection in images

Mercredi 13 Mai, 16h15, Batiment Sophie Germain,

salle 1016

(voir plan si nécessaire, bus 62, 89, Tram, Metro ligne 14, RER C...)

Summary :

Detecting the boundary of an object present in an image is a fundamental problem

of image processing and segmentation. Bayesian methods are very commonly

used in image analysis because of their natural ability to incorporate structural

information in images through suitable prior distributions. For a ddimensional

image, d=2,3,..., the boundary of an object may often be viewed as a closed d1

dimensional smooth manifold. Thus the boundary detection problem in images

may be thought of as higher dimensional generalization of changepoint problems.

In the first part of the talk, we describe the boundary detection problem in a very

general setting of stochastic modeling and discuss a method of constructing

convenient prior distributions through Gaussian processes indexed by the unit

sphere in the ddimensional Euclidean space or through suitable finite random

series spanned by the Fourier basis or spherical harmonics. For the particular case

of a Gaussian process prior with the squared exponential periodic covariance

kernel, we discuss an efficient computing strategy using its explicit eigen function

decomposition. By an extensive study, we demonstrate that the proposed

Bayesian procedure is robust for the choice of prior parameters and outperforms

alternative nonBayesian methods such as those based on jump regression, In

addition the Bayesian method is able to produce credible regions which can have

significant use in surgical applications.

In the second part of the talk, we study the large sample properties of the

proposed Bayesian procedure. Using the general theory of posterior contraction

rates and some interesting connections with the Hellinger distances on distribution

of pixelwise random observations, we show that the posterior rate of contraction

of the boundary in terms of a metric described by the Lebesgue measure of the

region enclosed between the true and the modeled boundary attains the minimax

rate of convergence for the problem and automatically adapts to the smoothness

of the boundary.

The talk is based on joint work with Meng Li, a doctoral student at North Carolina

State University and Aad van der Vaart.

Précédents Orateurs

ERIC Cator

Radboud University Nijmegen

The Least Squares Estimator of monotone regression functions is Locally Asymptotic Minimax

Pierre Pinson

Technical University of Denmark, department of Electrical Engineering

Modelling of high-dimensional space-time dynamics of renewables"

Alexandre Tsybakov

Agrégation et statistique en grande dimension

Lucien Birgé

Un estimateur robuste et adaptatif pour la régression.

Résumé - Introduction

Article sur arXiv

Alain Trouvé

Analyses de données géométriques et espaces de formes

Etienne Roquain

False Discorery rates : introduction, enjeux et perspectives

Slides part 1

Résumé.

1ère partie : nous commencerons par introduire le concept de False Discovery Rate (FDR) à l'aide de plusieurs exemples pratiques dans lesquels de nombreux tests statistiques doivent être effectués simultanément. Après avoir formalisé le problème, nous établirons ensuite précisément le résultat du contrôle du FDR de Benjamini et Hochberg (1995). Par la suite, nous tisserons certains liens entre le contrôle du FDR et d'autres problématiques de la statistique en grande dimension sous parcimonie, comme la détection, classification et l'estimation. Cette première partie se voudra essentiellement introductive et non technique.

2ème partie : cette partie présentera un problème épineux dans le domaine du test multiple : la prise en compte de la dépendance. Quelques résultats seront énoncés et nous aborderons également certaines preuves. Pour finir, quelques questions ouvertes seront évoquées.

Stéphane Jaffard

Analyse multifractale, ondelettes et statistique,
quelques interactions

LES SLIDES

Résumé: L'analyse multifractale a été introduite par des physiciens afin d'utiliser des indices de régularité dans des classes d'espaces fonctionnels comme outil de classification, et de sélection de modèles.

Une motivation plus tardive a été d'interpréter ces indices en fonction de la distribution des singularités hölderiennes de différentes intensités présentes dans les données étudiées. Les arguments heuristiques liant ces deux points de vue (le ``formalisme multifractal'') se sont montrés extrêmement fructueux, fournissant un cadre commun permettant de revisiter de nombreux modèles issus de l'analyse harmonique et également des probabilités (processus de Lévy, cascades multiplicatives, ...)

Nous explorerons tout d'abord les outils d'analyse harmonique et d'analyse fonctionnelle qui ont permis de donner à cette théorie sa forme actuelle; ensuite, nous présenterons quelques applications où l'analyse multifractale s'est avérée particulièrement pertinente. Enfin, nous mentionnerons les problèmes que ces questions posent en statistique (et quelques réponses qui y ont été apportées).

Yann Ollivier (LRI-Orsay)

Apprentissage statistique, théorie de l'information et expressivité algorithmique des modèles

À partir de l'exemple de la prédiction de données séquentielles discrètes (texte, musique...), j'essaierai de montrer en quoi les problèmes "inductifs" comme deviner la suite d'une séquence ou deviner une correspondance entre variables dans des données, sont en fait des problèmes mathématiquement bien définis, et que la construction d'un modèle statistique ne doit pas être considérée comme un problème extra-mathématique. En étant guidé par la théorie de la calculabilité algorithmique, on peut développer des modèles capturant des structures riches dans les données. L'estimation des paramètres de ces modèles est plus difficile, mais la théorie de l'information conduit à des méthodes d'apprentissage efficaces, en particulier pour réduire le nombre d'exemples nécessaires. Grâce à ces méthodes, on peut par exemple apprendre des structures très non-markoviennes dans des données séquentielles.

Un peu de biblio :

Peter Grünwald, The minimum description length principle (fait bien le
rapport entre compression et stats, parle moins d'intelligence
artificielle)

Marcus Hutter, On universal prediction and Bayesian confirmation
(article qui défend le prior bayésien universel pour l'IA et la
prédiction)

Li et Vitanyi, Kolmogorov complexity and its applications
(toutes les bases sur la complexité de Kolmogorov et le prior de
Solomonoff, mais parle peu d'IA ou de stats)

The Elements of statistical learning, Trevor Hastie, Robert Tibshirani and
Jerome Friedman, Springer-Verlag 2009. Livre très classique sur
l'apprentissage statistique, ne parle pas de compression/complexité de
Kolmogorov mais donne une revue de plein de méthodes utilisées en
pratique).

Les travaux de Vovk et Gammerman. (http://www.vovk.net/cp/index.html et http://alrw.net/articles/02.pdf)

Pour les aspects « pré-câblage », les travaux de Pascal Boyer
(http://artsci.wustl.edu/~pboyer/PBoyerHomeSite/index.html).

PETER HALL (MELBOURNE UNIVERSITY)

DISTRIBUTION APPROXIMATION, ROTH'S THEOREM, AND LOOKING FOR INSECTS IN SHIPPING CONTAINERS

Methods for distribution approximation, including the bootstrap, do not perform well when applied to lattice-valued data. For example, the inherent discreteness of lattice distributions confounds both the conventional normal approximation and the standard bootstrap when used to construct confidence intervals. However, in certain problems involving lattice-valued random variables, where more than one sample is involved, this difficulty can be overcome by ensuring that the ratios of sample sizes are quite irregular. For example, at least one of the ratios of sample sizes could be a reasonably good rational approximation to an irrational number. Results from number theory, in particular Roth's theorem (which applies to irrational numbers that are the roots of polynomials with rational coefficients), can be used to demonstrate theoretically the advantages of this approach. This project was motivated by a problem in risk analysis involving quarantine searches of shipping containers for insects and other environmental hazards, where confidence intervals for the sum of two binomial proportions are required.

Guillaume Obozinski (Ecole des Ponts-Paris Tech)

Approches convexes de la parcimonie à la parcimonie structurée

LES SLIDES

Résumé:

Ces dernières années ont vu l'émergence de la parcimonie structurée, dont le but est d'identifier

des modèles non seulement parcimonieux mais dont le support doit également satisfaire des contraintes de structure. Deux exemples important sont celui de la parcimonie par groupe où un des ensembles de variables doivent être sélectionnés simultanément, et la parcimonie hiérarchique, correspondant au cas où la sélection des variables doit respecter une contrainte d'ordre partiel sur un arbre ou un graphe orienté acyclique.

Je commencerai mon exposé par un tour d'horizon des problèmes considérés par la parcimonie simple et la parcimonie structurée, du point de vue des méthodes convexes.

Dans un deuxième temps, je présenterai une approche de la parcimonie structurée pour les vecteurs basée sur des pénalités combinatoires,

pour laquelle une construction d'une relaxation convexe générique peut-être proposée.

Cette relaxation convexe ne retient que certaines des caractéristiques de la fonction combinatoire initiale, mais celles-ci peuvent

être caractérisées par le concept d'enveloppe combinatoire inférieure.

L'approche proposée permet de considérer dans une formulation unifiée des approches a priori disparates comme les pénalités définies par le codage par blocs, les fonctions

sous-modulaires et les formes de group Lasso structurés.

Dans certains cas, entre autres lorsque la fonction combinatoire est sous-modulaire, on pourra construire des algorithmes efficaces et montrer des résultats généraux de consistance et d'identification du support.

UN DUO : Marc Hallin (*) et Davy Paindaveine

ECARES Université Libre Bruxelles et (*) ORFE Princeton

Quantiles multivariés et profondeur conditionnelle

LES SLIDES-Episode I

LES SLIDES-Episode II

Peter Orbanz

Columbia University

Mercredi 16 JANVIER 16 HEURES, Chevaleret, salle 1D06

Nonparametric priors for exchangeable graphs and arrays

LES SLIDES

Michael I. Jordan

University of California, Berkekey

10 Decembre, Chevaleret Salle 1D6

Inference statistique pour "Big Data"

Les slides

Gerard BIAU (UPMC)

19 Novembre, Chevaleret Salle 1D6

Forets aleatoires et Arbres Greedy

Les slides 1
les slides 2

PRECEDENT ORATEURS

Richard Nickl (Cambridge)

29 OCTOBRE
16 h30 Chevaleret, salle 1D06

ET

5 Novembre
16h30, Chevaleret, salle 1D06

Adaptive Inference II-III

Christophe Giraud

11 Juin 16 HEURES 30 , Chevaleret, salle 1D06

"Quelques enjeux statistiques en sciences du vivant"

Arnaud Glotter 19 Mars.

Estimation de la volatilité d'une diffusion

Albert Cohen 13 Fevrier.

Approximation tensorisées parcimonieuses

et regression en grande dimension.

Jon Wellner 23 Janvier,

Part 1: Log-concave distributions: definitions, properties, and consequences.

Part 2: Chernoff's distribution is log-concave (and more).

Les slides
Les slides (saison II)

FRANCIS BACH

16 Janvier

Apprentissage statistique et optimisation.

Les slides

Le point de vue de GILLES STOLTZ

LUNDI 14 Novembre à 16 HEURES 30 , Chevaleret, salle 1D06

Agrégation séquentielle robuste de prédicteurs avec application à la prévision séquentielle de la qualité de l'air et de la consommation électrique
(premier exposé)
- quelques résultats récents en lien avec la théorie des jeux : l'approchabilité dans les jeux avec signaux
(second exposé)

Saison I
Saison II

Le point de vue de YURI GOLUBEV :

LUNDI 7 Novembre à 16 HEURES 30 , Chevaleret, salle 1D06

Sur les inégalités oracles exactes

Le papier

Le Point de vue de SANDRINE PECHE

LUNDI 10 octobre à 16 HEURES, Chevaleret, salle 1D06

Les slides

Le point de vue de Richard SAMWORTH (Cambridge)

Log-concave density estimation with applications"

LUNDI 6 Juin à 16 HEURES, Chevaleret, salle 0C02

Abstract: If $X_1,...,X_n$ are a random sample from a density $f$ in $\\mathbb{R}^d$, then with probability one there exists a unique log-concave maximum likelihood estimator $\\hat{f}_n$ of $f$. The use of this estimator is attractive because, unlike kernel density estimation, the estimator is fully automatic, with no smoothing parameters to choose. We exhibit an iterative algorithm for computing the estimator and show how the method can be combined with the EM algorithm to fit finite mixtures of log-concave densities. Applications to classification, clustering and regression problems will be discussed, as well as theoretical results on the performance of the estimator. The talk will be illustrated with pictures from the R package LogConcDEAD."

Le point de vue de Richard NICKL (Cambridge)

LUNDI 23 Mai à 16 HEURES, Chevaleret, salle 0C02

New Results and Problems in Nonparametric Testing, with Applications to Adaptive Confidence Sets and Bayesian Nonparametrics

Le 'Point de vue' de
Peter Buhlmann "Sparse graphs and high-dimensional causal inference"

LUNDI 21 Mars à 16 HEURES, Chevaleret, salle 0C02

Summary

Les slides !

Jean Pierre Florens "Estimation par variables instrumentales et autres problèmes inverses en économétrie"

LUNDI 28 FEVRIER à 16 HEURES 30, Chevaleret, salle 0C02

Les slides !

Jean Michel Morel "Les seuils de perception ",

LUNDI 7 FEVRIER à 16 HEURES, Chevaleret, salle 0C02

Oleg Lepski "Autour de l'estimation adaptative " 31 janvier 2011

Point de vue de Jean Philippe Vert, le 17 Janvier 2011 à 16h
Sur la sélection de variables et de patterns en grande dimension

Les slides !

Point de vue d'Ismael Castillo,
Bayésien non-paramétrique : quelques propriétés fréquentistes

Les slides !

Point de vue de Pascal Massart :

"La selection de modèle de la théorie à la pratique". Les slides !

Pages

Point de vue

Le séminaire POINT DE VUE

Prochains Exposés

Subhashis Ghoshal

North Carolina State University

(voir plan si nécessaire, bus 62, 89, Tram, Metro ligne 14, RER C...)

Summary :

Précédents Orateurs

Un estimateur robuste et adaptatif pour la régression.

Approches convexes de la parcimonie à la parcimonie structurée

Quantiles multivariés et profondeur conditionnelle

Peter Orbanz

Columbia University

Mercredi 16 JANVIER 16 HEURES, Chevaleret, salle 1D06

Nonparametric priors for exchangeable graphs and arrays

Michael I. Jordan

Inference statistique pour "Big Data"

Les slides

Forets aleatoires et Arbres Greedy

Adaptive Inference II-III