Question pour les bons en proba/stats - Sciences - Discussions
Marsh Posté le 28-07-2008 à 11:10:47
Il manque une ENORME quantité d'informations pour que l'on puisse seulement commencer à t'aiguiller.
Ton test est paramétrique? Non paramétrique? Ta variable est dicrete? Continue? Qualitative?.... Tes séries sont appariées? Ou pas?
En gros, selon ce que tu décides de faire, le plus simple, c'est quand même de réaliser plus de 30 répétitions par condition. Ensuite, de vérifier la distribution normale (test de shapiro) ou non de tes échantillons. Ensuite, de vérifier ou non l'homoscédaticité (orth? j'ai vraiment du mal avec ce mot...)(test de barlett)... Puis de faire des tests de comparaison de moyenne adaptés aux séries étudiées.... Fisher, TukeyHSD, ANOVA, Mann-Withney....
C'est clair que l'idéal, c'est de préparer en amont ton protocol de façon à avoir la puissance optimale. Dans les faits, soit tu vas chialer de temps en temps à l'unité Stats de ton univ/entreprise, soit tu fais un max de répétitions, et ensuite, tu adaptes tes tests stats à ce que tu observes...
Le nombre de sujet à tester depend de l'effet à mettre en évidence. Si la différence entre deux conditions est énorme, un faible nombre de sujet suffit. Si la différence existe, mais qu'elle est minime, il faut un très grand nombre de sujet pour pouvoir confirmer que la différence ne résulte pas de la variabilité naturelle des observations. Or tu fais le test pour chercher s'il existe une différence à la base... Ca se mord la queue.
Voilà ce que je retrouve dans mon cours de biostats:
-Calcul a priori du nombre de sujets nécessaires pour garantir une puissance élevée (80-95%).
-Le calcul dépend:
¤de alpha (5%)
¤de la puissance recherchée (90%)
¤de la différence à mettre en évidence (vrai effet)
¤de la fréquence de l'évennement p0 (dans le groupe placébo)
-Il est nécessaire de faire des hypoth-ses sur p0 et le vrai effet, car inconnu avant de recueillir les observations.
Bref, désolé, mais je crois que tu as BEAUCOUP de travail devant toi.
Marsh Posté le 28-07-2008 à 15:11:06
Lien trouvé cet aprem:
http://www.buce.ucl.ac.be/public/q [...] te/q4.html
J'espère que ça te conviendra.
Ca me parait bizare qu'on balance une formule comme ça de façon aussi brute. Surtout que d'autre part, y'a des papiers entiers sur "comment déterminer le nb de sujet nécessaire"... Et vu les chiffres obtenus et le nombre de sujets nécessaires... j'ai bien peur qu'il faille en revenir à ce que je disais précédemment
Marsh Posté le 31-07-2008 à 17:03:04
C'est juste une formule généraliste pour les sondages.
Ça donne la taille d'échantillon nécessaire pour décrire la population mère. (ex proportion d'homme/femme)
Après pour une expérience bien précise (ex est-ce que les femmes à barbes sont plus allergique aux tomates que les homme à barbe), le protocole est différent et ça devient vite la prise de tête.
sinon je vois pas trop ce qui te dérange dans les chiffres
Marsh Posté le 04-08-2008 à 20:05:30
Bah, déjà, le 1.96 par défaut. On veut pas forcemment accepter un risque alpha.
Ensuite, comme tu dis, c'est bien pour du sondage, mais pour de l'expérimentation scientifique, c'est souvent pas jouable. Que ça soit par manque de ressources, ou par application pratique d'un protocole un peu long.
J'ai aucun problème avec les chiffres, je disais juste qu'ils étaient trop importants donc pas réalisables dans la pratique. (du moins dans la mienne au quotidien)
Après, pour Corsica50, on a jamais eu de nouvelles, donc on sait pas ce qu'il/elle voulait en faire.
Marsh Posté le 04-08-2008 à 20:35:57
Bonjour
Cas particulier qui me parait simple: sondage d'opinion.
Etes-vous satisfait de tel responsable politique ?
Echantillon interrogé: 1000 personnes.(sur une population de 50 millions) Quelle est la fourchette d'incertitude ?
Combien de personnes faudrait-il interroger pour réduire cette incertitude de moitié ?
Il serait bon que le grand public, qui est en général très sceptique sur l'intérêt des sondages par rapport à une consultation électorale "grandeur nature", soit un peu au courant de ces chiffres !
Merci
Marsh Posté le 05-08-2008 à 02:26:03
...
Bon, alors déjà, hélas, on va dire que les stats à la base sont pas objectives... Tu soumets les chiffres à l'analyse que tu souhaites, avec des tests plus ou moins puissants, qui auront parfois des résultats contradictoires entre eux, avec des sensibilité et des spécificité très différentes. Donc de toute façon, on fera dire aux chiffres ce qu'on veut si on en a envie.
Dans le domaine des sciences, on va dire que c'est plus pour s'aiguiller, pour voir des vrais effets, au milieu d'une variabilité naturelle aléatoire qui est là pour nous pourrir la vie rendre le boulot un peu plus fun.
Pour ta question exemple, et pour le domaine, c'est encore très différent. Déjà, ta question exemple est en elle même nulle. Je m'explique: la question est beaucoup trop vague. Si on se place dans la peau d'un honnete sondeur d'opinion, on veut une information fiable, précise, interprétable... bla bla bla. Donc il faut des questions précises, qui laissent le moins possible place à l'interprétation. Genre là la question est trop vaste, trop vague. Même si c'est la façon dont c'est publié: "oui", "non", "ne se prononce pas", l'enqueteur ne décroche pas son téléphone: "pensez vous que untel est bon à son poste, merci au revoir". En plus, il y a tout un coté psychologique à compter dans l'interview: mettre en place des regles de notation (de 1 à 10, ou bien tres, un peu, moyen, peu, pas du tout...) qui permettent de nuancer les réponses, des questions screening pour selectionner le type de public à interroger, le facteur lassitude sur une enquete trop longue...
Et j'en revient à cette histoire de screening: c'est une constante dans toutes les études, on interroge tant de médecins de plus de 40ans, tant de "techniciennes de surface", tant de cadre sup.... L'échantillonage là aussi nécessite un énorme travail en amont pour réaliser les quotas, et essayer de refletter une vérité.
Ensuite, pour rester dans ton sujet, et là encore, c'est plus de la psycho: les gens réagissent aux sondages parus. Donc pour une consultation electorale comparée aux résultats publiés avant... En plus, sur les enquetes de ce genre, les gens ne sont pas forcemment honêtes dans leurs réponses. J'entendais que les instituts majoraient à chaque fois les promesses de vote pour le FN car de nombreux votants ne sont pas partisants déclarés et ont un peu honte de leur vote...
Et pour en revenir à ta question sur les effectifs et le pourcentage de certitude, ben là encore, ça dépend de la question, de comment elle est formulée...
Pour conclure mon pavé, je pense que ce n'était pas du tout le type d'application qu'avait Corsica, et qu'il est très différent de vouloir faire des sondages où au final il s'agit surtout d'un décompte de voix parmis tant d'options qualitatives ou de données discretes proposées (combien de fois dans un test tu ne te retrouves pas dans la moindre des réponses proposées? ), ou de vouloir traiter des données recueillies qui fluctuent autour de certaines moyennes, qui restent ensuite à déterminer comme égales ou différentes des unes les autres.
Marsh Posté le 05-08-2008 à 20:19:34
Yamazaki, tu vas chercher des complications là où il n'y en a pas !
Mon propos laisse de côté l'aspect psychologique des sondages.
J'imagine que 1000 électeurs convoqués au hasard en mairie sont invités à élire un président de la république.
Ma question est: Quelle est la probabilité pour que le résultat ne s"écarte pas de plus de 5% par exemple de ce que serait le résultat si TOUS les 50 millions d'électeurs participaient au vote ?
Ou encore: Combien d'électeurs devraient-on convoquer pour que le résultat ne s'écarte pas de plus de 1% par rapport à une participation de tous les électeurs ?
Autrement dit: Comment varie la fiabilité du résultat d'un sondage (simple) en fonction de la taille de l'échantillon ? (sans s'occuper de quotas)
Marsh Posté le 05-08-2008 à 22:42:56
Mais tu peux PAS simplifier. Ne serait-ce que parce que si on suit ton exemple, il faut savoir le vrai résultat, que ce vrai résultat n'est pas une vérité absolue. Fais voter tout le monde en début mai, ou mi mai, et tu auras des résultats différents à plusieurs centaines de milliers de voix près. Cette centaine de millier de voix peut ou peut ne pas faire changer le résultat qui est binaire (dans le cas d'un second tour): le petit excité ou la grande cruche. Le fait que le nain soit élu peut résulter d'une victoire 91 - 9 % ou de 51,1 - 48,9 %. Et on est bien d'accord que ça exprime quand même une différence. Donc si ta question est par rapport au résultat final: le gnôme ou la néologiste, ben, lance une pièce à pile ou face, et t'as une proba 50-50 de trouver juste. Si tu veux approcher le résultat chiffré, là, il te faut des données complémentaires sur le vrai résultat, à savoir quelle partie de la population a voté quoi, pour en déduire les quotas à appliquer derrière pour avoir un échantillon représentatif. Si le vrai résultat, c'est 91 - 9 , tu peux prendre une population sans problème, le résultat est tellement tranché que tu as très peu de chances de te tromper. Si ça tourne plus au 51,1 - 48,9 , le résultat est beaucoup plus difficile à observer sur une population, et tu pourras pas te prononcer.
C'est pas que je veux absolument pas répondre à ta question, mais c'est qu'elle veut faire abstraction de trop de faits. C'est comme parler de la puissance des ordinateurs en occultant la barrière de la température du processeur. On élimine le gros machin qui est le problème principal, et on fantasme ensuite.
Sinon, je t'invite à lire "Le Votant" de Asimov, dans le recueil "Le robot qui révait" (Franchise en VO). Un ordinateur surpuissant amasse les données, et un seul homme, à chaque élection, est convoqué pour répondre à quelques questions, et est l'unique électeur. Assez intéressant, assez amusant... Ironiquement (je viens de la relire du coup), ça se passe en novembre 2008
Marsh Posté le 23-07-2008 à 11:31:48
Bonjour,
j cherche a determiner un nombre n de tests (parmi une population totale fixee a N) a faire pour etre sur a X% que le resultat du test reflete la verite (a savoir, le test des N elements de la population totale).
comment dois-je choisir n par rapport a N?