Disegno sperimentale PDF

Title Disegno sperimentale
Author eleonora olivi
Course Chemiometria per il controllo degli alimenti
Institution Università degli Studi di Modena e Reggio Emilia
Pages 36
File Size 2.1 MB
File Type PDF
Total Downloads 92
Total Views 144

Summary

appunti tutte le lezioni...


Description

CAPITOLO 2: DISEGNO SPERIMENTALE (DOE) In questo capitolo parliamo di PIANIFICAZIONE DEGLI ESPERIMENTI, cioè ottenere più informazioni possibili con il minimo degli esperimenti (massimo risultato con il minimo sforzo). Infatti prima di effettuare gli esperimenti dobbiamo porci alcune domande come, ad esempio, quali variabili dobbiamo tenere in considerazione per ottenere il maggior numero di informazioni dagli esperimenti che faremo, e ancora quanta informazione possiamo ottenere eseguendo il minor numero di esperimenti possibili e via dicendo. Dobbiamo quindi tenere in considerazione dei parametri per ottenere il maggior numero di informazioni, ad esempio: colore di un panino → tempo e temperatura di cottura sono le variabili da considerare per studiare il colore del panino. Le variabili sono quindi i FATTORI SPERIMENTALI: • Quali valori devo assegnare alle variabili? • Quali esperimenti devo fare? Le risposte a queste domande sono gli obiettivi del disegno sperimentale e quindi limitare il numero di esperimenti ottenendo la migliore informazione possibile. Pianificare gli esperimenti con il metodo del disegno sperimentale ci aiuta ad ottenere il maggior numero di informazioni compatibili con il numero di esperimenti che abbiamo fatto e con il numero di esperimenti che è possibile effettuare. METODI BASATI SU SUPERFICIE DI RISPOSTA (RESPONSE SURFACE): Rappresentazione di una figura tridimensionale con una superficie di risposta. La superficie di risposta è la rappresentazione della risposta del sistema in studio, cioè delle proprietà che stiamo misurando per studiarne il comportamento e / o per ottimizzarlo, considerato come una funzione dei parametri sperimentali (fattori).

Esempio: Y: colore del panino; X1: tempo di cottura e X2: temperatura di cottura se ho n fattori, la superficie di risposta è a n+1 dimensioni, mentre se ho un fattore avrò una risposta a 2 dimensioni (colore e tempo).

Lo scopo del DOE è quello di studiare come cambia la superficie di risposta quando si variano i valori dei parametri sperimentali e di trovare le condizioni che portano a valori ottimali della risposta. Quindi l’obiettivo del DOE è decidere quali esperimenti fare per ottenere una superficie di risposta. La superficie di risposta è definita entro il DOMINIO DI RISPOSTA, ossia entro tutte le possibili combinazioni dei valori. La risposta da ottenere è la mia Y (colore del panino) ed è funzione di un certo numero di parametri sperimentali indipendenti detti FATTORI SPERIMENTALI, quindi Y= f (X1, X2) Esprimo Y (colore panino) in funzione delle 2 variabili, cioè tempo e temperatura.

I fattori essere divisi in 1. FATTORI

possono 2 gruppi:

CONTROLLABILI: sono variabili i cui valori possono essere fissati, in un determinato intervallo, dall’operatore. Possono essere: • qualitativi: non ho valori numerici (es. tipo di farina, cultivar) • quantitativi: i valori (LIVELLI) sono definiti da numeri (es. tempo e temperatura di cottura) 2. FATTORI INCONTROLLABILI: sono parametri che non possono essere controllati direttamente e che non possono essere fissati dall’operatore (es. condizioni ambientali, variabilità biologica; in generale sono riassunti con la parola TEMPO, devo agire per minimizzare gli effetti di questi fattori incontrollabili. Gli effetti dei fattori incontrollabili possono essere minimizzati con: • randomizzazione dell’esperimento • blocchi dell’esperimento Esempio: acido salicilico nel vino 3 livelli di concentrazione: 0 g/L, 3g/L e 5g/L. Vado a misurare l’adsorbanza (misure spettrofotometriche) per vedere la crescita cellulare quindi ho un disegno sperimentale a 1 fattore con 3 livelli.

Condizioni di misura: faccio 4 misure replicate per ciascun livello,3 misure ogni settimana. → evitare esperimenti in serie con tutte le concentrazioni uguali (cioè 4 ripetizioni a 0g/L, 4 ripetizioni a 3 e 4 ripetizioni a 5g/L) perché facendo ciò nel caso in cui si verificasse una variazione significativa dei risultati non sarebbe possibile attribuirla al fattore controllato o a qualche fattore incontrollato connesso al tempo di analisi, perciò dispongo esperimenti in modo casuale RANDOMIZZAZIONE: • elencare gli esperimenti calcolati seguendo il fattore controllato e assegnando ad ogni esperimento un numero casuale • fare gli esperimenti seguendo i numeri casuali Per fare questo posso utilizzare Excell → funzione=casuale () Tuttavia la randomizzazione non garantisce che tutti i livelli siano distribuiti omogeneamente nelle 4 settimane;

Risultati diversi ottenuti in assenza di acido succinico potrebbero anche essere attribuiti ad alcuni fattori incontrollabili (ad es., Variazione della temperatura ambiente tra le settimane 1-2 e le settimane 3-4) Altro metodo di randomizzazione è il BLOCKING, cioè suddivisione temporale in blocchi e randomizzazione dei blocchi: • ogni settimana è un blocco, contenente tutti i livelli • all’interno di ciascun blocco, l’ordine dei livelli è casuale utilizzo il metodo dei QUADRATI LATINI

Con più di un fattore la randomizzazione non è sufficiente per minimizzare gli effetti e in questi casi posso utilizzare il metodo OVAT, dove in sostanza tengo un fattore fisso e vario solo l’altro, in questo modo cambio un fattore alla volta. Esempio: massimizzazione della qualità sensoriale del vino (risposta Y) in funzione del tempo (fattore x1) e della temperatura (fattore x2) della fermentazione. Nel caso del vino fermentato a diverse Temperature, un punto sul grafico è una condizione sperimentale. Fisso un tempo di Fermentazione che sarà la mia X1 faccio variare solo la Temperatura di fermentazione, cioè X2 trovo il punto C, cioè il punto che rappresenta il risultato migliore fisso X2 nel punto C (lo tengo fisso), quindi da g a k.

• • • •

Con questo approccio non considero interazioni tra i 2 !!! Cosa succede se la superficie di risposta (ad es., Y nel dominio x1-x2) varia a seguito di questo comportamento? Immagino di avere la superficie di risposta rappresentata con curve di isolivello su una mappa

L'approccio univariato (OVAT:One Variable At a Time) non è riuscito, non è corretto considerare una variabile per volta: infatti abbiamo trovato un massimo apparente (+) che non corrisponde al massimo reale. Cosa succede se la superficie di risposta (ad es., Y nel dominio x1-x2) varia a seguito di questo comportamento? Motivo del fallimento: abbiamo applicato un approccio univariato, cioè non abbiamo considerato come Y possa dipendere anche dall'interazione tra x1 e x2. Per

considerare

anche

l'interazione

è

necessario

variare

i

fattori

contemporaneamente: questo può essere fatto per mezzo di un DISEGNO FATTORIALE (considero i due fattori contemporaneamente). → per ogni fattore scelgo un livello superiore e uno inferiore (ossia un valore massimo e

uno

minimo).

Quindi faccio esperimenti in corrispondenza di questi livelli e ottengo 4 combinazioni (cioè 4 esperimenti) se ho 2 fattori. Esempio: Adsorbanza in funzione di pH (X1) e T(X2)

combinazioni: • pH: 6 e T:25 • pH: 6 e T:10 • pH: 2 e T: 25 • pH: 2 e T:10 Vado a indentificare 4 punti in cui identifico, approssimo un piano di risposta; faccio quindi una stima di come varia l’Assorbanza (la mia risposta) in funzione dei valori. Le condizioni sperimentali sono la tabella e il grafico.

Con 4 esperimenti minimi ottengo informazioni non solo sul ph indipendentemente dalla T e viceversa ma posso anche vedere l’interazione tra i due. Il quadrato che ne risulta è il DISEGNO SPERIMENTALE. Quindi, sia L=livelli, F=fattori ed N=numero di condizioni sperimentali, avrò che N= L^F

Cioè 2 livelli e 2 fattori quindi 4 condizioni sperimentali. Quando ho 3 fattori, quindi x1,x2,x3 invece di avere un quadrato avrò un cubo come disegno sperimentale o DOMINIO SPERIMENTALE. NB: la dimensione di risposta con 3 fattori è nella quarta dimensione, se ne ho 2 è nella terza dimensione e così via. Esempio: voglio capire come il contenuto di furfurali in un vino barricato varia al variare della Temperatura, Durata (quindi tempo) e Tipo di legno (quindi ho 3 fattori sperimentali) 

Faccio una tabella che rappresenta il disegno sperimentale. Scelgo quindi 2 livelli per ogni fattore, quindi 2^3 disegno fattoriale(2^3FD). Mi baso sulla mia esperienza, sulla conoscenza che ho del problema. Scelgo quindi una T compresa tra 160 e 180 perché so che devo porre attenzione a quelle due temperature e so che è in quell’intervallo che posso notare delle differenze, cosa che non si verificherebbe se prendessi in considerazione 160 e 161.

Ovviamente la temperatura e la durata sono fattori di tipo quantitativo mentre il tipo di legno è un fattore qualitativo; per quest’ultimo scelgo il nome A e B per convenzione. 

Faccio una tabella delle condizioni sperimentali. Mi fermo ad 8 perché 2^3 e quindi creo tutte le possibili combinazioni.

Nella seconda tabella, in cui ho solo segni negativi o positivi, seguo questo schema: per x1 procedo alternando +/-, per x2 raddoppio a partire da x1 e stessa cosa faccio per x3 a partire da x2.

Gli esperimenti devono seguire un ordine randomizzato e non cronologico ed eseguo 2 volte tutti gli esperimenti che ho fatto, cioè faccio 2 repliche. Perché non ottengo sempre lo stesso risultato? ERRORE CASUALE Esempio: prendo in considerazione solo la T, cioè 1 solo fattore. A 160 e y1° sarà 70 mentre nella y°2 sarà 73; la media sarà 71,5. Stessa cosa per 180, y1° sarà 74 e y°2 sarà 73 e la media sarà 73,5.  La differenza tra le due medie non è attribuibile veramente al valore vero perché ci potrebbe essere un errore casuale. Ho qualche dubbio che quella differenza sia attribuibile solo alla Temperatura!

Il MODELLO POSTULATO descrive gli effetti dell’interazione tra tutti e 3 i fattori.

Il modello postulato mi permette di studiare l’interazione tra tutti e 3 i fattori. La valutazione dell’effetto di ogni singolo fattore viene descritta dalla seguente equazione:

In cui Y medio + rappresenta la media dei valori di Y (cioè la risposta) che corrisponde al livello più altro. Mentre Y medio – rappresenta la media dei valori di Y che corrispondono al livello più basso. Quindi:

Il valore 23 mi dice quanto è importante il fattore T° e tutta l’equazione mi dice la variazione media dei furfurali in funzione della T°.

Stesso discorso per la durata; il segno negativo indica che con il tempo, cioè il tempo di trattamento, il contenuto di furfurali diminuisce.

Stessa cosa per il tipo di legno.



Utilizzo la stessa formula per studiare le interazioni; in questo caso Y medio + rappresenta la media di tutti i valori di Y (cioè la risposta) in corrispondenza dei valori positivi del prodotto dei segni dei fattori considerati.

NB: nell’ultimo studio, cioè nell’interazione tra la durata e il tipo di legno non ho alcuna interazione.

Posso poi considerare l’interazione tra tutti e 3 i fattori. 

Successivamente posso stimare la SIGNIFICATIVITA degli effetti: PRIMO metodo: stimo la varianza

In cui d sono le differenze tra le due replicazioni che ho misurato e nd è il numero delle condizioni sperimentali.

8 è l’incertezza. 2: stimo l’intervallo di confidenza (P=95%)

3,26 stima l’errore dovuto all’errore casuale 3: vado a comparare il valore degli effetti con l’intervallo di confidenza.

X1 è significativo, cioè all’aumentare della T° avrò un aumento di furfurali. X2 anche, cioè con l’aumentare della durata della tostatura dei blocchetti di legno la concentrazione di furfurali diminuisce. In ultimo è significativa l’interazione tra x1x3. SECONDO metodo: è quello che utilizziamo di più e mi permette di calcolare i coefficienti. (con il primo metodo ottengo gli stessi risultati che con il secondo metodo!!). 1: utilizzo il modello di regressione che è basato sull’equazione del modello postulato: Y = b0 + b1X1 + b2X2 + b3X3 + b12X1X2 + b13X1X3 + b23X2X3 + b123X1X2X3  

Dove: la riposta è data dalla variabile dipendete Y la matrice X, cioè le variabili indipendenti sono la matrice del modello

L’intercetta la calcola automaticamente Excell e sarà uguale a b0 quando x1,x2 e x3 sono i livello intermedio, cioè sono il centro geometrico del quadrato che ottenevo con il grafico. In X metto di valori codificati, cioè Temperatura, Durata e Tipo di legno. In Y ho tutte le risposte; ho subito la prima replica e direttamente sotto la seconda. 2: in b1 avrò i coefficienti ed s(Bi) rappresenta gli errori. La probabilità (O meglio la SIGNIFICATIVITA) deve esser inferiore ad un valore soglia, cioè 0,05 (ovvero il 5%). Se il numero è più piccolo di 0,05 allora vuol dire che ho una bassa probabilità di sbagliare; se è maggiore di 0,05 allora i coefficienti non sono significativi.

Con questo metodo il valore degli effetti sono la metà del primo metodo; l’incertezza dimezza, infatti prima era 3,26 mentre ora è la metà. Per quanto riguarda i termini Lower/Upper confidence limit: prendendo in considerazione l’equazione di una retta, ovvero y= b0*b1x, dove b1 rappresenta la pendenza della mia retta ed è il valore di mezzo, in questo caso rappresentato da 11,50, cioè il valore di mezzo tra 9,87 e 13,13. x3 non è significativo perché Bi attraversa lo 0, ho sia il livello superiore che quello inferiore che presentano sia segno negativo che positivo quindi x3 non è significativo. X1 e x2 invece lo sono!!! NB: il numero di esperimenti da fare dipende dal numero di fattori che ho!

Fino ad ora abbiamo utilizzato una strada in cui non si ottengono abbastanza informazioni; se ho un massimo non riesco a vederlo, per esempio, considerando un disegno semplice ad un fattore in cui la Y rappresenta la mia risposta avrò una semplice curva bidimensionale, se considero invece 2 fattori quindi x1 e x2 avrò una superficie, un piano e ciò non mi permette di trovare un massimo.

 questo implica il dover considerare più livelli, minimo 3 quindi avrò un disegno fattoriale a 3 livelli e dunque 3^n. Questo fa si che si introducano dei termini quadratici e questo mi permette di avere una maggiore flessibilità come parabole, cupole, selle ecc e quindi anche un massimo.

Esempio: 3^n=3^2= 9 condizioni sperimentali Faccio la tabella delle condizioni sperimentali, in questo caso non duplico ma triplico

Osservando il modello postulato, vengono aggiunti i due termini b1/1 X1^2 e b2/2 X2^2 che permettono di rendere il modello postulato più flessibile. PROBLEMA: quando aumenta n, le condizioni sperimentali a loro volta aumentano e diventano troppe, ad esempio 3^3 sono 27 condizioni sperimentali più le repliche che faccio di norme nei punti centrali.

In generale quindi non utilizzo mai un modello fattoriale quando ho così tanti esperimenti da fare ma un DISEGNO CENTRALE COMPOSITO (CCD); questo modello ha come obiettivo quello di fare un numero di esperimenti minori!! È costituito da 3 parti: 1. un disegno fattoriale a 2 livelli quadrato 2. un disegno a stella croce 3. il punto centrale viene anche definito disegno centrale composito CIRCOSCRITTO perché tutti i punti esterni sono posizionati su un cerchio; se appoggio la punta di un compasso sul punto centrale disegnerò un cerchio e questo mi dice che tutti i punti esterni sono equidistanti dal centro.

In questo modo ho solamente 2 fattori, quindi 9 esperimenti e 5 livelli, cioè –α,1,0,+1,+α. Per gli estremi, quindi -/+α ho un determinato valore numerico che però dipende dal numero di fattori e lo calcolo come a = 2^f/4 Nel nostro caso quindi a = 22/4 = 21/2=sqrt(2)=1,4142 questo vale solo per il circoscritto!! Il modello postulato è uguale a quello quadratico semplice.

Questo modello mi permette di migliorare la superficie di risposta!!!!!! COME FACCIO A CODIFICARE I LIVELLI?? Ok prendo in considerazione solo la temperatura quindi avrò: -1= 160°C 0=170°C +1=180°C Se passo al CCD avrò invece: -α= -rad2=160°C -1=163°C 0=170°C +1=177,7°C +α=180°C I range, quindi 160 e 180 vengono stabiliti dalla mia personale esperienza mentre da 160 a 170 e da 170 a 180, che rappresentato -/+1 devo fare un discorso diverso: so che ce una differenza di 10°C ma questa non è perfettamente certa, quindi effettuo una proporzione in cui x rappresenta i gradi che ci sono tra -1 e 0 e tra 0 e +1 10: rad2=x:1 Quindi 10/rad2=x cioè 7,07 Aggiungo quindi a 170 il valore di x trovato che sarà quindi 177,7°c, mentre tolgo da 170 il valore di x trovato per cui sarò 162, 93 arrotondato a 163°C. Proseguendo, se prendo in considerazione un disegno centrale composito a 3 fattori il numero di esperimenti verrà ridotto a 15 più qualche replica, arrivando quindi a 17 esperimenti rispetto ai 27 che avrei dovuto fare se avessi utilizzato un disegno fattoriale.

Esperimento: voglio studiare la resa di reazione in funzione del tempo e della temperatura co n il CCD (Voglio il 100% di resa):

In questo modo riesco a vedere il massimo che corrisponde ad un valore! Non deve per forza essere un valore delle condizioni sperimentali!!! Altro tipo di disegno sperimentale: disegno di tipo quadratico detto DISEGNO DI DOEHLERT:  7 condizioni sperimentali  5 livelli per x1 quindi ho 5 coordinate per x1  3 livelli per x2 quindi ho 3 coordinate per x2 Quello che viene rappresentato è un esagono dato dalle coordinate

Vantaggi:  Adattabilità del numero di livelli: i fattori possono essere studiati con un differente numero di livelli  Compattezza:?  Estendibilità del modello: è possibile riciclare esperimenti già fatti e aggiungibili al dominio



Posso farlo in qualsiasi direzione e aggiungere il numero di fattori, per cui avrò un poliedro in 3 dimensioni!

Il disegno sperimentale migliore dipende dalle condizioni sperimentali e scelgo io quello che si adatta meglio ai miei requisiti!!!!! Considero il caso in cui ho 10 fattori per un disegno fattoriale a 2 livelli risulterebbero 1024 esperimenti da dover fare e sono decisamente troppi!! Per questo

devo fare un PRE-SCREENING, cioè effettuo una prima scrematura, voglio trovare i fattori più importanti e dopo potrò applicare un disegno fattoriale; avrò un’idea limitata ma sufficiente per capire quali fattori tenere perché sono importanti. 1) DISEGNO FATTORIALE FRAZIONATO (FFD): al crescere del numero di interazioni diminuisce la probabilità che queste siano significative; effettuo una sotto serie di esperimenti. Es: 5 fattori  Parto dal disegno fattoriale a 2 livelli  Divido per 2 Quanti esperimenti devo fare?? determino quanti termini voglio studiare; se voglio studiare solo i main effect e ho 5 fattori, il numero di condi. Sperimentali sarà 8, cioè la potenza di 2 maggiore. NB: 2^5= 32 esperimenti; con il FFD posso fare meno esperimenti; la potenza di 2 maggiore di 5 è 8 (perché 2^2=4 e 2^3=8) quindi avrò 16 condizioni sperimentali! CONFUSIONE DEGLI EFFETTI:  Confondo l’interazione a 3 con l’intercetta  Confondo le interazioni a 2 con i main effect quindi x viene confuso con x2x3. [ PARTE INCOMPLETA E NON CHIARA] 2) DISEGNO DI PLACKET BURMAN È un disegno che è stato pubblicato subito dopo la seconda guerra mondiale, nel 1946. Era stato pensato per ….. Anche questo viene usato per scremare tutti i fattori che ho per trovare quelli che sono più importanti. E un metodo di screening Viene preso in considerazione un multiplo di 4 del numero di fattori quindi effettuerò 12 esperimenti e posso studiare fino a 11 fattori: cioè 8 fattori + 3 fattori DUMMY (faccio finta che ci sia ma non ce, sono fattori che non esistono ma che ci sono. Immagino qualcosa che non avrà effetto sull’esperimento e vengono usati come termini di paragone). Lezione di giovedì 18/10 Riprendiamo placket burman A volte esistono dei COSTRAIN, cioè dei vincoli che non ci permettono di valutare tutto il dominio sperimentale Es: ho 2 fattori, tempo e temperatura di fermentazione; inizio con disegno fatt. a 3 livelli tuttavia n...


Similar Free PDFs