domanda1:
Salve
professoressa.
Volevo farle
una domanda sulla seconda esercitazione che abbiamo fatto.
Non mi
chiaro il punto 14:come si effettua la ricerca con l'opzione search history?
La ringrazio in
anticipo.
risposta 1:
nella search
history, sono riportate tutte le ricerche singole che abbiamo fatto negli
ultimi giorni (da uno stesso computer). in particolare ci sono le ricerche
appena fatte.
ogni singola
ricerca puo' quindi essere utilizzata per costruire una ricerca complessa in
cui le ricerche semplici vengono combinate tra loro usando gli operatori
booleani e, eventualmente, anche le parentesi.
per esempio,
se effettuo queste 3 ricerche semplici:
posso poi
combinarle come mi pare
#1 AND (#2 OR
#3) mi dara' l'insieme di tutti i lavori di eisenberg che sia stati pubblicati
su science o su nature (provare per credere)
prova anche
altre possibili combinazioni e cerca di capire cosa succede analizzando il
risultato delle varie ricerche. usa diversi operatori booleani e le parentesi
in vari modi, poi controlla che il risultato sia DAVVERO quello desiderato (non
sempre succede, perche' la cosa e' un po' piu' difficile di quello che sembra!)
ciao
domanda2
Salve professoressa, le volevo chiedere dei
chiarimenti sulla seconda
esercitazione per quanto riguarda l'uso
dell'opzione Limits (il punto 13). La
ringrazio anticipatamente
risposta 2
le ricerche possono essere soggette a
ulteriori filtri, rispetto a quelli definiti nell'advanced search di PubMed. per esempio
sulla data di pubblicazione, oppure sulla lingua del lavoro che si cerca o
altro. anche questo tipo di ricerca resta memorizzato nella search history.
l'opzione puo' essere attivata sulla ricerca da effettuare nell'advanced search
oppure anche in modo indipendente.
domanda3
gentilissima professoressa,sono una
studentessa di scienze biologiche che segue il suo corso di bioinformatica.A
causa di una concomitanza con altri corsi non ho potuto seguire l'esercitazione
2 e 3.Ho trovato difficolt nel punto 17 della seconda esecitazione in cui dopo
ricerca con google scholar dove mi sono fatta elencare tutti i lavori di Gibson
TJ dovrei annotare tutti i lavori con pi di mille citazioni messi in ordine
per numero decrescente.Come devo fare?Essendo circa 100 pagine e notando che il
numero di citazioni diminuisce scorrendo dalla prima all'ultima pagina,come
faccio ad annotarli????Nel ringraziarla le porgo cordiali saluti.
risposta3
purtroppo google scholar non riesce sempre a dare
l'elenco dei lavori ordinati per numero di citazioni decrescente. quindi
bisogna osservare l'elenco della prima (massimo seconda) pagina di output della
ricerca e contare i lavori con piu' di 1000 citazioni (sono 8 e stanno tutti
nella prima pagina). quindi e' facile metterle in ordine di numero di citazioni
decrescente (sulla carta, non va fatto fare a scholar). questo esercizio puo'
servire a calcolare l'h-index secondo google scholar (come spiegato a lezione)
domanda4
Avrei bisogno di un chiarimento alquanto
banale ma che mi aiuterebbe moltissimo nello studio. Non sono riuscita a capire
la differenza tra percentuale di identit e similarit. Sono la stessa cosa o
sono proprio fuori strada?
risposta4
non sono la stessa cosa.
la percentuale di identita' corrisponde alla
percentuale di residui identici nelle stesse posizioni di un allineamento. i
residui diversi contano zero.
quando invece si parla di similarita', si
considerano nel conto non solo i residui identici, ma anche quelli simili.
naturalmente bisogna anche definire cosa si intende per residui simili. due residui sono simili
se nella matrice di sostituzione che si considera hanno un valore superiore a
una data soglia (per esempio se hanno un valore positivo in una delle matrici
che ha sia valori positivi che negativi). nell'allineamento tra proteine
omologhe, la similarita' e' in genere superiore all'identita'.
domanda5 (con risposta5 incorporata)
1- Quando nell'uso della banca dati PDB viene
richiesto il numero di atomi componenti la struttura, guardando il PDB file,
NUMBER OF NON-HYDROGEN ATOMS USED IN
REFINEMENT.
REMARK 3
PROTEIN ATOMS
: 2634
REMARK 3
NUCLEIC ACID ATOMS : 0
REMARK 3
HETEROGEN ATOMS : 110
REMARK 3
SOLVENT ATOMS
: 334
dobbiamo rispondere solo con il numero di
atomi della proteina o anche con atomi del solvente ecc?!?!?
risposta 5.1
a lezione abbiamo visto che gli atomi della
proteina appaiono come ATOM (all'inizio della riga) e gli altri (del solvente,
dei ligandi) appaiono come eteroatomi (HETATM). quindi per avere la risposta
giusta bisogna proprio andare a vedere il numero degli atomi della proteina
(sono numerati, e quindi basta vedere il numero ordinale dell'ultimo)
2- durante la visualizzazione del modello
proposto dal server swiss-model, non trovo accanto alla visualizzazione con
anolea quella con verify3D, possibile?!?!?
risposta 5.2
possibile, e' stata modificata la lista dei
metodi usati per il controllo di qualita' del modello. va bene lo stesso (anzi
probabilmente MEGLIO). le spiegazioni sono linkate all'output del programma
3- quando in ENSEMBL cerco il gene dell'IL2
umano, come faccio a farmi mostrare la traduzione dei 6 reading frame di uno
degli esoni del gene?!?!?!?
risposta 5.3
si puo' fare in due modi: con "export
data", facendosi mostrare le sequenze codificanti, oppure centrando la visualizzazione
del genoma in un esone e "zoomando" fino a riuscire a visualizzare i
codoni
4- sempre in ENSEMBL, quando cerco le cds di
FAT4 umano e di topo le prendo da export data?perch cos facendo con la prima
cds di entrambi in dotplot ho un buon allineamento!
risposta 5.4
non ho capito la domanda. credo che siano
simili perche' le sequenze di uomo e topo sono abbastanza simili in generale.
Le chiedo scusa per il disturbo,
probabilmente le mie richieste saranno scontate, ma a volte mi blocco e anche
cercando di "giocare" con il database non riesco a risalire alla
soluzione.
La ringrazio anticipatamente e le porgo
cordiali saluti.
domanda 6
Gentile Professoressa,
volevo chiederle se gentilmente poteva
spiegarmi brevemente la curva di ROC che non mi molto chiara.
risposta6
nella curva ROC si analizza il risultato di
un output. per esempio un elenco di sequenze associate al punteggio di
similarita', associate alla probabilita' di interazione con un determinato
target, e cosi' via. Si usa per valutare un metodo su un insieme di dati noti e
averne un valore che definisca la validita' del metodo. come valore di solito
si usa l'area sotto la curva (AUC, Area Under the Curve). per una definizione
della curva ROC da aggiungere a quanto detto a lezione:
http://www.medcalc.org/manual/roc-curves.php
domanda 7
Cosa s'intende per rumore di fondo nelle DOT
MATRIX?
risposta 7
immagina di confrontare due sequenze di acidi
nucleici che siano simili: oltre a segmenti di diagonale in cui ci sono
nucleotidi identici uno dopo l'altro nelle due sequenze, ci saranno moltissimi
punti tra nucleotidi identici ma non consecutivi nelle sequenze. ogni A di una
sequenza mettera' un punto in corrispondenza di ogni A dell'altra sequenza. e
questo per tutti i 4 nucleotidi. e' QUESTO che io chiamo "rumore di
fondo": i punti che si mettono per la presenza di nucleotidi uguali in
posizioni casuali. il rumore di fondo e' molto fastidioso perche' impedisce di
vedere i segmenti di diagonale se questi sono corti e non molto evidenti. ma
siccone 1 nucleotide ogni 4 in media e' din un certo tipo in entrambe le
sequenze, il rumore di fondo e' alto per definizione nella dot matrix in cui
metti un punto per ogni corrispondenza.
domanda 8
Quando faccio il conto delle gap penalty, e
delle gap extension penalty, se per esempio do al primo valore -1, al secondo
invece valore -0.5, in un "buco" di 3 gap devo calcolare il primo -1
e poi i seguenti -0.5 o moltiplico 0.5 x 3?
risposta 8
no. se hai 3 gap consecutivi nel tuo esempio devi
calcolare -1-0,5-0,5 (un valore per ogni posizione di gap)
domanda 9
i segni del MSA , vale a dire i : e il . cosa
significano di preciso? Sono maggiormente espressi rispetto a quali i residui
(cos ho capito dalle registrazioni)?
risposta 9
i simboli variano nei vari formati di
allineamento multiplo. vengono decisi sulla base della matrice di sostituzione
che viene usata
domanda 10
Nelle slide della lezione 9 alla pag. 27 (aa
2012-2013) perch nel riquadro bianco ho 4*s(1,11)? non dovrei avere 0*s(1,11)
perch ho solo 4 M e non A?
risposta 10
nella posizione del riquadro bianco dovresti
avere una sommatoria:
a1S(1,1)+
a2S(1,2)+a3S(1,3)+a4S(1,4)++a11S(1,11)++a20S(1,20)
dove a1, a2 e a3 sono le occorrenze dei
residui 1, 2 e 3 nela prima colonna dell'allineamento.
nella prima colonna, non ci sono A, per cui
a1=0, non ci sono C per cui a2=0 e cosi' via. l'unico residuo che ha un numero
di occorrenze diverso da zero e' A11 (metionina), quindi ditutti questi addendi
l'unico che resta diverso da zero e' a11S(1,11), nell'esempio fatto A11 e' 4
(perche' ci sono 4 metionine), come spiegato nella slide precedente.
quindi quello che resta (tolti tutti gli
zeri) e' proprio 4S(1,11)
domanda 11
Per quanto riguarda invece le esercitazioni ho difficolt
nei seguenti punti:
Es. 6:
1.
Come faccio a salvare in formato msf l'allineamento multiplo ottenuto
in CLUSTAW?
risposta 11
il formato dell'allineamento multiplo di
ClustalW si sceglie al momento di lanciare il programma (e' uno dei parametri di
input). per salvarlo devi fare salva con nome dal menu del tuo browser, oppure
selezionare quello che vedi e fare copia e incolla in un file di testo.
domanda 12
non riesco a risolvere il seguente
punto: 39) Identificare l'elm annotato e riportarne gli estremi;
risposta 12
ci sono elm che vengono identificati perche'
hanno il pattern e elm che invece sono stati identificati sperimentalmente e
fanno parte della raccolta di occorrenze di elm stesso. in quel caso, l'elm
viene segnalato come CERTO (e non proposto/inferito per match col pattern di
elm) e mostrato in rosso scuro nell'output grafico.
gli estremi di un elm (occorrenza o inferito)
sono i numero dei residui di inizio e fine sulla sequenza della proteina
domanda 13
Sto facendo l'esercitazione di ripasso n10,
ossia la simulazione dell'esame (aa 2012-2013 - il punto E) Elenca i codici PDB
che potrebbero essere utilizzati come templati per poter generare modelli 3D
della proteina Caspase-14 umana utilizzando tecniche di homology modelling,
per ogni codice PDB esplicita la percentuale di identit con la proteina query (es.:
1KAI 89%; 2BIO 71%...)
Mi potrebbe dire se il seguente procedimento
corretto oppure no? Vado nella banca dati PDB, cerco la seguente proteina e
in teoria per fare il modelling la percentuale deve essere superiore al 30%, ma
dove la leggo questa percentuale, quale altro passo devo fare?
risposta 13
Il modo piu' semplice e veloce per rispondere
alla domanda e' il seguente: utilizzare la sequenza della proteina di cui si
vuole fare il modello in input a blast utilizzando come banca dati per il
confronto le sequenze del PDB. In questo modo si avranno tutte le risposte
richieste.
domanda 14
Come rispondere alla domanda: quali sono i
residui che corrispondono ai numeri dal 39 al 42 nel file PDB selezionato?
risposta 14
Riguarda la lezione con la descrizione dei
files del PDB. Dopo la parte iniziale del file, comunque, c'e' una parte a
formato fisso, in cui ogni riga riporta le coordinate cartesiane degli atomi.
In ogni riga sono riportate le informazioni su: numero dell'atomo, tipo di
residui, tipo di atomo, numero del residuo ecc. In questa parte del file, si
devono identificare i residui associati ai numeri dal 39 al 42
domanda (multipla) 15
Gentile professoressa,
mi scusi per il disturbo ma volevo porle
alcune domande sulla parte teorica che non riesco proprio a capire.
15.1) Il metodo esaustivo
(matrici di punti) pu essere usato solo x il confronto tra 2 seq. sia
proteiche che nucleotidiche, mentre quello esaustivo dinamico solo x confronti
tra 2 seq proteiche e no nucleotidiche perch non presente una matrice
di sost. ??
risposta 15.1
NO, il metodo esaustivo puo' anche essere
usato per confrontare una sequenza a piu' sequenza, una alla volta. il problema
e' che ci vuolo molto tempo, quindi il confronto tra una sequenza e una banca
dati di sequenze col metodo esaustivo non e' al momento affrontabile.
15.2) Gli allineamenti
locali e globali per i nucleotidi possono essere fatti solo con una matrice di
punti mentre quelli tra 2 seq. proteiche possono essere fatti anche con il
metodo dinamico utilizzando nel primo caso matrici di sost. con valori sia
positivi che negativi nel secondo ( all. globale) solo con matrici positive
?
risposta 15.2) in genere non
si usano matrici di sostituzione per i confronti tra nucleotidi, quindi si
lavora solo sull'identita'. in realta' esistono anche matrici di sostituzione
per nucleotidi, ma non ne parliamo in questo corso.
15.3) Metodi euristici
- possono essere usati sia x il confronto di 2 seq (proteiche e
nucleotidiche) sia x il confronto di una seq con una banca dati?
risposta 15.3) si possono
usare SEMPRE, ma sono indispensabili per risparmiare tempo (quindi in generale
nel confronto tra singole sequenze e banche dati con tante entries)
15.4) BLAST
Blast viene utilizzato per lo pi per
Allineamenti Locali. utilizza una matrice di sost. ( e x i
nucleotidi?) dalle prime fasi dell' algoritmo. (3 steps). Si preferisce x le
seq. proteiche ma si utilizza anche x i nucleotidi anche se la lunghezza della
parola non pu essere inferiore a 11.
Allineamento tra 2 seq. (bl2seq) che pu
essere sia x nucleotidi (bl2seqn) sia x prot ( bl2sep)
Allineamento tra 1 seq proteica e una banca
dati di proteine ( blastp. ) Per i nucleotidi possibile?
risposta 15.4) tutto giusto.
blastp
si usa solo per proteine, blastn per nucleotidi, come abbiamo detto a
lezione.
15.5) FASTA
viene utilizzato per Allineamenti globali. Si
preferisce x seq di acidi nuc. si basa su identit ( 4 steps). Pu essere
usato sia x proteine che x acidi nucl. , sia x fare confronti tra 1 seq e una
banca dati sia x fare confronti tra 2 seq.
Nello step. n 2 c' scritto (sotto il
disegno) calcolo dei punteggi con matrice di sost. , selezione dei ecc.... se
stiamo facendo 1 allineamento di nucleotidi cosa utilizza?
risposta 15.5) per i
nucleotidi si usa l'identita'.
15.6) Identit e similarit
possono essere calcolate x 2 seq proteiche, mentre x 2 seq nucleotidiche solo
l' identit, giusto?
risposta 15.6) nei liniti di
questo corso (vedi risposta 15.2) SI!
16) Uso di ELM
Q16.1) Buonasera
professoressa, le scrivo per porle una domanda in merito all'esercitazione di
luned, in particolare in merito ad ELM, nel testo dell'esercitazione infatti
riportato quanto segue:
ELM
35)
Procurarsi la sequenza dell'interattore di Abl1 umano (Abl interactor 1);
36)
cercare di identificare una possibile funzione della proteina scelta
utilizzando ELM.
A16.1) ovvero, prendi la sequenza di abl1_human e
lanciala in ELM
Q16.2) 37) Identificare l'elm annotato e riportarne
gli estremi;
A16.2) nella seq sopraddetta, c'e' un ELM
"annotato", ovvero uno degli ELM che fa parte della banca dati si
trova proprio su quella sequenza. riportarne gli estremi significa specificare
da che residuo a che residuo si trova il motivo sulla sequenza (es: dal 38mo al
45mo residuo, il server lo indica)
Q16.3) 38) riportare il numero totale di elm e di
istanze identificati e di quelli esclusi in base ai filtri.
A 16.3) nella tabella finale, ELM dice quanti ELM
(motivi) e quante occorrenze (ogni motivo puo' essere stato trovato piu' volte)
ha identificato sulla sequenza query. nella tabella dei risultati, c'e' anche
il numero di motivi (e di relative occorrenze) filtrato in base ai filtri di
contesto di cui abbiamo parlato a lezione