domanda1:

Salve professoressa.

Volevo farle una domanda sulla seconda esercitazione che abbiamo fatto.

Non mi è chiaro il punto 14:come si effettua la ricerca con l'opzione search history?

La ringrazio in anticipo.

risposta 1:

nella search history, sono riportate tutte le ricerche singole che abbiamo fatto negli ultimi giorni (da uno stesso computer). in particolare ci sono le ricerche appena fatte.

ogni singola ricerca puo' quindi essere utilizzata per costruire una ricerca complessa in cui le ricerche semplici vengono combinate tra loro usando gli operatori booleani e, eventualmente, anche le parentesi.

per esempio, se effettuo queste 3 ricerche semplici:

posso poi combinarle come mi pare

#1 AND (#2 OR #3) mi dara' l'insieme di tutti i lavori di eisenberg che sia stati pubblicati su science o su nature (provare per credere)

prova anche altre possibili combinazioni e cerca di capire cosa succede analizzando il risultato delle varie ricerche. usa diversi operatori booleani e le parentesi in vari modi, poi controlla che il risultato sia DAVVERO quello desiderato (non sempre succede, perche' la cosa e' un po' piu' difficile di quello che sembra!)

ciao

domanda2

Salve professoressa, le volevo chiedere dei chiarimenti sulla seconda

esercitazione per quanto riguarda l'uso dell'opzione Limits (il punto 13). La

ringrazio anticipatamente

risposta 2

le ricerche possono essere soggette a ulteriori filtri, rispetto a quelli definiti nell'advanced search di PubMed. per esempio sulla data di pubblicazione, oppure sulla lingua del lavoro che si cerca o altro. anche questo tipo di ricerca resta memorizzato nella search history. l'opzione puo' essere attivata sulla ricerca da effettuare nell'advanced search oppure anche in modo indipendente.

domanda3

gentilissima professoressa,sono una studentessa di scienze biologiche che segue il suo corso di bioinformatica.A causa di una concomitanza con altri corsi non ho potuto seguire l'esercitazione 2 e 3.Ho trovato difficoltà nel punto 17 della seconda esecitazione in cui dopo ricerca con google scholar dove mi sono fatta elencare tutti i lavori di Gibson TJ dovrei annotare tutti i lavori con più di mille citazioni messi in ordine per numero decrescente.Come devo fare?Essendo circa 100 pagine e notando che il numero di citazioni diminuisce scorrendo dalla prima all'ultima pagina,come faccio ad annotarli????Nel ringraziarla le porgo cordiali saluti.

risposta3

purtroppo google scholar non riesce sempre a dare l'elenco dei lavori ordinati per numero di citazioni decrescente. quindi bisogna osservare l'elenco della prima (massimo seconda) pagina di output della ricerca e contare i lavori con piu' di 1000 citazioni (sono 8 e stanno tutti nella prima pagina). quindi e' facile metterle in ordine di numero di citazioni decrescente (sulla carta, non va fatto fare a scholar). questo esercizio puo' servire a calcolare l'h-index secondo google scholar (come spiegato a lezione)

domanda4

Avrei bisogno di un chiarimento alquanto banale ma che mi aiuterebbe moltissimo nello studio. Non sono riuscita a capire la differenza tra percentuale di identità e similarità. Sono la stessa cosa o sono proprio fuori strada?

risposta4

non sono la stessa cosa.

la percentuale di identita' corrisponde alla percentuale di residui identici nelle stesse posizioni di un allineamento. i residui diversi contano zero.

quando invece si parla di similarita', si considerano nel conto non solo i residui identici, ma anche quelli simili. naturalmente bisogna anche definire cosa si intende per residui simili. due residui sono simili se nella matrice di sostituzione che si considera hanno un valore superiore a una data soglia (per esempio se hanno un valore positivo in una delle matrici che ha sia valori positivi che negativi). nell'allineamento tra proteine omologhe, la similarita' e' in genere superiore all'identita'.

domanda5 (con risposta5 incorporata)

1- Quando nell'uso della banca dati PDB viene richiesto il numero di atomi componenti la struttura, guardando il PDB file,

NUMBER OF NON-HYDROGEN ATOMS USED IN REFINEMENT.

REMARK 3 PROTEIN ATOMS : 2634

REMARK 3 NUCLEIC ACID ATOMS : 0

REMARK 3 HETEROGEN ATOMS : 110

REMARK 3 SOLVENT ATOMS : 334

dobbiamo rispondere solo con il numero di atomi della proteina o anche con atomi del solvente ecc?!?!?

risposta 5.1

a lezione abbiamo visto che gli atomi della proteina appaiono come ATOM (all'inizio della riga) e gli altri (del solvente, dei ligandi) appaiono come eteroatomi (HETATM). quindi per avere la risposta giusta bisogna proprio andare a vedere il numero degli atomi della proteina (sono numerati, e quindi basta vedere il numero ordinale dell'ultimo)

2- durante la visualizzazione del modello proposto dal server swiss-model, non trovo accanto alla visualizzazione con anolea quella con verify3D, è possibile?!?!?

risposta 5.2

possibile, e' stata modificata la lista dei metodi usati per il controllo di qualita' del modello. va bene lo stesso (anzi probabilmente MEGLIO). le spiegazioni sono linkate all'output del programma

3- quando in ENSEMBL cerco il gene dell'IL2 umano, come faccio a farmi mostrare la traduzione dei 6 reading frame di uno degli esoni del gene?!?!?!?

risposta 5.3

si puo' fare in due modi: con "export data", facendosi mostrare le sequenze codificanti, oppure centrando la visualizzazione del genoma in un esone e "zoomando" fino a riuscire a visualizzare i codoni

4- sempre in ENSEMBL, quando cerco le cds di FAT4 umano e di topo le prendo da export data?perchè così facendo con la prima cds di entrambi in dotplot ho un buon allineamento!

risposta 5.4

non ho capito la domanda. credo che siano simili perche' le sequenze di uomo e topo sono abbastanza simili in generale.

Le chiedo scusa per il disturbo, probabilmente le mie richieste saranno scontate, ma a volte mi blocco e anche cercando di "giocare" con il database non riesco a risalire alla soluzione.

La ringrazio anticipatamente e le porgo cordiali saluti.

domanda 6

Gentile Professoressa,

volevo chiederle se gentilmente poteva spiegarmi brevemente la curva di ROC che non mi è molto chiara.

risposta6

nella curva ROC si analizza il risultato di un output. per esempio un elenco di sequenze associate al punteggio di similarita', associate alla probabilita' di interazione con un determinato target, e cosi' via. Si usa per valutare un metodo su un insieme di dati noti e averne un valore che definisca la validita' del metodo. come valore di solito si usa l'area sotto la curva (AUC, Area Under the Curve). per una definizione della curva ROC da aggiungere a quanto detto a lezione:

http://www.medcalc.org/manual/roc-curves.php

domanda 7

Cosa s'intende per rumore di fondo nelle DOT MATRIX?

risposta 7

immagina di confrontare due sequenze di acidi nucleici che siano simili: oltre a segmenti di diagonale in cui ci sono nucleotidi identici uno dopo l'altro nelle due sequenze, ci saranno moltissimi punti tra nucleotidi identici ma non consecutivi nelle sequenze. ogni A di una sequenza mettera' un punto in corrispondenza di ogni A dell'altra sequenza. e questo per tutti i 4 nucleotidi. e' QUESTO che io chiamo "rumore di fondo": i punti che si mettono per la presenza di nucleotidi uguali in posizioni casuali. il rumore di fondo e' molto fastidioso perche' impedisce di vedere i segmenti di diagonale se questi sono corti e non molto evidenti. ma siccone 1 nucleotide ogni 4 in media e' din un certo tipo in entrambe le sequenze, il rumore di fondo e' alto per definizione nella dot matrix in cui metti un punto per ogni corrispondenza.

domanda 8

Quando faccio il conto delle gap penalty, e delle gap extension penalty, se per esempio do al primo valore -1, al secondo invece valore -0.5, in un "buco" di 3 gap devo calcolare il primo -1 e poi i seguenti -0.5 o moltiplico 0.5 x 3?

risposta 8

no. se hai 3 gap consecutivi nel tuo esempio devi calcolare -1-0,5-0,5 (un valore per ogni posizione di gap)

domanda 9

i segni del MSA , vale a dire i : e il . cosa significano di preciso? Sono maggiormente espressi rispetto a quali i residui (così ho capito dalle registrazioni…)?

risposta 9

i simboli variano nei vari formati di allineamento multiplo. vengono decisi sulla base della matrice di sostituzione che viene usata

domanda 10

Nelle slide della lezione 9 alla pag. 27 (aa 2012-2013) perché nel riquadro bianco ho 4*s(1,11)? non dovrei avere 0*s(1,11) perché ho solo 4 M e non A?

risposta 10

nella posizione del riquadro bianco dovresti avere una sommatoria:

a1S(1,1)+ a2S(1,2)+a3S(1,3)+a4S(1,4)+…+a11S(1,11)+…+a20S(1,20)

dove a1, a2 e a3 sono le occorrenze dei residui 1, 2 e 3 nela prima colonna dell'allineamento.

nella prima colonna, non ci sono A, per cui a1=0, non ci sono C per cui a2=0 e cosi' via. l'unico residuo che ha un numero di occorrenze diverso da zero e' A11 (metionina), quindi ditutti questi addendi l'unico che resta diverso da zero e' a11S(1,11), nell'esempio fatto A11 e' 4 (perche' ci sono 4 metionine), come spiegato nella slide precedente.

quindi quello che resta (tolti tutti gli zeri) e' proprio 4S(1,11)

domanda 11

Per quanto riguarda invece le esercitazioni ho difficoltà nei seguenti punti:

• Es. 6:

1. Come faccio a salvare in formato msf l'allineamento multiplo ottenuto in CLUSTAW?

risposta 11

il formato dell'allineamento multiplo di ClustalW si sceglie al momento di lanciare il programma (e' uno dei parametri di input). per salvarlo devi fare salva con nome dal menu del tuo browser, oppure selezionare quello che vedi e fare copia e incolla in un file di testo.

domanda 12

non riesco a risolvere il seguente punto: 39) Identificare l'elm annotato e riportarne gli estremi;

risposta 12

ci sono elm che vengono identificati perche' hanno il pattern e elm che invece sono stati identificati sperimentalmente e fanno parte della raccolta di occorrenze di elm stesso. in quel caso, l'elm viene segnalato come CERTO (e non proposto/inferito per match col pattern di elm) e mostrato in rosso scuro nell'output grafico.

gli estremi di un elm (occorrenza o inferito) sono i numero dei residui di inizio e fine sulla sequenza della proteina

domanda 13

Sto facendo l'esercitazione di ripasso n°10, ossia la simulazione dell'esame (aa 2012-2013 - il punto E) Elenca i codici PDB che potrebbero essere utilizzati come templati per poter generare modelli 3D della proteina Caspase-14 umana utilizzando tecniche di homology modelling, per ogni codice PDB esplicita la percentuale di identità con la proteina query (es.: 1KAI 89%; 2BIO 71%...)

Mi potrebbe dire se il seguente procedimento è corretto oppure no? Vado nella banca dati PDB, cerco la seguente proteina e in teoria per fare il modelling la percentuale deve essere superiore al 30%, ma dove la leggo questa percentuale, quale altro passo devo fare?

risposta 13

Il modo piu' semplice e veloce per rispondere alla domanda e' il seguente: utilizzare la sequenza della proteina di cui si vuole fare il modello in input a blast utilizzando come banca dati per il confronto le sequenze del PDB. In questo modo si avranno tutte le risposte richieste.

domanda 14

Come rispondere alla domanda: quali sono i residui che corrispondono ai numeri dal 39 al 42 nel file PDB selezionato?

risposta 14

Riguarda la lezione con la descrizione dei files del PDB. Dopo la parte iniziale del file, comunque, c'e' una parte a formato fisso, in cui ogni riga riporta le coordinate cartesiane degli atomi. In ogni riga sono riportate le informazioni su: numero dell'atomo, tipo di residui, tipo di atomo, numero del residuo ecc. In questa parte del file, si devono identificare i residui associati ai numeri dal 39 al 42

domanda (multipla) 15

Gentile professoressa,

mi scusi per il disturbo ma volevo porle alcune domande sulla parte teorica che non riesco proprio a capire.

15.1) Il metodo esaustivo (matrici di punti) può essere usato solo x il confronto tra 2 seq. sia proteiche che nucleotidiche, mentre quello esaustivo dinamico solo x confronti tra 2 seq proteiche e no nucleotidiche perchè non è presente una matrice di sost. ??

risposta 15.1

NO, il metodo esaustivo puo' anche essere usato per confrontare una sequenza a piu' sequenza, una alla volta. il problema e' che ci vuolo molto tempo, quindi il confronto tra una sequenza e una banca dati di sequenze col metodo esaustivo non e' al momento affrontabile.

15.2) Gli allineamenti locali e globali per i nucleotidi possono essere fatti solo con una matrice di punti mentre quelli tra 2 seq. proteiche possono essere fatti anche con il metodo dinamico utilizzando nel primo caso matrici di sost. con valori sia positivi che negativi nel secondo ( all. globale) solo con matrici positive ?

risposta 15.2) in genere non si usano matrici di sostituzione per i confronti tra nucleotidi, quindi si lavora solo sull'identita'. in realta' esistono anche matrici di sostituzione per nucleotidi, ma non ne parliamo in questo corso.

15.3) Metodi euristici - possono essere usati sia x il confronto di 2 seq (proteiche e nucleotidiche) sia x il confronto di una seq con una banca dati?

risposta 15.3) si possono usare SEMPRE, ma sono indispensabili per risparmiare tempo (quindi in generale nel confronto tra singole sequenze e banche dati con tante entries)

15.4) BLAST

Blast viene utilizzato per lo più per Allineamenti Locali. utilizza una matrice di sost. ( e x i nucleotidi?) dalle prime fasi dell' algoritmo. (3 steps). Si preferisce x le seq. proteiche ma si utilizza anche x i nucleotidi anche se la lunghezza della parola non può essere inferiore a 11.

Allineamento tra 2 seq. (bl2seq) che può essere sia x nucleotidi (bl2seqn) sia x prot ( bl2sep)

Allineamento tra 1 seq proteica e una banca dati di proteine ( blastp. ) Per i nucleotidi è possibile?

risposta 15.4) tutto giusto. blastp si usa solo per proteine, blastn per nucleotidi, come abbiamo detto a lezione.

15.5) FASTA

viene utilizzato per Allineamenti globali. Si preferisce x seq di acidi nuc. si basa su identità ( 4 steps). Può essere usato sia x proteine che x acidi nucl. , sia x fare confronti tra 1 seq e una banca dati sia x fare confronti tra 2 seq.

Nello step. n 2 c'è scritto (sotto il disegno) calcolo dei punteggi con matrice di sost. , selezione dei ecc.... se stiamo facendo 1 allineamento di nucleotidi cosa utilizza?

risposta 15.5) per i nucleotidi si usa l'identita'.

15.6) Identità e similarità possono essere calcolate x 2 seq proteiche, mentre x 2 seq nucleotidiche solo l' identità, giusto?

risposta 15.6) nei liniti di questo corso (vedi risposta 15.2) SI!

16) Uso di ELM

Q16.1) Buonasera professoressa, le scrivo per porle una domanda in merito all'esercitazione di lunedì, in particolare in merito ad ELM, nel testo dell'esercitazione infatti è riportato quanto segue:   ELM

35) Procurarsi la sequenza dell'interattore di Abl1 umano (Abl interactor 1);

36) cercare di identificare una possibile funzione della proteina scelta utilizzando ELM.

A16.1) ovvero, prendi la sequenza di abl1_human e lanciala in ELM

Q16.2) 37) Identificare l'elm annotato e riportarne gli estremi;

A16.2) nella seq sopraddetta, c'e' un ELM "annotato", ovvero uno degli ELM che fa parte della banca dati si trova proprio su quella sequenza. riportarne gli estremi significa specificare da che residuo a che residuo si trova il motivo sulla sequenza (es: dal 38mo al 45mo residuo, il server lo indica)

Q16.3) 38) riportare il numero totale di elm e di istanze identificati e di quelli esclusi in base ai filtri.

A 16.3) nella tabella finale, ELM dice quanti ELM (motivi) e quante occorrenze (ogni motivo puo' essere stato trovato piu' volte) ha identificato sulla sequenza query. nella tabella dei risultati, c'e' anche il numero di motivi (e di relative occorrenze) filtrato in base ai filtri di contesto di cui abbiamo parlato a lezione