Banner

Minggu, 08 Agustus 2010

KDD Cup berlangsung tiap tahun sejak 1997

KDD Cup berlangsung tiap tahun sejak 1997, dimana tiga kali diantaranya mengambil masalah dari bidang bioinformatika. Pada tahun 2001, tema yang diangkat berkaitan dengan bioinformatics & drug discovery, yaitu prediksi bioaktifitas molekul untuk pengembangan obat (drug design), prediksi fungsi gen/protein dan homologi protein.

Kompetisi ini diikuti oleh ratusan tim peneliti dari seluruh dunia. Hasil survey yang dilakukan pada peserta kompetisi memberikan informasi menarik. Pertama-tama diketahui bahwa metode yang dikembangkan oleh masing-masing peserta memiliki kemiripan, diantaranya feature selection, decision tree, k-nearest neighbour, boosting dan SVM. Hasil ini menunjukkan bahwa metode-metode tersebut memiliki potensi tinggi untuk mencapai hasil yang akurat. Dari survey itu juga diketahui bahwa kebanyakan peserta memakai customized software (perangkat lunak), yaitu program yang dibuat sendiri, bukan perangkat lunak komersial. Perangkat lunak komersial sering memiliki keterbatasan yang menyulitkan, jika eksperimen yang dilakukan tidak sesuai dengan spesifikasi perangkat lunak itu. Seperti yang terjadi pada kompetisi di atas, dimana dimensi vektor yang dianalisa pada salah satu soal berkisar 140 ribu. Data dengan karakteristik demikian tidak dapat diolah dengan perangkat lunak komersial yang tersedia, walaupun komputer yang dipakai memiliki 1G RAM. Hal ini menunjukkan pentingnya penguasaan kemampuan pemrograman, dan tidak sekadar mengandalkan perangkat lunak komersial yang ada, jika seseorang ingin terjun dalam penelitian datamining.

Beberapa senter database utama seperti pada:
Genbank, dioperasikan oleh NCBI (National Center for Biotechnology Information)
mengakomodasi semua publikasi sequences of DNA, dengan annotations (penjelasan atau catatan), yang secara konstan akan selalu berkembang dan diperbaharui. Penjelasan meliputi identifikasi suatu gen, produk gen (jika diketahui), link informasi lain yang terkait dengan sumber database lain.
NCBI berisi informasi dari sekuens DNA yang sama dengan sekuens DNA dalam EMBL (European Molecular Biology Laboratory) dan DDBJ (DNA Data Bank of Japan)
OMIM, (Online Mendelian Inheritance in Man—woman), adalah insiklopedia gen-gen manusia dan penyakit genetik, merupakan penghubung untuk entry gen pada GenBank dan literatur ilmiah pada PubMed, berisi informasi berbagai gen manusia komplit dan paling baru.

PDB (Protein Data Bank) berisi semua publisitas yang ada secara eksperimen telah dideterminasi (oleh x-ray crystallography dan NMR) sebagai model structural proteins dan asam nukleat. Tidak berisi model homologi atau tipe model teoritis lainnya.
PubMed
Diskripsi pada Wikipedia sebagai “suatu kebebasan mengakses sititasi database MEDLINE dan abstrak artikel riset biomedik. Subjek utama adalah riset di bidang kedokteran, dan PubMed juga mempublikasi bidang yang terkait dengan bidang kedokteran, seperti kebidanan dan disipiin kesehtan lainnya. Hal in secara menyeIuruh mengkaver keilmuan yang berhungan dengan ilmu seperti biokemia dan biologi sel. Situs ini ditawarkan oleh the United States National Library of Medicine di the National Institutes of Health sebagai bagian dari the Entrez information retrieval system.“
UniProt Knowledgebase (Swiss-Prot and TrEMBL), dioperasikan oleh SIB (Swiss Institute of Bioinformatics) dan EBI (European BioinformaticsInstitute), berisi sebagian besar publikasi yang ada berupa sekuens protein (bukan DNA atau RNA). Sekuens dalam Swiss-Prot dijelaskan secara manual dan menyediakan atau menghubungkan pengguna dengan semua informasi publisitas yang berisi sekuens tersebut. Sequences pada TrEMBL dikoleksi dan dijabarkan secara otomatis dari sekuens database, dan akan membuat jalannya menuju Swiss-Prot, tetapi tidak hanya setelah mereka secara manual menjabarkan Swiss-Prot standards.Situs Informasi database DNA, RNA dan Protein:
NCBI: www.ncbi.nlm.nih.gov
EMBL: www.ebi.ac.uk
DDBJ: www.ddbj.nig.ac.jp
SWISS-PROT:www.expasy.ch/sprot/sprot_details.html
ENSEMBL: www.ensembl.org
Univeristy California Santa Cruz: genome.cse.ucsc.edu
MGD the Jackson Lab: www.informatics.jax.org



Di Indonesia, penelitian datamining dan bioinformatika telah mulai dilakukan di berbagai lembaga penelitian seperti Lembaga Biologi Molekuler Eijkman, BPPT, LIPI maupun kalangan akademisi di berbagai perguruan tinggi. Diskusi bioinformatika dapat diikuti di mailing list Himpunan Bioinformatika Indonesia yang beralamatkan ilmukomputer-bioinformatika@yahoogroups.com.

Sedangkan komunitas datamining Indonesia memiliki mailing list di indo-dm@yahoogroups.com. Seminar dan workshop bioinformatika telah diselenggarakan beberapa kali, di LIPI, IPB dan universitas yang lain. Peserta yang hadir berasal dari latar belakang beragam, baik biologi maupun komputasi. Dalam berbagai kesempatan menghadiri seminar, maupun diskusi di mailing list, penulis melihat tingginya gairah mahasiswa maupun peneliti Indonesia di bidang bioinformatika dan datamining. Keberadaan database yang mudah diakses dari Indonesia saat ini tengah dirintis oleh tim dalam proyek Mirror Servers for Scientific Data (http://www.arsip.lipi.go.id/). Hal-hal ini merupakan signal positif. Diharapkan komunitas ini kelak berkembang pesat dan dapat berkiprah memberikan kontribusinya bagi kemajuan iptek di tanah air.