Calon ilmuwan data? Kuasai dasar-dasar ini.

Ilmu data adalah bidang yang menarik dan bergerak cepat untuk terlibat. Permintaan akan individu berbakat dan berpikiran analitis tidak pernah habis. Perusahaan dari semua ukuran mempekerjakan ilmuwan data, dan peran tersebut memberikan nilai nyata di berbagai industri dan aplikasi.

Seringkali, pertemuan pertama orang dengan bidang ini datang melalui membaca berita utama sci-fi yang dibuat oleh organisasi penelitian besar. Kemajuan terbaru telah meningkatkan prospek pembelajaran mesin yang mengubah dunia seperti yang kita kenal dalam satu generasi.

Namun, di luar akademisi dan penelitian, ilmu data lebih dari sekadar topik utama seperti pembelajaran mendalam dan NLP.

Banyak nilai komersial dari data scientist berasal dari memberikan kejelasan dan wawasan yang dapat dihasilkan oleh data dalam jumlah besar. Peran tersebut dapat mencakup segala hal mulai dari rekayasa data, hingga analisis dan pelaporan data - dengan mungkin beberapa pembelajaran mesin yang digunakan untuk mengukur dengan baik.

Ini terutama terjadi di perusahaan startup. Kebutuhan data perusahaan tahap awal dan menengah biasanya jauh dari ranah jaringan saraf dan visi komputer. (Kecuali, tentu saja, ini adalah fitur inti dari produk / layanan mereka).

Sebaliknya, mereka membutuhkan analisis yang akurat, proses yang andal, dan kemampuan untuk menskalakan dengan cepat.

Oleh karena itu, keterampilan yang dibutuhkan untuk banyak peran ilmu data yang diiklankan sangat luas dan beragam. Seperti setiap pengejaran dalam hidup, sebagian besar nilainya berasal dari penguasaan dasar-dasar. Aturan dongeng 80:20 berlaku - sekitar 80% nilainya berasal dari 20% set keahlian.

Berikut adalah ikhtisar dari beberapa keterampilan dasar yang harus dikuasai oleh setiap ilmuwan data yang bercita-cita tinggi.

Mulailah dengan statistik

Atribut utama yang dibawa oleh data scientist ke perusahaan mereka adalah kemampuan untuk menyaring wawasan dari kompleksitas. Kunci untuk mencapai ini adalah memahami bagaimana mengungkap makna dari data yang berisik.

Oleh karena itu, analisis statistik merupakan keterampilan penting untuk dikuasai. Statistik memungkinkan Anda:

  • Mendeskripsikan data, untuk memberikan gambaran rinci kepada pemangku kepentingan
  • Bandingkan data dan uji hipotesis, untuk menginformasikan keputusan bisnis
  • Identifikasi tren dan hubungan yang memberikan nilai prediksi nyata

Statistik menyediakan seperangkat alat yang ampuh untuk memahami data komersial dan operasional.

Tapi waspadalah! Satu hal yang lebih buruk dari wawasan terbatas adalah wawasan yang menyesatkan. Inilah mengapa penting untuk memahami dasar-dasar analisis statistik.

Untungnya, ada beberapa prinsip panduan yang dapat Anda ikuti.

Nilai asumsi Anda

Sangat penting untuk menyadari asumsi yang Anda buat tentang data Anda.

Selalu bersikap kritis terhadap asalnya, dan skeptis terhadap hasil. Mungkinkah ada penjelasan yang 'tidak menarik' untuk setiap tren yang diamati dalam data Anda? Seberapa valid uji statistik atau metodologi pilihan Anda? Apakah data Anda memenuhi semua asumsi yang mendasarinya?

Mengetahui temuan mana yang 'menarik' dan layak untuk dilaporkan juga bergantung pada asumsi Anda. Contoh kasus mendasar adalah menilai apakah lebih tepat untuk melaporkan mean atau median kumpulan data.

Seringkali lebih penting daripada mengetahui pendekatan mana yang harus diambil, adalah mengetahui mana yang tidak boleh . Biasanya ada beberapa cara untuk menganalisis sekumpulan data tertentu, tetapi pastikan untuk menghindari kesalahan umum.

Misalnya, beberapa perbandingan harus selalu dikoreksi. Dalam situasi apa pun Anda tidak boleh berusaha untuk mengkonfirmasi hipotesis menggunakan data yang sama yang digunakan untuk menghasilkannya! Anda akan terkejut betapa mudahnya hal ini dilakukan.

Distribusi> Lokasi

Setiap kali saya berbicara tentang statistik pengantar, saya selalu memastikan untuk menekankan poin tertentu: distribusi variabel biasanya paling tidak menarik / informatif seperti lokasinya. Faktanya, seringkali lebih dari itu.

Ini karena distribusi variabel biasanya berisi informasi tentang proses generatif (atau pengambilan sampel) yang mendasarinya.

Misalnya, data hitungan sering mengikuti distribusi Poisson, sedangkan sistem yang menunjukkan umpan balik positif ("penguatan") akan cenderung memunculkan distribusi hukum pangkat. Jangan pernah mengandalkan data yang didistribusikan secara normal tanpa terlebih dahulu memeriksa dengan cermat.

Kedua, memahami distribusi data sangat penting untuk mengetahui cara bekerja dengannya! Banyak pengujian dan metode statistik bergantung pada asumsi tentang bagaimana data Anda didistribusikan.

Sebagai contoh yang dibuat-buat, selalu pastikan untuk memperlakukan data unimodal dan bimodal secara berbeda. Mereka mungkin memiliki arti yang sama, tetapi Anda akan kehilangan banyak informasi penting jika Anda mengabaikan distribusinya.

Untuk contoh yang lebih menarik yang menggambarkan mengapa Anda harus selalu memeriksa data Anda sebelum melaporkan statistik ringkasan, lihat kuartet Anscombe:

Setiap grafik terlihat sangat berbeda, bukan? Namun masing-masing memiliki ringkasan statistik yang identik - termasuk mean, varians, dan koefisien korelasinya. Merencanakan beberapa distribusi menunjukkan bahwa mereka agak berbeda.

Terakhir, distribusi variabel menentukan kepastian yang Anda miliki tentang nilai sebenarnya. Distribusi 'sempit' memungkinkan kepastian yang lebih tinggi, sedangkan distribusi 'lebar' memungkinkan kepastian yang lebih sedikit.

Varians tentang suatu mean sangat penting untuk memberikan konteks. Terlalu sering, sarana dengan interval kepercayaan yang sangat lebar dilaporkan bersama sarana dengan interval kepercayaan yang sangat sempit. Ini bisa menyesatkan.

Pengambilan sampel yang sesuai

Kenyataannya adalah bahwa pengambilan sampel dapat menjadi masalah bagi data scientist yang berorientasi komersial, terutama bagi mereka yang memiliki latar belakang penelitian atau teknik.

Dalam pengaturan penelitian, Anda dapat menyesuaikan eksperimen yang dirancang dengan tepat dengan berbagai faktor dan level serta perlakuan kontrol. Namun, kondisi komersial 'langsung' seringkali kurang optimal dari perspektif pengumpulan data. Setiap keputusan harus dipertimbangkan dengan cermat terhadap risiko mengganggu 'bisnis seperti biasa'.

Ini membutuhkan data scientist untuk menjadi inventif, namun realistis, dengan pendekatan pemecahan masalah mereka.

Pengujian A / B adalah contoh kanonik dari pendekatan yang menggambarkan bagaimana produk dan platform dapat dioptimalkan pada tingkat yang terperinci tanpa menyebabkan gangguan besar pada bisnis seperti biasa.

Metode Bayesian mungkin berguna untuk bekerja dengan kumpulan data yang lebih kecil, jika Anda memiliki kumpulan prior yang cukup informatif untuk dikerjakan.

Dengan data apa pun yang Anda kumpulkan, pastikan untuk mengenali batasannya.

Data survei rentan terhadap bias pengambilan sampel (seringkali responden dengan pendapat terkuatlah yang meluangkan waktu untuk menyelesaikan survei). Deret waktu dan data spasial dapat dipengaruhi oleh autokorelasi. Dan yang tak kalah pentingnya, selalu waspadai multikolinearitas saat menganalisis data dari sumber terkait.

Rekayasa Data

Ini adalah klise ilmu data, tetapi kenyataannya adalah sebagian besar alur kerja data dihabiskan untuk mencari, membersihkan, dan menyimpan data mentah yang diperlukan untuk analisis hulu yang lebih berwawasan.

Relatif sedikit waktu yang dihabiskan untuk menerapkan algoritme dari awal. Memang, sebagian besar alat statistik hadir dengan cara kerja bagian dalamnya yang dibungkus dalam paket R rapi dan modul Python.

Proses 'ekstrak-transform-load' (ETL) sangat penting untuk keberhasilan tim ilmu data. Organisasi yang lebih besar akan memiliki insinyur data yang berdedikasi untuk memenuhi persyaratan infrastruktur data mereka yang kompleks, tetapi perusahaan yang lebih muda akan sering bergantung pada ilmuwan data mereka untuk memiliki keterampilan rekayasa data yang kuat dan serba bisa.

Pemrograman dalam praktik

Ilmu data sangat interdisipliner. Selain keterampilan analitis tingkat lanjut dan pengetahuan khusus domain, peran tersebut juga membutuhkan keterampilan pemrograman yang solid.

Tidak ada jawaban yang sempurna untuk bahasa pemrograman mana yang harus dipelajari oleh seorang data scientist. Meskipun demikian, setidaknya satu dari Python dan / atau R akan sangat membantu Anda.

Apa pun bahasa yang Anda pilih, usahakan untuk mengenal semua fiturnya dan ekosistem sekitarnya. Jelajahi berbagai paket dan modul yang tersedia untuk Anda, dan siapkan IDE yang sempurna. Pelajari API yang perlu Anda gunakan untuk mengakses platform dan layanan inti perusahaan Anda.

Database adalah bagian integral dalam teka-teki alur kerja data apa pun. Pastikan untuk menguasai beberapa dialek SQL. Pilihan yang tepat tidak terlalu penting, karena beralih di antara keduanya adalah proses yang dapat dikelola bila diperlukan.

Basis data NoSQL (seperti MongoDB) mungkin juga perlu dipelajari, jika perusahaan Anda menggunakannya.

Menjadi pengguna baris perintah yang percaya diri akan sangat membantu dalam meningkatkan produktivitas Anda sehari-hari. Bahkan melewati keakraban dengan skrip bash sederhana akan membuat Anda memulai dengan baik dalam hal mengotomatiskan tugas yang berulang.

Pengodean yang efektif

Keterampilan yang sangat penting bagi calon ilmuwan data untuk dikuasai adalah pengkodean secara efektif. Dapat digunakan kembali adalah kuncinya. Perlu meluangkan waktu (jika tersedia) untuk menulis kode pada tingkat abstraksi yang memungkinkannya digunakan lebih dari sekali.

Namun, ada keseimbangan yang harus dicapai antara prioritas jangka pendek dan jangka panjang.

Tidak ada gunanya membutuhkan waktu dua kali lebih lama untuk menulis skrip ad hoc agar dapat digunakan kembali jika tidak ada kemungkinan itu akan relevan lagi. Namun setiap menit yang dihabiskan untuk refactoring kode lama untuk dijalankan kembali adalah menit yang bisa disimpan sebelumnya.

Praktik terbaik rekayasa perangkat lunak layak dikembangkan untuk menulis kode produksi yang benar-benar berkinerja.

Alat manajemen versi seperti Git membuat penerapan dan pemeliharaan kode jauh lebih efisien. Penjadwal tugas memungkinkan Anda mengotomatiskan proses rutin. Tinjauan kode rutin dan standar dokumentasi yang disepakati akan membuat hidup tim Anda jauh lebih mudah.

Dalam bidang spesialisasi teknologi mana pun, biasanya roda tidak perlu dibuat ulang. Rekayasa data tidak terkecuali. Kerangka kerja seperti Airflow membuat penjadwalan dan pemantauan proses ETL lebih mudah dan lebih kuat. Untuk penyimpanan dan pemrosesan data terdistribusi, ada Apache Spark dan Hadoop.

Tidaklah penting bagi seorang pemula untuk mempelajarinya secara mendalam. Namun, kesadaran akan ekosistem sekitar dan alat yang tersedia selalu merupakan keuntungan.

Berkomunikasi dengan jelas

Ilmu data adalah disiplin ilmu lengkap, dengan front end yang berhadapan dengan pemangku kepentingan: lapisan pelaporan.

Faktanya sederhana - komunikasi yang efektif membawa serta nilai komersial yang signifikan. Dengan ilmu data, ada empat aspek pelaporan yang efektif.

  • Ketepatan

    Ini penting, untuk alasan yang jelas. Keterampilan di sini adalah mengetahui bagaimana menafsirkan hasil Anda, sekaligus menjelaskan tentang batasan atau peringatan yang mungkin berlaku. Penting untuk tidak melebih-lebihkan atau mengecilkan relevansi hasil tertentu.

  • Presisi

    Ini penting, karena setiap ambiguitas dalam laporan Anda dapat menyebabkan salah tafsir atas temuan. Ini mungkin memiliki konsekuensi negatif di masa mendatang.

  • Ringkas

    Buat laporan Anda sesingkat mungkin, tetapi jangan lebih pendek. Format yang baik mungkin memberikan beberapa konteks untuk pertanyaan utama, termasuk penjelasan singkat tentang data yang tersedia, dan memberikan gambaran umum tentang hasil dan grafik 'judul'. Detail tambahan dapat (dan harus) dimasukkan dalam lampiran.

  • Dapat diakses

    Ada kebutuhan konstan untuk menyeimbangkan keakuratan teknis laporan dengan kenyataan bahwa sebagian besar pembacanya adalah ahli di bidangnya masing-masing, dan belum tentu ilmu data. Tidak ada jawaban yang mudah dan cocok untuk semua di sini. Komunikasi dan umpan balik yang sering akan membantu membangun keseimbangan yang sesuai.

Game Grafik

Visualisasi data yang kuat akan membantu Anda mengomunikasikan hasil yang kompleks kepada pemangku kepentingan secara efektif. Grafik atau bagan yang dirancang dengan baik dapat mengungkapkan sekilas apa yang perlu dijelaskan oleh beberapa paragraf teks.

Ada berbagai macam alat visualisasi dan pembuatan dasbor gratis dan berbayar di luar sana, termasuk Plotly, Tableau, Chartio, d3.js, dan banyak lainnya.

Untuk mock-up cepat, terkadang Anda tidak bisa mengalahkan perangkat lunak spreadsheet kuno yang bagus seperti Excel atau Google Sheets. Ini akan melakukan pekerjaan sesuai kebutuhan, meskipun tidak memiliki fungsionalitas perangkat lunak visualisasi yang dibuat khusus.

Saat membuat dasbor dan grafik, ada sejumlah prinsip panduan yang perlu dipertimbangkan. Tantangan yang mendasarinya adalah untuk memaksimalkan nilai informasi dari visualisasi, tanpa mengorbankan 'keterbacaan'.

Visualisasi yang efektif mengungkapkan gambaran umum tingkat tinggi dalam sekejap. Grafik yang lebih kompleks mungkin membutuhkan waktu lebih lama untuk dicerna oleh pemirsa, dan karenanya harus menawarkan konten informasi yang jauh lebih besar.

Jika Anda hanya pernah membaca satu buku tentang visualisasi data, maka buku klasik Edward Tufte The Visual Display of Quantitative Informationadalah pilihan yang luar biasa.

Tufte seorang diri mempopulerkan dan menemukan banyak bidang visualisasi data. Istilah yang banyak digunakan seperti 'chartjunk' dan 'data density' berasal dari karya Tufte. Konsepnya tentang 'rasio tinta data' tetap berpengaruh selama tiga puluh tahun kemudian.

Penggunaan warna, tata letak dan interaktivitas sering kali akan membuat perbedaan antara visualisasi yang baik dan yang profesional dan berkualitas tinggi.

Pada akhirnya, membuat visualisasi data yang hebat bersentuhan dengan keterampilan yang lebih sering dikaitkan dengan UX dan desain grafis daripada ilmu data. Membaca topik-topik ini di waktu luang Anda adalah cara yang bagus untuk mengembangkan kesadaran tentang apa yang berhasil dan apa yang tidak.

Pastikan untuk memeriksa situs-situs seperti bl.ocks.org untuk mendapatkan inspirasi!

Ilmu data membutuhkan keahlian yang beragam

Ada empat bidang keterampilan inti di mana Anda, sebagai calon ilmuwan data, harus fokus mengembangkannya. Mereka:

  • Statistik, termasuk teori yang mendasari dan penerapan dunia nyata.
  • Pemrograman, setidaknya dalam salah satu Python atau R, serta SQL dan menggunakan baris perintah
  • Praktik terbaik teknik data
  • Mengkomunikasikan pekerjaan Anda secara efektif

Bonus! Belajar terus menerus

Jika Anda telah membaca sejauh ini dan merasa putus asa - yakinlah. Keterampilan utama dalam bidang yang bergerak cepat ini adalah belajar bagaimana belajar dan belajar kembali. Tidak diragukan lagi, kerangka kerja, alat, dan metode baru akan muncul di tahun-tahun mendatang.

Keterampilan tepat yang Anda pelajari sekarang mungkin perlu diperbarui sepenuhnya dalam lima hingga sepuluh tahun. Harapkan ini. Dengan melakukan itu, dan bersiap, Anda dapat tetap terdepan dalam permainan melalui pembelajaran ulang yang berkelanjutan.

Anda tidak pernah bisa mengetahui segalanya, dan kenyataannya adalah - tidak ada yang pernah tahu. Tetapi, jika Anda menguasai dasar-dasarnya, Anda akan berada dalam posisi untuk mengambil hal lain yang perlu diketahui.

Dan itu bisa dibilang kunci sukses dalam disiplin ilmu yang berkembang pesat.