Moh Hasbi Assidiqi

Python untuk Data Science dan Machine Learning


Python

Beberapa fitur python yang digunakan antara lain:

Selain itu terdapat beberapa libraries pendukung antara lain:

Numpy

Beberapa fungsi yang disediakan numpy antara lain:

Pandas

Pandas adalah library yang running di atas numpy. Pandas menyediakan struktur data yang mirip dengan spreadsheet. Pandas menyediakan dua struktur data utama, yaitu:

Beberapa fungsi yang disediakan pandas antara lain:

Pandas juga memungkinkan untuk melakukan query, seperti query pada database. contoh:

# query table salaries, cari data dengan BasePay > 100000 dan Year = 2013
salaries[(salaries['BasePay'] > 100000) & (salaries['Year'] == 2013)]

Matplotlib

Matlabplotlib adalah library untuk visualisasi data yang terinspirasi dari Matlab. Beberapa fungsi yang disediakan matplotlib antara lain:

matplotlib bisa langsung diakses lewat pandas. contoh:

# membuat plot dari kolom TotalPay
salaries['TotalPay'].plot()

Seaborn

Seaborn dibuat di atas matplotlib. Seaborn menyediakan beberapa chart/diagram yang siap digunakan. antara lain:

seaborn bisa digunakan untuk mengubah style dari matplotlib. contoh:

# mengubah style matplotlib menjadi darkgrid
sns.set_style('darkgrid')

maka semua plot yang dibuat akan menggunakan style darkgrid.

Plotly dan Cufflinks adalah library untuk visualisasi data yang interaktif. Plotly dan Cufflinks bisa digunakan untuk membuat plot yang bisa di zoom, di scroll, dan bisa di save ke dalam file html. Plotly juga bisa digunakan melalui pandas. contoh:

# membuat plot dari kolom TotalPay
salaries['TotalPay'].iplot()

Cukup dengan mengubah dari plot() menjadi iplot(), maka plot yang dibuat akan interaktif.

Scikit-Learn

Scikit-Learn adalah library untuk machine learning. Scikit-Learn menyediakan beberapa algoritma machine learning, antara lain:

Contoh penggunaan

  1. Prediksi menggunakan Multinomial Naive Bayes

    # import library
    from sklearn.naive_bayes import MultinomialNB
    from sklearn.metrics import classification_report, confusion_matrix
    
    # tentukan X dan y
    X = df['text']
    y = df['label']
    
    # split data
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
    
    # inisialisasi model
    model = MultinomialNB()
    
    # training model
    model.fit(X_train, y_train)
    
    # prediksi
    y_pred = model.predict(X_test)
    
    # evaluasi model
    print(classification_report(y_test, y_pred))
    print(confusion_matrix(y_test, y_pred))

Ringkasan

Keterkaitan antara python dan library-library tersebut bisa dilihat pada gambar berikut:

interdepensi library
Hosted on Sketchviz

Referensi

Python for Data Science and Machine Learning Bootcamp