Text mining merupakan salah satu metode analisis data teks untuk memperoleh informasi yang relevan. Teks mining telah menarik banyak perhatian untuk penelitian dalam beberapa tahun terakhir ini, karena peningkatan eksponensial dalam data teks digital dari berbagai helaman web, seperti layanan yang disediakan oleh google yakni google buku dan layanan sosial media seperti twitter.
Data twitter merupakan sumber data yang sangat banyak dan kaya dan beragam yang dapat di gunakan untuk mengungkap informasi tentang topik yang kita inginkan. Data ini dapat digunakan dalam penggunaan yang berbeda-beda seperti menemukan data atau kasus yang sedang trenyang berhubungan dengan kata kunci tertentu, mengukur sentimen merek dan maupun mengumpulkan umpan balik tentang produk layanan baru.
Dalam materi postingan kali ini, kita akan menjelaskan tentang penggunaan data twitter untuk membandingkan popularitas 3 bahasa pemrograman : Python, javascript, dan Ruby, dan mengambil link ke tutorial pemrograman.
Pada awal pembahasan kita akan menjelaskan sedikit tentang cara untuk terhubung ke twitter streaming Api dan bagaimana untuk mendapatkan data. Kemudian akan dijelaskan juga bagaimana struktur data untuk di analisis, dan pada akhir postingan ini akan di jelaskan tentang bagaimana untuk menyaring data kemudian mengekstrak link dari tweets.
Dengan hanya menggunakan data twitter 2 hari, kita bisa mengambil 644 link tutorial python, 413 untuk tutorial javascript dan 136 link tutorial ruby. Dengan begitu, kita bisa menyimpulkan python 1,5 kali lebih populer daripada javascript dan empat kali lebih populer dari ruby.
Data Mining Twitter Analisis |
1. Mendapatkan Data dari Twitter Streaming API
Apa itu API ? API merupakan singkatan kata dari Application Programing Interface yang merupakan sebuah alat yang berfungsi untuk membuat intruksi dengan program aplikasi komputer dan layanan web dengan mudah.
Pada era sekarang sudah banyak sekali web yang menyediakan layanan API untuk pengembang bisa berinteraksi dengan layanan merekan dan untuk mengakses data dengan cara program. Data tersebut bisa diakses dengan menggunakan API dan banyak sekali data yang sudah bersifat data terbuka atau open data sehingga pengembang bisa dengan mudah mengakses data untuk dijadikan sebagai bahan untuk melakukan pengembangan aplikasi maupun layanan web, seperti open data indonesia yang sudah tersedia yang bisa di akses secara gratis menggunakan AIP pada web http://data.go.id maupun open data wilayah seperti jakarta open data atau aceh open data goverment.
Untuk tutorial ini, kita akan menggunakan Twitter Streaming API untuk men-download tweet yang berkaitan dengan 3 kata kunci: "python", "javascript", dan "ruby".
Langkah 1: Mendapatkan kunci API Twitter
Untuk mengakses Twitter Streaming API, kita perlu mendapatkan 4 buah informasi dari Twitter: kunci API, API rahasia, token akses dan token akses rahasia. Berikut ini merupakan cara untuk mendapatkan atau mendaftar twitter API untuk mendapatkan 4 fitur diatas:
- Buat akun twitter jika Anda tidak sudah memiliki satu.
- Pergi ke https://apps.twitter.com/ dan login dengan mandat twitter Anda.
- Klik "Create New App"
- Mengisi formulir, setuju dengan persyaratan, dan klik "Buat aplikasi Twitter Anda"
- Di halaman berikutnya, klik pada "kunci API" tab, dan copy "API key" dan "API rahasia".
- Gulir ke bawah dan klik "Buat saya token akses", dan copy Anda "Akses Token" dan "token akses rahasia".
Twitter API secret Key dan kode Akse token |
Langkah 2: Menghubungkan ke Twitter Streaming API dan men-download data
Kami akan menggunakan perpustakaan Python disebut
Tweepy
untuk terhubung ke Twitter Streaming API dan men-download data. Jika Anda tidak memiliki Tweepy
dipasang di mesin Anda, pergi ke Link, dan ikuti petunjuk instalasi.Berikutnya membuat, sebuah file bernama
twitter_streaming.py, dan salin ke dalamnya kode di bawah ini.
Pastikan untuk memasukkan kredensial Anda ke access_token, access_token_secret, consumer_key,
dan
consumer_secret.#Import the necessary methods from tweepy library
from tweepy.streaming import StreamListener
from tweepy import OAuthHandler
from tweepy import Stream
#Variables that contains the user credentials to access Twitter API
access_token = "ENTER YOUR ACCESS TOKEN"
access_token_secret = "ENTER YOUR ACCESS TOKEN SECRET"
consumer_key = "ENTER YOUR API KEY"
consumer_secret = "ENTER YOUR API SECRET"
#This is a basic listener that just prints received tweets to stdout.
class StdOutListener(StreamListener):
def on_data(self, data):
print data
return True
def on_error(self, status):
print status
if __name__ == '__main__':
#This handles Twitter authetification and the connection to Twitter Streaming API
l = StdOutListener()
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
stream = Stream(auth, l)
#This line filter Twitter Streams to capture data by the keywords: 'python', 'javascript', 'ruby'
stream.filter(track=['python', 'javascript', 'ruby'])
Jika Anda menjalankan program dari terminal Anda menggunakan perintah:
twitter_streaming.py
python,Anda akan melihat data yang mengalir seperti gambar di bawah.Data Hasil Mining Menggunakan Twitter Streaming API |
Anda dapat menghentikan program dengan menekan Ctrl-C.
Kami ingin menangkap data ini ke dalam sebuah file yang akan kita gunakan nanti untuk analisis. Anda dapat melakukannya dengan pipa output ke file menggunakan perintah berikut:
python twitter_streaming.py>
twitter_data.txt.Saya menjalankan program selama 2 hari (dari 2014/07/15 sampai 2014/07/17) untuk mendapatkan sampel data yang berarti. Ukuran file ini adalah 242 MB.
2. Membaca dan Memahami data >> next
Link Terkait Data Mining
- Metode Metode Dalam Datamining
- Twitter Data Mining Menggunakan Python : Cara Mengumpulkan Data
- Contoh Perhitungan Manual Penerapan Metode K Means Klastering Datamining