Skip to content Skip to sidebar Skip to footer

Tutorial Data Science Dengan Pyhton : Cara Memproses Data Tidak Terstruktur di Python

Cara Memproses Data Tidak Terstruktur di Python



Data yang sudah ada dalam format baris dan kolom atau yang dapat dengan mudah diubah menjadi baris dan kolom sehingga nantinya dapat masuk dengan baik ke dalam database dikenal sebagai data terstruktur. Contohnya adalah file CSV, TXT, XLS, dll. File ini memiliki pemisah dan lebar tetap atau variabel di mana nilai yang hilang direpresentasikan sebagai kosong di antara pemisah. Namun terkadang kami mendapatkan data yang garisnya tidak memiliki lebar tetap, atau hanya berupa file HTML, gambar, atau pdf. Data semacam itu dikenal sebagai data tidak terstruktur. Meskipun file HTML dapat ditangani dengan memproses tag HTML, umpan dari twitter atau dokumen teks biasa dari umpan berita dapat tanpa pembatas tidak memiliki tag untuk ditangani. Dalam skenario seperti itu kami menggunakan fungsi bawaan yang berbeda dari berbagai pustaka python untuk memproses file.

Membaca Data

Dalam contoh di bawah ini kami mengambil file teks dan membaca file yang memisahkan setiap baris di dalamnya. Selanjutnya kita dapat membagi output menjadi baris dan kata lebih lanjut. File asli adalah file teks yang berisi beberapa paragraf yang menjelaskan bahasa python.

nama file = 'jalur \ input.txt'   

dengan open ( nama file ) sebagai fn :   

# Baca setiap baris 
   ln = fn . readline ()

# Pertahankan jumlah baris 
   lncnt = 1 sementara ln : print ( "Baris {}: {}" . Format ( lncnt , ln . Strip ())) 
       ln = fn . readline () 
       lncnt + = 1 
   
        

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

Line 1: Python is an interpreted high-level programming language for general-purpose programming. Created by Guido van Rossum and first released in 1991, Python has a design philosophy that emphasizes code readability, notably using significant whitespace. It provides constructs that enable clear programming on both small and large scales.
Line 2: Python features a dynamic type system and automatic memory management. It supports multiple programming paradigms, including object-oriented, imperative, functional and procedural, and has a large and comprehensive standard library.
Line 3: Python interpreters are available for many operating systems. CPython, the reference implementation of Python, is open source software and has a community-based development model, as do nearly all of its variant implementations. CPython is managed by the non-profit Python Software Foundation.

Menghitung Frekuensi Kata

Kita dapat menghitung frekuensi kata-kata dalam file menggunakan fungsi penghitung sebagai berikut.

dari koleksi import Counter 

dengan open ( r 'pathinput2.txt' ) sebagai f : 
               p = Counter ( f . read (). split ()) print ( p )  
               

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

Counter({'and': 3, 'Python': 3, 'that': 2, 'a': 2, 'programming': 2, 'code': 1, '1991,': 1, 'is': 1, 'programming.': 1, 'dynamic': 1, 'an': 1, 'design': 1, 'in': 1, 'high-level': 1, 'management.': 1, 'features': 1, 'readability,': 1, 'van': 1, 'both': 1, 'for': 1, 'Rossum': 1, 'system': 1, 'provides': 1, 'memory': 1, 'has': 1, 'type': 1, 'enable': 1, 'Created': 1, 'philosophy': 1, 'constructs': 1, 'emphasizes': 1, 'general-purpose': 1, 'notably': 1, 'released': 1, 'significant': 1, 'Guido': 1, 'using': 1, 'interpreted': 1, 'by': 1, 'on': 1, 'language': 1, 'whitespace.': 1, 'clear': 1, 'It': 1, 'large': 1, 'small': 1, 'automatic': 1, 'scales.': 1, 'first': 1})

Post a Comment for "Tutorial Data Science Dengan Pyhton : Cara Memproses Data Tidak Terstruktur di Python"

close