Home Berita Dalam Negeri Tantangan Melestarikan Data yang Baik di Era AI

Tantangan Melestarikan Data yang Baik di Era AI

69


Kamu di sini. Tantangan dalam menjaga data yang baik sudah ada sebelum adanya AI, namun AI tampaknya akan memperburuk masalah ini. Ada beberapa lapisan dalam teka-teki ini. Salah satunya adalah kesenjangan internet sebelum dan sesudah internet, dimana sumber-sumber cetak sebelum adanya internet mengalami devaluasi dan mungkin menjadi lebih sulit untuk diakses (karena upaya untuk mempertahankan sumber-sumber tersebut mungkin semakin melemah). Kedua, materi era Internet menghilang setiap saat. Misalnya, ketika saya masih remaja, saya sering diberi tahu bahwa Naked Capitalism (Kapitalisme Telanjang) adalah sumber penting untuk penelitian mengenai krisis keuangan karena begitu banyak sumber yang hilang atau sulit diakses. Bagian di bawah ini menjelaskan bagaimana AI menimbulkan masalah baru dengan menciptakan banjir “informasi” dan meningkatkan kesulitan dalam menentukan material lama mana yang harus dilestarikan.

Oleh Peter Hall adalah mahasiswa pascasarjana ilmu komputer di New York University Courant Institute of Mathematical Sciences. Penelitiannya difokuskan pada landasan teori kriptografi dan kebijakan teknologi. Awalnya diterbitkan di Undark

Saat tumbuh dewasa, orang-orang di generasi saya diminta untuk berhati-hati terhadap apa yang kita posting secara online, karena “internet itu selamanya.” Namun kenyataannya, orang-orang kehilangan foto keluarga, yang dibagikan ke akun media sosial yang sudah lama tidak mereka akses. Layanan streaming menarik akses ke acara favorit, konten yang bahkan tidak mungkin dimiliki. Jurnalis, animator, dan pengembang kehilangan pekerjaan bertahun-tahun ketika perusahaan web dan platform teknologi mati.

Pada saat yang sama, alat yang digerakkan oleh kecerdasan buatan seperti ChatGPT dan pembuat gambar Midjourney semakin populer, dan beberapa orang percaya bahwa suatu hari nanti alat tersebut akan menggantikan pekerjaan yang biasa dilakukan manusia, seperti menulis salinan atau merekam video B-roll. Terlepas dari kemampuan sebenarnya mereka dalam melakukan tugas-tugas tersebut, ada satu hal yang pasti: Internet akan dibanjiri dengan banyak sekali konten buatan AI yang tidak memerlukan banyak upaya, sehingga berpotensi menenggelamkan pekerjaan manusia. Gelombang yang akan datang ini menimbulkan masalah bagi ilmuwan komputer seperti saya yang memikirkan privasi data, fidelitas, dan penyebarannya setiap hari. Tapi semua orang harus memperhatikan. Tanpa adanya rencana pelestarian yang jelas, kita akan kehilangan banyak data dan informasi yang baik.

Pada akhirnya, pelestarian data adalah persoalan sumber daya: Siapa yang akan bertanggung jawab untuk menyimpan dan memelihara informasi, dan siapa yang akan membiayai pelaksanaan tugas-tugas ini? Selanjutnya, siapa yang memutuskan apa yang layak dipertahankan? Perusahaan yang mengembangkan model AI dasar adalah salah satu pemain kunci yang ingin membuat katalog data online, namun kepentingan mereka belum tentu selaras dengan kepentingan orang kebanyakan.

Biaya listrik dan ruang server yang dibutuhkan untuk menyimpan data terus bertambah seiring berjalannya waktu. Infrastruktur data harus dipelihara, seperti halnya jembatan dan jalan. Khususnya bagi penerbit konten skala kecil, biaya ini bisa jadi memberatkan. Sekalipun kita hanya bisa mengunduh dan mencadangkan keseluruhan internet secara berkala, itu tidaklah cukup. Sama seperti perpustakaan yang tidak ada gunanya tanpa adanya struktur organisasi, segala bentuk pelestarian data harus diarsipkan dengan hati-hati. Kompatibilitas juga merupakan masalah. Jika suatu hari nanti kita tidak lagi menyimpan dokumen sebagai PDF, misalnya, kita perlu tetap menggunakan komputer lama (dengan perangkat lunak yang kompatibel).

Namun, saat menyimpan semua file dan konten digital ini, kita juga harus menghormati dan bekerja sama dengan pemegang hak cipta. Spotify menghabiskan lebih dari $9 miliar untuk lisensi musik tahun lalu, misalnya; sistem pengarsipan data apa pun yang dapat diakses publik akan memiliki nilai berkali-kali lipat. Sistem pelestarian data tidak ada gunanya jika bangkrut karena tuntutan hukum. Hal ini bisa menjadi sangat rumit jika konten tersebut dibuat oleh suatu kelompok, atau jika konten tersebut berpindah tangan beberapa kali – meskipun pencipta asli suatu karya menyetujuinya, seseorang mungkin masih berada di luar sana untuk melindungi hak cipta yang mereka beli.

Terakhir, kita harus berhati-hati untuk hanya mengarsipkan informasi yang benar dan berguna, sebuah tugas yang semakin sulit di era internet. Sebelum adanya internet, biaya untuk memproduksi media fisik – buku, surat kabar, majalah, permainan papan, DVD, CD, dan sebagainya – secara alami membatasi arus informasi. Secara online, hambatan terhadap publikasi jauh lebih rendah, sehingga banyak informasi palsu atau tidak berguna yang dapat disebarluaskan setiap hari. Ketika data terdesentralisasi, seperti yang terjadi di internet, kita masih memerlukan cara untuk memastikan bahwa kita mempromosikan data tersebut sebaik mungkin, bagaimanapun hal tersebut sudah didefinisikan.

Hal ini sangat relevan dibandingkan saat ini, di tengah internet yang dipenuhi celoteh yang dihasilkan oleh AI. Model AI generatif seperti ChatGPT telah terbukti secara tidak sengaja menghafal data pelatihan (mengakibatkan tuntutan hukum yang diajukan oleh The New York Times), berhalusinasi informasi palsu, dan terkadang menyinggung perasaan manusia, sementara konten yang dihasilkan AI semakin lazim di situs web dan aplikasi media sosial.

Pendapat saya adalah karena konten yang dihasilkan AI dapat direproduksi, kita tidak perlu melestarikannya. Meskipun banyak pengembang AI terkemuka tidak ingin membocorkan rahasia cara mereka mengumpulkan data pelatihan, tampaknya sangat besar kemungkinan bahwa model-model ini dilatih berdasarkan sejumlah besar data yang diambil dari internet, sehingga bahkan perusahaan AI pun mewaspadai hal tersebut. -disebut data sintetis online yang menurunkan kualitas model mereka.

Meskipun produsen, pengembang, dan masyarakat biasa dapat menyelesaikan beberapa masalah ini, pemerintah berada dalam posisi unik karena memiliki dana dan kekuatan hukum untuk menyelamatkan kecerdasan kolektif kita. Perpustakaan menyimpan dan mendokumentasikan banyak sekali buku, film, musik, dan bentuk media fisik lainnya. Perpustakaan Kongres bahkan menyimpan beberapa arsip web, terutama dokumen sejarah dan budaya. Namun, ini saja tidak cukup.

Skala internet, atau bahkan media digital saja, hampir pasti jauh melampaui penyimpanan digital Perpustakaan Kongres saat ini. Tidak hanya itu, platform digital – misalnya perangkat lunak seperti Adobe Flash yang sudah ketinggalan zaman – juga harus dilestarikan. Sama seperti para pelestari lingkungan yang memelihara dan merawat buku dan barang fisik lainnya yang mereka tangani, barang digital memerlukan teknisi yang merawat dan menjaga komputer dan sistem operasi asli agar tetap berfungsi. Meskipun Library of Congress mempunyai beberapa praktik untuk digitalisasi format media lama, mereka gagal memenuhi tuntutan pelestarian lanskap komputasi yang luas.

Grup seperti Wikimedia Foundation dan Internet Archive melakukan pekerjaan yang baik dalam mengatasi kekurangan ini. Yang terakhir ini khususnya menyimpan catatan menyeluruh tentang perangkat lunak dan situs web yang tidak digunakan lagi. Namun, platform-platform ini menghadapi hambatan serius dalam mencapai tujuan pengarsipannya. Wikipedia sering kali meminta sumbangan dan mengandalkan masukan sukarelawan untuk menulis dan memeriksa artikel. Hal ini mempunyai banyak masalah, salah satunya adalah bias dalam artikel apa yang ditulis, dan bagaimana artikel tersebut ditulis. Internet Archive juga bergantung pada masukan pengguna, misalnya dengan Wayback Machine-nya, yang mungkin membatasi data apa yang diarsipkan, dan kapan. Internet Archive juga menghadapi tantangan hukum dari pemegang hak cipta, yang mengancam ruang lingkup dan penghidupannya.

Namun, pemerintah tidak terlalu terikat oleh kendala-kendala yang sama. Dalam pandangan saya, pendanaan dan sumber daya tambahan yang diperlukan untuk memperluas tujuan Perpustakaan Kongres dalam mengarsipkan data web hampir tidak berarti apa-apa dibandingkan anggaran AS. Pemerintah juga mempunyai kewenangan untuk melakukan pembatasan yang diperlukan terhadap kekayaan intelektual dengan cara yang bermanfaat bagi semua pihak — lihat, misalnya, Teater Arsip Film dan Pita di Perpustakaan Umum New York, yang telah melestarikan banyak karya Broadway dan off-road. Produksi Broadway untuk tujuan pendidikan dan penelitian meskipun pertunjukan ini melarang keras orang mengambil foto atau video dari pertunjukan tersebut. Yang terakhir, secara teori, pemerintah adalah pengelola keinginan dan kepentingan masyarakat, yang harus mencakup pengetahuan dan fakta kolektif kita. Karena segala bentuk pengarsipan melibatkan beberapa bentuk pemilihan apa yang akan disimpan (dan sebagai pelengkap, apa yang tidak), saya tidak melihat pilihan yang lebih baik daripada badan publik yang bertanggung jawab untuk mengambil keputusan tersebut.

Tentu saja, seperti halnya pencatatan analog tidak berakhir pada perpustakaan fisik, pengarsipan data juga tidak boleh berakhir pada proposal ini. Tapi ini adalah awal yang baik. Terutama ketika para politisi membiarkan perpustakaan punah (seperti yang terjadi di rumah saya di New York City), menjadi lebih penting lagi bagi kita untuk memperbaiki keadaan. Kita harus memfokuskan kembali perhatian kita pada pembaruan perpustakaan kita, yang merupakan pusat informasi, ke Era Informasi.

Ramah Cetak, PDF & Email



Source link