Peringkasan Dokumen Teks Otomatis Berdasarkan Sebuah Kueri Menggunakan Bidirectional Long Short Term Memory Network

  • Yuliska Yuliska Politeknik Caltex Riau
  • Khairul Umam Syaliman Politeknik Caltex Riau

Abstract

Query-focused summarization atau peringkasan teks otomatis berdasarkan sebuah kueri adalah sebuah bidang penelitian pada natural language processing yang bertujuan untuk menghasilkan sebuah dokumen pendek atau ringkasan dari sekumpulan dokumen panjang, dimana ringkasan yang dihasilkan harus relevan dengan sebuah kueri yang diberikan. Hingga saat ini, berbagai metode deep learning telah digunakan untuk menghasilkan ringkasan dari sebuah maupun banyak dokumen dengan pendekatan abstraktif maupun ekstraktif. Pada penelitian ini, peneliti menggunakan Bidirectional Long Short Term Memory Network (Bi-LSTM) untuk menghasilkan sebuah ringkasan berdasarkan sebuah kueri dari beberapa dokumen dengan pendekatan ekstraktif. Bi-LSTM merupakan salah satu metode deep learning yang sering digunakan dalam klasifikasi teks. Dataset yang peneliti gunakan adalah DUC 2005-2007 dataset, yang merupakan dataset yang umum digunakan pada text summarization. Berdasarkan eksperimen yang peneliti lakukan, Bi-LSTM mampu menghasilkan ringkasan yang baik, yang dibuktikan dengan skor ROUGE-1 = 43.53, skor ROUGE-2 = 11.40 dan skor ROUGE-L = 18.67.

References

Baumel Tal. (2018). Query Focused Summarization Using Seq2seq Models [Ben Gurion University of the Negev]. https://www.cs.bgu.ac.il/~elhadad/nlpproj/pub/tal-phd.pdf
Bhaskar, P., & Bandyopadhyay, S. (2010). A Query Focused Multi Document Automatic Summarization. Proceeding of Twenty-Four Pacific Asia Conference on Language, Information and Computation, 545–554.
Cao, Z., Li, W., Li, S., Wei, F., & Li, Y. (2016). AttSum: Joint Learning of Focusing and Summarization with Neural Attention. Proceeding of COLING 2016, the 26th International Conference on Computational Linguistic: Technical Paper, 547–556.
Conroy, J. M., Schlesinger, J. D., & Goldstein Stewart, J. (2005). CLASSY Query-Based Multi-Document Summarization. Proceeding of the Document Understanding Conf. Wksp. 2005 at the Human Language Technology Conf./Conf. on Emprical Methods in Natural Language Processing (HLT/EMNLP).
Daumé, H., & Marcu, D. (2006). Bayesian Query-Focused Summarization. Proceeding of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, 305–312.
Jang, B., Kim, M., Harerimana, G., Kang, S. U., & Kim, J. W. (2020). Bi-LSTM model to increase accuracy in text classification: Combining word2vec CNN and attention mechanism. Applied Sciences (Switzerland), 10(17). https://doi.org/10.3390/app10175841
Kobayashi, H., Noguchi, M., & Yatsuka, T. (2015). Summarization Based on Embedding Distributions. Proceeding of the 2015 Conference on Empirical Methods in Natural Language Processing, 1984–1989.
Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. Proceedings of the ACL-04 Workshop, 74–51.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. 1st International Conference on Learning Representations, ICLR 2013 - Workshop Track Proceedings, 1–12.
Ouyang, Y., Li, W., Li, S., & Lu, Q. (2011). Applying regression models to query-focused multi-document summarization. Information Processing and Management, 47(2), 227–237. https://doi.org/10.1016/j.ipm.2010.03.005
Ren, P., Chen, Z., Ren, Z., Wei, F., Nie, L., Ma, J., & de Rijke, M. (2018). Sentence relations for extractive summarization with deep neural networks. ACM Transactions on Information Systems, 36(4). https://doi.org/10.1145/3200864
Sravanthi, M., Chowdary, C. R., & Sreenivasa Kumar, P. (2008). QueSTS: A Query Specific Text Summarization System. Proceeding of the Twenty- First International FLAIRS Conference, 219–224.
Vig, J., Fabbri, A. R., Kry´scí, W., Nski, K., Wu, C.-S., & Liu, W. (2022). Exploring Neural Models for Query-Focused Summarization. Findings of the Association for Computational Linguistics: NAACL 2022, 1455–1468
Published
2022-12-09
Abstract viewed = 84 times
PDF downloaded = 103 times