جملات و عبارات دِگَربَیان، بیانی متفاوت از مفهومی یکسان هستند. شناسایی دگربیانها یکی از وظایف مهم سامانههای پردازش زبان طبیعی است. با وجود اهمیت این موضوع، پیکره عبارات دگربیان در زبان فارسی توسعهنیافته است. هدف این مقاله ارائه روشی جهت تهیه پیکره عبارات و جملات دگربیان در زبان فارسی است. به همین منظور سامانهای خودکار و بیناظر جهت استخراج عبارات و جملات دگربیان ارائه میشود که از دادههای دریافت شده از خبرهای خبرگزاریها استفاده میکند. با استفاده از الگوریتمی مبتنی بر معیار جاکارد، نمونههای دگربیان در دو سطح عبارات و جملاتی با اندازههای متفاوت استخراج میشوند. سپس نمونههای به دست آمده به کمک تکنیکهای جمعسپاری و سامانهای که تحت پیامرسان تلگرام پیادهسازی شده، نشانهگذاری شده و در سه رده دگربیان، تقریباً دگربیان و نامرتبط ارائه میشوند و نتایج حاصلشده ارزیابی میگردند. در حال حاضر تعداد 1،523 نمونه نشانهگذاری شده در نسخه ۱٫۰ از پیکره موجود است که در دسترس عموم است.
[1] Y. Ji, and J. Eisenstein, "Discriminative improvements todistributional sentence similarity," inEMNLP, pp. 891–896,2013.
[2] R. Bhagat, and E. Hovy, "What is a paraphrase?," Computational Linguistics, vol. 39, no. 3, pp. 463–472,2013.
[3] B. Dolan, C. Quirk, and C. Brockett, "Unsupervisedconstruction of large paraphrase corpora: Exploitingmassively parallel news sources," in20th internationalconference on Computational Linguistics, p. 350,Association for Computational Linguistics, 2004.
[4] A. Eyecioglu, and B. Keller,"Asobek: Twitter paraphraseidentification with simple overlap features and svms,"inSemEval, 2015.
[5] W. Xu, A. Ritter, C. Callison-Burch, W. B. Dolan, and Y.Ji, "Extracting lexically divergent paraphrases from twitter," Transactions of the Association for ComputationalLinguistics, vol. 2, pp. 435–448, 2014.
[6] E. Pronoza, E. Yagunova, and A. Pronoza, "Constructionof a russian paraphrase corpus: unsupervised paraphraseextraction," inInformation Retrieval, pp. 146–157, Springer,2016.
[7] P. M. McCarthy, and D. S. McNamara, "The user-language paraphrase corpus,"Cross-Disciplinary Advancesin AppliedNatural Language Processing: Issues andApproaches: Issues and Approaches, p. 73, 2011.
[8] J. Ganitkevitch, B. Van Durme, and C. Callison-Burch, "Ppdb: The paraphrase database," inHLT-NAACL, pp.758–764, 2013.
[9] K. Khoshnavataher, V. Zarrabi, S. Mohtaj, and H.Asghari, "Developing monolingual persian corpus for extrinsic plagiarism detection using artificial obfuscation," inCLEF (Working Notes), 2015.
[11] T. Mosavi Miangah, "Constructing a large-scaleenglishpersian parallel corpus,"Meta, vol. 54, no. 1, pp.181–188, 2009.
[12] C. Boonthum, "istart: Paraphrase recognition," inACL2004 workshop on Student research, p. 55, Association forComputational Linguistics, 2004.
[13] V. Rus, R. Banjade, and M. C. Lintean, "On paraphraseidentification corpora," inLREC, pp. 2422–2429, Citeseer,2014.
[14] W. Xu, A. Ritter, and R. Grishman, "Gathering andgenerating paraphrases from twitter with application tonormalization," inthe Sixth Workshop on Building and UsingComparable Corpora, pp. 121–128, Citeseer, 2013.
[15] S. Wubben, A. Van Den Bosch, E. Krahmer, and E.Marsi, "Clustering and matching headlines for automaticparaphrase acquisition," inthe 12th European WorkshoponNatural Language Generation, pp.122–125, Association forComputational Linguistics, 2009.
[18]M. Sabou, K. Bontcheva, L. Derczynski, and A. Scharl, "Corpus annotation through crowdsourcing: Towards bestpracticeguidelines," inLREC, pp.859–866, 2014.
[19] M. Sabou, K. Bontcheva, and A. Scharl, "Crowdsourcing research opportunities: lessons from naturallanguage processing," inthe 12th International ConferenceonKnowledge Management and Knowledge Technologies, p.17,ACM, 2012.
[20] S. M. Mohammad, B. J. Dorr, G. Hirst, and P. D.Turney, "Computing lexical contrast,"ComputationalLinguistics, vol. 39, no. 3, pp.555–590, 2013.
[21] E. Filatova, "Irony and sarcasm: Corpus generation andanalysis using crowdsourcing," inLREC, pp. 392–398, 2012.
معانیجو,رضا و میرروشندل,سید ابوالقاسم . (1396). دگربیان: توسعه پیکره متنی فارسی جملات و عبارات معادل به کمک روش جمعسپاری. (e162259). علوم رایانش و فناوری اطلاعات, 15(1), e162259
MLA
معانیجو,رضا , و میرروشندل,سید ابوالقاسم . "دگربیان: توسعه پیکره متنی فارسی جملات و عبارات معادل به کمک روش جمعسپاری" .e162259 , علوم رایانش و فناوری اطلاعات, 15, 1, 1396, e162259.
HARVARD
معانیجو رضا, میرروشندل سید ابوالقاسم. (1396). 'دگربیان: توسعه پیکره متنی فارسی جملات و عبارات معادل به کمک روش جمعسپاری', علوم رایانش و فناوری اطلاعات, 15(1), e162259.
CHICAGO
رضا معانیجو و سید ابوالقاسم میرروشندل, "دگربیان: توسعه پیکره متنی فارسی جملات و عبارات معادل به کمک روش جمعسپاری," علوم رایانش و فناوری اطلاعات, 15 1 (1396): e162259,
VANCOUVER
معانیجو رضا, میرروشندل سید ابوالقاسم. دگربیان: توسعه پیکره متنی فارسی جملات و عبارات معادل به کمک روش جمعسپاری. علوم رایانش و فناوری اطلاعات, 1396; 15(1): e162259.