Adnodd Creu Crynodebau (ACC): Crynhoi Testunau Cymraeg yn Awtomatig

Trosolwg o’r prosiect

Mae Adnodd Creu Crynodebau (ACC) yn adnodd sy’n llunio crynodebau o destunau Cymraeg yn awtomatig, a bydd ar gael i bawb: Mae ACC yn gyfraniad pellach at yr adnoddau awtomataidd sydd ar gael yn Gymraeg ac mae’n hwyluso gwaith y rhai sy’n ymwneud â pharatoi dogfennau, darllen proflenni ac, (mewn rhai amgylchiadau), cyfieithu. Bydd ACC yn galluogi gweithwyr proffesiynol i grynhoi dogfennau hir yn gyflym i’w cyflwyno’n effeithlon, hefyd. Er enghraifft, bydd ACC yn galluogi addysgwyr i addasu dogfennau hir i’w defnyddio yn yr ystafell ddosbarth. Mae disgwyl y bydd ACC o fudd i’r boblogaeth ehangach hefyd, megis y rhai y gallai fod yn well ganddynt ddarllen crynodeb o wybodaeth gymhleth ar y we a’r rhai sy’n ei chael yn anodd darllen dogfennau hir.

Yn ôl i’r brig

Beth yw adnoddau crynhoi testunau?

Mae adnoddau crynhoi testunau’n crynhoi gwybodaeth bwysig mewn testunau yn awtomatig ac yn creu fersiynau byrrach o’r cynnwys. Diben hynny yw rhoi testunau cryno, hawdd eu deall, i ddarllenwyr (sy’n gallu bod yn dasg anodd). Mae crynhoi o gymorth yn y byd digidol modern lle mae mwy a mwy o lunio a lledaenu testunau, am ei fod yn galluogi defnyddwyr i ddilyn a deall gwybodaeth bwysig yn hawdd.  

Yn ôl i’r brig

Ffyrdd o grynhoi testunau

Y prif ffyrdd o grynhoi testunau yw talfyrru a throsi. Mae’r naill yn ymwneud â thynnu ymadroddion a geiriau penodol o’r testun ac mae’r llall yn ymwneud â pharatoi testun cryno trwy aralleirio’r cynnwys gwreiddiol. Wrth ddefnyddio meddalwedd crynhoi testunau, boed yn talfyrru neu’n trosi, bydd llwyddiant y broses yn dibynnu ar gywirdeb algorithmau awtomatig ac mae angen hyfforddiant trwy gyfrwng setiau data safon aur i ymdrin â’r rheiny.

Mae hanes hir i waith crynhoi testunau’n awtomatig ym maes NLP (Prosesu Iaith yn Naturiol). Dim ond ar y Saesneg roedd y gwaith hwnnw’n canolbwyntio ar y dechrau, ond mae’n ymwneud ag amryw ieithoedd eraill megis Ffrangeg, Hindi, Sbaeneg ac Arabeg bellach. Mae dros 7,000 o ieithoedd yn y byd, ac mae prosiect ‘MultiLing’ a’i gynadleddau cysylltiedig wedi hybu datblygiad dulliau crynhoi testunau mewn sawl iaith. Dyma wefan ar gyfer data hyfforddiant a phrofion gorchwylion crynhoi, crynodebau enghreifftiol ac ati: http://multiling.iit.demokritos.gr yn. Mae ACC yn llenwi bwlch yn yr adnoddau blaenorol trwy fod yn adnodd crynhoi sy’n gweithio gyda’r Gymraeg.

Yn ôl i’r brig

Tîm y prosiect

Dawn Knight, Prifysgol Caerdydd (Prif Ymchwilydd y Prosiect) 

Mae Dr Dawn Knight yn Ddarllenydd mewn Ieithyddiaeth Gymhwysol ym Mhrifysgol Caerdydd. Hi oedd Prif Ymchwilydd prosiect CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes) ac mae’n gyd-Brif Ymchwilydd y prosiect Amrywio Rhyngweithiol Ar-lein (https://ivohub.com). Mae gan Dawn arbenigedd mewn ieithyddiaeth gorpws, dadansoddi sgyrsiau, rhyngweithio digidol a chyfathrebu heb eiriau ac mae’n gyn-Gadeirydd Cymdeithas Ieithyddiaeth Gymhwysol Prydain (BAAL). Dawn yw Prif Ymchwilydd prosiect Crynhoi Testunau Cymraeg yn Awtomatig. 

Jonathan Morris, Prifysgol Caerdydd (Cyd-Ymchwilydd y Prosiect)

Mae’r Dr Jonathan Morris yn Uwch Ddarlithydd mewn Ieithyddiaeth y Gymraeg ym Mhrifysgol Caerdydd. Mae ymchwil Jonathan yn canolbwyntio ar agweddau sosioieithyddol ar ddwyieithrwydd. Mae wedi cyhoeddi papurau ar ryngweithio ffonolegol traws ieithyddol, amrywio sosioseinegol yn lleferydd Cymry dwyieithog ac ymchwil i’r modd mae pobl ifanc a theuluoedd yn defnyddio’r Gymraeg.

Mahmoud El-Haj, Prifysgol Caerhirfryn (Cyd-Ymchwilydd y Prosiect)

Mae’r Dr Mahmoud El-Haj (Mo) yn Ddarlithydd NLP ym maes Cyfrifiadureg yn Ysgol Cyfrifiadura a Chyfathrebu Prifysgol Caerhirfryn. Enillodd Mo PhD mewn Cyfrifiadureg ym Mhrifysgol Essex am ei ymchwil ynghylch crynhoi mwy nag un ddogfen ar y pryd. Mae’n ymwneud yn bennaf â chrynhoi, echdynnu gwybodaeth, NLP Ariannol ac NLP amlieithog mewn sawl iaith megis Saesneg, Arabeg, Sbaeneg, Portiwgaleg a Chymraeg. Mae ganddo ddiddordeb mewn ieithoedd heb ddigon o adnoddau ac adeiladu setiau data NLP.  

Ignatius Ezeani, Prifysgol Caerhirfryn (Cydymaith Ymchwil)

Mae’r Dr Ignatius Ezeani yn Uwch Gydymaith Addysgu/Ymchwil ym Mhrifysgol Caerhirfryn. Mae ganddo ddiddordeb mewn defnyddio dulliau NLP i ddatblygu adnoddau ar gyfer ieithoedd llai eu hadnoddau megis Igbo a’r Gymraeg. Mae’n ymwneud ag addasu offer a dulliau cyfredol NLP yn effeithlon i lunio systemau ar gyfer gorchwylion penodol mewn ieithoedd llai eu hadnoddau.

Cynorthwywyr Ymchwil: Ianto Gruffydd, Katharine Young, Nia Eyre, Lynne Davies

Crynodebwyr: Heledd Ainsworth, Aur Bleddyn, Esyllt Einion, Bethan Evans, Madlen Evans, Lisa Evans, Emma Herbert, Mali Hire, Megan Huws, Sian Morgan, Daniel O’Callaghan, Dafydd Orritt, Cêt Roberts, Hari Timms, Rhianwen Williams

Yn ôl i’r brig

Manylion technegol

Mae rhagor am ddatblygiad technegol ACC, a chyfle i weld offer a set ddata’r prosiect, ar wefan GitHub

Argaeledd ACC

Mae ACC ar gael yma.  

Papur(au):

  • Ezeani, I., El- Haj, M.A., Morris, J. a Knight, D. (2022). Cyflwyno Adnodd Crynhoi Setiau Data Cymraeg, a Systemau Sylfaenol. Trafodaethau o Gynhadledd Gwerthuso Adnoddau Iaith (LREC) 2022, Mehefin 2022, Marseille, Ffrainc.
  • Morris, Jonathan, Ignatius Ezeani, Ianto Gruffydd, Katharine Young, Lynne Davies, Mahmoud El-Haj a Dawn Knight. 2022. Creu crynodebau awtomatig o destunau Cymraeg. Symposiwm Academaidd Technolegau Iaith Cymru 2022. Prifysgol Bangor, 28 Ionawr 2022.
  • Morris, Jonathan, Ignatius Ezeani, Ianto Gruffydd, Katharine Young, Lynne Davies, Mahmoud El-Haj a Dawn Knight. Yn dod. Creu crynodebau awtomatig o destunau Cymraeg. Iaith a Thechnoleg yng Nghymru: Cyfrol II, gol. D. Prys. Bangor: Canolfan Bedwyr.

Yn ôl i’r brig

Cysylltu â ni

I ddysgu rhagor am y prosiect hwn, cysylltwch â ni: crynodebau@caerdydd.ac.uk

Cydnabod noddwr 

Llywodraeth Cymru sy’n ariannu’r prosiect hwn, a fydd ar waith rhwng 2021 a 2022, yn rhan o brosiect ‘Crynhoi Testunau Cymraeg yn Awtomatig’. 

Yn ôl i’r brig