Trosolwg o’r prosiect

Prif nod y prosiect hwn yw datblygu thesawrws mynediad agored ar-lein, sydd ar gael am ddim, ar gyfer siaradwyr Cymraeg a dysgwyr fel ei gilydd. Bydd defnyddwyr yn gallu defnyddio rhyngwyneb ar y wefan hon i chwilio am gyfystyron (geiriau tebyg). Er enghraifft, gallai chwilio am y gair ‘chwilio’ ddangos cyfystyron fel ‘edrych am’, ‘ceisio’, a ‘profi’.

Mae tîm y prosiect yn bwriadu defnyddio (1) y defnydd o fewnblaniadau geiriau sy’n bodoli eisoes i ddod o hyd i eiriau cysylltiedig heb ddibynnu ar eiriadurwyr dynol a (2) defnyddio’r Tagiwr Semantig Cymraeg a gwerthuswyr dynol i fireinio’r adnodd. Mae’r fethodoleg arloesol hon wedi gweld rhywfaint o lwyddiant gydag ieithoedd megis Ffrangeg ond nid yw wedi’i chymhwyso eto i ieithoedd heb ddigon o adnoddau lle y gellid dadlau bod dull awtomataidd a llai costus o lunio thesawrws yn fwy angenrheidiol.

Mae creu mewnblaniadau geiriau wedi bod yn ddatblygiad cymharol ddiweddar ym maes Prosesu Iaith Naturiol (NLP) ac mae’n cynnwys trawsnewid geiriau mewn corpws (casgliad o iaith) i fector. Mae geiriau sy’n debyg o ran ystyr (cyfystyron) neu gysylltiad yn agosach yn y gofod fector ac felly gellir defnyddio mewnblaniadau i fapio’r gwahanol gysylltiadau rhwng geiriaduron unigol. I’r defnyddiwr iaith, mae hwn yn adnodd gwerthfawr sy’n mynd y tu hwnt i thesawrysau traddodiadol.

Bydd y prosiect yn defnyddio mewnosod geiriau sy’n bodoli eisoes ar gyfer y Gymraeg i ddod o hyd i eiriau tebyg. Gellir defnyddio’r Tagiwr Semantig Cymraeg i fireinio’r tebygrwydd.

Yn dilyn hyn, bydd gwerthuswyr dynol (siaradwyr Cymraeg) yn cael eu recriwtio er mwyn mireinio’r allbwn.

Bydd yr adnodd ar gael yn gyhoeddus ar y wefan hon a bydd y cod python cysylltiedig ar gael drwy ein storfa GitHub.

Yn ôl i’r brig

Tîm y prosiect

Jonathan Morris, Prifysgol Caerdydd (Prif Ymchwilydd y Prosiect)

Mae’r Dr Jonathan Morris yn Uwch Ddarlithydd mewn Ieithyddiaeth y Gymraeg ym Mhrifysgol Caerdydd. Mae ymchwil Jonathan yn canolbwyntio ar agweddau sosioieithyddol ar ddwyieithrwydd. Mae wedi cyhoeddi papurau ar ryngweithio ffonolegol traws ieithyddol, amrywio sosioseinegol yn lleferydd Cymry dwyieithog ac ymchwil i’r modd mae pobl ifanc a theuluoedd yn defnyddio’r Gymraeg.

Dawn Knight, Prifysgol Caerdydd (Cyd-Ymchwilydd y Prosiect) 

Mae Dr Dawn Knight yn Ddarllenydd mewn Ieithyddiaeth Gymhwysol ym Mhrifysgol Caerdydd. Hi oedd Prif Ymchwilydd prosiect CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes) ac mae’n gyd-Brif Ymchwilydd y prosiect Amrywio Rhyngweithiol Ar-lein (https://ivohub.com). Mae gan Dawn arbenigedd mewn ieithyddiaeth gorpws, dadansoddi sgyrsiau, rhyngweithio digidol a chyfathrebu heb eiriau ac mae’n gyn-Gadeirydd Cymdeithas Ieithyddiaeth Gymhwysol Prydain (BAAL).

Mahmoud El-Haj, Prifysgol Caerhirfryn (Cyd-Ymchwilydd y Prosiect)

Mae’r Dr Mahmoud El-Haj (Mo) yn Ddarlithydd NLP ym maes Cyfrifiadureg yn Ysgol Cyfrifiadura a Chyfathrebu Prifysgol Caerhirfryn. Enillodd Mo PhD mewn Cyfrifiadureg ym Mhrifysgol Essex am ei ymchwil ynghylch crynhoi mwy nag un ddogfen ar y pryd. Mae’n ymwneud yn bennaf â chrynhoi, echdynnu gwybodaeth, NLP Ariannol ac NLP amlieithog mewn sawl iaith megis Saesneg, Arabeg, Sbaeneg, Portiwgaleg a Chymraeg. Mae ganddo ddiddordeb mewn ieithoedd heb ddigon o adnoddau ac adeiladu setiau data NLP.  

Elin Arfon, Prifysgol Caerdydd (Prif Ymchwilydd y Prosiect)

Mae Elin Arfon yn fyfyriwr PhD yn yr Ysgol Ieithoedd Modern ym Mhrifysgol Caerdydd. Fe ariennir y PhD gan yr ESRC a Llywodraeth Cymru. Mae ymchwil Elin yn canolbwyntio ar y cysyniad o amlieithrwydd yn y Cwricwlwm i Gymru. Mae ei hastudiaeth ddoethurol yn archwilio persbectifau athrawon uwchradd ieithoedd rhyngwladol yng Nghymru ynglŷn ag amlieithrwydd o ran addysgu ac asesu ieithoedd. Mae gan Elin ddiddordeb mawr yn y cyd-destun amlieithog yng Nghymru.

Yn ôl i’r brig