Lawrlwytho:

Cliciwch y dolenni isod er mwyn:

Cyrchu’r corpws llawn

Mae set ddata’r corpws y mae modd ei lawrlwytho yn cynnwys 13,487,210 o docynnau (tua 11 miliwn o eiriau). Tocynnau yw’r uned leiaf i gael ei chynnwys mewn corpws ac maent yn cynnwys geiriau (h.y. eitemau sy’n dechrau gyda llythyren o’r wyddor) a ffugeiriau (h.y. eitemau sy’n dechrau gyda nod nad yw’n llythyren o’r wyddor).

Mae’r data yn CorCenCC yn cynrychioli ystod eang o gyd-destunau, genres a thestunau. Am ddadansoddiad manwl o’i gyfansoddiad, gweler Knight, Morris a Fitzpatrick (2021). Cyn belled ag y bo modd, mae’r data hyn wedi cael eu hanonymeiddio trwy ddefnyddio cyfuniad o dechnegau â llaw ac wedi’u hawtomeiddio, ac maen wedi cael eu tagio’n llawn o ran y categorïau rhan ymadrodd (RhY) a semantig. Cyflawnwyd y tagio RhY a semantig trwy ddefnyddio offer CyTag a SemCyTag, sydd ar gael ar wefan GitHub CorCenCC.

I ofyn am gopi o gorpws CorCenCC, cliciwch yma. Mae set ddata CorCenCC wedi’i thrwyddedu o dan Creative Commons Attribution Non Commercial Share Alike 4.0 International. Yr offer meddalwedd cysylltiedig o dan drwydded Creative Commons CC-BY-SA v4 ac felly maent ar gael yn rhad ac am ddim i’w defnyddio gan gymunedau ac unigolion proffesiynol sydd â diddordeb mewn iaith. Wrth adrodd am wybodaeth sy’n deillio o ddefnyddio data a/neu offer corpws CorCenCC, dylid cydnabod CorCenCC yn briodol. Ceir manylion dyfynnu ymaGellir dod o hyd i ddogfennaeth lawn ar gyfer y corpws hwn, gan gynnwys manylion confensiynau trawsgrifio CorCenCC, disgrifwyr metadata a thacsonomeg y corpws ar safle GitHub CorCenCC.

Gellir defnyddio offer dadansoddi corpws presennol er mwyn cynnal dadansoddiadau sylfaenol o CorCenCC (er y dylid nodi efallai nad ydynt i gyd yn cynnal yr holl nodweddion ar gyfer data Cymraeg). Mae offer o’r fath yn cynnwys: AntConc,WMatrixCQPWeb, a #LancsBox, a phob un o’r rhain ar gael yn rhad ac am ddim.

Mae amrywiaeth o wasanaethau Cymraeg gwahanol ar gael – ac mae modd defnyddio llawer ohonynt gyda set ddata CorCenCC – gan Ganolfan Bedwyr ym Mhrifysgol Bangor.

Yn ôl i’r brig

Archwilio CorCenCC ar-lein

Mae fersiwn beta o offer ymholi corpws dwyieithog CorCenCC, ynghyd â chanllaw cyflawn i ddefnyddwyr, ar gael trwy dab Archwilio’r wefan hon. Mae hyn yn cynnwys y nodweddion canlynol:

  • Ymholiad Syml: er mwyn archwilio unrhyw air a/neu ffurf lema yn y corpws, ac un neu fwy o lawer o dagiau rhan ymadrodd (RhY), mathau o dreiglad, neu dagiau categori semantiggair a/neu lema penodol. Rhoddir detholiad o ganlyniadau ar hap mewn allbwn KWIC (Key Word in Context). Wedyn mae modd hidlo’r canlyniadau yn ôl modd, ardal ddaearyddol, cyd-destun, genre, testun, cynulleidfa darged a ffynhonnell.
  • Ymholiad Llawn: i’w ddefnyddio i chwilio am ddilyniannau hwy o batrymau (ymadroddion aml-eiriau) wedi’u gwahanu gan fylchau, gan ddefnyddio cystrawen ymholi bwrpasol CorCenCC. Cyflwynir y canlyniadau mewn allbwn KWIC (Key Word in Context) y mae modd ei hidlo yn ôl modd, ardal ddaearyddol, cyd-destun, genre, testun, cynulleidfa darged a ffynhonnell.
  • Rhestr Amlder: cynhyrchir rhestr o eiriau neu lemâu yn y corpws wedi’u trefnu yn ôl pa mor aml maent yn digwydd.
  • Dadansoddi N-Gram: rhestrir patrymau n-gramau/clystyrau o 2-7 o eiriau, lemâu neu RhY yn y corpws, wedi’u trefnu yn ôl pa mor aml maent yn digwydd.
  • Dadansoddi Allweddair: dangosir geiriau sy’n anarferol o aml mewn un is-set o’r corpws o’u cymharu ag is-set ‘cyfeirio’ wahanol o’r corpws.
  • Collocation Analysis: displaying information on the relationships between word types that appear together within a given context window. [Functionality available soon]

Mae’r offer pedagogaidd sy’n mynd gyda CorCenCC ar gael trwy dab Y Tiwtiadur y wefan hon.

Mae’r holl ddata yn CorCenCC wedi cael eu tagio’n llawn o ran rhan ymadrodd (RhY) a chategori semantig. Mae modd chwilio’r tagiau hyn yn llawn o fewn y corpws ac, yn achos Ymholiadau Syml a Llawn, mae codau lliw gan y tagiau hefyd er mwyn hwyluso archwilio patrymau yng nghanlyniadau’r ymholiadau. Ar ben hynny, mae’r holl ddata wedi’u categoreiddio yn ôl cyd-destun y defnydd, genre, testun ac ati gan alluogi i ddefnyddwyr archwilio patrymau o fewn/ar draws mathau penodol o destun a’r wybodaeth ddemograffig sydd yn y corpws. Ceir manylion y tagiau a’r tacsonemegau a ddefnyddiwyd yng nghanllaw’r defnyddiwr ar brif dudalen yr offer ymholi a thrwy safle GitHub CorCenCC.

Gall canlyniadau o ddadansoddiadau sy’n defnyddio’r offer ymholi gynnwys tagiau lle mae’r data wedi’u hanonymeiddio, neu (ar gyfer data llafar) lle mae confensiynau trawsgrifio wedi cael eu defnyddio. Mae tagiau anonymeiddio yn cynnwys:

Enwau personol                     <anon> enwg1 </anon> – enw gwrywaidd cyntaf

                                                         <anon> enwb1 </anon> – enw benywaidd cyntaf

Rhifau ffôn                                <anon> Rhif ffôn </anon>

Cyfeiriadau e-bost               <anon> cyfeiriad e-bost </anon>

Cyfeiriadau (personol)       <anon> cyfeiriad </anon>

Trawsgrifwyd y data llafar gan ddefnyddio confensiynau trawsgrifio pwrpasol CorCenCC. Dyma ambell enghraifft:

<S4> Rydym ni yn defnyddio ein trwyna’ i arogli. <arogli i mewn yn sydyn> Pan ym mae ‘da fi anwyd mae fy nhrwyn i’n mynd yn goch ac <=> mae </=> mae fel yn rhedag trwy’r amser.

Yma, mae <S4> a <S5> yn dynodi siaradwr gwahanol yn y sgwrs, gyda <=> mae </=> yn nodi bod gair wedi’i ailadrodd yn y sgwrs.

<S1> Boeth. A’r hen athrawon ‘na’n mynd fyny ac i lawr yn mynd <griddfan>.

<S2> <Chwerthin>. Gwrando ar y+

<S1> Ti’n cofio hyna <anon>enwb3</anon>?

<S2> +Gwrando ar y cloc yn tician.

Yma, noda’r defnydd o ‘+’ pan fydd siaradwr yn torri ar draws siaradwr arall yn y sgwrs – felly maent yn siarad yr un pryd. Dengys y defnydd o  <anon>enwb3</anon> fod enw personol wedi’i anonymeiddio. Yn olaf, wrth reswm, mae <Chwerthin> yn nodi bod y siaradwr yn chwerthin a <griddfan> yn nodi ochenaid.

Er mwyn ymgyfarwyddo â’r confensiynau a’r tagiau a ddefnyddiwyd yn y corpws, darllenwch yr wybodaeth am gonfensiynau trawsgrifio a thacsonomeg sydd ar gael ar safle GitHub CorCenCC.

Yn ôl i’r brig

Cyhoeddiadau:

  • Knight, D., Fitzpatrick, T., Morris, S., Tovey-Walsh, B., Prosser, H. a Davies, E. (2023). Corpus to curriculum: Developing word lists for adult learners of Welsh. Applied Corpus Linguistics.
  • Knight, D., Tovey-Walsh, B., Davies, E., Morris, S. a Prosser, H. (2022). Rhestr geiriau Geirfan: Rhestr geirfa ar gyfer oedolion sy’n dysgu Cymraeg, Prifysgol Caerdydd, DOI: 10.17035/d.2022.0234583226
  • Knight, D., Morris, S., Arman, L., Needs, J. a Rees, M. (2021). Building a National Corpus: A Welsh Language Case Study. Llundain: Palgrave.
  • Knight, D., Morris, S. a Fitzpatrick, T. (2021). Corpus Design and Construction in Minoritised Language Contexts: A focus on CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes – National Corpus of Contemporary Welsh). Llundain: Palgrave.
  • Corcoran, P., Palmer, G., Arman, L., Knight, D. ac Spasić, I. . (2021). Word Embeddings in Welsh. Journal of Information Science 11(15): 6896.
  • Knight, D., Loizides, F., Neale, S., Anthony, L. ac Spasić, I.  (2020). Developing computational infrastructure for the CorCenCC corpus – the National Corpus of Contemporary Welsh. Language Resources and Evaluation (LREV).
  • Muralidaran, V., Knight, D. ac Spasić, I. (2020). A systematic review of unsupervised approaches to usage-based grammar induction. Natural Language Engineering.
  • Spasić, I., Owen, D., Knight, D. ac Arteniou, A. (2019). Data-driven terminology alignment in parallel corpora. Trafodion yGynhadledd Celtic Language Technology Workshop 2019, Dulyn, Iwerddon.
  • Piao, S., Rayson, P., Knight, D. a Watkins, G. (2018). Towards a Welsh Semantic Annotation System. Trafodion y Gynhadledd Gwerthuso Adnoddau Iaith (LREC) 2018, Mai 2018, Miyazaki, Japan.
  • Neale, S., Donnelly, K., Watkins, G. a Knight, D. (2018). Leveraging Lexical Resources and Constraint Grammar for Rule-Based Part-of-Speech Tagging in Welsh. Poster a gyflwynwyd yng Nghynhadledd Gwerthuso Adnoddau Iaith (LREC) 2018, Mai 2018, Miyazaki, Japan.
  • Rayson, P. (2018). Increasing Interoperability for Embedding Corpus Annotation Pipelines in Wmatrix and other corpus retrieval tools. Trafodion y gweithdy Heriau wrth Reoli Corpora Enfawr yng Nghynhadledd Gwerthuso Adnoddau Iaith (LREC) 2018, Mai 2018, Miyazaki, Japan.
  • Rayson, P. a Piao, S. (2017). Creating and Validating Multilingual Semantic Representations for Six Languages: Expert versus Non-Expert Crowds. Trafodion y Gweithdy 1af ar ‘Sense, Concept and Entity Representations and their Applications’ a gynhaliwyd yng nghynhadledd European Chapter of the Association for Computational Linguistics 2017 (EACL) Ebrill, Valencia.
  • Piao, S., Rayson, P., Archer, D., Bianchi, F., Dayrell, C., El-Haj, M., Jiménez, R-M., Knight, D., Křen, M., Löfberg, L., Nawab, R. M. A., Shafi, J., Teh, P-L., ac Mudraya, O. (2016). Lexical Coverage Evaluation of Large-scale Multilingual Semantic Lexicons for Twelve Languages yng Nghynhadledd Gwerthuso Adnoddau Iaith (LREC) 2016, Mai 2016, Portorož, Slovenia.

Yn ôl i’r brig

Areithiau Cyweirnod a Chyflwyniadau mewn Cynadleddau

Yn ôl i’r brig

Offer a Meddalwedd CorCenCC:

Mae corpws CorCenCC a’i offer cysylltiedig yn feddalwedd ffynhonnell agored, felly maent ar gael i bawb eu defnyddio ar safle GitHub CorCenCC. I fynd i’r wefan, cliciwch yma.
Dyfynnwch yr allbynnau hyn fel a ganlyn:

  • Corpws CorCenCC:
    • Knight, D., Morris, S., Fitzpatrick, T., Rayson, P., Spasić, I., Thomas, E-M., Lovell, A., Morris, J., Evas, J., Stonelake, M., Arman, L., Davies, J., Ezeani, I., Neale, S., Needs, J., Piao, S., Rees, M., Watkins, G., Williams, L., Muralidaran, V., Tovey, B., Anthony, L., Cobb, T., Deuchar, M., Donnelly, K., McCarthy, M. a Scannell, K. (2020). CorCenCC: Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh. Prifysgol Cardiff. http://doi.org/10.17035/d.2020.0119878310
  • Adroddiad prosiect CorCenCC:
    • Knight, D., Morris, S., Fitzpatrick, T., Rayson, P., Spasić, I. a Thomas, E. M. (2020). The National Corpus of Contemporary Welsh: Project Report | Y Corpws Cenedlaethol Cymraeg Cyfoes: Adroddiad y Prosiect. arXiv:2010.05542, Hydref 2020.
  • Isadeiledd ac ap torfoli CorCenCC:
    • Knight, D., Loizides, F., Neale, S., Anthony, L. ac Spasić, I.  (2020). Developing computational infrastructure for the CorCenCC corpus – the National Corpus of Contemporary Welsh. Language Resources and Evaluation (LREV).
  • Tagiwr rhan ymadrodd ‘CyTag’ CorCenCC:
    • Neale, S., Donnelly, K., Watkins, G. a Knight, D. (2018) Leveraging Lexical Resources and Constraint Grammar for Rule-Based Part-of-Speech Tagging in Welsh. Yn Nhrafodion yr 11eg Cynhadledd Adnoddau Iaith a Gwerthuso (LREC 2018). Miyazaki, Japan. 7-12 Mai, 2018
  • Tagiwr semantig ‘CySemTagger’ CorCenCC:
    • Piao, S., Rayson, P., Knight, D. a Watkins, G. (2018). Towards A Welsh Semantic Annotation System. Yn Nhrafodion yr 11eg Cynhadledd Adnoddau Iaith a Gwerthuso (LREC 2018), Miyazaki, Japan.
    • Piao, S., Rayson, P., Knight, D., Watkins, G. and Donnelly, K. (2017). Towards a Welsh Semantic Tagger: Creating Lexicons for A Resource Poor Language. Yn Nhrafodion y Corpus Linguistics 2017 Conference, a gynhaliwyd o 24-28 Gorffennaf 2017 ym Mhrifysgol Birmingham, Birmingham, DU.
  • Pecyn cymorth addysgegol ‘Y Tiwtiadur’ CorCenCC:
    • Davies, J., Thomas, E-M., Fitzpatrick, T., Needs, J., Anthony, L., Cobb, T. a Knight, D. (2020). Y Tiwtiadur. [Adnodd Digidol]. Ar gael yn: https://ytiwtiadur.corcencc.org
  • Rhestri amlder geiriau CorCenCC ‘Yr Amliadur’:

Ewch i’n safle GitHub i fynd at CyTag, CySemTag, dolenni at set ddata CorCenCC a manylion confensiynau trawsgrifio a chodio CorCenCC: https://github.com/CorCenCC

Yn ôl i’r brig

Is-brosiectau a meddalwedd

Isod, ceir manylion am holl is-brosiectau CorcenCC a ariannwyd yn allanol:

Dyddiad Dechrau
Ariannwr
Swm
Disgrifiad [ynghyd â’r Prif Ymchwilydd]
Chwef 2017 Y Cyngor Prydeinig £2000 Cyllid i gefnogi lansiad cyhoeddus prosiect CorCenCC yn Adeilad y Pierhead, Caerdydd [Knight]
Hyd 2017 Llywodraeth Cymru £24,992 Comisiwn cystadleuol gan Lywodraeth Cymru i ddarparu asesiad cyflym o’r dystiolaeth o ymagweddau a dulliau effeithiol ar gyfer addysgu ail iaith. Am ragor o wybodaeth, cliciwch yma. [Fitzpatrick]
Ion 2018 Cynllun Grant Cymraeg 2050 2017-2018 (GC2050/17-18/20) £19,964 Prosiect a oedd yn canolbwyntio ar adeiladu WordNet awtomatig ar gyfer y Gymraeg, sef cronfa ddata geiriadurol lle caiff geiriau eu grwpio’n setiau o gyfystyron (synsetiau), sy’n cael eu trefnu’n rhwydwaith o gysylltiadau semanteg-eiriadurol. I fynd at wefan WordNet Cymru, cliciwch yma. [Spasić]
Ion 2018 Cyd-bwyllgor Addysg Cymru (CBAC) £1,968 Grant ymchwil (gan gynnwys rhaglen fewnfurol). Grant ymchwil i gwblhau gwaith ar lunio geirfa graidd B1 ar gyfer Cymraeg i Oedolion (lefel Canolradd). Am fwy o wybodaeth, cliciwch yma. [Morris]
Ion 2019 Cyllid Technoleg Llywodraeth Cymru £20,000 Cyllid i gefnogi’r gwaith o ddatblygu Boniwr Cymraeg. Am fwy o wybodaeth, cliciwch yma. [Spasić]
Awst 2019 Cyllid Technoleg Llywodraeth Cymru £90,000 Prosiect yn dwyn y teitl: ‘Welsh language processing infrastructure: Welsh word embeddings’. Roedd y prosiect yn canolbwyntio ar ymgorffori geiriau ar gyfer y Gymraeg (ar greu geiriadur ac ymgorffori geiriau a thermau Cymraeg yn bennaf) ac yn cyfrannu at nod y Cynllun Gweithredu Technoleg Cymraeg i ‘hybu adnoddau dysgu codio a thechnoleg Cymraeg ar gyfer athrawon a disgyblion ysgol ac eraill’. [Spasić]
Mai 2020 Cyllid Technoleg Llywodraeth Cymru £90,000 Prosiect yn dwyn y teitl: ‘Learning English-Welsh bilingual embeddings and applications in text categorisation’. Nod y prosiect hwn yw ymestyn canlyniadau’r prosiect blaenorol drwy greu cynrychioliadau trawsieithol o eiriau mewn man ymgorffori ar y cyd ar gyfer Cymraeg a Saesneg. [Knight]

Yn ôl i’r brig

Cylchlythyr CorCenCC (archif)

Cliciwch isod i weld ôl-rifynnau archif o’r cylchlythyrau a gyhoeddwyd yn ystod prosiect CorCenCC:

Yn ôl i’r brig