{"id":"https://openalex.org/W7126056196","doi":"https://doi.org/10.48550/arxiv.2601.19969","title":"E2HiL: Entropy-Guided Sample Selection for Efficient Real-World Human-in-the-Loop Reinforcement Learning","display_name":"E2HiL: Entropy-Guided Sample Selection for Efficient Real-World Human-in-the-Loop Reinforcement Learning","publication_year":2026,"publication_date":"2026-01-27","ids":{"openalex":"https://openalex.org/W7126056196","doi":"https://doi.org/10.48550/arxiv.2601.19969"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2601.19969","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5124267787","display_name":"Haoyuan Deng","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Deng, Haoyuan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124264330","display_name":"Yuanjiang Xue","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xue, Yuanjiang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124244747","display_name":"Haoyang Du","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Du, Haoyang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124219121","display_name":"Boyang Zhou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhou, Boyang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100773431","display_name":"Zhenyu Wu","orcid":"https://orcid.org/0000-0003-0981-5567"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wu, Zhenyu","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5124223922","display_name":"Ziwei Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Ziwei","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5124267787"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8705999851226807,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8705999851226807,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.01600000075995922,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.006899999920278788,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7208999991416931},{"id":"https://openalex.org/keywords/entropy","display_name":"Entropy (arrow of time)","score":0.5205000042915344},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.44339999556541443},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.4077000021934509},{"id":"https://openalex.org/keywords/covariance","display_name":"Covariance","score":0.3921999931335449},{"id":"https://openalex.org/keywords/selection","display_name":"Selection (genetic algorithm)","score":0.3815999925136566}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7208999991416931},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6459000110626221},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5651999711990356},{"id":"https://openalex.org/C106301342","wikidata":"https://www.wikidata.org/wiki/Q4117933","display_name":"Entropy (arrow of time)","level":2,"score":0.5205000042915344},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5174999833106995},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.44339999556541443},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.4077000021934509},{"id":"https://openalex.org/C178650346","wikidata":"https://www.wikidata.org/wiki/Q201984","display_name":"Covariance","level":2,"score":0.3921999931335449},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.3815999925136566},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.3386000096797943},{"id":"https://openalex.org/C148483581","wikidata":"https://www.wikidata.org/wiki/Q446488","display_name":"Feature selection","level":2,"score":0.325300008058548},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.32019999623298645},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.27709999680519104},{"id":"https://openalex.org/C9679016","wikidata":"https://www.wikidata.org/wiki/Q1417473","display_name":"Principle of maximum entropy","level":2,"score":0.2603999972343445},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.25839999318122864},{"id":"https://openalex.org/C129848803","wikidata":"https://www.wikidata.org/wiki/Q2564360","display_name":"Sample size determination","level":2,"score":0.25609999895095825}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2601.19969","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2601.19969","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.19969","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2601.19969","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"display_name":"Decent work and economic growth","score":0.7492954730987549,"id":"https://metadata.un.org/sdg/8"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Human-in-the-loop":[0],"guidance":[1],"has":[2],"emerged":[3],"as":[4],"an":[5],"effective":[6],"approach":[7],"for":[8],"enabling":[9],"faster":[10],"convergence":[11,40],"in":[12],"online":[13],"reinforcement":[14],"learning":[15],"(RL)":[16],"of":[17,74,93,107,113,122],"complex":[18],"real-world":[19,55,145],"manipulation":[20,146],"tasks.":[21],"However,":[22],"existing":[23],"human-in-the-loop":[24,56],"RL":[25,57],"(HiL-RL)":[26],"frameworks":[27],"often":[28],"suffer":[29],"from":[30],"low":[31],"sample":[32,86],"efficiency,":[33],"requiring":[34,158],"substantial":[35],"human":[36,64,161],"interventions":[37,162],"to":[38,44,164],"achieve":[39],"and":[41,82,110,133,178],"thereby":[42],"leading":[43],"high":[45],"labor":[46],"costs.":[47],"To":[48],"address":[49],"this,":[50],"we":[51,116],"propose":[52],"a":[53,152],"sample-efficient":[54],"framework":[58],"named":[59],"\\method,":[60],"which":[61,100],"requires":[62],"fewer":[63,160],"intervention":[65],"by":[66,104],"actively":[67],"selecting":[68],"informative":[69],"samples.":[70],"Specifically,":[71],"stable":[72],"reduction":[73],"policy":[75,98],"entropy":[76,131],"enables":[77],"improved":[78],"trade-off":[79],"between":[80],"exploration":[81],"exploitation":[83],"with":[84,119,136],"higher":[85,154],"efficiency.":[87],"We":[88],"first":[89],"build":[90],"influence":[91,123],"functions":[92],"different":[94],"samples":[95,118,127,135],"on":[96,143],"the":[97,105,165],"entropy,":[99],"is":[101],"efficiently":[102],"estimated":[103],"covariance":[106],"action":[108],"probabilities":[109],"soft":[111],"advantages":[112],"policies.":[114],"Then":[115],"select":[117],"moderate":[120],"values":[121],"functions,":[124],"where":[125],"shortcut":[126],"that":[128,149],"induce":[129],"sharp":[130],"drops":[132],"noisy":[134],"negligible":[137],"effect":[138],"are":[139],"pruned.":[140],"Extensive":[141],"experiments":[142],"four":[144],"tasks":[147],"demonstrate":[148],"\\method":[150],"achieves":[151],"42.1\\%":[153],"success":[155],"rate":[156],"while":[157],"10.1\\%":[159],"compared":[163],"state-of-the-art":[166],"HiL-RL":[167],"method,":[168],"validating":[169],"its":[170],"effectiveness.":[171],"The":[172],"project":[173],"page":[174],"providing":[175],"code,":[176],"videos,":[177],"mathematical":[179],"formulations":[180],"can":[181],"be":[182],"found":[183],"at":[184],"https://e2hil.github.io/.":[185]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-01-30T00:00:00"}